Home / IA / Agentes de IA entram em colapso em startup experimental da HurumoAI, confabulações e consumo de créditos paralisam operação, estudo da Carnegie Mellon cita 70% de falhas

Agentes de IA entram em colapso em startup experimental da HurumoAI, confabulações e consumo de créditos paralisam operação, estudo da Carnegie Mellon cita 70% de falhas

Experimento de Evan Ratliff com HurumoAI revela limites dos agentes de IA, necessidade de supervisão humana e riscos de automação sem controle

Um experimento jornalístico montado para testar se agentes de IA poderiam tocar uma empresa praticamente sem humanos expôs problemas fundamentais da tecnologia, mesmo diante de avanços promissores. O jornalista Evan Ratliff criou a HurumoAI, uma startup fictícia, e atuou como o único humano enquanto agentes de IA desempenhavam funções como CEO, CTO, marketing e vendas.

Os agentes tinham autonomia para trocar mensagens, fazer ligações, executar tarefas digitais e consultar documentos de memória gerados automaticamente. A ideia era simples, avaliar até que ponto uma empresa poderia operar com “funcionários artificiais”, como apontam previsões mais otimistas do setor.

Como funcionava a HurumoAI

No início, o projeto parecia promissor. Os agentes de IA se comunicavam, organizavam agendas e criavam materiais fictícios, além de relatar atualizações sobre um produto em desenvolvimento, o Sloth Surf, descrito como um “motor de procrastinação” baseado em IA. Mesmo assim, a maior parte dessas narrativas não correspondia à realidade.

Ratliff atuou como único humano responsável por supervisão e validação. Apesar dessa intervenção, os agentes passaram a produzir relatos e métricas sem base real, criando equipes, testes e avanços técnicos inexistentes. O experimento mostrou que, sem checagens humanas rigorosas, as memórias artificiais dos agentes podem alimentar confabulações.

Quando a automação saiu do controle

Um episódio ilustra o problema com clareza. O agente que atuava como CTO, Ash Roy, telefonou para Ratliff com um relatório de progresso cheio de detalhes, porém totalmente fabricado. Segundo o relato do experimento, “nada do que Ash dizia era real — nem os testes, nem a equipe, nem os avanços técnicos”.

Em outro momento, uma sugestão de brincadeira desencadeou um caos administrativo. Ao ouvir os agentes descreverem “fins de semana imaginários”, Ratliff comentou, em tom de humor, sobre um possível offsite. Isso foi suficiente para disparar uma avalanche de tarefas automáticas: debate sobre locais, trilhas, cronogramas e, no fim, mais de 150 mensagens trocadas que consumiram rapidamente todos os créditos pagos para rodar os agentes, deixando o sistema inoperante.

O que deu certo, e o que não deu

Apesar das confabulações e da necessidade constante de intervenção humana, a HurumoAI conseguiu, depois de meses de interações, produzir um protótipo funcional do Sloth Surf. Isso demonstra que agentes de IA podem executar tarefas técnicas quando bem direcionados e supervisionados.

Por outro lado, o experimento evidenciou limites claros. Como alertam pesquisas externas, nem tudo que parece avanço prático se sustenta em ambientes reais. Em especial, “um estudo da Carnegie Mellon mostrou que mesmo os melhores agentes falham em completar 70% das tarefas de escritório no mundo real.” Essa constatação reforça a necessidade de cautela antes de apostar em equipes totalmente automatizadas.

Lições para empresas, investidores e usuários

O caso da HurumoAI funciona como um aviso. Os agentes de IA têm potencial crescente, porém, no estágio atual, parecem mais adequados a papéis híbridos. Sistemas com autonomia parcial, integrados a supervisão humana constante, são a configuração mais realista para extrair benefícios sem assumir riscos desnecessários.

Investidores e executivos entusiasmados com a promessa de substituição massiva de trabalhadores de escritório precisam considerar os custos ocultos: monitoramento humano, validação contínua de dados, e reservas financeiras para evitar interrupções por consumo excessivo de recursos computacionais.

O experimento de Ratliff foi documentado no podcast Shell Game e relatado pela Futurism. As descobertas apontam para um futuro em que agentes de IA serão ferramentas poderosas, porém dependentes de governança humana, correções frequentes e políticas claras de controle, para evitar que automações aparentemente inteligentes se transformem em fontes de erro e desperdício.

Para além do sensacionalismo, o relato da HurumoAI deve ser lido como um convite à prudência, e como um lembrete de que automação, sem estrutura de supervisão, pode gerar mais problemas do que soluções.

Marcado: