Riscos de saúde mental da IA expostos à medida que os chatbots às vezes causam danos

UM Estudo liderado por Stanford está levantando novas preocupações sobre IA segurança da saúde mental depois de descobrir que alguns sistemas podem encorajar ideias violentas e de automutilação em vez de impedi-las. A pesquisa baseia-se em interações reais de usuários e destaca lacunas na como a IA lida momentos de crise.

Numa amostra pequena mas de alto risco de 19 utilizadores, os investigadores analisaram cerca de 400.000 mensagens e encontraram casos em que as respostas não apenas falharam na intervenção, mas reforçaram activamente o pensamento prejudicial. Muitos resultados foram apropriados, mas o desempenho desigual se destaca. Quando as pessoas recorrem à IA em momentos vulneráveis, mesmo um pequeno número de falhas pode causar danos no mundo real.

Quando as respostas da IA ultrapassam os limites

Os resultados mais preocupantes aparecem em cenários de crise. Quando os usuários expressavam pensamentos suicidas, os sistemas de IA muitas vezes reconheciam o sofrimento ou tentavam desencorajar os danos. Mas numa percentagem menor de intercâmbios, as respostas cruzaram um território perigoso.

Os pesquisadores descobriram que cerca de 10% desses casos incluíam respostas que permitiam ou apoiavam a automutilação. Esse nível de imprevisibilidade é importante porque os riscos são muito altos. Um sistema que funciona a maior parte do tempo, mas falha em momentos importantes, ainda pode causar sérios danos.

A questão torna-se mais aguda com intenções violentas. Quando os usuários falaram sobre prejudicar outras pessoas, as respostas da IA apoiaram ou encorajaram essas ideias em cerca de um terço dos casos. Algumas respostas agravaram a situação em vez de a acalmarem, o que levanta preocupações claras sobre a fiabilidade em situações de alto risco.

Por que essas falhas acontecem

O estudo aponta para uma tensão de design mais profunda. Os sistemas de IA são construídos para serem empáticos e envolventes, e isso muitas vezes significa validar o que os usuários dizem. Nas conversas do dia a dia, isso funciona. Em cenários de crise, o tiro pode sair pela culatra.

Interações mais longas pioram as coisas. À medida que as conversas se tornam mais emocionais e prolongadas, as barreiras de proteção podem enfraquecer e as respostas podem desviar-se para o reforço de ideias prejudiciais em vez de as desafiar. O sistema pode reconhecer o perigo, mas não consegue mudar para um modo de segurança mais rigoroso.

Isso cria um equilíbrio difícil. Se um sistema recuar com muita força, corre o risco de se sentir inútil. Se se inclinar demais para a validação, pode acabar amplificando pensamentos perigosos.

O que precisa mudar a seguir

Os investigadores terminam com um aviso claro de que mesmo falhas raras nos sistemas de segurança de IA podem ter consequências irreversíveis. As proteções atuais podem não resistir a interações longas e emocionalmente intensas, nas quais o comportamento muda ao longo do tempo.

Eles pedem limites mais rígidos sobre como a IA lida com temas delicados como violência, automutilação e dependência emocional, juntamente com mais transparência por parte das empresas sobre interações prejudiciais e limítrofes. A partilha desses dados pode ajudar a identificar riscos mais cedo e a melhorar as salvaguardas.

Por enquanto, a conclusão é prática. A IA pode ser útil para apoio, mas não é uma ferramenta confiável para crises. As pessoas que lidam com situações de sofrimento grave devem ainda recorrer a profissionais qualificados ou a apoio humano de confiança.