O mais recente inimigo do ChatGPT é o melhor dicionário e enciclopédia do mundo

É amplamente reconhecido que Empresas de IA usam artigos da web para treinar seus modelos sem compensar os criadores ou obter permissão. Editores como o The New York Times, o Chicago Tribune e o Toronto Star já entraram com ações judiciais contra esta prática. Agora, outra organização proeminente juntou-se aos processos judiciais.

Techcrunch relatou que a Enciclopédia Britânica e sua subsidiária Merriam-Webster entrou com uma ação judicial contra a OpenAI, alegando que a gigante da IA cometeu “violação massiva de direitos autorais” ao copiar e usar quase 100.000 de seus artigos online para treinar seus LLMs sem permissão.

Sobre o que é esse processo?

A Britannica afirma que ChatGPT gera respostas que substituem seu conteúdo, reduzindo o tráfego da web e receitas potenciais. Se os usuários puderem fazer uma pergunta ao ChatGPT e receber uma resposta com base nos artigos da Britannica, poderá haver menos incentivo para visitar o site diretamente.

A reclamação também visa o uso de conteúdo da Britannica pela OpenAI no fluxo de trabalho RAG do ChatGPT, um processo em que a IA verifica a web em busca de informações atualizadas ao responder perguntas, alegando que a IA reproduz seu conteúdo, total ou parcialmente, ao responder perguntas.

Além disso, a Britannica alega que a OpenAI está violando a lei de marcas registradas. A empresa argumentou que o ChatGPT alucina informações e depois as atribui falsamente ao editor. De acordo com a Britannica, Alucinações do ChatGPT comprometer “o acesso contínuo do público a informações on-line confiáveis e de alta qualidade”.

O que vai acontecer a seguir?

Essa é a grande questão. Não há nenhum precedente legal forte que estabeleça se o treinamento de um IA em conteúdo protegido por direitos autorais constitui violação de direitos autorais. Qualquer um pode dizer que não é certo usar o trabalho de outra pessoa para treinar seus dados, mas a lei em torno disso é, na melhor das hipóteses, obscura.

Num caso recente envolvendo a Anthropic, um juiz federal decidiu que o uso de conteúdo protegido por direitos autorais como dados de treinamento era transformador o suficiente para ser legal. No entanto, o mesmo juiz concluiu que a Anthropic baixou ilegalmente milhões de livros, resultando em um acordo de US$ 1,5 bilhão com os escritores afetados.

À medida que esta questão continua a evoluir, os legisladores têm um terreno significativo a percorrer. O resultado desses casos provavelmente moldará a forma como as empresas de IA poderão usar legalmente o conteúdo da web no futuro.