No final de 2021, a OpenAI enfrentou um problema de falta de matéria prima.
A startup de inteligência artificial (IA) havia esgotado todos os reservatórios de textos respeitáveis em inglês na internet enquanto desenvolvia seu sistemas de IA. Ele precisava de mais dados para treinar a próxima versão de sua tecnologia – muito mais.
Assim, os pesquisadores da OpenAI criaram uma ferramenta de reconhecimento de fala chamada Whisper AI. Ela poderia transcrever o áudio de vídeos do YouTube, produzindo um novo texto de conversação que tornaria um sistema de IA mais inteligente.
Alguns funcionários da OpenAI discutiram como essa medida poderia ir contra as regras do YouTube. O YouTube, que é propriedade do Google, proíbe o uso de seus vídeos para aplicativos “independentes” da plataforma de vídeo.
No final das contas, uma equipe da OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube. A equipe incluiu Greg Brockman, presidente da OpenAI, que ajudou pessoalmente a coletar os vídeos. Os textos foram então inseridos em um sistema chamado GPT-4, que foi amplamente considerado um dos modelos de IA mais poderosos do mundo e foi a base da versão mais recente do chatbot ChatGPT.
A corrida para liderar a IA tornou-se uma busca desesperada pelos dados digitais necessários para o avanço da tecnologia. Para obter esses dados, as empresas de tecnologia, incluindo a OpenAI, o Google e a Meta, cortaram caminho, ignoraram as políticas corporativas e debateram a possibilidade de burlar a lei, de acordo com uma análise do The New York Times.
Na Meta, proprietária do Facebook e do Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter trabalhos longos, de acordo com gravações de reuniões internas obtidas pelo The Times. Eles também conversaram sobre a coleta de dados protegidos por direitos autorais de toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e o setor de notícias levaria muito tempo, disseram eles.
Assim como a OpenAI, o Google transcreveu vídeos do YouTube para coletar textos para seus modelos de IA. Isso poderia violar os direitos autorais dos vídeos, que pertencem aos seus criadores.
No ano passado, o Google também ampliou seus termos de serviço. Uma das motivações para a mudança, de acordo com membros da equipe de privacidade da empresa e uma mensagem interna vista pelo The Times, foi permitir que o Google pudesse usar o Google Docs disponível publicamente, avaliações de restaurantes no Google Maps e outros materiais online para mais de seus produtos de IA.
As ações das empresas ilustram como as informações online – notícias, obras fictícias, postagens em quadros de mensagens, artigos da Wikipedia, programas de computador, fotos, podcasts e clipes de filmes – têm se tornado cada vez mais a força vital do setor de IA em expansão. A criação de sistemas inovadores depende da existência de dados suficientes para ensinar as tecnologias a produzir instantaneamente textos, imagens, sons e vídeos que se assemelhem ao que um ser humano cria.
O volume de dados é crucial. Os principais sistemas de chatbot aprenderam com conjuntos de textos digitais que abrangem até três trilhões de palavras, ou seja, aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleta manuscritos desde 1602. Os dados mais valiosos, segundo os pesquisadores de IA, são as informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.
Durante anos, a internet – com sites como Wikipedia e Reddit – foi uma fonte de dados aparentemente infinita. Mas com o avanço da IA, as empresas de tecnologia buscaram mais repositórios. O Google e a Meta, que têm bilhões de usuários que produzem consultas de pesquisa e publicações em mídias sociais todos os dias, foram amplamente limitados pelas leis de privacidade e por suas próprias políticas de utilização de grande parte desse conteúdo para IA.
A situação é urgente. As empresas de tecnologia poderiam esgotar os dados de alta qualidade da internet já em 2026, de acordo com o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rapidamente do que eles estão sendo produzidos.
“A única maneira prática de essas ferramentas existirem é se elas puderem ser treinadas em grandes quantidades de dados sem a necessidade de licenciá-los”, disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre a lei de direitos autorais. “Os dados necessários são tão grandes que nem mesmo o licenciamento coletivo pode funcionar.”
As empresas de tecnologia estão tão ávidas por novos dados que algumas estão desenvolvendo informações “sintéticas”. Não se trata de dados orgânicos criados por humanos, mas de textos, imagens e códigos produzidos por modelos de IA – em outras palavras, os sistemas aprendem com o que eles mesmos geram.
A OpenAI disse que cada um de seus modelos de IA “tem um conjunto de dados exclusivo que selecionamos para ajudá-los a compreender o mundo e permanecer globalmente competitivos em pesquisa”. O Google disse que seus modelos de IA “são treinados em alguns conteúdos do YouTube”, o que foi permitido por acordos com os criadores do YouTube, e que a empresa não usou dados de aplicativos de escritório fora de um programa experimental. A Meta disse que “fez investimentos agressivos” para integrar a IA em seus serviços e que tinha bilhões de imagens e vídeos compartilhados publicamente no Instagram e no Facebook para treinar seus modelos.
Para os criadores, o uso crescente de seus trabalhos por empresas de IA gerou processos judiciais sobre direitos autorais e licenciamento. Mais de 10 mil grupos comerciais, autores, empresas e outros enviaram comentários no ano passado sobre o uso de obras criativas por modelos de IA ao Copyright Office, uma agência federal que está preparando orientações sobre como a lei de direitos autorais se aplica na era da IA
‘Escala é tudo o que você precisa’
Em janeiro de 2020, Jared Kaplan, um físico teórico da Universidade Johns Hopkins, publicou um artigo inovador sobre IA que alimentou o apetite por dados online.
Sua conclusão foi inequívoca: Quanto mais dados houvesse para treinar um grande modelo de linguagem – a tecnologia que impulsiona os chatbots online -, melhor seria o desempenho. Assim como um aluno aprende mais lendo mais livros, os grande modelos de linguagem (LLM) podem identificar melhor os padrões no texto e ser mais precisos com mais informações.
“Todos ficaram muito surpresos com o fato de essas tendências – essas leis de escala, como as chamamos – serem basicamente tão precisas quanto as que vemos na astronomia ou na física”, disse Kaplan, que publicou o artigo com nove pesquisadores da OpenAI (ele agora trabalha na startup de IA Anthropic).
“Escala é tudo o que você precisa” logo se tornou um grito de guerra para a IA
Há muito tempo, os pesquisadores usam grandes bancos de dados públicos de informações digitais para desenvolver a IA, inclusive a Wikipedia e o Common Crawl, um banco de dados de mais de 250 bilhões de páginas da Web coletadas desde 2007. Os pesquisadores geralmente “limpavam” os dados removendo discursos de ódio e outros textos indesejados antes de usá-los para treinar modelos de IA.
Em 2020, os conjuntos de dados eram minúsculos para os padrões atuais. Um banco de dados contendo 30 mil fotografias do site de fotos Flickr foi considerado um recurso vital na época.
Após o artigo de Kaplan, essa quantidade de dados não era mais suficiente. Tudo se resumia a “tornar as coisas realmente grandes”, disse Brandon Duderstadt, executivo-chefe da Nomic, uma empresa de IA de Nova York.
Quando a OpenAI revelou o GPT-3 em novembro de 2020, ele foi treinado com a maior quantidade de dados até o momento – cerca de 300 bilhões de “tokens”, que são essencialmente palavras ou partes de palavras. Depois de aprender com esses dados, o sistema gerou textos com uma precisão surpreendente, escrevendo publicações em blogs, poesias e seus próprios programas de computador.
Em 2022, a DeepMind, do Google, foi além: testou 400 modelos de IA e variou a quantidade de dados de treinamento e outros fatores. Os modelos com melhor desempenho usaram ainda mais dados do que Kaplan havia previsto em seu artigo. Um modelo, o Chinchilla, foi treinado com 1,4 trilhão de tokens.
Ele logo foi superado. No ano passado, pesquisadores da China lançaram um modelo de IA, o Skywork, que foi treinado com 3,2 trilhões de tokens de textos em inglês e chinês. O Google também revelou um sistema de IA, o PaLM 2, que superou os 3,6 trilhões de tokens.
Transcrição do YouTube
Em maio, Sam Altman, executivo-chefe da OpenAI, reconheceu que as empresas de IA usariam todos os dados viáveis da internet.
“Isso vai acabar”, disse ele em um discurso em uma conferência de tecnologia.
Altman viu o fenômeno de perto. Na OpenAI, os pesquisadores coletaram dados durante anos, limparam-nos e os alimentaram em um vasto conjunto de textos para treinar os modelos de linguagem da empresa. Eles exploraram o repositório de códigos de computador GitHub, aspiraram bancos de dados de jogadas de xadrez e utilizaram dados que descreviam testes do ensino médio e tarefas de casa do site Quizlet.
No final de 2021, esses suprimentos estavam esgotados, disseram oito pessoas com conhecimento da empresa, que não estavam autorizadas a falar publicamente.
A OpenAI estava desesperada por mais dados para desenvolver seu modelo de IA de próxima geração, o GPT-4. Assim, os funcionários discutiram a transcrição de podcasts, audiolivros e vídeos do YouTube, disseram as pessoas. Eles falaram sobre a criação de dados do zero com sistemas de IA. Também consideraram a possibilidade de comprar empresas iniciantes que tivessem coletado grandes quantidades de dados digitais.
A OpenAI acabou criando o Whisper, a ferramenta de reconhecimento de voz, para transcrever vídeos e podcasts do YouTube, disseram seis pessoas. Mas o YouTube proíbe as pessoas não apenas de usar seus vídeos para aplicativos “independentes”, mas também de acessar seus vídeos por “qualquer meio automatizado (como robôs, botnets ou scrapers)”.
Os funcionários da OpenAI sabiam que estavam entrando em uma área legal cinzenta, disseram as pessoas, mas acreditavam que treinar a IA com os vídeos era um uso justo. Brockman, presidente da OpenAI, foi listado em um trabalho de pesquisa como criador do Whisper. Ele ajudou pessoalmente a reunir vídeos do YouTube e os inseriu na tecnologia.
Brockman encaminhou pedidos de comentários à OpenAI, que disse usar “inúmeras fontes” de dados.
No ano passado, a OpenAI lançou o GPT-4, que se baseou em mais de um milhão de horas de vídeos do YouTube transcritos pela Whisper. Brockman liderou a equipe que desenvolveu o GPT-4.
Alguns funcionários do Google sabiam que a OpenAI havia coletado dados de vídeos do YouTube, disseram duas pessoas com conhecimento das empresas. Mas eles não impediram a OpenAI porque o Google também havia usado transcrições de vídeos do YouTube para treinar seus modelos de IA, disseram as pessoas. Essa prática pode ter violado os direitos autorais dos criadores do YouTube. Portanto, se o Google fizesse alarde sobre a OpenAI, poderia haver um clamor público contra seus próprios métodos, disseram as pessoas.
Matt Bryant, porta-voz do Google, disse que a empresa não tinha conhecimento das práticas da OpenAI e proibiu “a extração ou o download não autorizado do conteúdo do YouTube”. O Google toma medidas quando tem uma base legal ou técnica clara para fazê-lo, disse ele.
As regras do Google permitiam que ele utilizasse os dados dos usuários do YouTube para desenvolver novos recursos para a plataforma de vídeo. Mas não ficou claro se o Google poderia usar os dados do YouTube para criar um serviço comercial além da plataforma de vídeo, como um chatbot.
Geoffrey Lottenberg, advogado de propriedade intelectual do escritório de advocacia Berger Singerman, disse que a linguagem do Google sobre o que poderia ou não fazer com as transcrições de vídeos do YouTube era vaga.
“O fato de os dados poderem ou não ser usados para um novo serviço comercial está aberto a interpretações e pode ser objeto de litígio”, disse ele.
No final de 2022, depois que a OpenAI lançou o ChatGPT e desencadeou uma corrida em todo o setor para alcançá-lo, os pesquisadores e engenheiros do Google discutiram a exploração de outros dados do usuário. Bilhões de palavras estavam no Google Docs das pessoas e em outros aplicativos gratuitos do Google. Mas as restrições de privacidade da empresa limitavam o uso dos dados, segundo três pessoas com conhecimento das práticas do Google.
Em junho, o departamento jurídico do Google solicitou à equipe de privacidade que redigisse um esboço de linguagem para ampliar as finalidades para as quais a empresa poderia usar os dados dos consumidores, de acordo com dois membros da equipe de privacidade e uma mensagem interna vista pelo The Times.
Os funcionários foram informados de que o Google queria usar o conteúdo disponível publicamente das pessoas no Google Docs, Google Sheets e aplicativos relacionados para uma série de produtos de inteligência artificial. Os funcionários disseram que não sabiam se a empresa já havia treinado a IA com esses dados.
Na época, a política de privacidade do Google dizia que a empresa poderia usar informações disponíveis publicamente apenas para “ajudar a treinar os modelos de linguagem do Google e criar recursos como o Google Translate”.
A equipe de privacidade escreveu novos termos para que o Google pudesse aproveitar os dados para seus “modelos de IA e criar produtos e recursos como o Google Translate, Bard e recursos de IA na nuvem”, que era um conjunto mais amplo de tecnologias de IA.
“Qual é o objetivo final aqui?”, perguntou um membro da equipe de privacidade em uma mensagem interna. “Qual é a abrangência do que estamos fazendo?”
A equipe foi instruída especificamente a lançar os novos termos no fim de semana de 4 de julho, quando as pessoas normalmente estavam concentradas no feriado, disseram os funcionários. A política revisada foi lançada em 1º de julho, no início do fim de semana prolongado.
Em agosto, dois membros da equipe de privacidade disseram que pressionaram os gerentes para saber se o Google poderia começar a usar dados de versões gratuitas para consumidores do Google Docs, Google Sheets e Google Slides. Segundo eles, não obtiveram respostas claras.
Bryant disse que as mudanças na política de privacidade foram feitas para maior clareza e que o Google não usou informações do Google Docs ou aplicativos relacionados para treinar modelos de linguagem “sem permissão explícita” dos usuários, referindo-se a um programa voluntário que permite aos usuários testar recursos experimentais.
“Não iniciamos o treinamento em tipos adicionais de dados com base nessa mudança de linguagem”, disse ele.
Debate na Meta
Mark Zuckerberg, executivo-chefe da Meta, investiu em IA durante anos, mas de repente ficou para trás quando a OpenAI lançou o ChatGPT em 2022. Ele imediatamente se esforçou para igualar e superar o ChatGPT, ligando para executivos e engenheiros a qualquer hora da noite para pressioná-los a desenvolver um chatbot rival, disseram três funcionários atuais e antigos, que não estavam autorizados a discutir conversas confidenciais.
Mas, no início do ano passado, a Meta havia se deparado com o mesmo obstáculo de seus rivais: falta de dados suficientes.
Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, disse aos executivos que sua equipe havia usado quase todos os livros, ensaios, poemas e artigos de notícias disponíveis em inglês na internet para desenvolver um modelo, de acordo com gravações de reuniões internas, que foram compartilhadas por um funcionário.
A Meta não poderia se equiparar ao ChatGPT a menos que obtivesse mais dados, disse Al-Dahle aos colegas. Em março e abril de 2023, alguns dos líderes de desenvolvimento de negócios, engenheiros e advogados da empresa se reuniram quase diariamente para resolver o problema.
Alguns debateram o pagamento de US$ 10 por livro pelos direitos totais de licenciamento de novos títulos. Eles discutiram a compra da Simon & Schuster, que publica autores como J.K. Rowling e Stephen King, de acordo com as gravações.
Eles também falaram sobre como haviam resumido livros, ensaios e outros trabalhos da internet sem permissão e discutiram a possibilidade de obter mais, mesmo que isso significasse enfrentar processos judiciais. Um advogado alertou sobre as preocupações “éticas” relacionadas à obtenção de propriedade intelectual de artistas, mas foi recebido com silêncio, de acordo com as gravações.
Zuckerberg exigiu uma solução, disseram os funcionários.
“A capacidade que Mark está procurando no produto é algo que não podemos oferecer no momento”, disse um engenheiro.
Embora a Meta opere redes sociais gigantescas, ela não tinha à sua disposição uma grande quantidade de publicações de usuários, disseram dois funcionários. Muitos usuários do Facebook haviam excluído suas postagens anteriores, e a plataforma não era o lugar onde as pessoas escreviam conteúdo do tipo ensaio, disseram eles.
A Meta também estava limitada pelas mudanças de privacidade que introduziu após um escândalo em 2018 sobre o compartilhamento de dados de seus usuários com a firma de marketing político Cambridge Analytica.
Zuckerberg disse em uma recente ligação com investidores que os bilhões de vídeos e fotos compartilhados publicamente no Facebook e no Instagram são “maiores do que o conjunto de dados do Common Crawl”.
Durante suas discussões gravadas, os executivos da Meta falaram sobre como contrataram terceirizados na África para agregar resumos de ficção e não-ficção. Os resumos incluíam conteúdo protegido por direitos autorais “porque não temos como não coletar isso”, disse um gerente em uma reunião.
Os executivos da Meta disseram que a OpenAI parecia ter usado material protegido por direitos autorais sem permissão. A Meta levaria muito tempo para negociar licenças com editoras, artistas, músicos e o setor de notícias, disseram eles, de acordo com as gravações.
“A única coisa que está nos impedindo de sermos tão bons quanto o ChatGPT é literalmente apenas o volume de dados”, disse Nick Grudin, vice-presidente de parceria global e conteúdo, em uma reunião.
A OpenAI parecia estar usando material protegido por direitos autorais e a Meta poderia seguir esse “precedente de mercado”, acrescentou.
Os executivos da Meta concordaram em se apoiar em uma decisão judicial de 2015 envolvendo a Authors Guild contra o Google, de acordo com as gravações. Nesse caso, o Google foi autorizado a escanear, digitalizar e catalogar livros em um banco de dados online após argumentar que havia reproduzido apenas trechos das obras online e que havia transformado os originais, o que tornava o uso justo.
O uso de dados para treinar sistemas de IA, segundo os advogados da Meta em suas reuniões, também deve ser considerado uso justo.
Pelo menos dois funcionários levantaram preocupações sobre o uso de propriedade intelectual e o não pagamento justo ou total aos autores e outros artistas, de acordo com as gravações. Um funcionário relatou uma discussão separada sobre dados protegidos por direitos autorais com executivos seniores, incluindo Chris Cox, diretor de produtos da Meta, e disse que ninguém naquela reunião considerou a ética do uso de trabalhos criativos de pessoas.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.