Quando se trata de chatbots de inteligência artificial, maior geralmente é melhor.
Grandes modelos de linguagem como ChatGPT e Bard, que geram texto conversacional e original, melhoram à medida que são alimentados com mais dados. Todos os dias, os blogueiros acessam a Internet para explicar como os avanços mais recentes – um aplicativo que resume artigos, podcasts gerados por IA, um modelo ajustado que pode responder a qualquer pergunta relacionada ao basquete profissional – “mudará tudo”.
Mas tornar a IA maior e mais capaz requer um poder de processamento que poucas empresas possuem, e há uma preocupação crescente de que um pequeno grupo, incluindo Google, Meta, OpenAI e Microsoft, exerça controle quase total sobre a tecnologia.
Além disso, modelos de linguagem maiores são mais difíceis de entender. Eles são frequentemente descritos como “caixas pretas”, até mesmo pelas pessoas que os projetam e pelas principais figuras do campo. expressaram desconforto que os objetivos da A.I. podem acabar não se alinhando com os nossos. Se maior é melhor, também é mais opaco e mais exclusivo.
Em janeiro, um grupo de jovens acadêmicos que trabalham com processamento de linguagem natural – o ramo da IA focado no entendimento linguístico – lançou um desafio para tentar virar esse paradigma de cabeça para baixo. O grupo convocou equipes para criar modelos de linguagem funcional usando conjuntos de dados com menos de um décimo de milésimo do tamanho daqueles usados pelos modelos de linguagem grandes mais avançados. Um minimodelo de sucesso seria quase tão capaz quanto os modelos de ponta, mas muito menor, mais acessível e mais compatível com humanos. O projeto é chamado de Desafio BabyLM.
“Estamos desafiando as pessoas a pensar pequeno e se concentrar mais na construção de sistemas eficientes que possam ser usados por mais pessoas”, disse Aaron Mueller, cientista da computação da Universidade Johns Hopkins e organizador do BabyLM.
Alex Warstadt, um cientista da computação da ETH Zurich e outro organizador do projeto, acrescentou: “O desafio coloca questões sobre o aprendizado da linguagem humana, em vez de ‘Quão grande podemos fazer nossos modelos?’ no centro da conversa”.
Modelos de linguagem grandes são redes neurais projetadas para prever a próxima palavra em uma determinada frase ou frase. Eles são treinados para essa tarefa usando um corpus de palavras coletadas de transcrições, sites, romances e jornais. Um modelo típico faz suposições com base em frases de exemplo e depois se ajusta dependendo de quão perto chega da resposta certa.
Ao repetir esse processo várias vezes, um modelo forma mapas de como as palavras se relacionam umas com as outras. Em geral, quanto mais palavras um modelo for treinado, melhor ele se tornará; cada frase fornece contexto ao modelo, e mais contexto se traduz em uma impressão mais detalhada do que cada palavra significa. O GPT-3 da OpenAI, lançado em 2020, foi treinado em 200 bilhões de palavras; O chinchila da DeepMind, lançado em 2022, foi treinado em um trilhão.
Para Ethan Wilcox, linguista da ETH Zurich, o fato de que algo não humano pode gerar linguagem representa uma oportunidade empolgante: os modelos de linguagem da IA podem ser usados para estudar como os humanos aprendem a linguagem?
Por exemplo, o nativismo, uma teoria influente que remonta aos primeiros trabalhos de Noam Chomsky, afirma que os humanos aprendem a linguagem de forma rápida e eficiente porque têm uma compreensão inata de como a linguagem funciona. Mas os modelos de linguagem também aprendem a linguagem rapidamente e, aparentemente, sem uma compreensão inata de como a linguagem funciona – então talvez o nativismo não retenha a água.
O desafio é que os modelos de linguagem aprendem de forma muito diferente dos humanos. Os seres humanos têm corpos, vidas sociais e sensações ricas. Podemos sentir o cheiro de palha, sentir as penas, esbarrar em portas e saborear balas de menta. Logo no início, somos expostos a palavras e sintaxes faladas simples que muitas vezes não são representadas por escrito. Portanto, concluiu o Dr. Wilcox, um computador que produz linguagem depois de ser treinado em zilhões de palavras escritas pode nos dizer muito sobre nosso próprio processo linguístico.
Mas se um modelo de linguagem fosse exposto apenas a palavras que um jovem humano encontra, ele poderia interagir com a linguagem de maneira a abordar certas questões que temos sobre nossas próprias habilidades.
Assim, juntamente com meia dúzia de colegas, o Dr. Wilcox, o Dr. Mueller e o Dr. Warstadt conceberam o Desafio BabyLM, para tentar aproximar os modelos de linguagem da compreensão humana. Em janeiro, eles convocaram equipes para treinar modelos de linguagem com o mesmo número de palavras que um humano de 13 anos encontra – cerca de 100 milhões. Os modelos candidatos seriam testados em quão bem eles geraram e captaram as nuances da linguagem, e um vencedor seria declarado.
Eva Portelance, linguista da McGill University, se deparou com o desafio no dia em que foi anunciado. Sua pesquisa atravessa a linha frequentemente tênue entre ciência da computação e linguística. As primeiras incursões na IA, na década de 1950, foram impulsionadas pelo desejo de modelar as capacidades cognitivas humanas em computadores; a unidade básica de processamento de informações em IA é o “neurônio” e os primeiros modelos de linguagem nas décadas de 1980 e 1990 foram diretamente inspirados no cérebro humano.
Mas, à medida que os processadores se tornaram mais poderosos e as empresas começaram a trabalhar em direção a produtos comercializáveis, os cientistas da computação perceberam que muitas vezes era mais fácil treinar modelos de linguagem em enormes quantidades de dados do que forçá-los a estruturas psicologicamente informadas. Como resultado, o Dr. Portelance disse: “eles nos fornecem um texto semelhante ao humano, mas não há conexão entre nós e como eles funcionam.”
Para os cientistas interessados em entender como a mente humana funciona, esses grandes modelos oferecem uma visão limitada. E por exigirem um enorme poder de processamento, poucos pesquisadores conseguem acessá-los. “Apenas um pequeno número de laboratórios da indústria com grandes recursos pode se dar ao luxo de treinar modelos com bilhões de parâmetros em trilhões de palavras”, Dr. Wilcox disse.
“Ou até mesmo para carregá-los”, acrescentou Mueller. “Isso fez com que a pesquisa no campo parecesse um pouco menos democrática ultimamente.”
O Desafio BabyLM, disse o Dr. Portelance, pode ser visto como um passo para longe da corrida armamentista por modelos de linguagem maiores e um passo em direção a uma IA mais acessível e intuitiva.
O potencial de tal programa de pesquisa não foi ignorado pelos maiores laboratórios da indústria. Sam Altman, o executivo-chefe da OpenAI, disse recentemente que aumentar o tamanho dos modelos de linguagem não levaria ao mesmo tipo de melhorias vistas nos últimos anos. E empresas como Google e Meta também têm investido na pesquisa de modelos de linguagem mais eficientes, informados por estruturas cognitivas humanas. Afinal, um modelo que pode gerar linguagem quando treinado com menos dados também pode ser ampliado.
Quaisquer que sejam os lucros que um BabyLM bem-sucedido possa gerar, para aqueles por trás do desafio, os objetivos são mais acadêmicos e abstratos. Até o prêmio subverte a prática. “Apenas orgulho”, disse o Dr. Wilcox.