...

SEAL: O Modelo de Linguagem que Aprende a Aprender, Cortesia do MIT

O mundo da inteligência artificial está em constante evolução, e uma das áreas mais promissoras é a dos modelos de linguagem autoaperfeiçoáveis. Pesquisadores do Massachusetts Institute of Technology (MIT) reacenderam o interesse da comunidade científica com o desenvolvimento e a liberação de uma técnica que permite que grandes modelos de linguagem (LLMs), como os que impulsionam o ChatGPT, aprimorem seu desempenho. Essa técnica, conhecida como SEAL (Self-Adapting LLMs ou LLMs Auto Adaptáveis), abre um leque de possibilidades para o futuro da IA, permitindo que os modelos evoluam de forma autônoma, sem a necessidade constante de intervenção humana. (Fonte: VentureBeat)

O que é SEAL e como funciona?

SEAL é um método que permite aos LLMs gerar e aplicar suas próprias estratégias de ajuste fino. Ao contrário dos modelos convencionais, que dependem de dados externos fixos e processos de otimização criados por humanos, o SEAL capacita os modelos a evoluir, produzindo seus próprios dados de treinamento sintéticos e diretrizes de otimização. Essa abordagem inovadora desafia o paradigma tradicional da IA estática, abrindo caminho para sistemas verdadeiramente adaptáveis.

O funcionamento do SEAL é baseado em dois loops: um loop interno, que realiza o ajuste fino supervisionado com base nas autoedições geradas pelo modelo, e um loop externo, que utiliza o aprendizado por reforço para refinar a política que gera essas autoedições. O algoritmo de aprendizado por reforço utilizado é baseado no ReSTEM, que combina amostragem com clonagem de comportamento filtrado. Durante o treinamento, apenas as autoedições que levam a melhorias no desempenho são reforçadas. Essa abordagem ensina efetivamente ao modelo quais tipos de edições são mais benéficas para o aprendizado. (Fonte: TechTarget)

Desempenho e aplicações

O SEAL foi testado em dois domínios principais: incorporação de conhecimento e aprendizado com poucos exemplos. No cenário de incorporação de conhecimento, os pesquisadores avaliaram a capacidade do modelo de internalizar novos conteúdos factuais. Em vez de realizar o ajuste fino diretamente no texto da passagem, o modelo gerou implicações sintéticas da passagem e, em seguida, realizou o ajuste fino nelas. Após duas rodadas de aprendizado por reforço, o modelo melhorou a precisão na resposta a perguntas de 33,5% para 47,0% em uma versão sem contexto do SQuAD, superando os resultados obtidos com dados sintéticos gerados pelo GPT-4.1. (Fonte: SQuAD)

No cenário de aprendizado com poucos exemplos, o SEAL foi avaliado usando um subconjunto do benchmark ARC, onde as tarefas exigem raciocínio a partir de apenas alguns exemplos. Aqui, o SEAL gerou autoedições especificando aumentos de dados e hiperparâmetros. Após o aprendizado por reforço, a taxa de sucesso na resolução correta de tarefas retidas saltou para 72,5%, um aumento em relação aos 20% obtidos com autoedições geradas sem aprendizado por reforço. Modelos que dependiam apenas do aprendizado no contexto, sem qualquer adaptação, obtiveram uma pontuação de 0%. (Fonte: AI2)

Desafios e limitações

Apesar de suas promessas, o SEAL também apresenta desafios e limitações. Um dos problemas é o esquecimento catastrófico, onde as atualizações para incorporar novas informações podem degradar o desempenho em tarefas aprendidas anteriormente. Para mitigar essa preocupação, os autores do estudo afirmam que o aprendizado por reforço parece mitigar o esquecimento de forma mais eficaz do que o ajuste fino supervisionado padrão. Outro desafio é a sobrecarga computacional: avaliar cada autoedição requer ajuste fino e testes de desempenho, o que pode levar de 30 a 45 segundos por edição, significativamente mais do que as tarefas padrão de aprendizado por reforço. Além disso, o design atual do SEAL assume a presença de tarefas emparelhadas e respostas de referência para cada contexto, limitando sua aplicabilidade direta a corpora não rotulados.

O futuro da IA autoaperfeiçoável

O SEAL representa um passo significativo em direção a modelos que podem se autoaperfeiçoar ao longo do tempo, tanto integrando novos conhecimentos quanto reconfigurando a forma como aprendem. Os autores preveem extensões futuras onde o SEAL possa auxiliar no auto pré treinamento, no aprendizado contínuo e no desenvolvimento de sistemas agentes, ou seja, modelos que interagem com ambientes em evolução e se adaptam incrementalmente. Em tais configurações, um modelo poderia usar o SEAL para sintetizar atualizações de peso após cada interação, internalizando gradualmente comportamentos ou insights. Isso poderia reduzir a necessidade de supervisão repetida e intervenção manual, particularmente em domínios com restrição de dados ou especializados.

À medida que o texto da web pública se torna saturado e o dimensionamento adicional de LLMs se torna estrangulado pela disponibilidade de dados, abordagens autodirecionadas como o SEAL podem desempenhar um papel crítico no avanço das fronteiras do que os LLMs podem alcançar. A capacidade de um modelo aprender a aprender, adaptando-se continuamente e aprimorando suas próprias estratégias de aprendizado, é um divisor de águas no campo da IA. O SEAL não é apenas uma ferramenta; é um vislumbre de um futuro onde a IA é mais adaptável, eficiente e autônoma.

Em resumo, a pesquisa do MIT com o SEAL representa um avanço promissor no campo da inteligência artificial, abrindo caminho para modelos de linguagem mais adaptáveis, eficientes e autônomos. Embora ainda existam desafios a serem superados, o potencial dessa tecnologia é inegável e pode transformar a forma como interagimos com a IA no futuro.

Compartilhe:

Descubra mais sobre MicroGmx

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading