Google Inova Treinamento de IA com Aprendizado por Reforço Supervisionado (SRL), Capacitando Modelos Menores para Raciocínio Complexo

Pesquisadores do Google Cloud e da UCLA introduziram uma nova abordagem para o treinamento de inteligência artificial que promete revolucionar a forma como os modelos de linguagem aprendem a raciocinar. O método, chamado Aprendizado por Reforço Supervisionado (SRL), redefine a solução de problemas como uma sequência de “ações” lógicas, oferecendo sinais de aprendizado ricos durante o processo de treinamento. Esta inovação permite que modelos menores dominem tarefas complexas de raciocínio, antes consideradas inatingíveis com as técnicas de treinamento convencionais. Mas como exatamente o SRL consegue esse feito?

Superando as Limitações dos Métodos Existentes

Os avanços recentes no treinamento de modelos de linguagem grandes (LLMs) para raciocínio têm se baseado principalmente no aprendizado por reforço com recompensas verificáveis (RLVR). Esta técnica recompensa o modelo com base na correção da resposta final. No entanto, o sucesso do RLVR depende da capacidade do modelo de encontrar uma solução correta dentro de um número limitado de tentativas, um gargalo crítico quando os problemas são excessivamente difíceis. Afinal, cada tentativa é computacionalmente cara, impedindo que o modelo prossiga indefinidamente.

Uma alternativa, o ajuste fino supervisionado (SFT), ensina o modelo a partir de exemplos que detalham todo o processo de raciocínio realizado por especialistas. Embora o SFT possa incutir habilidades de raciocínio, ele frequentemente leva ao overfitting, onde o modelo simplesmente imita as trajetórias nos dados de treinamento, em vez de generalizar para problemas além dos exemplos vistos. A escassez e o alto custo dos dados de treinamento de alta qualidade, criados por humanos, exacerbam esse problema.

A Essência do Aprendizado por Reforço Supervisionado

O SRL surge como uma solução intermediária, reformulando a resolução de problemas como um “processo de tomada de decisão sequencial”. Em vez de otimizar apenas a resposta final ou forçar o modelo a imitar o processo de pensamento de um especialista, o SRL ensina o modelo a reproduzir uma sequência de ações-chave que formam a espinha dorsal do raciocínio especializado. Isso permite que o modelo aprenda a realizar ações semelhantes às de um especialista, enquanto desenvolve seu próprio estilo de raciocínio interno.

No SRL, as demonstrações de especialistas são divididas em uma série de ações intermediárias e concretas, cada uma representando uma etapa significativa. Para um problema de matemática, uma ação pode ser uma manipulação algébrica. Para um agente de engenharia de software, pode ser um comando executado em um repositório de código. Para gerar dados de treinamento, o SRL utiliza um modelo de professor poderoso para criar trajetórias de solução, que são então usadas para treinar um modelo menor.

Benefícios e Aplicações do SRL

Os experimentos realizados pelos pesquisadores demonstram que o SRL supera significativamente as linhas de base em benchmarks desafiadores de raciocínio matemático e engenharia de software. Além disso, o SRL incentiva padrões de raciocínio mais flexíveis e sofisticados nos modelos, como o planejamento intercalado e a auto-verificação, que melhoram a qualidade da solução sem simplesmente aumentar o tamanho das saídas.

Para líderes empresariais, os ganhos de desempenho só são valiosos se não vierem acompanhados de custos descontrolados. Nesse sentido, os modelos treinados com SRL são mais eficientes em seu raciocínio. Os ganhos de desempenho são resultado da “melhor qualidade e estrutura do raciocínio, e não da verbosidade”, segundo I-Hung Hsu, pesquisador do Google e coautor do estudo. Em termos de eficiência, os modelos treinados com SRL são aproximadamente equivalentes ao modelo base no uso de tokens.

Um Novo Padrão para IA de Alto Risco?

Os resultados mais expressivos do estudo vieram da combinação de métodos: primeiro, utilizando o SRL para ensinar o raciocínio fundamental e, em seguida, usando o RLVR para refinar essa habilidade. Os experimentos mostraram que, quando os pesquisadores usaram o SRL como pré-treinamento e aplicaram o RLVR no pós-treinamento, observaram um aumento médio de 3,7%. Isso demonstra uma poderosa estratégia de aprendizado curricular.

Essa descoberta levanta a interessante questão se esse novo método se tornará um novo padrão para a construção de IAs especializadas. O SRL oferece uma base sólida, ensinando os modelos a pensar e agir passo a passo, antes de refinar esses comportamentos com o aprendizado por reforço baseado em resultados. Essa abordagem “SRL primeiro” não apenas estabiliza o estágio RL posterior, mas também torna o raciocínio mais interpretável e generalizável, o que seria crucial para aplicações de alto risco. É um importante passo para garantir que sistemas de IA não apenas tomem as decisões certas, mas que também ofereçam “transparência” sobre como chegaram a essas decisões.

Referências

Compartilhe:

Descubra mais sobre MicroGmx

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading