...

Meta Revoluciona o Reconhecimento de Voz com IA Open Source para Mais de 1600 Idiomas

A Meta acaba de dar um passo significativo no campo da inteligência artificial, lançando um novo sistema de reconhecimento automático de fala (ASR) multilingue que suporta mais de 1600 idiomas. Essa iniciativa supera o modelo Whisper de código aberto da OpenAI, que suporta apenas 99 idiomas, e abre novas possibilidades para a inclusão digital e a preservação de línguas em todo o mundo.

Uma Abordagem Inovadora e Extensível

O sistema Omnilingual ASR da Meta não se limita a um conjunto fixo de idiomas. Sua arquitetura permite que desenvolvedores ampliem esse suporte para milhares de outros idiomas. Através de um recurso chamado aprendizado ‘zero-shot in-context’, os usuários podem fornecer alguns exemplos pareados de áudio e texto em um novo idioma durante o processo de inferência, permitindo que o modelo transcreva outras expressões nesse idioma sem nenhum treinamento adicional. Na prática, isso expande a cobertura potencial para mais de 5400 idiomas, abrangendo praticamente todas as línguas faladas com um sistema de escrita conhecido.

Essa abordagem representa uma mudança importante em relação às capacidades estáticas dos modelos tradicionais. Em vez de depender de um conjunto predefinido de idiomas, o Omnilingual ASR oferece uma estrutura flexível que as comunidades podem adaptar e expandir por conta própria. Embora os 1600 idiomas reflitam a cobertura oficial do treinamento, a capacidade de generalização sob demanda do sistema o torna o sistema de reconhecimento de fala mais extensível já lançado.

Licença Open Source Permissiva

Um dos aspectos mais notáveis do lançamento da Meta é a sua licença open source sob a Apache 2.0. Ao contrário de outras iniciativas da empresa, como a licença Llama, que impunha restrições ao uso por grandes empresas, a licença do Omnilingual ASR permite que pesquisadores e desenvolvedores utilizem e implementem o sistema gratuitamente, sem restrições, inclusive em projetos comerciais e corporativos. Essa decisão demonstra o compromisso da Meta com a abertura e a colaboração no campo da inteligência artificial.

Disponibilidade e Recursos

O Omnilingual ASR da Meta foi lançado no dia 10 de novembro e está disponível no site da Meta, no Github e em um espaço de demonstração no Hugging Face. O pacote inclui uma família de modelos de reconhecimento de fala, um modelo de representação de áudio multilingue com 7 bilhões de parâmetros e um enorme corpus de fala que abrange mais de 350 idiomas antes carentes de recursos.

Todos os recursos são disponibilizados sob licenças abertas, e os modelos suportam a transcrição de fala para texto ‘out of the box’. A Meta afirma que o objetivo é derrubar barreiras linguísticas, expandir o acesso digital e capacitar comunidades em todo o mundo.

Aplicações e Impacto Social

O Omnilingual ASR foi projetado para a transcrição de fala para texto, com aplicações em diversas áreas, como assistentes de voz, ferramentas de transcrição, legendas, digitalização de arquivo oral e recursos de acessibilidade para idiomas de baixa frequência. A capacidade de transcrever idiomas nunca antes vistos usando apenas alguns exemplos pareados de áudio e texto reduz drasticamente a barreira para adicionar novos idiomas, eliminando a necessidade de grandes corpora ou retreinamento.

Conclusão

O lançamento do Omnilingual ASR pela Meta é um marco importante no campo da inteligência artificial e da inclusão digital. Ao oferecer um sistema de reconhecimento de fala multilingue, extensível e de código aberto, a Meta capacita comunidades em todo o mundo a preservar e promover suas línguas, ao mesmo tempo em que democratiza o acesso à tecnologia de fala. Esta iniciativa tem o potencial de transformar a forma como interagimos com a tecnologia e de construir um futuro mais inclusivo e equitativo para todos.

Compartilhe:

Descubra mais sobre MicroGmx

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading