“O problema é que esse sistema, assim como a maioria dos modelos de IA gerativa disponíveis atualmente, baseia-se em padrões adquiridos a partir de datasets em língua inglesa”, explica o linguista Tiago Timponi Torrent, professor associado do Departamento de Letras e do Programa de Pós-Graduação em Linguística da UFJF e coordenador do projeto Research and Innovation Network for Vision and Text Analysis (ReINVenTA).
“Não por acaso, existe uma pressão do governo federal para a criação de datasets brasileiros que reflitam aspectos da cultura nacional e possam ser usados no treinamento de sistemas de IA gerativa desenvolvidos aqui”, destaca o pesquisador, referindo-se ao Plano Brasileiro de Inteligência Artificial (PBIA). Lançado durante a 5ª Conferência Nacional de Ciência, Tecnologia e Inovação, em agosto, o plano prevê investimentos de R$ 23 bilhões nos próximos quatro anos para a construção de uma infraestrutura local, incluindo um “supercomputador”, e incentivos para a indústria brasileira de IA.
Torrent explica que, até pouco tempo, empresas como Google e OpenAI vinham tentando melhorar seus modelos de IA gerativa aumentando sua capacidade de processamento computacional e a quantidade de dados crus usados em seu treinamento — dados crus são dados retirados da internet e entregues às máquinas para que elas, sozinhas, identifiquem seus padrões, sem nenhum tipo de anotação ou curadoria humana.
Essas estratégias, porém, não têm resolvido os problemas de limitação de performance desses modelos. “É como se tivéssemos chegado a um limite tal que, mesmo que você quadruplique sua capacidade de processamento ou quintuplique a quantidade de dados crus, esses modelos não vão melhorar sua performance”, destaca o linguista. “Até se chegou a usar o próprio ChatGPT para gerar dados artificiais para treinar IAs, de modo a não depender de textos gerados por humanos, mas o sistema colapsou, perdendo performance”, conta.
Segundo Torrent, para superar essa limitação, é preciso investir mais no trabalho de curadoria, quando seres humanos analisam e associam novos dados (metadados) aos dados crus para treinamento das máquinas.
O objetivo do ReINVenTA envolve justamente a produção desses metadados para o treinamento de modelos de IA. A ideia é fazer a rotulação semântica de textos multimodais, os quais, para terem sentido, congregam mais de uma modalidade comunicativa, como a capa de um jornal, que congrega as modalidades de língua verbal escrita e de imagem estática, ou uma notícia de telejornal, que congrega língua verbal falada, língua verbal escrita, e imagens dinâmicas (vídeo).
O objetivo é que esses datasets possam ser usados por desenvolvedores que trabalham com IA gerativa em empresas e universidades brasileiras. Os pesquisadores já concluíram o desenvolvimento de dois deles: o primeiro, chamado Frame², é composto pelos dez episódios da primeira temporada da série Pedro pelo Mundo, exibido pelo canal GNT. Foi anotado para frames, elementos de frames e categorias de objetos reconhecíveis por algoritmos de visão computacional para as modalidades de vídeo, áudio original e legendas.
O segundo, batizado de Framed Multi 30k, expansão do dataset Multi 30k para o português brasileiro, com a adição de cinco descrições de imagens originalmente produzidas em português e uma descrição traduzida do inglês para cada uma das cerca de 30 mil imagens do dataset Flickr 30k. “Esperamos que esses dados nos permitam avançar em nossas próprias IA gerativa, para que diminuamos a dependência externa dessa tecnologia”, conclui o linguista.