Inteligência artificial à brasileira

Pesquisadores da Universidade Federal de Juiz de Fora (UFJF) desenvolvem datasets para treinamento de modelos de inteligência artificial gerativa desenvolvidos no Brasil. Objetivo é diminuir dependência externa dessa tecnologia.

Notícias

Por Rodrigo de Oliveira Andrade

Em linha com uma recomendação do governo brasileiro, pesquisadores das áreas de linguística e ciências da computação da Universidade Federal de Juiz de Fora (UFJF), em Minas Gerais, uniram forças em um ambicioso projeto para criar conjuntos de dados, ou datasets, em língua portuguesa que possam ser usados no treinamento de modelos de inteligência artificial (IA) gerativa desenvolvidos no Brasil.

Ferramentas de IA gerativa, como o ChatGPT, funcionam com base em algoritmos de redes neurais profundas, modelos que se inspiram na organização do sistema nervoso humano e em sistemas de aprendizado de máquina (machine learning). Esse tipo de sistema se baseia em unidades de processamento interconectadas em várias camadas, da mesma forma como os neurônios se conectam por sinapses.

imagem: freepik

Nos últimos anos, empresas como Google e OpenAI, startup norte-americana responsável pelo ChatGPT, passaram a se dedicar ao desenvolvimento de um tipo específico de rede neural artificial, os chamados grandes modelos de linguagem (LLM), os quais conseguem analisar enormes quantidades de dados de texto, identificar bilhões de padrões sobre como as pessoas conectam palavras, números e símbolos, e, a partir disso, aprender a gerar textos novos.​

Em fins de 2020, por exemplo, a OpenAI lançou um programa de processamento de linguagem chamado GPT-3, capaz de analisar e processar dados de texto em uma escala sem precedentes. O programa passou meses em treinamento, escrutinando centenas de gigabytes de informações na internet, incluindo livros, papers, páginas da Wikipédia e do Reddit, e notícias, a partir dos quais identificou 175 bilhões de parâmetros, isto é, representações matemáticas de padrões de texto.

Esses padrões equivalem a um mapa da linguagem humana, uma descrição matemática do modo como escrevemos textos e códigos de programação. Eles permitem que o GPT-3 — e outros modelos de linguagem — escreva sobre qualquer assunto em qualquer estilo. À época, a OpenAI aplicou a mesma lógica em outro tipo de tecnologia de IA gerativa, o DALL-E, treinado com base em dezenas de milhares de fotos digitais, a partir das quais consegue gerar novas imagens.

“O problema é que esse sistema, assim como a maioria dos modelos de IA gerativa disponíveis atualmente, baseia-se em padrões adquiridos a partir de datasets em língua inglesa”, explica o linguista Tiago Timponi Torrent, professor associado do Departamento de Letras e do Programa de Pós-Graduação em Linguística da UFJF e coordenador do projeto Research and Innovation Network for Vision and Text Analysis (ReINVenTA).

 “Não por acaso, existe uma pressão do governo federal para a criação de datasets brasileiros que reflitam aspectos da cultura nacional e possam ser usados no treinamento de sistemas de IA gerativa desenvolvidos aqui”, destaca o pesquisador, referindo-se ao Plano Brasileiro de Inteligência Artificial (PBIA). Lançado durante a 5ª Conferência Nacional de Ciência, Tecnologia e Inovação, em agosto, o plano prevê investimentos de R$ 23 bilhões nos próximos quatro anos para a construção de uma infraestrutura local, incluindo um “supercomputador”, e incentivos para a indústria brasileira de IA.

Torrent explica que, até pouco tempo, empresas como Google e OpenAI vinham tentando melhorar seus modelos de IA gerativa aumentando sua capacidade de processamento computacional e a quantidade de dados crus usados em seu treinamento — dados crus são dados retirados da internet e entregues às máquinas para que elas, sozinhas, identifiquem seus padrões, sem nenhum tipo de anotação ou curadoria humana.

Essas estratégias, porém, não têm resolvido os problemas de limitação de performance desses modelos. “É como se tivéssemos chegado a um limite tal que, mesmo que você quadruplique sua capacidade de processamento ou quintuplique a quantidade de dados crus, esses modelos não vão melhorar sua performance”, destaca o linguista. “Até se chegou a usar o próprio ChatGPT para gerar dados artificiais para treinar IAs, de modo a não depender de textos gerados por humanos, mas o sistema colapsou, perdendo performance”, conta.

Segundo Torrent, para superar essa limitação, é preciso investir mais no trabalho de curadoria, quando seres humanos analisam e associam novos dados (metadados) aos dados crus para treinamento das máquinas. 

O objetivo do ReINVenTA envolve justamente a produção desses metadados para o treinamento de modelos de IA. A ideia é fazer a rotulação semântica de textos multimodais, os quais, para terem sentido, congregam mais de uma modalidade comunicativa, como a capa de um jornal, que congrega as modalidades de língua verbal escrita e de imagem estática, ou uma notícia de telejornal, que congrega língua verbal falada, língua verbal escrita, e imagens dinâmicas (vídeo).

O objetivo é que esses datasets possam ser usados por desenvolvedores que trabalham com IA gerativa em empresas e universidades brasileiras. Os pesquisadores já concluíram o desenvolvimento de dois deles: o primeiro, chamado Frame², é composto pelos dez episódios da primeira temporada da série Pedro pelo Mundo, exibido pelo canal GNT. Foi anotado para frames, elementos de frames e categorias de objetos reconhecíveis por algoritmos de visão computacional para as modalidades de vídeo, áudio original e legendas.

O segundo, batizado de Framed Multi 30k, expansão do dataset Multi 30k para o português brasileiro, com a adição de cinco descrições de imagens originalmente produzidas em português e uma descrição traduzida do inglês para cada uma das cerca de 30 mil imagens do dataset Flickr 30k. “Esperamos que esses dados nos permitam avançar em nossas próprias IA gerativa, para que diminuamos a dependência externa dessa tecnologia”, conclui o linguista.

Sobre o projeto

O projeto “Consolidação da ReINVenTA – Research And Innovation Network For Visual And Textual Analysis Of Multimodal Objects” foi aprovado na chamada nº 40/2022 do Edital Pró-Humanidades do CNPq. 

Coordenador: Tiago Timponi Torrent (UFJF)