ChatGPT reforça estereótipos de gênero e raça relacionados à ciência

Ferramenta tem repertório limitado e enviesado, e não contribui para a promoção da diversidade no fazer científico, indica estudo

Notícias

Por Stefanie Oliveira

Homem branco e jovem. Essa é a imagem padrão de um cientista, de acordo com o ChatGPT. A representação gerada pela ferramenta de inteligência artificial exclui grupos minoritários da ciência e reforça estereótipos de gênero, raça e etnia presentes na sociedade, segundo pesquisadores do Instituto Nacional de Comunicação Pública da Ciência e Tecnologia (INCT-CPCT/Fiocruz), que analisaram a representação de cientistas e da ciência a partir de imagens geradas pelo software. 

A crescente popularização das ferramentas de IA generativa – capazes de criar textos, imagens, sons e vídeos a partir de perguntas e comandos dos usuários –, e os debates que as envolvem, levaram os pesquisadores a investigar que tipo de imagem relacionada à ciência elas estariam gerando. 

Por meio da versão paga do ChatGPT, que permite a geração de imagens a partir de comandos textuais (prompts), os pesquisadores usaram dez palavras-chave – como “cientista”, “cientista do passado”, “cientista do presente”, “ciência no Brasil”, entre outras – e pediram à ferramenta que gerasse três imagens com a mesma palavra-chave, em tempos diferentes. A ideia era observar se ela apresentaria diversidade ou quebraria padrões pré-estabelecidos nas imagens geradas.

"Cientista", segundo ChatGPT

No total, foram geradas trinta imagens, que foram analisadas quanto à representação de gênero, raça/etnia e idade, aos elementos dispostos na imagem, além de cenários, cores e padrões.

Os resultados evidenciam a reprodução de estereótipos pela tecnologia. “As imagens geradas com o tema ‘cientista’ foram consistentemente de homens jovens, brancos, em ambientes de laboratório”, relata o jornalista e doutor em Ciência Luiz Felipe Fernandes Neves, pesquisador do INCT-CPCT. “Isso demonstra uma reprodução de estereótipos de gênero e raça, excluindo mulheres e pessoas negras do cenário científico.”

A representação é de fato excludente e não corresponde à realidade. Levando em conta as imagens geradas pela ferramenta, por exemplo, a biomédica e pesquisadora negra Jaqueline Goes de Jesus [que coordenou a equipe responsável pelo primeiro sequenciamento do genoma do novo coronavirus no Brasil em tempo recorde] não seria modelo de cientista.

As características das imagens geradas do cientista não mudaram, mesmo quando os pesquisadores alteravam as orientações para “cientista” ou “cientista no Brasil”. 

Os pesquisadores também observaram uma representação da ciência sempre em ambientes hipertecnológicos e ligada majoritariamente às ciências exatas e biológicas, o que reflete a forma como a ciência é percebida socialmente.

Segundo os autores, a falta de transparência no processo de treinamento do ChatGPT levanta preocupações sobre como a ferramenta toma decisões ao gerar conteúdos. De acordo com Neves, embora se possa inferir que o modelo seja treinado com dados que reforçam esses estereótipos, não há clareza sobre os cálculos estatísticos, parâmetros ou algoritmos específicos que orientam essas escolhas. As informações fornecidas pelas empresas responsáveis pela IA não detalham esses aspectos, deixando lacunas sobre o funcionamento interno e os critérios de decisão da tecnologia, explica o pesquisador.

"Cientista no Brasil", segundo ChatGPT

“As ferramentas de IA generativa, especialmente o ChatGPT, não têm respostas para tudo por si só, embora tenham sido projetadas para tentar responder a qualquer pergunta ou comando recebidos”, diz Neves. 

Ele explica que as IAs generativas podem inventar respostas, gerando o que é conhecido como “alucinações” — informações erradas ou completamente desconectadas do contexto. O pesquisador ressalta que, embora elas tenham avançado significativamente e possam facilitar muitas tarefas no dia a dia, suas respostas precisam ser sempre verificadas e checadas, pois não são completamente confiáveis. 

"Ciência no Brasil", segundo ChatGPT

As respostas são baseadas em dados de treinamento e nas combinações matemáticas e estatísticas definidas pelo algoritmo que estejam relacionadas ao comando recebido, o que não garante que as informações sejam corretas – “Esse é um risco importante para qual os usuários precisam se atentar, e as empresas devem deixar essa limitação clara para quem utiliza a ferramenta”, alerta Neves.

Os resultados do estudo apontam para a necessidade de reavaliar os dados e parâmetros utilizados para treinar inteligências artificiais, uma vez que a reprodução de estereótipos e os vieses relacionados a gênero, raça e cultura perpetuados  por essas tecnologias podem agravar as desigualdades já existentes. Segundo o pesquisador, é essencial que as empresas responsáveis pelo desenvolvimento dessas tecnologias implementem medidas para garantir maior diversidade e representatividade nos dados de treinamento. 

Sobre o estudo: 

O artigo “Entre continuidades e rupturas: a representação do cientista e da ciência a partir de imagens geradas pelo ChatGPT”, assinado por pesquisadores do INCT-CPCT/Fiocruz, foi publicado na revista USP.