Os chatbots de IA aprendem sobre o mundo ao absorverem quantidades gigantescas de texto, o que significa que ingerem tudo ao mesmo tempo: factos fiáveis, erros, senso comum, afirmações absurdas e todos os tipos de linguagem humana.
Um novo estudo indica que, apesar desta “dieta” desorganizada, os modelos de linguagem podem ainda assim desenvolver algo próximo de uma compreensão do mundo real.
Pelo menos, isto parece verificar-se quando a tarefa é distinguir entre acontecimentos normais, acontecimentos improváveis, acontecimentos impossíveis e puro disparate.
A investigação foi realizada por cientistas da Brown University. Ao “espreitar” o interior de vários modelos de linguagem de IA, a equipa analisou de que forma estes sistemas processavam diferentes tipos de afirmações.
Os investigadores encontraram indícios de que estes modelos codificam padrões que refletem a forma como as pessoas avaliam se algo faz sentido no mundo real.
Como os modelos de linguagem de IA processam o significado
Se um chatbot for treinado apenas com texto, conseguirá, ainda assim, captar a estrutura básica da realidade? Ou seja: consegue distinguir entre algo que costuma acontecer e algo estranho, mas possível?
E será capaz de reconhecer algo fisicamente impossível ou, até, algo que nem sequer tem significado?
“Este trabalho revela algumas evidências de que os modelos de linguagem codificaram algo semelhante às restrições causais do mundo real”, afirmou Michael Lepori, doutorando na Brown e líder do trabalho.
“Para além de simplesmente codificarem estas restrições, fazem-no de uma forma que prevê os julgamentos humanos destas categorias.”
Isto é relevante porque toca numa das maiores questões em aberto na IA. Quando um modelo produz linguagem fluente, estará apenas a prever bem a palavra seguinte ou terá construído um mapa interno de como o mundo funciona?
Este estudo não encerra totalmente esse debate, mas sugere que a resposta pode ser mais interessante do que um simples não.
Separar o real do disparate
Para testar a hipótese, os investigadores criaram uma experiência centrada em frases que descreviam eventos com diferentes níveis de plausibilidade.
Algumas eram completamente banais, como “Alguém arrefeceu uma bebida com gelo.” Outras eram improváveis, mas ainda possíveis, por exemplo “Alguém arrefeceu uma bebida com neve.” Havia também casos impossíveis, como “Alguém arrefeceu uma bebida com fogo.” Por fim, surgiam frases sem sentido, como “Alguém arrefeceu uma bebida com ontem.”
Esta progressão permitiu perceber se, internamente, os modelos reagiam de forma diferente a cada uma destas categorias.
Em vez de avaliarem os modelos apenas pelo resultado final, os autores analisaram os estados matemáticos gerados dentro do sistema à medida que cada frase era processada. A esta abordagem dá-se o nome de interpretabilidade mecanicista.
“A interpretabilidade mecanicista pode ser caracterizada, de forma apropriada, como algo semelhante à neurociência para sistemas de IA”, disse Lepori.
“Procura fazer engenharia inversa ao que o modelo está a fazer quando é exposto a um determinado input. Pode pensar nisto como compreender o que está codificado no ‘estado cerebral’ da máquina.”
Sinais de senso comum em chatbots de IA e modelos de linguagem
Ao comparar esses “estados cerebrais” internos entre pares de frases, os investigadores conseguiram observar se os modelos representavam as categorias de forma estruturada.
Compararam, então, como o sistema respondia a eventos comuns, improváveis, impossíveis e totalmente sem sentido. Se os padrões internos fossem claramente distintos, isso indicaria que os modelos não estavam a tratar todas as frases estranhas como se fossem equivalentes.
A equipa repetiu as experiências em vários modelos de código aberto, incluindo o GPT-2, o Llama 3.2 da Meta e o Gemma 2 da Google.
Desta forma, obtiveram uma visão mais abrangente sobre se este comportamento era uma característica de um único modelo ou algo que surge de forma mais geral neste tipo de sistemas linguísticos.
A diferença entre o possível e o impossível
Os investigadores concluíram que modelos maiores desenvolvem padrões matemáticos distintos - ou vetores - associados às diferentes categorias de plausibilidade.
Esses padrões foram suficientemente fortes para separar até casos muito próximos, como eventos improváveis e eventos impossíveis, com cerca de 85 por cento de precisão.
Distinguir disparate de senso comum pode não parecer impressionante à primeira vista. No entanto, traçar a linha entre algo improvável e algo impossível é bem mais difícil - até para humanos.
O facto de os modelos acompanharem essa distinção com relativa robustez sugere que poderão estar a captar algo mais estruturado do que mera frequência de palavras.
A IA reflete o senso humano
A equipa encontrou ainda um resultado que torna estas conclusões mais intrigantes: os modelos pareciam espelhar a incerteza humana quando a categoria era ambígua.
Considere-se a frase “Alguém limpou o chão com um chapéu.” Algumas pessoas podem considerá-la apenas estranha e improvável, enquanto outras a poderão classificar como impossível em qualquer sentido realista.
Os investigadores compararam os “julgamentos” internos dos modelos com respostas de um inquérito feito a participantes humanos. Verificaram que, quando as pessoas se dividiam, os modelos também tendiam a dividir-se.
“O que mostramos é que os modelos captam bastante bem essa incerteza humana”, disse Lepori.
“Em casos em que, por exemplo, 50 por cento das pessoas disseram que uma afirmação era impossível e 50 por cento disseram que era improvável, os modelos também atribuíam aproximadamente 50 por cento de probabilidade.”
Estes resultados sugerem que os modelos também podem representar zonas cinzentas de um modo semelhante à forma como os humanos pensam.
Compreender como os eventos funcionam
Em conjunto, as conclusões indicam que grandes modelos de linguagem conseguem desenvolver algo parecido com uma compreensão do mundo - ou, pelo menos, uma representação interna útil de como os eventos tendem a decorrer.
Os investigadores observaram que estes padrões começam a surgir em modelos com mais de 2 mil milhões de parâmetros, o que é, na verdade, bastante modesto quando comparado com os maiores sistemas atualmente em uso.
Este ponto merece atenção, porque sugere que este tipo de conhecimento do mundo não exige necessariamente os modelos absolutamente mais enormes. Pode aparecer relativamente cedo, assim que o sistema atinge um nível suficiente de complexidade.
De forma mais ampla, o trabalho mostra por que razão a interpretabilidade mecanicista é importante. Se os investigadores compreenderem o que os modelos sabem, como organizam esse conhecimento e onde falham, tornam-se possíveis sistemas mais fiáveis e transparentes.
Este estudo não prova que a IA “compreende” o mundo no mesmo sentido rico e vivido em que os humanos o fazem. Ainda assim, sugere que, dentro de toda a maquinaria estatística, está a formar-se algo mais estruturado.
Isso poderá ser uma das razões pelas quais estes sistemas parecem surpreendentemente competentes a lidar com a realidade, mesmo quando tudo o que “viram” foi linguagem.
A investigação será apresentada na Conferência Internacional sobre Representações de Aprendizagem, no Rio de Janeiro, Brasil.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário