Internet Sem Internet
E o motivo pelo qual o seu trabalho feito pelo ChatGPT não levou a nota que você esperava
Introdução
Você deve conhecer Inteligências Artificiais. É a principal Coisa do Momento e provavelmente a maioria das pessoas que utilizam internet conhecem pelo menos o maior provedor de IA atualmente: ChatGPT. A verdade é que o ChatGPT não é necessariamente o melhor provedor de IA, mas é com certeza o que tem a melhor distribuição, ou seja, a maior capacidade de se vender ao público geral. A ascensão da IA enquanto produto para o público geral começou com o lançamento da interface do GPT-3.5 (modelo usado na primeira versão do ChatGPT) no final de 2022. Antes disso, IA como um todo não era uma área que muitas pessoas se interessavam, afinal, é um conteúdo bastante técnico e que não tinha tanto uso real para um consumidor normal até então (pelo menos não em sua forma pura, afinal, modelos de Deep Learning já eram amplamente utilizados na indústria para várias finalidades). O GPT-2, irmão mais novo do modelo lançado em 2022, era bastante impressionante para alguém da área de Machine Learning, pois mostrava um avanço nos modelos massivos de linguagem (modelos que são treinados em corpos grandes de texto), mas não teve sucesso no mainstream principalmente pelo fato de não ser acessível.
O que são e onde vivem
Modelos Massivos de Linguagem (ou Large Language Models – LLMs) é um termo que parece ser muito técnico, mas aqui vai uma explicação do que realmente é (cortesia de um): Um LLM é uma inteligência artificial treinada com bilhões de palavras da internet para reconhecer padrões da linguagem humana. Ele organiza o conhecimento em um “mapa” chamado espaço latente e, ao receber uma pergunta, usa o mecanismo de atenção para focar nas partes mais importantes do texto e gerar respostas coerentes com base no que aprendeu—esse processo é chamado de inferência. O meu foco aqui é na parte das bilhões de palavras da internet, basicamente um modelo de linguagem é uma função matemática massiva de multiplicação de matrizes e vetores que armazena a informação de bilhões de textos e pode ser consultada com linguagem natural. Se você colocasse uma pessoa de ~10 anos atrás para conversar com um desses modelos e depois dissesse que ela estava conversando com uma máquina, ela iria rir da sua cara, e depois iria ficar com medo. Se fizesse o mesmo com alguém na Grécia Antiga, a pessoa acharia que estava conversando com o oráculo.
Esses modelos armazenam toda essa informação no espaço latente: é um espaço altamente multidimensional dentro do modelo que aloca toda a informação que ele contém em posições representadas por vetores compostos por uma lista de números. Esses números são aprendidos pelo modelo durante o treinamento. Por exemplo, a palavra “rei” pode ser representada por um vetor como [0.7, -1.2, 0.5, ...]. Palavras com significado parecido, como “rainha”, terão vetores próximos. Se você, por exemplo, pegar os valores do vetor de rei e somar aos valores do vetor de mulher, vai acabar com um valor aproximado do vetor de rainha. Caso queira entender melhor esse sistema, recomendo esse vídeo.
Como criar seu próprio oráculo
A natureza da maneira que esses modelos armazenam toda essa informação os permite serem muito mais do que assistentes virtuais, mas servirem como um buscador de informação offline. Pessoas comuns como eu e (provavelmente) você têm acesso a esses modelos através de provedores, que disponibilizam estrutura própria de hardware para rodar sessões dos modelos e prover as informações através de uma interface de conversação. Mas, se eu ou você tivermos o hardware necessário, é possível rodar um modelo desses sem precisar de acesso à internet e fazer inferências de maneira privada. Isso significa, na prática, que é possível ter a sua própria cópia (de grande parte da) Internet no conforto da sua casa pelo irrisório custo de centenas de milhares de dólares em hardware, refrigeração e custos de energia!!.
Sim, ainda é muito inviável fazer isso. Um modelo flagship (de ponta) de IA requer uma quantidade absurda de poder de processamento para funcionar. No entanto, não priemos cânico, recentemente, ocorreram grandes avanços em modelos de poucos parâmetros, como o Qwen2.5B, que é quase 100x menor que o GPT-4o (modelo usado por padrão no ChatGPT hoje em dia) e é rodável em um setup relativamente barato. Mas, infelizmente, mesmo com um modelo flagship não seria 100% possível o uso como fonte única de informação, por conta das alucinações. Alucinações em modelos de IA são respostas inventadas ou incorretas geradas pelo modelo, que parecem verdadeiras mas não têm base na realidade. Isso acontece quando a IA “preenche lacunas” com informações plausíveis, mas erradas, por conta de limitações de compreensão (é por isso que aquele seu trabalho feito pelo ChatGPT que você entregou sem ler levou uma nota ruim). Muitas das alucinações podem ser contornadas, mas ainda sim uma hora ou outra você acaba se deparando com algum absurdo. Na realidade, as alucinações ocorrem quando o modelo falha em distinguir o contexto do conteúdo que ele está produzindo por conta da quantidade absurda de informação que ele contém. Eu costumo falar que para produzir menos alucinações com uma IA você tem que tratar ela como se fosse uma criança que possui toda a informação do mundo no cérebro, mas não sabe, e você tem que perguntar as coisas de um jeito muito específico para receber a resposta certa.
Espero que tenha gostado da divagação, querido leitor, forte abraço.
-Evanildo Dagort Junior
Decidi colocar ao final dos artigos algumas recomendações de leitura, para esse dedico:
A Epístola de Tiago, da Bíblia Sagrada
The Average is Over, de Tyler Cowen
The Laws of Trading, de Agustin Lebron
