Está à espera que o ChatGPT termine a resposta. Passam dois, três segundos. As palavras aparecem uma a uma, da esquerda para a direita, como se um escritor estivesse a ditar devagar para um estenógrafo. É funcional, mas há ali um desconforto — porque o cérebro humano não funciona assim.
Quando pensamos numa frase, não a construímos palavra a palavra. O cérebro ativa em paralelo uma rede de conceitos, sintaxe e intenção, e só depois — quando a forma está suficientemente madura — a articulamos. Os modelos de linguagem que conhecemos fizeram sempre o oposto: geram palavra a palavra, comprometendo-se com cada token antes de ver a frase completa.
Na passada quarta-feira, 10 de Junho de 2026, a Google DeepMind virou o tabuleiro — e, sem alardes, aproximou-se mais do cérebro humano do que qualquer modelo antes dele.
Processo de difusão em paralelo — ilustração conceptual. Linus Zoll para Google DeepMind Visualising AI / Unsplash
DiffusionGemma: gerar texto como quem revela uma fotografia
O novo modelo chama-se DiffusionGemma. Experimental, Apache 2.0, baseado na Gemma 4 — 26 mil milhões de parâmetros, mas o importante não é o tamanho, é a física da coisa.
Desde que os transformers apareceram (2017), todos os grandes modelos de linguagem — GPT, Claude, Llama, Gemini — são autoregressivos: lêem da esquerda para a direita e geram um token de cada vez. Uma máquina de escrever que nunca pode voltar atrás. Cada palavra depende da anterior. Um erro no quinto parágrafo? Azar.
O DiffusionGemma faz o oposto. Em vez de palavra a palavra, começa por criar um "rascunho" de 256 tokens aleatórios — puro ruído — e depois refina-o ao longo de 12 a 48 passos. A cada passo, avalia o bloco inteiro em paralelo, mantém o que está confiante, deita fora o que não está, e tenta outra vez. Ao fim de alguns passos, o ruído é uma frase.
Parece-lhe familiar? É exatamente como o Stable Diffusion gera imagens. Só que, aqui, o ruído são tokens de texto.
A velocidade que muda tudo
Esta abordagem tem uma consequência imediata: velocidade. A geração paralela de 256 tokens de cada vez significa que, numa única H100 da NVIDIA, o DiffusionGemma produz mais de 1000 tokens por segundo — cerca de 5 a 6 vezes mais rápido que um modelo autoregressivo equivalente. Numa RTX 5090, ultrapassa os 700 tokens por segundo. Em hardware de consumidor com 18GB de VRAM, o modelo cabe na totalidade.
Cérebro digital com rede neuronal. Fonte: Unsplash
A Google é clara: o modelo é experimental e sacrifica alguma qualidade — perde para o Gemma 4 padrão em quase todos os benchmarks — mas o que ganha em velocidade e edição em tempo real compensa para muitos cenários.
Para aplicações que exigem qualidade máxima, recomendamos o Gemma 4 standard.
— Google DeepMind
A neurocientista que ligou os dois mundos
Em Outubro de 2025, um artigo científico no OpenReview perguntou: como é que o cérebro planeia a fala? A equipa registou atividade ECoG de pacientes epiléticos enquanto falavam naturalmente — e depois correlacionaram essa atividade com os passos de denoising de um modelo de difusão para texto (dLLM).
Linus Zoll para Google DeepMind Visualising AI / Pexels
As representações internas do modelo de difusão explicavam variância neural significativa — especialmente no giro temporal médio e inferior (processamento semântico) e nas regiões motoras (planeamento da fala). A dinâmica de denoising correspondia temporalmente à atividade cerebral antes da articulação.
O cérebro, tal como o DiffusionGemma, parece construir a frase inteira em paralelo e refiná-la progressivamente, só a articulando quando a representação interna está estável.
— Portugal Binário
Atenção bidirecional: o cérebro não lê só da esquerda para a direita
O DiffusionGemma usa atenção bidirecional durante o denoising: cada token no canvas pode "ver" todos os outros. Um estudo de 2024 na revista Neuron mostrou que o cérebro faz o mesmo — as áreas de linguagem comunicam de forma densa e bidirecional, não linear.
O modelo capta esta dualidade com uma engenharia elegante: os mesmos pesos são usados em dois modos — encoder (atenção causal para o prompt) e decoder (atenção bidirecional para denoising). Tal como o cérebro.
26B com 3,8 ativos: o cérebro também é seletivo
O DiffusionGemma é Mixture-of-Experts (MoE): 26 mil milhões de parâmetros no total, mas só ativa 3,8 mil milhões por passo. O router decide quais especialistas usar para cada token. É a especialização funcional do cérebro: Broca para sintaxe, Wernicke para léxico, córtex motor para articulação.
Circuito neuronal digital. Fonte: Unsplash
Entropia, temperatura e auto-condicionamento
O modelo mede a entropia de cada posição: tokens confiantes são mantidos, inseguros são descartados. A temperatura começa alta (0.8, exploração) e desce (0.4, fixação). O self-conditioning realimenta a distribuição do passo anterior — como o feedback top-down no córtex.
Onde o diffusion perde para o autoregressivo
O modelo é experimental. Nos benchmarks, perde para o Gemma 4 standard: GPQA Diamond 40.4% (vs 56.5%), Global MMLU 69.1% (vs 79.0%), SWE-Bench 22.9% (vs 28.5%). Para tarefas de edição em tempo real e código, brilha. Para precisão factual, o Gemma 4 tradicional é superior.
Conclusão: a revolução silenciosa
Pela primeira vez, um modelo de linguagem prático e aberto torna viável o que já se explorava desde 2022 (Diffusion-LM, GENIE, D3PM) mas estava quase abandonado: gerar texto por difusão, de forma eficiente e em hardware acessível. E um artigo de neurociência, publicado oito meses antes, já tinha mostrado cientificamente que a dinâmica de denoising dos dLLMs corresponde à atividade cerebral durante o planeamento da fala.
A questão já não é "se a IA vai imitar o cérebro". A questão é: se o cérebro faz difusão, porque é que os nossos modelos demoraram tanto a perceber?
— Portugal Binário
💬 Comentários
Nenhum comentário ainda. Sê o primeiro a comentar!