Artigo AI·Inteligência Artificial·14 min de leitura

Chain-of-Thought Prompting: O Guia Completo (2026)

Chain-of-Thought é uma das técnicas mais eficazes já descobertas em prompt engineering. Em problemas de lógica, matemática e código, pode aumentar acurácia em 30–60% só pedindo ao modelo para mostrar o raciocínio. Aqui está o guia definitivo.

Por Vitor Morais

Fundador do MochaLabz · publicado em 18 de abril de 2026

🧠

Gere prompts otimizados em segundos

Templates com CoT, few-shot e role prompting para ChatGPT, Claude e Gemini.

Usar gerador de prompts →

Chain-of-Thought (CoT) é pedir ao LLM que mostre o raciocínio antes de responder. Funciona porque LLMs pensam ao escrever — cada token gerado informa o próximo. Em problemas de lógica e matemática, CoT eleva a acurácia de modelos grandes drasticamente. Modelos modernos com reasoning interno (Claude Thinking, GPT-5, o3) já fazem CoT por baixo dos panos, mas dominar a técnica continua valioso para guiar formato e custo.

O que é Chain-of-Thought (CoT)

Chain-of-Thought (cadeia de pensamento) é uma técnica de prompt em que você pede ao modelo de linguagem para explicar o raciocínio passo a passo antes de dar a resposta final. O termo foi cunhado em 2022 por pesquisadores do Google Brain no paper “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”.

Antes do CoT, prompts “pergunta direta → resposta” tinham acurácia limitada em problemas que exigem múltiplos passos — aritmética, lógica simbólica, common-sense reasoning. O paper mostrou que apenas adicionar a frase “Vamos pensar passo a passo” ao prompt aumentava a acurácia em benchmarks como GSM8K (problemas de matemática) de ~17% para ~58% no PaLM-540B. A diferença foi grande o bastante para virar técnica padrão.

Por que CoT funciona

LLMs geram texto token a token, e cada token novo é condicionado em todos os tokens anteriores. Quando o modelo escreve o raciocínio antes da resposta, ele literalmente usa esse raciocínio como entrada para gerar a conclusão. É equivalente a um humano fazendo cálculo com papel e lápis: cada passo intermediário fica disponível na memória de trabalho.

Sem CoT, o modelo precisa “pensar” tudo num único token — o que está além da capacidade de redes neurais para problemas multi-passo. Com CoT, ele aloca tokens (capacidade computacional extra) para etapas intermediárias e a resposta final emerge de uma base mais rica.

A intuição em uma frase

Mais tokens gerados = mais computação por problema. CoT é a forma mais simples de dar ao modelo o “papel e caneta” para resolver questões que não cabem em um único forward-pass.

Os 4 sabores principais de CoT

Zero-shot CoT

A forma mais simples. Você apenas instrui o modelo a pensar passo a passo, sem dar exemplos:

PROMPT (sem CoT):
"Roger tem 5 bolas. Compra 2 latas com 3 bolas cada.
Quantas bolas ele tem agora?"

→ Modelo médio responde: "8" ❌

PROMPT (zero-shot CoT):
"Roger tem 5 bolas. Compra 2 latas com 3 bolas cada.
Quantas bolas ele tem agora?
Vamos pensar passo a passo."

→ Modelo: "Roger começa com 5 bolas.
   Cada lata tem 3 bolas, e ele comprou 2 latas: 2×3 = 6.
   Total: 5 + 6 = 11. Resposta: 11 bolas." ✅

Few-shot CoT

Em vez de instruir, você mostra exemplos de problemas resolvidos com raciocínio explícito. O modelo aprende o padrão e replica:

Q: Ana tem 23 maçãs. Usa 5 numa torta e 3 num lanche.
   Quantas sobram?
A: Ana começa com 23 maçãs.
   Tira 5 para a torta: 23 - 5 = 18.
   Tira mais 3 para o lanche: 18 - 3 = 15.
   Resposta: 15 maçãs.

Q: João tinha R$100. Comprou 3 livros a R$22 cada
   e gastou R$15 no almoço. Quanto sobrou?
A:

Few-shot CoT é mais robusto que zero-shot: o modelo não precisa adivinhar o formato de raciocínio que você quer. Ideal quando a consistência do output importa.

Veja o guia completo de few-shot prompting para entender como construir os exemplos com qualidade.

Self-Consistency

Estende CoT executando o mesmo prompt várias vezes com temperature alta e votando na resposta mais comum. Aumenta acurácia em problemas com múltiplos caminhos válidos:

# Pseudocódigo
respostas = []
for _ in range(10):
    saida = llm(prompt_cot, temperature=0.7)
    respostas.append(extrair_resposta_final(saida))

# Voto majoritário
resposta_final = mais_comum(respostas)

Tree-of-Thoughts (ToT)

Em vez de uma cadeia linear, o modelo explora uma árvore de raciocínios: gera várias hipóteses, avalia cada uma e expande a melhor. Pesado em tokens, mas resolve problemas que CoT linear erra.

PROMPT ToT manual:
"Liste 3 abordagens diferentes para resolver este
problema. Para cada uma, avalie prós e contras.
Depois escolha a melhor e desenvolva em detalhe.

Problema: [enunciado]"

Quando CoT brilha (e quando não ajuda)

Onde aplicar (ou evitar) Chain-of-Thought
Critério	Tipo de tarefa	CoT ajuda?
Aritmética / matemática	Sim — ganho típico de 20–60%
Lógica simbólica, silogismos	Sim — quase sempre vital
Programação complexa, debug	Sim — força o modelo a verificar premissas
Análise multi-fator (decisões)	Sim — torna trade-offs explícitos
Planejamento e roteiros	Sim — etapas geram coerência
Tradução simples	Não — não há passos intermediários
Lookup factual ("capital da França")	Não — pode introduzir erro
Criatividade pura (poesia, brainstorm)	Geralmente não — engessa
Resumo de texto	Às vezes — útil em textos longos com vários temas

Como escrever um prompt CoT eficaz

Use esta estrutura como ponto de partida:

SISTEMA:
Você é [role específica]. Para cada pergunta, siga estes passos:

1. Reformule a pergunta em suas palavras.
2. Liste a informação relevante presente no enunciado.
3. Aplique o raciocínio passo a passo, mostrando cada etapa.
4. Verifique a resposta contra o enunciado original.
5. Apresente a resposta final no formato: "Resposta: ..."

USUÁRIO:
[pergunta]

Cinco princípios que aumentam a robustez:

Numere os passos. Modelos seguem instruções numeradas com mais consistência que parágrafos.
Peça verificação. Adicionar “verifique a resposta” faz o modelo re-checar e corrigir erros.
Defina o formato final. “Resposta: X” em uma linha facilita parse programático.
Limite a temperatura entre 0 e 0.3 para tarefas factuais.
Combine com role prompting. “Você é um auditor financeiro” gera raciocínio mais cauteloso que “você é um assistente”.

CoT na prática com a API

OpenAI / GPT-5

import OpenAI from 'openai';
const openai = new OpenAI();

async function answerWithCoT(question: string) {
  const response = await openai.chat.completions.create({
    model: 'gpt-5',
    messages: [
      {
        role: 'system',
        content: `Você é um assistente analítico. Para cada pergunta:
1. Identifique o que é pedido.
2. Liste os dados relevantes.
3. Mostre o raciocínio passo a passo.
4. Verifique a resposta.
5. Conclua com "Resposta: <valor>"`,
      },
      { role: 'user', content: question },
    ],
    temperature: 0.2,
  });

  return response.choices[0].message.content;
}

Anthropic / Claude

import Anthropic from '@anthropic-ai/sdk';
const anthropic = new Anthropic();

async function answerWithCoT(question: string) {
  const message = await anthropic.messages.create({
    model: 'claude-opus-4-7',
    max_tokens: 1024,
    system: `Pense passo a passo dentro de <reasoning></reasoning>
e responda dentro de <answer></answer>.`,
    messages: [{ role: 'user', content: question }],
  });

  return message.content[0].type === 'text' ? message.content[0].text : '';
}

Tags XML são amigas do Claude

O Claude foi treinado para reconhecer estrutura via tags XML como <reasoning>, <analysis>, <answer>. Use isso para separar pensamento de resposta e parsear o output programaticamente.

Modelos com raciocínio interno (o1, Claude Thinking)

A geração 2024–2026 de modelos trouxe a categoria reasoning models: GPT-5 (modo thinking), o3, Claude Thinking, Gemini 2.5 reasoning. Eles aplicam CoT internamente — gastam tokens “de pensamento” antes de responder, sem mostrar o raciocínio ao usuário.

CoT explícito vs. modelos com reasoning interno
Critério	CoT explícito	Reasoning model
Quem dirige o raciocínio	Você (no prompt)	O próprio modelo
Tokens gerados	Visíveis e cobrados	Maioria oculta, ainda cobrada
Latência	Aumenta com o output	Aumenta significativamente (10–60s)
Quando vale	Modelos clássicos, controle do formato	Problemas com cadeias longas (provas, código)
Pode combinar?	Sim — guia o estilo do raciocínio	Sim — útil em formatos rígidos

Custo, latência e quando vale

O custo de CoT é proporcional ao tamanho do raciocínio. Em problemas curtos (matemática básica, classificação simples), CoT pode triplicar o número de output tokens. Em problemas longos (programação, análise), o raciocínio pode ocupar 70% dos tokens.

Estratégias para reduzir custo sem perder qualidade:

CoT seletivo: ative apenas quando a entrada exige raciocínio (detecte por heurística ou roteador).
Limite o output: “Use no máximo 5 frases para o raciocínio” dá ganho de acurácia sem explodir tokens.
Cache de prompt: system prompts longos com instruções de CoT podem ser cacheados (Anthropic, OpenAI suportam).
Menor temperature: reduz divagação no raciocínio.

Para mais técnicas de redução de tokens, veja como economizar tokens no ChatGPT e Claude.

Armadilhas e como mitigar

Cuidado com a falsa segurança

Um raciocínio bem escrito parece confiável mesmo quando está errado. Esse é o maior risco do CoT: o output convence pela forma, não pelo conteúdo. Em decisões críticas, sempre valide contra fonte autoritativa.

Alucinação eloquente: o modelo cria passos intermediários falsos com aparência válida. Mitigação: peça que cite fonte ou que verifique cada premissa.
Modelos pequenos: CoT em modelos < 60B parâmetros frequentemente piora respostas. Mitigação: teste em benchmark antes de aplicar em produção.
Latência: CoT aumenta tempo de resposta. Em chat ao vivo, considere streaming para mostrar progresso.
Vazamento do raciocínio em produção: se o usuário não deve ver os passos, parseie e exiba só a resposta final (use tags como <answer>).

Checklist do prompt CoT perfeito

✅ Modelo é grande o suficiente (GPT-4o+, Claude 4+, Gemini 2+).
✅ Tarefa exige múltiplos passos (matemática, lógica, código, análise).
✅ Instrução de raciocínio numerada e clara.
✅ Etapa de verificação explícita.
✅ Formato final padronizado (“Resposta: X” ou tags XML).
✅ Temperature baixa (0–0.3) para tarefas factuais.
✅ Para tarefas críticas: Self-Consistency com 3–10 execuções.
✅ Validação humana em decisões irreversíveis.
✅ Monitoramento de custo de output tokens em produção.

Perguntas frequentes

O que é Chain-of-Thought (CoT) em prompt engineering?+

Chain-of-Thought é a técnica de pedir ao LLM que mostre o raciocínio intermediário antes de dar a resposta final. Em vez de "qual é o resultado?", você pede "vamos pensar passo a passo, depois apresente a resposta". Em problemas de matemática, lógica e código complexo, isso aumenta acurácia em 30–60%.

CoT funciona em qualquer modelo de linguagem?+

Não. CoT depende de capacidade emergente que aparece em modelos grandes (~60B parâmetros para cima). Em modelos menores (até 13B), pedir para "pensar passo a passo" pode até piorar a resposta, porque o modelo gera texto plausível mas sem raciocínio real. Em GPT-4o, GPT-5, Claude 4.x, Gemini 2.x, CoT funciona muito bem.

Qual a diferença entre CoT e modelos de raciocínio (o1, Claude Thinking)?+

CoT é técnica de prompt — você induz o raciocínio. Modelos de raciocínio (o1, o3, Claude Thinking, GPT-5 thinking) já fazem CoT internamente, com etapas escondidas, e o usuário só vê a resposta final. Você pode usar CoT explícito mesmo nesses modelos para guiar a estrutura do raciocínio, mas ganha menos diferença marginal.

CoT aumenta o custo de tokens?+

Sim. Como o modelo gera texto adicional (o raciocínio), o número de output tokens cresce. Em problemas curtos isso pode triplicar o custo da resposta. Em modelos com reasoning interno, o custo é ainda maior porque os tokens de pensamento também são cobrados, embora não sejam exibidos.

CoT pode piorar a qualidade da resposta?+

Sim, em três cenários: (1) modelos pequenos que fazem raciocínio simulado mas errado; (2) tarefas simples de lookup, onde o passo extra introduz alucinação; (3) tarefas criativas (poesia, brainstorming), onde forçar estrutura linear engessa o resultado.

Como combinar CoT com few-shot prompting?+

Inclua exemplos onde o raciocínio passo a passo está explícito antes da resposta. O modelo aprende o padrão e replica. É a forma mais robusta de CoT porque combina dois sinais: "este é o tipo de problema" + "este é o tipo de raciocínio que se espera".

Existe risco de o modelo alucinar dentro do raciocínio CoT?+

Sim. Um raciocínio bem escrito pode parecer confiável mesmo quando a conclusão está errada — o que torna a alucinação mais perigosa, porque é convincente. Sempre verifique resultados críticos contra uma fonte confiável e considere usar Self-Consistency (várias execuções + voto) em decisões importantes.

O que é Tree-of-Thoughts (ToT) e quando usar?+

Tree-of-Thoughts é uma extensão do CoT em que o modelo explora várias linhas de raciocínio em paralelo, avalia cada uma e escolhe a melhor. Útil em problemas com múltiplas estratégias possíveis (puzzles, design de sistema, planejamento). Custa mais, mas resolve problemas que CoT linear erra.

#chain of thought#prompting#ia#llm#raciocínio#chatgpt#claude#gemini#tree of thoughts#self consistency

Continue lendo

Inteligência ArtificialAI13 min de leitura

Como Economizar Tokens no ChatGPT, Claude e Gemini (Guia 2026)

Reduza o custo das APIs de IA em 40–80% sem perder qualidade. 12 técnicas práticas: compressão, prompt caching, modelos em cascata, RAG, batching, sumarização — com estimativas reais.

18 de abril de 2026

Ler artigo

#tokens#chatgpt#claude

Inteligência ArtificialAI12 min de leitura

Janela de Contexto em IA: Guia Completo (2026) com Limites por Modelo

A janela de contexto define quanto texto um LLM consegue processar de uma vez. Conheça os limites de GPT-5, Claude, Gemini e Llama em 2026, lost-in-the-middle, RAG, chunking e prompt caching.

18 de abril de 2026

Ler artigo

#janela contexto#context window#tokens

Inteligência ArtificialAI13 min de leitura

Few-Shot Prompting: Como Ensinar Padrões à IA com Exemplos (2026)

Few-shot prompting é a técnica mais confiável para garantir formato e consistência em saídas de LLMs. Aprenda zero-shot vs one-shot vs few-shot, quantos exemplos usar, combinação com Chain-of-Thought e quando migrar para fine-tuning.

18 de abril de 2026

Ler artigo

#few shot#prompting#ia