Chain-of-Thought Prompting: O Guia Completo (2026)
Chain-of-Thought é uma das técnicas mais eficazes já descobertas em prompt engineering. Em problemas de lógica, matemática e código, pode aumentar acurácia em 30–60% só pedindo ao modelo para mostrar o raciocínio. Aqui está o guia definitivo.
Por Vitor Morais
Fundador do MochaLabz ·
Gere prompts otimizados em segundos
Templates com CoT, few-shot e role prompting para ChatGPT, Claude e Gemini.
Usar gerador de prompts →Chain-of-Thought (CoT) é pedir ao LLM que mostre o raciocínio antes de responder. Funciona porque LLMs pensam ao escrever — cada token gerado informa o próximo. Em problemas de lógica e matemática, CoT eleva a acurácia de modelos grandes drasticamente. Modelos modernos com reasoning interno (Claude Thinking, GPT-5, o3) já fazem CoT por baixo dos panos, mas dominar a técnica continua valioso para guiar formato e custo.
O que é Chain-of-Thought (CoT)
Chain-of-Thought (cadeia de pensamento) é uma técnica de prompt em que você pede ao modelo de linguagem para explicar o raciocínio passo a passo antes de dar a resposta final. O termo foi cunhado em 2022 por pesquisadores do Google Brain no paper “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”.
Antes do CoT, prompts “pergunta direta → resposta” tinham acurácia limitada em problemas que exigem múltiplos passos — aritmética, lógica simbólica, common-sense reasoning. O paper mostrou que apenas adicionar a frase “Vamos pensar passo a passo” ao prompt aumentava a acurácia em benchmarks como GSM8K (problemas de matemática) de ~17% para ~58% no PaLM-540B. A diferença foi grande o bastante para virar técnica padrão.
Por que CoT funciona
LLMs geram texto token a token, e cada token novo é condicionado em todos os tokens anteriores. Quando o modelo escreve o raciocínio antes da resposta, ele literalmente usa esse raciocínio como entrada para gerar a conclusão. É equivalente a um humano fazendo cálculo com papel e lápis: cada passo intermediário fica disponível na memória de trabalho.
Sem CoT, o modelo precisa “pensar” tudo num único token — o que está além da capacidade de redes neurais para problemas multi-passo. Com CoT, ele aloca tokens (capacidade computacional extra) para etapas intermediárias e a resposta final emerge de uma base mais rica.
A intuição em uma frase
Mais tokens gerados = mais computação por problema. CoT é a forma mais simples de dar ao modelo o “papel e caneta” para resolver questões que não cabem em um único forward-pass.
Os 4 sabores principais de CoT
Zero-shot CoT
A forma mais simples. Você apenas instrui o modelo a pensar passo a passo, sem dar exemplos:
PROMPT (sem CoT):
"Roger tem 5 bolas. Compra 2 latas com 3 bolas cada.
Quantas bolas ele tem agora?"
→ Modelo médio responde: "8" ❌
PROMPT (zero-shot CoT):
"Roger tem 5 bolas. Compra 2 latas com 3 bolas cada.
Quantas bolas ele tem agora?
Vamos pensar passo a passo."
→ Modelo: "Roger começa com 5 bolas.
Cada lata tem 3 bolas, e ele comprou 2 latas: 2×3 = 6.
Total: 5 + 6 = 11. Resposta: 11 bolas." ✅Few-shot CoT
Em vez de instruir, você mostra exemplos de problemas resolvidos com raciocínio explícito. O modelo aprende o padrão e replica:
Q: Ana tem 23 maçãs. Usa 5 numa torta e 3 num lanche.
Quantas sobram?
A: Ana começa com 23 maçãs.
Tira 5 para a torta: 23 - 5 = 18.
Tira mais 3 para o lanche: 18 - 3 = 15.
Resposta: 15 maçãs.
Q: João tinha R$100. Comprou 3 livros a R$22 cada
e gastou R$15 no almoço. Quanto sobrou?
A:Few-shot CoT é mais robusto que zero-shot: o modelo não precisa adivinhar o formato de raciocínio que você quer. Ideal quando a consistência do output importa.
Veja o guia completo de few-shot prompting para entender como construir os exemplos com qualidade.
Self-Consistency
Estende CoT executando o mesmo prompt várias vezes com temperature alta e votando na resposta mais comum. Aumenta acurácia em problemas com múltiplos caminhos válidos:
# Pseudocódigo
respostas = []
for _ in range(10):
saida = llm(prompt_cot, temperature=0.7)
respostas.append(extrair_resposta_final(saida))
# Voto majoritário
resposta_final = mais_comum(respostas)Tree-of-Thoughts (ToT)
Em vez de uma cadeia linear, o modelo explora uma árvore de raciocínios: gera várias hipóteses, avalia cada uma e expande a melhor. Pesado em tokens, mas resolve problemas que CoT linear erra.
PROMPT ToT manual:
"Liste 3 abordagens diferentes para resolver este
problema. Para cada uma, avalie prós e contras.
Depois escolha a melhor e desenvolva em detalhe.
Problema: [enunciado]"Quando CoT brilha (e quando não ajuda)
| Critério | Tipo de tarefa | CoT ajuda? |
|---|---|---|
| Aritmética / matemática | Sim — ganho típico de 20–60% | |
| Lógica simbólica, silogismos | Sim — quase sempre vital | |
| Programação complexa, debug | Sim — força o modelo a verificar premissas | |
| Análise multi-fator (decisões) | Sim — torna trade-offs explícitos | |
| Planejamento e roteiros | Sim — etapas geram coerência | |
| Tradução simples | Não — não há passos intermediários | |
| Lookup factual ("capital da França") | Não — pode introduzir erro | |
| Criatividade pura (poesia, brainstorm) | Geralmente não — engessa | |
| Resumo de texto | Às vezes — útil em textos longos com vários temas |
Como escrever um prompt CoT eficaz
Use esta estrutura como ponto de partida:
SISTEMA:
Você é [role específica]. Para cada pergunta, siga estes passos:
1. Reformule a pergunta em suas palavras.
2. Liste a informação relevante presente no enunciado.
3. Aplique o raciocínio passo a passo, mostrando cada etapa.
4. Verifique a resposta contra o enunciado original.
5. Apresente a resposta final no formato: "Resposta: ..."
USUÁRIO:
[pergunta]Cinco princípios que aumentam a robustez:
- Numere os passos. Modelos seguem instruções numeradas com mais consistência que parágrafos.
- Peça verificação. Adicionar “verifique a resposta” faz o modelo re-checar e corrigir erros.
- Defina o formato final. “Resposta: X” em uma linha facilita parse programático.
- Limite a temperatura entre 0 e 0.3 para tarefas factuais.
- Combine com role prompting. “Você é um auditor financeiro” gera raciocínio mais cauteloso que “você é um assistente”.
CoT na prática com a API
OpenAI / GPT-5
import OpenAI from 'openai';
const openai = new OpenAI();
async function answerWithCoT(question: string) {
const response = await openai.chat.completions.create({
model: 'gpt-5',
messages: [
{
role: 'system',
content: `Você é um assistente analítico. Para cada pergunta:
1. Identifique o que é pedido.
2. Liste os dados relevantes.
3. Mostre o raciocínio passo a passo.
4. Verifique a resposta.
5. Conclua com "Resposta: <valor>"`,
},
{ role: 'user', content: question },
],
temperature: 0.2,
});
return response.choices[0].message.content;
}Anthropic / Claude
import Anthropic from '@anthropic-ai/sdk';
const anthropic = new Anthropic();
async function answerWithCoT(question: string) {
const message = await anthropic.messages.create({
model: 'claude-opus-4-7',
max_tokens: 1024,
system: `Pense passo a passo dentro de <reasoning></reasoning>
e responda dentro de <answer></answer>.`,
messages: [{ role: 'user', content: question }],
});
return message.content[0].type === 'text' ? message.content[0].text : '';
}Tags XML são amigas do Claude
O Claude foi treinado para reconhecer estrutura via tags XML como <reasoning>, <analysis>, <answer>. Use isso para separar pensamento de resposta e parsear o output programaticamente.
Modelos com raciocínio interno (o1, Claude Thinking)
A geração 2024–2026 de modelos trouxe a categoria reasoning models: GPT-5 (modo thinking), o3, Claude Thinking, Gemini 2.5 reasoning. Eles aplicam CoT internamente — gastam tokens “de pensamento” antes de responder, sem mostrar o raciocínio ao usuário.
| Critério | CoT explícito | Reasoning model |
|---|---|---|
| Quem dirige o raciocínio | Você (no prompt) | O próprio modelo |
| Tokens gerados | Visíveis e cobrados | Maioria oculta, ainda cobrada |
| Latência | Aumenta com o output | Aumenta significativamente (10–60s) |
| Quando vale | Modelos clássicos, controle do formato | Problemas com cadeias longas (provas, código) |
| Pode combinar? | Sim — guia o estilo do raciocínio | Sim — útil em formatos rígidos |
Custo, latência e quando vale
O custo de CoT é proporcional ao tamanho do raciocínio. Em problemas curtos (matemática básica, classificação simples), CoT pode triplicar o número de output tokens. Em problemas longos (programação, análise), o raciocínio pode ocupar 70% dos tokens.
Estratégias para reduzir custo sem perder qualidade:
- CoT seletivo: ative apenas quando a entrada exige raciocínio (detecte por heurística ou roteador).
- Limite o output: “Use no máximo 5 frases para o raciocínio” dá ganho de acurácia sem explodir tokens.
- Cache de prompt: system prompts longos com instruções de CoT podem ser cacheados (Anthropic, OpenAI suportam).
- Menor temperature: reduz divagação no raciocínio.
Para mais técnicas de redução de tokens, veja como economizar tokens no ChatGPT e Claude.
Armadilhas e como mitigar
Cuidado com a falsa segurança
Um raciocínio bem escrito parece confiável mesmo quando está errado. Esse é o maior risco do CoT: o output convence pela forma, não pelo conteúdo. Em decisões críticas, sempre valide contra fonte autoritativa.
- Alucinação eloquente: o modelo cria passos intermediários falsos com aparência válida. Mitigação: peça que cite fonte ou que verifique cada premissa.
- Modelos pequenos: CoT em modelos < 60B parâmetros frequentemente piora respostas. Mitigação: teste em benchmark antes de aplicar em produção.
- Latência: CoT aumenta tempo de resposta. Em chat ao vivo, considere streaming para mostrar progresso.
- Vazamento do raciocínio em produção: se o usuário não deve ver os passos, parseie e exiba só a resposta final (use tags como
<answer>).
Checklist do prompt CoT perfeito
- ✅ Modelo é grande o suficiente (GPT-4o+, Claude 4+, Gemini 2+).
- ✅ Tarefa exige múltiplos passos (matemática, lógica, código, análise).
- ✅ Instrução de raciocínio numerada e clara.
- ✅ Etapa de verificação explícita.
- ✅ Formato final padronizado (“Resposta: X” ou tags XML).
- ✅ Temperature baixa (0–0.3) para tarefas factuais.
- ✅ Para tarefas críticas: Self-Consistency com 3–10 execuções.
- ✅ Validação humana em decisões irreversíveis.
- ✅ Monitoramento de custo de output tokens em produção.
Perguntas frequentes
O que é Chain-of-Thought (CoT) em prompt engineering?+
Chain-of-Thought é a técnica de pedir ao LLM que mostre o raciocínio intermediário antes de dar a resposta final. Em vez de "qual é o resultado?", você pede "vamos pensar passo a passo, depois apresente a resposta". Em problemas de matemática, lógica e código complexo, isso aumenta acurácia em 30–60%.
CoT funciona em qualquer modelo de linguagem?+
Não. CoT depende de capacidade emergente que aparece em modelos grandes (~60B parâmetros para cima). Em modelos menores (até 13B), pedir para "pensar passo a passo" pode até piorar a resposta, porque o modelo gera texto plausível mas sem raciocínio real. Em GPT-4o, GPT-5, Claude 4.x, Gemini 2.x, CoT funciona muito bem.
Qual a diferença entre CoT e modelos de raciocínio (o1, Claude Thinking)?+
CoT é técnica de prompt — você induz o raciocínio. Modelos de raciocínio (o1, o3, Claude Thinking, GPT-5 thinking) já fazem CoT internamente, com etapas escondidas, e o usuário só vê a resposta final. Você pode usar CoT explícito mesmo nesses modelos para guiar a estrutura do raciocínio, mas ganha menos diferença marginal.
CoT aumenta o custo de tokens?+
Sim. Como o modelo gera texto adicional (o raciocínio), o número de output tokens cresce. Em problemas curtos isso pode triplicar o custo da resposta. Em modelos com reasoning interno, o custo é ainda maior porque os tokens de pensamento também são cobrados, embora não sejam exibidos.
CoT pode piorar a qualidade da resposta?+
Sim, em três cenários: (1) modelos pequenos que fazem raciocínio simulado mas errado; (2) tarefas simples de lookup, onde o passo extra introduz alucinação; (3) tarefas criativas (poesia, brainstorming), onde forçar estrutura linear engessa o resultado.
Como combinar CoT com few-shot prompting?+
Inclua exemplos onde o raciocínio passo a passo está explícito antes da resposta. O modelo aprende o padrão e replica. É a forma mais robusta de CoT porque combina dois sinais: "este é o tipo de problema" + "este é o tipo de raciocínio que se espera".
Existe risco de o modelo alucinar dentro do raciocínio CoT?+
Sim. Um raciocínio bem escrito pode parecer confiável mesmo quando a conclusão está errada — o que torna a alucinação mais perigosa, porque é convincente. Sempre verifique resultados críticos contra uma fonte confiável e considere usar Self-Consistency (várias execuções + voto) em decisões importantes.
O que é Tree-of-Thoughts (ToT) e quando usar?+
Tree-of-Thoughts é uma extensão do CoT em que o modelo explora várias linhas de raciocínio em paralelo, avalia cada uma e escolhe a melhor. Útil em problemas com múltiplas estratégias possíveis (puzzles, design de sistema, planejamento). Custa mais, mas resolve problemas que CoT linear erra.
Continue lendo
Como Economizar Tokens no ChatGPT, Claude e Gemini (Guia 2026)
Reduza o custo das APIs de IA em 40–80% sem perder qualidade. 12 técnicas práticas: compressão, prompt caching, modelos em cascata, RAG, batching, sumarização — com estimativas reais.
Janela de Contexto em IA: Guia Completo (2026) com Limites por Modelo
A janela de contexto define quanto texto um LLM consegue processar de uma vez. Conheça os limites de GPT-5, Claude, Gemini e Llama em 2026, lost-in-the-middle, RAG, chunking e prompt caching.
Few-Shot Prompting: Como Ensinar Padrões à IA com Exemplos (2026)
Few-shot prompting é a técnica mais confiável para garantir formato e consistência em saídas de LLMs. Aprenda zero-shot vs one-shot vs few-shot, quantos exemplos usar, combinação com Chain-of-Thought e quando migrar para fine-tuning.