Crawl Budget: O que é e Como Otimizar para Indexar Mais Páginas
Crawl budget é a quantidade de URLs que o Googlebot rastreia no seu site em um período. Para sites pequenos, não é problema. Para sites com dezenas de milhares de páginas, pode ser a diferença entre ranquear e ser invisível.
Por Vitor Morais
Fundador do MochaLabz ·
Configure seu robots.txt sem dor
Gere um robots.txt enxuto que economiza crawl budget bloqueando rotas dinâmicas inúteis.
Gerar robots.txt →Crawl budget é o número de URLs que o Googlebot aceita rastrear no seu site num período. É determinado pela capacidade do seu servidor (crawl rate limit) e pelo interesse do Google em revisitar suas páginas (crawl demand). Otimizar significa três coisas: cortar o que não vale ser rastreado, deixar o que importa fácil de encontrar e tornar o servidor rápido.
O que é crawl budget
Crawl budget é o termo informal para a quantidade de URLs do seu site que o Googlebot decide visitar em um determinado período. Não é uma variável publicada nem um número fixo: é uma resultante dinâmica entre o que o seu servidor aguenta entregar e o quanto o Google considera que vale a pena ler.
Pense numa analogia: o Googlebot é um leitor que tem 10 minutos por dia para visitar a sua biblioteca. Se você tem 50 livros bem organizados e os mais importantes na entrada, ele lê todos. Se você tem 50 mil livros espalhados e duplicados, ele lê os mesmos repetidamente e nunca chega aos novos.
Como o Google define seu crawl budget
A documentação oficial do Google divide o cálculo em duas dimensões:
Crawl rate limit (capacidade)
É o teto técnico: quantas requisições simultâneas o Googlebot pode fazer ao seu servidor sem degradá-lo. Quando o servidor responde rápido (TTFB baixo, 2xx consistente), o Google sobe a frequência. Quando começa a ver 5xx, lentidão ou tempo de resposta crescente, ele recua imediatamente — proteção para não derrubar seu site.
Crawl demand (interesse do Google)
É o teto editorial: o quanto o Google “quer” rastrear seu site. Os principais sinais que aumentam crawl demand são:
- Popularidade: URLs com muitos links externos e impressões orgânicas atraem mais visitas do bot.
- Frescor (staleness): sites que atualizam com frequência ganham mais crawl para evitar que o índice fique velho.
- Eventos de mudança: migrações, redesenho, mudança de URL trigam picos temporários de crawl.
O que isso significa na prática
Você influencia o crawl rate limit melhorando infraestrutura (TTFB, cache, CDN). Você influencia o crawl demand publicando conteúdo bom e ganhando backlinks. Os dois trabalham juntos.
Quem realmente precisa se preocupar
O Google é claro: a maioria dos sites não precisa gastar tempo otimizando crawl budget. Foque nele se:
| Critério | Cenário | Crawl budget importa? |
|---|---|---|
| Site institucional (até ~500 URLs) | Não — foque em conteúdo e backlinks | |
| Blog (até ~5 mil URLs) | Geralmente não — checar GSC mensalmente | |
| E-commerce médio (10–100 mil) | Sim — facetas e parâmetros são o ralo principal | |
| E-commerce grande / marketplace (1M+) | Crítico — vira projeto contínuo | |
| Portal de notícias (atualização horária) | Sim — frescor exige mais crawl | |
| User-generated content / fórum | Sim — controle de URLs auto-geradas |
Sinais de que seu crawl budget está saturado
Antes de aplicar correções, confirme que você tem o problema. Sinais confiáveis:
- Páginas novas demoram dias ou semanas para aparecer no índice, mesmo com sitemap atualizado.
- Volume alto de URLs como “Descoberta — não indexada” no relatório de Páginas do GSC.
- Estatísticas de rastreamento (Configurações → GSC) mostram volume estável ou em queda mesmo após você publicar mais conteúdo.
- Logs do servidor mostram o Googlebot revisitando muito as mesmas URLs (geralmente paginação, filtros, parâmetros) em vez de páginas profundas.
- Mapa de calor de hits do Googlebot tem “buracos” em seções inteiras do site.
Os 7 maiores desperdiçadores de crawl budget
Em quase todo projeto SEO técnico, esses sete padrões respondem por 80%+ do desperdício:
1. Facetas e filtros infinitos
A combinação de filtros gera explosão combinatória de URLs com conteúdo praticamente igual:
/produtos?cor=azul&tamanho=m&ordem=preco
/produtos?ordem=preco&cor=azul&tamanho=m
/produtos?tamanho=m&cor=azul&ordem=preco
→ 3 URLs distintas para o Google
→ Conteúdo idêntico
→ Multiplique por todas as combinações: milhares de URLs inúteis2. Parâmetros de tracking (UTM, fbclid)
Cada link compartilhado em campanhas, e-mails e redes sociais cria uma URL única para o Google:
/post → mesma página, mas o Google enxerga:
/post?utm_source=newsletter
/post?utm_source=facebook&utm_medium=cpc
/post?fbclid=AbCd...
/post?gclid=Cj0KCQ...3. IDs de sessão dinâmicos
Sites antigos ou mal configurados ainda anexam ;sid= ou ?session= a cada visita. Para o Googlebot, cada visita é uma URL nova.
4. Redirects em cadeia
Redirect em cadeia (A → B → C → D) consome 4 requisições para chegar ao destino final. Em escala, isso engole crawl budget rápido.
Sempre faça redirect direto
Se você sabe que A redireciona para D, atualize o redirect para A → D diretamente, eliminando os intermediários. Use ferramentas como Screaming Frog para mapear cadeias.
5. Conteúdo thin e duplicado
Páginas de tags com 2 posts, perfis de usuário sem atividade, páginas de categoria duplicadas — tudo isso consome crawl sem dar retorno. Consolide ou bloqueie.
6. Paginação infinita ou muito longa
Listagens com /page/2/, /page/3/, ..., /page/500/ criam centenas de URLs com baixo valor. Limite paginação razoável e use canonical apontando para a primeira página em paginações longas, ou sitemap dedicado para os itens individuais.
7. URLs com erro (4xx/5xx) reincidentes
O Googlebot continua tentando URLs que dão erro por semanas antes de desistir. Se você tem milhares de 404s linkados internamente, remova os links e use 410 (Gone) em vez de 404 — o 410 sinaliza ao Google que a URL é definitiva.
Estratégias de otimização que funcionam
robots.txt: bloqueio preventivo
A linha de defesa mais rápida e efetiva é o robots.txt:
User-agent: *
# Bloqueia tracking parameters
Disallow: /*?utm_
Disallow: /*?fbclid=
Disallow: /*?gclid=
Disallow: /*?ref=
# Bloqueia ordenação e filtros não estratégicos
Disallow: /*?ordem=
Disallow: /*?sort=
Disallow: /*?view=
# Bloqueia áreas sem valor SEO
Disallow: /search # busca interna
Disallow: /carrinho
Disallow: /minha-conta
Disallow: /api/
# Sitemap
Sitemap: https://meusite.com/sitemap.xmlCanonical e parâmetros no GSC
Para URLs que você precisa servir mas não quer duplicar, use rel="canonical" apontando para a versão principal. Combine com a ferramenta de Parâmetros de URL no Search Console (em sites antigos ainda disponível) para sinalizar quais parâmetros não alteram o conteúdo.
<!-- Em /produtos?cor=azul&tamanho=m -->
<link rel="canonical" href="https://meusite.com/produtos" />
<!-- Em /post?utm_source=email -->
<link rel="canonical" href="https://meusite.com/post" />Sitemap enxuto e segmentado
Sitemaps gigantes (50 mil URLs num único arquivo) são pouco eficientes. Quebre por seção e mantenha apenas URLs que você quer que ranqueiem:
- Apenas URLs canônicas — nunca facetas ou parâmetros.
- Apenas URLs indexáveis — sem noindex, sem 4xx, sem redirect.
- last-modified preciso — Google usa para decidir o que re-rastrear.
- Segmentação: sitemap-posts.xml, sitemap-produtos.xml, sitemap-categorias.xml, com um sitemap-index.xml apontando para todos.
Veja como enviar e monitorar seu sitemap no Google Search Console para garantir que ele esteja sendo lido sem erros.
Arquitetura flat e linkagem interna
Quanto menos cliques entre a home e uma página importante, mais rápido o Google a rastreia e re-rastreia. Como regra prática:
- Página estratégica: ≤ 3 cliques da home.
- Página secundária: ≤ 5 cliques.
- Listas de hub (como categorias e tags) devem linkar para os itens mais valiosos, não só os mais recentes.
- Links contextuais dentro de artigos passam autoridade e direcionam crawl para páginas relacionadas.
Performance: TTFB e cache
Performance é multiplicador de crawl budget. Sites mais rápidos recebem mais visitas do Googlebot por unidade de tempo:
| Critério | TTFB médio | Páginas/dia (relativo) |
|---|---|---|
| 100 ms | 100 ms | × 3 (referência alta) |
| 300 ms | 300 ms | × 1,5 |
| 600 ms | 600 ms | × 1 (baseline) |
| 1 200 ms | 1 200 ms | × 0,5 (Google reduz) |
| 2 000+ ms | 2 000+ ms | × 0,2 (recuo agressivo) |
Cache HTTP, CDN, otimização de queries e SSG/ISR (em frameworks como Next.js) costumam ser as alavancas mais rápidas.
Como monitorar o crawl budget na prática
Três fontes complementares:
- Search Console → Configurações → Estatísticas de rastreamento. Mostra requisições/dia, kB baixados/dia, tempo de resposta médio, distribuição por finalidade (descoberta vs. atualização) e por tipo de arquivo.
- Logs do servidor (server-side logs). Filtre por
User-Agent: Googlebote veja exatamente quais URLs ele visita, com que frequência e qual status retornou. Ferramentas: Screaming Frog Log Analyzer, JetOctopus, Botify. - Crawls comparativos. Rode um crawl com Screaming Frog ou Sitebulb e compare o número de URLs descobertas com o número de URLs no sitemap e o número rastreado pelo Google. Os três valores deveriam convergir.
Erros comuns que destroem crawl budget
Lista negra
- Bloquear /assets/, /css/, /js/ no robots.txt: o Google precisa renderizar a página para rankear. Sem CSS e JS, ele vê HTML quebrado.
- Disallow + noindex juntos: contraditório. Se você bloqueou o crawl, o Google nunca vê a tag noindex.
- Soft 404s: páginas vazias ou de erro retornando 200 OK. O Google consome crawl tentando entender, e ainda indexa.
- Sitemap com URLs noindex/redirect/4xx: sinaliza ao Google que você não cuida do site.
- Mudar URLs sem 301: o Googlebot re-descobre tudo, perde sinais acumulados e desperdiça crawl em URLs antigas que continuam linkadas.
Checklist final de otimização
- ✅ robots.txt bloqueando parâmetros de tracking, ordenação e áreas sem valor SEO.
- ✅ Canonical em todas as URLs com facetas, paginação e variantes.
- ✅ Redirects 301 sempre diretos — sem cadeias A→B→C.
- ✅ 410 (Gone) em URLs definitivamente removidas, não 404.
- ✅ Sitemap segmentado por tipo, com last-modified preciso, apenas URLs canônicas.
- ✅ Sitemap referenciado no robots.txt e enviado ao Search Console.
- ✅ TTFB < 600 ms na maior parte das requisições.
- ✅ Páginas estratégicas a ≤ 3 cliques da home.
- ✅ Sem soft 404s — páginas vazias retornam 404 explícito.
- ✅ Monitoramento mensal das Estatísticas de rastreamento no GSC.
- ✅ Análise de logs do Googlebot pelo menos a cada trimestre em sites grandes.
Perguntas frequentes
Sites pequenos (até 1000 páginas) precisam se preocupar com crawl budget?+
Para a grande maioria dos sites com menos de mil URLs, crawl budget não é um problema relevante. O Googlebot costuma conseguir rastrear o site inteiro em poucos dias. Foque em qualidade de conteúdo, sitemap correto e velocidade. Crawl budget vira preocupação real a partir de ~10 mil URLs com atualizações frequentes.
Como saber se meu site é afetado por crawl budget?+
No Google Search Console, vá em Configurações → Estatísticas de rastreamento. Compare URLs rastreadas/dia com o tamanho do site. Se você tem 100 mil URLs e o Googlebot rastreia 500/dia, o site inteiro só é re-visitado a cada 200 dias — isso é saturação. Outro sinal: muitas URLs como "Descoberta — não indexada" no relatório de cobertura.
Bloquear uma URL no robots.txt remove ela do índice do Google?+
Não. robots.txt impede o crawl, mas a URL pode continuar indexada se tiver backlinks externos — aparecendo nas SERPs sem snippet, com título tipo "Nenhuma informação disponível". Para remover do índice, use a meta tag noindex (e, contra-intuitivamente, deixe o crawl liberado para o Google ver a tag).
Tag canonical resolve crawl budget?+
Parcialmente. Canonical sinaliza a URL principal entre duplicatas, mas o Googlebot ainda precisa rastrear as URLs duplicadas para descobrir a tag. Para crawl budget, é melhor combinar canonical com bloqueio no robots.txt (em casos óbvios como filtros de ordenação) e exclusão no relatório "Parâmetros de URL" do GSC.
Como sei quanto crawl budget meu site tem?+
O Google não publica esse número, mas você pode estimar via Search Console (Configurações → Estatísticas de rastreamento). Lá você vê requisições/dia, kB baixados/dia e tempo médio de resposta. Se a curva é estável, esse é seu orçamento atual; se é decrescente, você está perdendo crawl budget.
Sitemap.xml ajuda a aumentar o crawl budget?+
Não aumenta diretamente o budget, mas direciona melhor o que existe — o Googlebot prioriza URLs no sitemap. Mantenha o sitemap apenas com URLs canônicas, indexáveis e atualizadas. Submeta também as datas de last-modified corretas para que o Google re-rastreie só o que mudou.
Cloudflare ou CDN ajudam no crawl budget?+
Sim, indiretamente. Sites mais rápidos recebem mais crawl budget — o Googlebot ajusta a frequência baseado em latência. Reduzir TTFB de 1s para 200ms pode dobrar ou triplicar o número de páginas rastreadas/dia. Cuidado para não bloquear o Googlebot com challenges anti-bot agressivos.
Quanto tempo demora para o Google reagir a otimizações de crawl budget?+
Mudanças no robots.txt costumam refletir em 24–48h. Canonical e remoção de parâmetros levam 2–4 semanas para o Google reprocessar e ajustar a frequência. Migrações grandes (corte de URLs, mudança de arquitetura) podem levar 2–3 meses para estabilizar.
Continue lendo
Google Search Console: Como Enviar e Monitorar Sitemap (Guia 2026)
Verificação de propriedade, envio passo a passo, sitemap-index para sites grandes, decifrar status, relatório de Páginas e estratégias para acelerar indexação.
Robots.txt: Allow, Disallow, User-agent e Wildcards Explicados
Guia completo das diretivas do robots.txt: Disallow, Allow, User-agent, Sitemap, Crawl-delay, wildcards, ancoragem e regras de precedência. Com exemplos prontos por CMS.
Redirect 301 vs 302 vs 307 vs 308 para SEO: Guia Completo (2026)
Quando usar cada tipo de redirect HTTP, como afeta SEO e link equity, implementação em Next.js, Apache, Nginx, Vercel e Cloudflare, mapeamento em massa para migrações e auditoria de chains/loops.