Artigo Grow·SEO·13 min de leitura

Crawl Budget: O que é e Como Otimizar para Indexar Mais Páginas

Crawl budget é a quantidade de URLs que o Googlebot rastreia no seu site em um período. Para sites pequenos, não é problema. Para sites com dezenas de milhares de páginas, pode ser a diferença entre ranquear e ser invisível.

Vitor Morais

Por Vitor Morais

Fundador do MochaLabz ·

🤖

Configure seu robots.txt sem dor

Gere um robots.txt enxuto que economiza crawl budget bloqueando rotas dinâmicas inúteis.

Gerar robots.txt →

Crawl budget é o número de URLs que o Googlebot aceita rastrear no seu site num período. É determinado pela capacidade do seu servidor (crawl rate limit) e pelo interesse do Google em revisitar suas páginas (crawl demand). Otimizar significa três coisas: cortar o que não vale ser rastreado, deixar o que importa fácil de encontrar e tornar o servidor rápido.

O que é crawl budget

Crawl budget é o termo informal para a quantidade de URLs do seu site que o Googlebot decide visitar em um determinado período. Não é uma variável publicada nem um número fixo: é uma resultante dinâmica entre o que o seu servidor aguenta entregar e o quanto o Google considera que vale a pena ler.

Pense numa analogia: o Googlebot é um leitor que tem 10 minutos por dia para visitar a sua biblioteca. Se você tem 50 livros bem organizados e os mais importantes na entrada, ele lê todos. Se você tem 50 mil livros espalhados e duplicados, ele lê os mesmos repetidamente e nunca chega aos novos.

Como o Google define seu crawl budget

A documentação oficial do Google divide o cálculo em duas dimensões:

Crawl rate limit (capacidade)

É o teto técnico: quantas requisições simultâneas o Googlebot pode fazer ao seu servidor sem degradá-lo. Quando o servidor responde rápido (TTFB baixo, 2xx consistente), o Google sobe a frequência. Quando começa a ver 5xx, lentidão ou tempo de resposta crescente, ele recua imediatamente — proteção para não derrubar seu site.

Crawl demand (interesse do Google)

É o teto editorial: o quanto o Google “quer” rastrear seu site. Os principais sinais que aumentam crawl demand são:

  • Popularidade: URLs com muitos links externos e impressões orgânicas atraem mais visitas do bot.
  • Frescor (staleness): sites que atualizam com frequência ganham mais crawl para evitar que o índice fique velho.
  • Eventos de mudança: migrações, redesenho, mudança de URL trigam picos temporários de crawl.

O que isso significa na prática

Você influencia o crawl rate limit melhorando infraestrutura (TTFB, cache, CDN). Você influencia o crawl demand publicando conteúdo bom e ganhando backlinks. Os dois trabalham juntos.

Quem realmente precisa se preocupar

O Google é claro: a maioria dos sites não precisa gastar tempo otimizando crawl budget. Foque nele se:

Quando crawl budget vira prioridade
CritérioCenárioCrawl budget importa?
Site institucional (até ~500 URLs)Não — foque em conteúdo e backlinks
Blog (até ~5 mil URLs)Geralmente não — checar GSC mensalmente
E-commerce médio (10–100 mil)Sim — facetas e parâmetros são o ralo principal
E-commerce grande / marketplace (1M+)Crítico — vira projeto contínuo
Portal de notícias (atualização horária)Sim — frescor exige mais crawl
User-generated content / fórumSim — controle de URLs auto-geradas

Sinais de que seu crawl budget está saturado

Antes de aplicar correções, confirme que você tem o problema. Sinais confiáveis:

  • Páginas novas demoram dias ou semanas para aparecer no índice, mesmo com sitemap atualizado.
  • Volume alto de URLs como “Descoberta — não indexada” no relatório de Páginas do GSC.
  • Estatísticas de rastreamento (Configurações → GSC) mostram volume estável ou em queda mesmo após você publicar mais conteúdo.
  • Logs do servidor mostram o Googlebot revisitando muito as mesmas URLs (geralmente paginação, filtros, parâmetros) em vez de páginas profundas.
  • Mapa de calor de hits do Googlebot tem “buracos” em seções inteiras do site.

Os 7 maiores desperdiçadores de crawl budget

Em quase todo projeto SEO técnico, esses sete padrões respondem por 80%+ do desperdício:

1. Facetas e filtros infinitos

A combinação de filtros gera explosão combinatória de URLs com conteúdo praticamente igual:

/produtos?cor=azul&tamanho=m&ordem=preco /produtos?ordem=preco&cor=azul&tamanho=m /produtos?tamanho=m&cor=azul&ordem=preco → 3 URLs distintas para o Google → Conteúdo idêntico → Multiplique por todas as combinações: milhares de URLs inúteis

2. Parâmetros de tracking (UTM, fbclid)

Cada link compartilhado em campanhas, e-mails e redes sociais cria uma URL única para o Google:

/post → mesma página, mas o Google enxerga: /post?utm_source=newsletter /post?utm_source=facebook&utm_medium=cpc /post?fbclid=AbCd... /post?gclid=Cj0KCQ...

3. IDs de sessão dinâmicos

Sites antigos ou mal configurados ainda anexam ;sid= ou ?session= a cada visita. Para o Googlebot, cada visita é uma URL nova.

4. Redirects em cadeia

Redirect em cadeia (A → B → C → D) consome 4 requisições para chegar ao destino final. Em escala, isso engole crawl budget rápido.

Sempre faça redirect direto

Se você sabe que A redireciona para D, atualize o redirect para A → D diretamente, eliminando os intermediários. Use ferramentas como Screaming Frog para mapear cadeias.

5. Conteúdo thin e duplicado

Páginas de tags com 2 posts, perfis de usuário sem atividade, páginas de categoria duplicadas — tudo isso consome crawl sem dar retorno. Consolide ou bloqueie.

6. Paginação infinita ou muito longa

Listagens com /page/2/, /page/3/, ..., /page/500/ criam centenas de URLs com baixo valor. Limite paginação razoável e use canonical apontando para a primeira página em paginações longas, ou sitemap dedicado para os itens individuais.

7. URLs com erro (4xx/5xx) reincidentes

O Googlebot continua tentando URLs que dão erro por semanas antes de desistir. Se você tem milhares de 404s linkados internamente, remova os links e use 410 (Gone) em vez de 404 — o 410 sinaliza ao Google que a URL é definitiva.

Estratégias de otimização que funcionam

robots.txt: bloqueio preventivo

A linha de defesa mais rápida e efetiva é o robots.txt:

User-agent: * # Bloqueia tracking parameters Disallow: /*?utm_ Disallow: /*?fbclid= Disallow: /*?gclid= Disallow: /*?ref= # Bloqueia ordenação e filtros não estratégicos Disallow: /*?ordem= Disallow: /*?sort= Disallow: /*?view= # Bloqueia áreas sem valor SEO Disallow: /search # busca interna Disallow: /carrinho Disallow: /minha-conta Disallow: /api/ # Sitemap Sitemap: https://meusite.com/sitemap.xml

Canonical e parâmetros no GSC

Para URLs que você precisa servir mas não quer duplicar, use rel="canonical" apontando para a versão principal. Combine com a ferramenta de Parâmetros de URL no Search Console (em sites antigos ainda disponível) para sinalizar quais parâmetros não alteram o conteúdo.

<!-- Em /produtos?cor=azul&tamanho=m --> <link rel="canonical" href="https://meusite.com/produtos" /> <!-- Em /post?utm_source=email --> <link rel="canonical" href="https://meusite.com/post" />

Sitemap enxuto e segmentado

Sitemaps gigantes (50 mil URLs num único arquivo) são pouco eficientes. Quebre por seção e mantenha apenas URLs que você quer que ranqueiem:

  • Apenas URLs canônicas — nunca facetas ou parâmetros.
  • Apenas URLs indexáveis — sem noindex, sem 4xx, sem redirect.
  • last-modified preciso — Google usa para decidir o que re-rastrear.
  • Segmentação: sitemap-posts.xml, sitemap-produtos.xml, sitemap-categorias.xml, com um sitemap-index.xml apontando para todos.

Veja como enviar e monitorar seu sitemap no Google Search Console para garantir que ele esteja sendo lido sem erros.

Arquitetura flat e linkagem interna

Quanto menos cliques entre a home e uma página importante, mais rápido o Google a rastreia e re-rastreia. Como regra prática:

  • Página estratégica: ≤ 3 cliques da home.
  • Página secundária: ≤ 5 cliques.
  • Listas de hub (como categorias e tags) devem linkar para os itens mais valiosos, não só os mais recentes.
  • Links contextuais dentro de artigos passam autoridade e direcionam crawl para páginas relacionadas.

Performance: TTFB e cache

Performance é multiplicador de crawl budget. Sites mais rápidos recebem mais visitas do Googlebot por unidade de tempo:

Impacto típico do TTFB no crawl rate
CritérioTTFB médioPáginas/dia (relativo)
100 ms100 ms× 3 (referência alta)
300 ms300 ms× 1,5
600 ms600 ms× 1 (baseline)
1 200 ms1 200 ms× 0,5 (Google reduz)
2 000+ ms2 000+ ms× 0,2 (recuo agressivo)

Cache HTTP, CDN, otimização de queries e SSG/ISR (em frameworks como Next.js) costumam ser as alavancas mais rápidas.

Como monitorar o crawl budget na prática

Três fontes complementares:

  • Search Console → Configurações → Estatísticas de rastreamento. Mostra requisições/dia, kB baixados/dia, tempo de resposta médio, distribuição por finalidade (descoberta vs. atualização) e por tipo de arquivo.
  • Logs do servidor (server-side logs). Filtre por User-Agent: Googlebot e veja exatamente quais URLs ele visita, com que frequência e qual status retornou. Ferramentas: Screaming Frog Log Analyzer, JetOctopus, Botify.
  • Crawls comparativos. Rode um crawl com Screaming Frog ou Sitebulb e compare o número de URLs descobertas com o número de URLs no sitemap e o número rastreado pelo Google. Os três valores deveriam convergir.

Erros comuns que destroem crawl budget

Lista negra

  • Bloquear /assets/, /css/, /js/ no robots.txt: o Google precisa renderizar a página para rankear. Sem CSS e JS, ele vê HTML quebrado.
  • Disallow + noindex juntos: contraditório. Se você bloqueou o crawl, o Google nunca vê a tag noindex.
  • Soft 404s: páginas vazias ou de erro retornando 200 OK. O Google consome crawl tentando entender, e ainda indexa.
  • Sitemap com URLs noindex/redirect/4xx: sinaliza ao Google que você não cuida do site.
  • Mudar URLs sem 301: o Googlebot re-descobre tudo, perde sinais acumulados e desperdiça crawl em URLs antigas que continuam linkadas.

Checklist final de otimização

  • ✅ robots.txt bloqueando parâmetros de tracking, ordenação e áreas sem valor SEO.
  • ✅ Canonical em todas as URLs com facetas, paginação e variantes.
  • ✅ Redirects 301 sempre diretos — sem cadeias A→B→C.
  • ✅ 410 (Gone) em URLs definitivamente removidas, não 404.
  • ✅ Sitemap segmentado por tipo, com last-modified preciso, apenas URLs canônicas.
  • ✅ Sitemap referenciado no robots.txt e enviado ao Search Console.
  • ✅ TTFB < 600 ms na maior parte das requisições.
  • ✅ Páginas estratégicas a ≤ 3 cliques da home.
  • ✅ Sem soft 404s — páginas vazias retornam 404 explícito.
  • ✅ Monitoramento mensal das Estatísticas de rastreamento no GSC.
  • ✅ Análise de logs do Googlebot pelo menos a cada trimestre em sites grandes.

Perguntas frequentes

Sites pequenos (até 1000 páginas) precisam se preocupar com crawl budget?+

Para a grande maioria dos sites com menos de mil URLs, crawl budget não é um problema relevante. O Googlebot costuma conseguir rastrear o site inteiro em poucos dias. Foque em qualidade de conteúdo, sitemap correto e velocidade. Crawl budget vira preocupação real a partir de ~10 mil URLs com atualizações frequentes.

Como saber se meu site é afetado por crawl budget?+

No Google Search Console, vá em Configurações → Estatísticas de rastreamento. Compare URLs rastreadas/dia com o tamanho do site. Se você tem 100 mil URLs e o Googlebot rastreia 500/dia, o site inteiro só é re-visitado a cada 200 dias — isso é saturação. Outro sinal: muitas URLs como "Descoberta — não indexada" no relatório de cobertura.

Bloquear uma URL no robots.txt remove ela do índice do Google?+

Não. robots.txt impede o crawl, mas a URL pode continuar indexada se tiver backlinks externos — aparecendo nas SERPs sem snippet, com título tipo "Nenhuma informação disponível". Para remover do índice, use a meta tag noindex (e, contra-intuitivamente, deixe o crawl liberado para o Google ver a tag).

Tag canonical resolve crawl budget?+

Parcialmente. Canonical sinaliza a URL principal entre duplicatas, mas o Googlebot ainda precisa rastrear as URLs duplicadas para descobrir a tag. Para crawl budget, é melhor combinar canonical com bloqueio no robots.txt (em casos óbvios como filtros de ordenação) e exclusão no relatório "Parâmetros de URL" do GSC.

Como sei quanto crawl budget meu site tem?+

O Google não publica esse número, mas você pode estimar via Search Console (Configurações → Estatísticas de rastreamento). Lá você vê requisições/dia, kB baixados/dia e tempo médio de resposta. Se a curva é estável, esse é seu orçamento atual; se é decrescente, você está perdendo crawl budget.

Sitemap.xml ajuda a aumentar o crawl budget?+

Não aumenta diretamente o budget, mas direciona melhor o que existe — o Googlebot prioriza URLs no sitemap. Mantenha o sitemap apenas com URLs canônicas, indexáveis e atualizadas. Submeta também as datas de last-modified corretas para que o Google re-rastreie só o que mudou.

Cloudflare ou CDN ajudam no crawl budget?+

Sim, indiretamente. Sites mais rápidos recebem mais crawl budget — o Googlebot ajusta a frequência baseado em latência. Reduzir TTFB de 1s para 200ms pode dobrar ou triplicar o número de páginas rastreadas/dia. Cuidado para não bloquear o Googlebot com challenges anti-bot agressivos.

Quanto tempo demora para o Google reagir a otimizações de crawl budget?+

Mudanças no robots.txt costumam refletir em 24–48h. Canonical e remoção de parâmetros levam 2–4 semanas para o Google reprocessar e ajustar a frequência. Migrações grandes (corte de URLs, mudança de arquitetura) podem levar 2–3 meses para estabilizar.

#crawl budget#seo técnico#googlebot#indexação#performance#robots.txt#canonical#sitemap#search console

Continue lendo