Artigo Grow·SEO·13 min de leitura

Crawl Budget: O que é e Como Otimizar para Indexar Mais Páginas

Q: Sites pequenos (até 1000 páginas) precisam se preocupar com crawl budget?

Para a grande maioria dos sites com menos de mil URLs, crawl budget não é um problema relevante. O Googlebot costuma conseguir rastrear o site inteiro em poucos dias. Foque em qualidade de conteúdo, sitemap correto e velocidade. Crawl budget vira preocupação real a partir de ~10 mil URLs com atualizações frequentes.

Q: Como saber se meu site é afetado por crawl budget?

No Google Search Console, vá em Configurações → Estatísticas de rastreamento. Compare URLs rastreadas/dia com o tamanho do site. Se você tem 100 mil URLs e o Googlebot rastreia 500/dia, o site inteiro só é re-visitado a cada 200 dias — isso é saturação. Outro sinal: muitas URLs como "Descoberta — não indexada" no relatório de cobertura.

Q: Bloquear uma URL no robots.txt remove ela do índice do Google?

Não. robots.txt impede o crawl, mas a URL pode continuar indexada se tiver backlinks externos — aparecendo nas SERPs sem snippet, com título tipo "Nenhuma informação disponível". Para remover do índice, use a meta tag noindex (e, contra-intuitivamente, deixe o crawl liberado para o Google ver a tag).

Q: Tag canonical resolve crawl budget?

Parcialmente. Canonical sinaliza a URL principal entre duplicatas, mas o Googlebot ainda precisa rastrear as URLs duplicadas para descobrir a tag. Para crawl budget, é melhor combinar canonical com bloqueio no robots.txt (em casos óbvios como filtros de ordenação) e exclusão no relatório "Parâmetros de URL" do GSC.

Q: Como sei quanto crawl budget meu site tem?

O Google não publica esse número, mas você pode estimar via Search Console (Configurações → Estatísticas de rastreamento). Lá você vê requisições/dia, kB baixados/dia e tempo médio de resposta. Se a curva é estável, esse é seu orçamento atual; se é decrescente, você está perdendo crawl budget.

Q: Sitemap.xml ajuda a aumentar o crawl budget?

Não aumenta diretamente o budget, mas direciona melhor o que existe — o Googlebot prioriza URLs no sitemap. Mantenha o sitemap apenas com URLs canônicas, indexáveis e atualizadas. Submeta também as datas de last-modified corretas para que o Google re-rastreie só o que mudou.

Q: Cloudflare ou CDN ajudam no crawl budget?

Sim, indiretamente. Sites mais rápidos recebem mais crawl budget — o Googlebot ajusta a frequência baseado em latência. Reduzir TTFB de 1s para 200ms pode dobrar ou triplicar o número de páginas rastreadas/dia. Cuidado para não bloquear o Googlebot com challenges anti-bot agressivos.

Q: Quanto tempo demora para o Google reagir a otimizações de crawl budget?

Mudanças no robots.txt costumam refletir em 24–48h. Canonical e remoção de parâmetros levam 2–4 semanas para o Google reprocessar e ajustar a frequência. Migrações grandes (corte de URLs, mudança de arquitetura) podem levar 2–3 meses para estabilizar.

Crawl budget é a quantidade de URLs que o Googlebot rastreia no seu site em um período. Para sites pequenos, não é problema. Para sites com dezenas de milhares de páginas, pode ser a diferença entre ranquear e ser invisível.

Por Vitor Morais

Fundador do MochaLabz · publicado em 18 de abril de 2026

🤖

Configure seu robots.txt sem dor

Gere um robots.txt enxuto que economiza crawl budget bloqueando rotas dinâmicas inúteis.

Gerar robots.txt →

Crawl budget é o número de URLs que o Googlebot aceita rastrear no seu site num período. É determinado pela capacidade do seu servidor (crawl rate limit) e pelo interesse do Google em revisitar suas páginas (crawl demand). Otimizar significa três coisas: cortar o que não vale ser rastreado, deixar o que importa fácil de encontrar e tornar o servidor rápido.

O que é crawl budget

Crawl budget é o termo informal para a quantidade de URLs do seu site que o Googlebot decide visitar em um determinado período. Não é uma variável publicada nem um número fixo: é uma resultante dinâmica entre o que o seu servidor aguenta entregar e o quanto o Google considera que vale a pena ler.

Pense numa analogia: o Googlebot é um leitor que tem 10 minutos por dia para visitar a sua biblioteca. Se você tem 50 livros bem organizados e os mais importantes na entrada, ele lê todos. Se você tem 50 mil livros espalhados e duplicados, ele lê os mesmos repetidamente e nunca chega aos novos.

Como o Google define seu crawl budget

A documentação oficial do Google divide o cálculo em duas dimensões:

Crawl rate limit (capacidade)

É o teto técnico: quantas requisições simultâneas o Googlebot pode fazer ao seu servidor sem degradá-lo. Quando o servidor responde rápido (TTFB baixo, 2xx consistente), o Google sobe a frequência. Quando começa a ver 5xx, lentidão ou tempo de resposta crescente, ele recua imediatamente — proteção para não derrubar seu site.

Crawl demand (interesse do Google)

É o teto editorial: o quanto o Google “quer” rastrear seu site. Os principais sinais que aumentam crawl demand são:

Popularidade: URLs com muitos links externos e impressões orgânicas atraem mais visitas do bot.
Frescor (staleness): sites que atualizam com frequência ganham mais crawl para evitar que o índice fique velho.
Eventos de mudança: migrações, redesenho, mudança de URL trigam picos temporários de crawl.

O que isso significa na prática

Você influencia o crawl rate limit melhorando infraestrutura (TTFB, cache, CDN). Você influencia o crawl demand publicando conteúdo bom e ganhando backlinks. Os dois trabalham juntos.

Quem realmente precisa se preocupar

O Google é claro: a maioria dos sites não precisa gastar tempo otimizando crawl budget. Foque nele se:

Quando crawl budget vira prioridade
Critério	Cenário	Crawl budget importa?
Site institucional (até ~500 URLs)	Não — foque em conteúdo e backlinks
Blog (até ~5 mil URLs)	Geralmente não — checar GSC mensalmente
E-commerce médio (10–100 mil)	Sim — facetas e parâmetros são o ralo principal
E-commerce grande / marketplace (1M+)	Crítico — vira projeto contínuo
Portal de notícias (atualização horária)	Sim — frescor exige mais crawl
User-generated content / fórum	Sim — controle de URLs auto-geradas

Sinais de que seu crawl budget está saturado

Antes de aplicar correções, confirme que você tem o problema. Sinais confiáveis:

Páginas novas demoram dias ou semanas para aparecer no índice, mesmo com sitemap atualizado.
Volume alto de URLs como “Descoberta — não indexada” no relatório de Páginas do GSC.
Estatísticas de rastreamento (Configurações → GSC) mostram volume estável ou em queda mesmo após você publicar mais conteúdo.
Logs do servidor mostram o Googlebot revisitando muito as mesmas URLs (geralmente paginação, filtros, parâmetros) em vez de páginas profundas.
Mapa de calor de hits do Googlebot tem “buracos” em seções inteiras do site.

Os 7 maiores desperdiçadores de crawl budget

Em quase todo projeto SEO técnico, esses sete padrões respondem por 80%+ do desperdício:

1. Facetas e filtros infinitos

A combinação de filtros gera explosão combinatória de URLs com conteúdo praticamente igual:

/produtos?cor=azul&tamanho=m&ordem=preco
/produtos?ordem=preco&cor=azul&tamanho=m
/produtos?tamanho=m&cor=azul&ordem=preco

→ 3 URLs distintas para o Google
→ Conteúdo idêntico
→ Multiplique por todas as combinações: milhares de URLs inúteis

2. Parâmetros de tracking (UTM, fbclid)

Cada link compartilhado em campanhas, e-mails e redes sociais cria uma URL única para o Google:

/post → mesma página, mas o Google enxerga:
/post?utm_source=newsletter
/post?utm_source=facebook&utm_medium=cpc
/post?fbclid=AbCd...
/post?gclid=Cj0KCQ...

3. IDs de sessão dinâmicos

Sites antigos ou mal configurados ainda anexam ;sid= ou ?session= a cada visita. Para o Googlebot, cada visita é uma URL nova.

4. Redirects em cadeia

Redirect em cadeia (A → B → C → D) consome 4 requisições para chegar ao destino final. Em escala, isso engole crawl budget rápido.

Sempre faça redirect direto

Se você sabe que A redireciona para D, atualize o redirect para A → D diretamente, eliminando os intermediários. Use ferramentas como Screaming Frog para mapear cadeias.

5. Conteúdo thin e duplicado

Páginas de tags com 2 posts, perfis de usuário sem atividade, páginas de categoria duplicadas — tudo isso consome crawl sem dar retorno. Consolide ou bloqueie.

6. Paginação infinita ou muito longa

Listagens com /page/2/, /page/3/, ..., /page/500/ criam centenas de URLs com baixo valor. Limite paginação razoável e use canonical apontando para a primeira página em paginações longas, ou sitemap dedicado para os itens individuais.

7. URLs com erro (4xx/5xx) reincidentes

O Googlebot continua tentando URLs que dão erro por semanas antes de desistir. Se você tem milhares de 404s linkados internamente, remova os links e use 410 (Gone) em vez de 404 — o 410 sinaliza ao Google que a URL é definitiva.

Estratégias de otimização que funcionam

robots.txt: bloqueio preventivo

A linha de defesa mais rápida e efetiva é o robots.txt:

User-agent: *

# Bloqueia tracking parameters
Disallow: /*?utm_
Disallow: /*?fbclid=
Disallow: /*?gclid=
Disallow: /*?ref=

# Bloqueia ordenação e filtros não estratégicos
Disallow: /*?ordem=
Disallow: /*?sort=
Disallow: /*?view=

# Bloqueia áreas sem valor SEO
Disallow: /search          # busca interna
Disallow: /carrinho
Disallow: /minha-conta
Disallow: /api/

# Sitemap
Sitemap: https://meusite.com/sitemap.xml

Canonical e parâmetros no GSC

Para URLs que você precisa servir mas não quer duplicar, use rel="canonical" apontando para a versão principal. Combine com a ferramenta de Parâmetros de URL no Search Console (em sites antigos ainda disponível) para sinalizar quais parâmetros não alteram o conteúdo.

<!-- Em /produtos?cor=azul&tamanho=m -->
<link rel="canonical" href="https://meusite.com/produtos" />

<!-- Em /post?utm_source=email -->
<link rel="canonical" href="https://meusite.com/post" />

Sitemap enxuto e segmentado

Sitemaps gigantes (50 mil URLs num único arquivo) são pouco eficientes. Quebre por seção e mantenha apenas URLs que você quer que ranqueiem:

Apenas URLs canônicas — nunca facetas ou parâmetros.
Apenas URLs indexáveis — sem noindex, sem 4xx, sem redirect.
last-modified preciso — Google usa para decidir o que re-rastrear.
Segmentação: sitemap-posts.xml, sitemap-produtos.xml, sitemap-categorias.xml, com um sitemap-index.xml apontando para todos.

Veja como enviar e monitorar seu sitemap no Google Search Console para garantir que ele esteja sendo lido sem erros.

Arquitetura flat e linkagem interna

Quanto menos cliques entre a home e uma página importante, mais rápido o Google a rastreia e re-rastreia. Como regra prática:

Página estratégica: ≤ 3 cliques da home.
Página secundária: ≤ 5 cliques.
Listas de hub (como categorias e tags) devem linkar para os itens mais valiosos, não só os mais recentes.
Links contextuais dentro de artigos passam autoridade e direcionam crawl para páginas relacionadas.

Performance: TTFB e cache

Performance é multiplicador de crawl budget. Sites mais rápidos recebem mais visitas do Googlebot por unidade de tempo:

Impacto típico do TTFB no crawl rate
Critério	TTFB médio	Páginas/dia (relativo)
100 ms	100 ms	× 3 (referência alta)
300 ms	300 ms	× 1,5
600 ms	600 ms	× 1 (baseline)
1 200 ms	1 200 ms	× 0,5 (Google reduz)
2 000+ ms	2 000+ ms	× 0,2 (recuo agressivo)

Cache HTTP, CDN, otimização de queries e SSG/ISR (em frameworks como Next.js) costumam ser as alavancas mais rápidas.

Como monitorar o crawl budget na prática

Três fontes complementares:

Search Console → Configurações → Estatísticas de rastreamento. Mostra requisições/dia, kB baixados/dia, tempo de resposta médio, distribuição por finalidade (descoberta vs. atualização) e por tipo de arquivo.
Logs do servidor (server-side logs). Filtre por User-Agent: Googlebot e veja exatamente quais URLs ele visita, com que frequência e qual status retornou. Ferramentas: Screaming Frog Log Analyzer, JetOctopus, Botify.
Crawls comparativos. Rode um crawl com Screaming Frog ou Sitebulb e compare o número de URLs descobertas com o número de URLs no sitemap e o número rastreado pelo Google. Os três valores deveriam convergir.

Erros comuns que destroem crawl budget

Lista negra

Bloquear /assets/, /css/, /js/ no robots.txt: o Google precisa renderizar a página para rankear. Sem CSS e JS, ele vê HTML quebrado.
Disallow + noindex juntos: contraditório. Se você bloqueou o crawl, o Google nunca vê a tag noindex.
Soft 404s: páginas vazias ou de erro retornando 200 OK. O Google consome crawl tentando entender, e ainda indexa.
Sitemap com URLs noindex/redirect/4xx: sinaliza ao Google que você não cuida do site.
Mudar URLs sem 301: o Googlebot re-descobre tudo, perde sinais acumulados e desperdiça crawl em URLs antigas que continuam linkadas.

Checklist final de otimização

✅ robots.txt bloqueando parâmetros de tracking, ordenação e áreas sem valor SEO.
✅ Canonical em todas as URLs com facetas, paginação e variantes.
✅ Redirects 301 sempre diretos — sem cadeias A→B→C.
✅ 410 (Gone) em URLs definitivamente removidas, não 404.
✅ Sitemap segmentado por tipo, com last-modified preciso, apenas URLs canônicas.
✅ Sitemap referenciado no robots.txt e enviado ao Search Console.
✅ TTFB < 600 ms na maior parte das requisições.
✅ Páginas estratégicas a ≤ 3 cliques da home.
✅ Sem soft 404s — páginas vazias retornam 404 explícito.
✅ Monitoramento mensal das Estatísticas de rastreamento no GSC.
✅ Análise de logs do Googlebot pelo menos a cada trimestre em sites grandes.

Perguntas frequentes

Sites pequenos (até 1000 páginas) precisam se preocupar com crawl budget?+

Para a grande maioria dos sites com menos de mil URLs, crawl budget não é um problema relevante. O Googlebot costuma conseguir rastrear o site inteiro em poucos dias. Foque em qualidade de conteúdo, sitemap correto e velocidade. Crawl budget vira preocupação real a partir de ~10 mil URLs com atualizações frequentes.

Como saber se meu site é afetado por crawl budget?+

No Google Search Console, vá em Configurações → Estatísticas de rastreamento. Compare URLs rastreadas/dia com o tamanho do site. Se você tem 100 mil URLs e o Googlebot rastreia 500/dia, o site inteiro só é re-visitado a cada 200 dias — isso é saturação. Outro sinal: muitas URLs como "Descoberta — não indexada" no relatório de cobertura.

Bloquear uma URL no robots.txt remove ela do índice do Google?+

Não. robots.txt impede o crawl, mas a URL pode continuar indexada se tiver backlinks externos — aparecendo nas SERPs sem snippet, com título tipo "Nenhuma informação disponível". Para remover do índice, use a meta tag noindex (e, contra-intuitivamente, deixe o crawl liberado para o Google ver a tag).

Tag canonical resolve crawl budget?+

Parcialmente. Canonical sinaliza a URL principal entre duplicatas, mas o Googlebot ainda precisa rastrear as URLs duplicadas para descobrir a tag. Para crawl budget, é melhor combinar canonical com bloqueio no robots.txt (em casos óbvios como filtros de ordenação) e exclusão no relatório "Parâmetros de URL" do GSC.

Como sei quanto crawl budget meu site tem?+

O Google não publica esse número, mas você pode estimar via Search Console (Configurações → Estatísticas de rastreamento). Lá você vê requisições/dia, kB baixados/dia e tempo médio de resposta. Se a curva é estável, esse é seu orçamento atual; se é decrescente, você está perdendo crawl budget.

Sitemap.xml ajuda a aumentar o crawl budget?+

Não aumenta diretamente o budget, mas direciona melhor o que existe — o Googlebot prioriza URLs no sitemap. Mantenha o sitemap apenas com URLs canônicas, indexáveis e atualizadas. Submeta também as datas de last-modified corretas para que o Google re-rastreie só o que mudou.

Cloudflare ou CDN ajudam no crawl budget?+

Sim, indiretamente. Sites mais rápidos recebem mais crawl budget — o Googlebot ajusta a frequência baseado em latência. Reduzir TTFB de 1s para 200ms pode dobrar ou triplicar o número de páginas rastreadas/dia. Cuidado para não bloquear o Googlebot com challenges anti-bot agressivos.

Quanto tempo demora para o Google reagir a otimizações de crawl budget?+

Mudanças no robots.txt costumam refletir em 24–48h. Canonical e remoção de parâmetros levam 2–4 semanas para o Google reprocessar e ajustar a frequência. Migrações grandes (corte de URLs, mudança de arquitetura) podem levar 2–3 meses para estabilizar.

#crawl budget#seo técnico#googlebot#indexação#performance#robots.txt#canonical#sitemap#search console

Continue lendo

SEOGrow13 min de leitura

Google Search Console: Como Enviar e Monitorar Sitemap (Guia 2026)

Verificação de propriedade, envio passo a passo, sitemap-index para sites grandes, decifrar status, relatório de Páginas e estratégias para acelerar indexação.

18 de abril de 2026

Ler artigo

#search console#sitemap#seo

SEOGrow13 min de leitura

Robots.txt: Allow, Disallow, User-agent e Wildcards Explicados

Guia completo das diretivas do robots.txt: Disallow, Allow, User-agent, Sitemap, Crawl-delay, wildcards, ancoragem e regras de precedência. Com exemplos prontos por CMS.

18 de abril de 2026

Ler artigo

#robots.txt#seo técnico#googlebot

SEOGrow13 min de leitura

Redirect 301 vs 302 vs 307 vs 308 para SEO: Guia Completo (2026)

Quando usar cada tipo de redirect HTTP, como afeta SEO e link equity, implementação em Next.js, Apache, Nginx, Vercel e Cloudflare, mapeamento em massa para migrações e auditoria de chains/loops.

18 de abril de 2026

Ler artigo

#redirect#301#302