1001Ferramentas
🤖SEO

Gerador de robots.txt

Gera arquivos robots.txt para SEO: define User-agent, Allow/Disallow por path e link para o sitemap.xml.


    
  

Como funciona o robots.txt?

O robots.txt diz aos crawlers (Google, Bing, etc.) quais URLs eles podem ou não indexar. Não é uma proteção real — apenas uma indicação. Bots maliciosos ignoram.

O arquivo deve ficar em /robots.txt na raiz do domínio. Disallow: /admin/ impede o crawler de visitar; Allow: / libera tudo.

Inclua o link do sitemap.xml para acelerar a indexação.

O que é o robots.txt

O arquivo robots.txt é um documento de texto puro colocado na raiz de um site (por exemplo, https://exemplo.com.br/robots.txt) que informa aos rastreadores automatizados quais caminhos eles podem ou não solicitar. A convenção foi criada pelo engenheiro holandês Martijn Koster em 1994, depois que um robô mal-comportado sobrecarregou seus servidores, e rapidamente se tornou um padrão de fato chamado Robots Exclusion Protocol (REP). Por quase três décadas viveu como um acordo informal implementado de forma diferente por cada buscador. Isso mudou em setembro de 2022, quando a IETF publicou a RFC 9309, que finalmente formalizou a sintaxe, as regras de parsing e a semântica de erros do protocolo.

Apesar da simplicidade, o robots.txt é um dos arquivos mais consequentes de um site. Um único caractere fora de lugar pode desindexar um domínio inteiro ou, ao contrário, expor áreas de homologação privadas para a web aberta. Como o arquivo é meramente consultivo, depende da boa-fé dos bots bem-comportados: Googlebot, Bingbot, DuckDuckBot, Yandex e a maioria dos grandes crawlers de IA respeitam, mas scrapers maliciosos costumam ignorar as regras. Por isso o robots.txt deve ser tratado como ferramenta de orçamento de rastreamento e descoberta, nunca como mecanismo de segurança.

Sintaxe e diretivas suportadas

Um robots.txt é organizado em grupos. Cada grupo começa com uma ou mais linhas User-agent que identificam a qual rastreador as regras se aplicam, seguidas por diretivas Allow e Disallow. O curinga User-agent: * alcança qualquer bot que não tenha um grupo próprio.

User-agent: *
Disallow: /admin/
Disallow: /carrinho
Allow: /admin/publico/

User-agent: Googlebot
Allow: /

Sitemap: https://exemplo.com.br/sitemap.xml
  • User-agent: identifica o rastreador (product token). A RFC 9309 exige correspondência case-insensitive neste campo.
  • Disallow: proíbe acesso a URLs que comecem com o caminho informado. Um Disallow: vazio significa "nada está proibido".
  • Allow: permissão explícita que pode prevalecer sobre um Disallow mais amplo quando o caminho é mais específico.
  • Sitemap: URL absoluta apontando para um sitemap ou índice de sitemaps. É independente de qualquer grupo de user-agent e pode aparecer em qualquer linha do arquivo.
  • Crawl-delay: diretiva não-padrão que sugere segundos entre requisições. Bing e Yandex respeitam; o Googlebot ignora.

A RFC 9309 também fixa detalhes práticos: o arquivo deve ser texto plano em UTF-8 servido como text/plain, o Google impõe um tamanho máximo de 500 KiB, e o cache não deve durar mais do que 24 horas, exceto se o arquivo ficar inacessível. Quando o servidor retorna 4xx o rastreador pode tratar o site como totalmente permitido; em erros 5xx ele deve presumir bloqueio total até que o arquivo volte a responder.

Bloquear rastreamento vs bloquear indexação

O mal-entendido mais comum sobre o robots.txt é supor que "Disallow" esconde a página dos resultados de busca. Não esconde. Disallow bloqueia o rastreamento, não a indexação. Se o Google ou o Bing descobrirem a URL por meio de links externos, ainda poderão listá-la nos resultados sem snippet, mostrando apenas a URL e um título gerado automaticamente. Pior: como o bot está proibido de ler a página, ele não consegue ver qualquer <meta name="robots" content="noindex"> que você tenha colocado dentro dela.

Para remover uma página do índice, deixe o bot baixá-la e sirva uma diretiva noindex — seja como meta tag no HTML, seja como cabeçalho HTTP X-Robots-Tag (útil para PDFs e imagens). Só depois que a página for re-rastreada e removida do índice é que vale a pena acrescentar um Disallow no robots.txt para poupar orçamento de rastreamento. Inverter essa ordem mantém as URLs congeladas no índice indefinidamente.

Curingas e padrões

Embora a RFC 9309 padronize apenas a correspondência literal por prefixo, todos os grandes buscadores aceitam dois curingas adicionados pela extensão do Google:

  • * casa com zero ou mais caracteres de qualquer tipo. Disallow: /*?sessao= bloqueia qualquer URL contendo o parâmetro ?sessao=.
  • $ ancora o padrão no fim da URL. Disallow: /*.pdf$ bloqueia todos os PDFs.

A comparação no trecho do caminho é sensível a maiúsculas: /Admin/ e /admin/ são regras diferentes. Quando duas regras conflitam, vence a mais longa (mais específica); em empate de comprimento, o Google aplica a interpretação menos restritiva, que costuma ser Allow. O suporte a curingas varia entre crawlers menores, então evite depender de padrões complexos quando o alvo for bot de nicho.

Bots conhecidos e crawlers de IA

Alguns user-agents que você verá em produção:

  • Googlebot, Googlebot-Image, Googlebot-News, AdsBot-Google — rastreadores de busca e ads do Google.
  • Bingbot, AdIdxBot — Microsoft Bing.
  • DuckDuckBot, YandexBot, Baiduspider, Applebot — outros grandes buscadores.
  • GPTBot — crawler de treinamento da OpenAI.
  • OAI-SearchBot, ChatGPT-User — agentes de navegação e busca ao vivo do ChatGPT.
  • Google-Extended — controla o uso do seu conteúdo pelo Gemini e pelo Vertex AI (não afeta o Search).
  • ClaudeBot, anthropic-ai, Claude-Web, Claude-User, Claude-SearchBot — agentes de treinamento e de busca em tempo real da Anthropic.
  • CCBot — Common Crawl, dataset que alimenta grande parte dos LLMs.
  • PerplexityBot, Bytespider, Amazonbot, Meta-ExternalAgent — outros agentes de IA e scrapers.

Para bloquear crawlers de treinamento de IA sem afetar a visibilidade na busca tradicional, mire nos bots de IA explicitamente:

User-agent: GPTBot
User-agent: Google-Extended
User-agent: CCBot
User-agent: anthropic-ai
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Bytespider
Disallow: /

User-agent: *
Allow: /
Sitemap: https://exemplo.com.br/sitemap.xml

Observe que cada empresa costuma operar vários bots: bloquear o ClaudeBot detém o treinamento, mas não o Claude-SearchBot ou o Claude-User; bloquear o GPTBot não impede o OAI-SearchBot. Decida caso a caso se também quer barrar agentes de busca ao vivo que recuperam conteúdo em nome de um humano fazendo uma pergunta.

Erros comuns

  • Tratar o robots.txt como controle de acesso. O arquivo é um pedido educado, não um firewall. Proteja áreas sensíveis com autenticação HTTP, allowlist de IPs ou checagem em nível de aplicação.
  • Combinar Disallow com noindex. Se a URL está proibida, o bot não consegue ler a meta tag noindex, e a URL continua no índice. Use uma coisa ou outra, na ordem certa.
  • Esquecer a linha Sitemap. Incluir Sitemap: no robots.txt é a forma mais simples de divulgar o sitemap a todos os buscadores sem submissão manual.
  • Encoding errado ou BOM. Um arquivo em UTF-16 ou começando com byte-order mark pode ser rejeitado. Salve como UTF-8 puro, sem BOM.
  • URLs relativas no Sitemap. A diretiva Sitemap exige URL absoluta com esquema e host.
  • Abuso de curingas. Padrões longos e complexos são frágeis e lentos. Prefira algumas poucas regras de prefixo claras.
  • Desindexar o site inteiro por engano. Um Disallow: / esquecido em User-agent: * pode tirar tudo do índice em uma semana.

Perguntas frequentes

Onde colocar o arquivo robots.txt?

Na raiz de cada host e protocolo: https://exemplo.com.br/robots.txt. Subdomínios e versões HTTP versus HTTPS precisam dos seus próprios arquivos.

O Google ainda indexa uma URL com Disallow?

Pode. Se outros sites apontarem para ela, o Google pode exibir a URL sem snippet. Para suprimi-la, libere o rastreamento e adicione uma diretiva noindex.

O Googlebot respeita Crawl-delay?

Não. O Google ignora Crawl-delay; ajuste a taxa de rastreamento pelo Search Console. Bing e Yandex respeitam.

Qual o tamanho máximo do robots.txt?

O Google interpreta apenas os primeiros 500 KiB e descarta o restante. Mantenha o arquivo enxuto e deixe que o CMS resolva exclusões dinâmicas via meta tag.

A ordem das regras importa?

Dentro de um grupo vence o casamento mais específico, independente da ordem. Entre grupos, o bot escolhe o grupo mais específico que combine com o nome dele e ignora os demais.

Ferramentas Relacionadas

Crie um robots.txt para o seu site

O arquivo robots.txt diz aos buscadores quais partes do site eles podem ou não rastrear — uma peça básica de SEO técnico. Este gerador monta esse arquivo de forma guiada, sem você precisar lembrar a sintaxe das diretivas.

Você define o User-agent, as regras de Allow e Disallow por caminho e o link para o sitemap, e a ferramenta gera o robots.txt no formato correto. É útil para bloquear áreas administrativas dos buscadores, evitar a indexação de páginas de teste ou simplesmente garantir que o sitemap seja encontrado.

A geração roda no navegador, na hora, pronta para salvar na raiz do site. Um passo simples que ajuda os buscadores a entenderem melhor o seu site.