Co je robots.txt a jak ho správně nastavit

Robots.txt je konfigurační soubor, který umisťujeme do kořenového adresáře webu (např. www.vasedomena.cz/robots.txt). Slouží k tomu, aby vyhledávačům sdělil, které části webu mají nebo naopak nemají procházet a indexovat.

Je to první soubor, který crawler (např. Googlebot) při návštěvě webu hledá. Přestože jeho pokyny nejsou právně závazné, většina vyhledávačů je respektuje.

Proč je robots.txt důležitý

  • Řízení indexace – můžete zabránit indexování duplicitních, testovacích nebo interních stránek.
  • Šetření crawl budgetu – pokud máte velký web, nasměrujete roboty jen na důležité URL.
  • Zabezpečení citlivých dat – můžete zamezit indexaci adresářů (např. /admin/ nebo /tmp/).
  • Optimalizace SEO – eliminace zbytečných stránek z výsledků vyhledávání.

Jak má vypadat robots.txt

Robots.txt je jednoduchý textový soubor s pravidly. Každé pravidlo začíná definicí robota (User-agent) a pokračuje povolením nebo zákazem přístupu.

Základní syntaxe

User-agent: [název robota]
Allow: [cesta]
Disallow: [cesta]
  • User-agent – určuje, pro jakého robota pravidla platí (* znamená pro všechny).
  • Allow – cesta, kterou robot smí procházet (většinou se používá méně).
  • Disallow – cesta, kterou robot nesmí procházet.

Jednoduchý příklad

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Tento příklad zakazuje indexaci administrace a dočasných souborů, ale povoluje ostatní obsah.

Příklady použití pro různé weby

1. WordPress

Ve WordPressu často nechceme indexovat složky jako /wp-admin/ nebo /wp-includes/.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-admin/admin-ajax.php

2. E-shopy (např. Shoptet, WooCommerce)

E-shopy mají často filtry a parametry, které generují duplicity.

User-agent: *
Disallow: /*?orderby=
Disallow: /*?filter=
Disallow: /kosik/
Disallow: /checkout/

3. Vývojové prostředí nebo staging web

Pokud testujete nový web, nechcete, aby se dostal do indexu.

User-agent: *
Disallow: /

Pokročilé tipy

  • Odkaz na sitemapu – do robots.txt vždy uveďte cestu k sitemapě.
Sitemap: https://www.vasedomena.cz/sitemap.xml
  • Specifická pravidla pro Googlebot – pokud chcete jiná pravidla pro Google než pro ostatní roboty.
User-agent: Googlebot
Disallow: /privatni-data/
  • Testování – v Google Search Console je nástroj pro test robots.txt.

Časté chyby, kterým se vyhnout

  1. Omylem blokované důležité stránky – například zákaz celé domény.
  2. Záměna Allow a Disallow – nesprávná syntaxe může způsobit zmatek.
  3. Snahy o bezpečnost – robots.txt není zabezpečení, jen doporučení. Citlivá data ukládejte mimo dosah veřejnosti.

 

Diskuze

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Přejít nahoru