Robots.txt je konfigurační soubor, který umisťujeme do kořenového adresáře webu (např. www.vasedomena.cz/robots.txt). Slouží k tomu, aby vyhledávačům sdělil, které části webu mají nebo naopak nemají procházet a indexovat.
Je to první soubor, který crawler (např. Googlebot) při návštěvě webu hledá. Přestože jeho pokyny nejsou právně závazné, většina vyhledávačů je respektuje.
Proč je robots.txt důležitý
- Řízení indexace – můžete zabránit indexování duplicitních, testovacích nebo interních stránek.
- Šetření crawl budgetu – pokud máte velký web, nasměrujete roboty jen na důležité URL.
- Zabezpečení citlivých dat – můžete zamezit indexaci adresářů (např.
/admin/nebo/tmp/). - Optimalizace SEO – eliminace zbytečných stránek z výsledků vyhledávání.
Jak má vypadat robots.txt
Robots.txt je jednoduchý textový soubor s pravidly. Každé pravidlo začíná definicí robota (User-agent) a pokračuje povolením nebo zákazem přístupu.
Základní syntaxe
User-agent: [název robota]
Allow: [cesta]
Disallow: [cesta]
- User-agent – určuje, pro jakého robota pravidla platí (
*znamená pro všechny). - Allow – cesta, kterou robot smí procházet (většinou se používá méně).
- Disallow – cesta, kterou robot nesmí procházet.
Jednoduchý příklad
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /
Tento příklad zakazuje indexaci administrace a dočasných souborů, ale povoluje ostatní obsah.
Příklady použití pro různé weby
1. WordPress
Ve WordPressu často nechceme indexovat složky jako /wp-admin/ nebo /wp-includes/.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-admin/admin-ajax.php
2. E-shopy (např. Shoptet, WooCommerce)
E-shopy mají často filtry a parametry, které generují duplicity.
User-agent: *
Disallow: /*?orderby=
Disallow: /*?filter=
Disallow: /kosik/
Disallow: /checkout/
3. Vývojové prostředí nebo staging web
Pokud testujete nový web, nechcete, aby se dostal do indexu.
User-agent: *
Disallow: /
Pokročilé tipy
- Odkaz na sitemapu – do robots.txt vždy uveďte cestu k sitemapě.
Sitemap: https://www.vasedomena.cz/sitemap.xml
- Specifická pravidla pro Googlebot – pokud chcete jiná pravidla pro Google než pro ostatní roboty.
User-agent: Googlebot
Disallow: /privatni-data/
- Testování – v Google Search Console je nástroj pro test robots.txt.
Časté chyby, kterým se vyhnout
- Omylem blokované důležité stránky – například zákaz celé domény.
- Záměna Allow a Disallow – nesprávná syntaxe může způsobit zmatek.
- Snahy o bezpečnost – robots.txt není zabezpečení, jen doporučení. Citlivá data ukládejte mimo dosah veřejnosti.