Zajímá mě

Co je soubor robots.txt a k čemu slouží v SEO?

4 min čtení

Robots.txt patří mezi základní SEO prvky na webu. Na první pohled neškodný soubor může při nešetrném zacházení natropit velkou škodu. Naopak při odborné a uvědomělé práci může ve výsledku pozitivně ovlivnit výkon webu a limitovat rozsah informací, které se ukazují ve výsledcích vyhledávání.

Crawlování a indexace

V první řadě bychom měli mít jasno ve dvou základních pojmech. Crawlování znamená procházení webu, indexace je ukládání stránek do databáze.

To znamená, že nejprve musí robot na webové stránky dojít – crawling, a teprve poté je může uložit – indexing. A právě robots.txt slouží k limitování možností crawlování. Zapamatujte si, že není určený k zákazu indexace. Pokud už robot na nějakou URL dorazil a zaindexoval ji, zákazem v robots.txt se jí z indexu nezbavíte. K tomu lze využít jiné metody.

Crawlování znamená procházení webu, indexace je ukládání stránek do databáze.

Co je robots.txt

Robots.txt je soubor s informacemi a pokyny pro vyhledávače. Díky němu můžeme omezit to, jak různí roboti weby procházejí.

Přes robots.txt můžeme určit, které stránky a soubory budou roboti procházet a potenciálně také indexovat.

V robots.txt můžeme například definovat:

  • Zákaz procházení konkrétních URL nebo celých sekcí webu (path),
  • crawl-delay,
  • odkaz na sitemap.xml.

Zpravidla se tak upravuje procházení jednotlivých URL nebo celých cest URL (path), definuje se crawl-delay, sdělujeme robotům, kde mají hledat sitemap.xml a podobně. Omezení se mohou definovat, jak globálně pro všechny vyhledávače, tak jednotlivě, a to pomocí „User-agent”.

Proč využívat robots.txt

Přes robots.txt můžeme určit, které stránky a soubory budou roboti procházet a potenciálně také indexovat (ukládat do databáze). Můžeme snížit objem procházených stránek nebo zakázat plošně procházení celého webu.

Pokyn pro vyřazení z indexu by se měl realizovat pomocí meta značky robots, a to bez zákazu procházení dané URL.

  • Optimalizace crawl-budgetu (pro rozsáhlé weby)
  • Zákaz procházení URL nebo sekcí, např. pro vývojové/testovací verze webu
  • Informace o umístění sitemap.xml

Pokud již roboti vyhledávačů zařadili některé stránky do databáze (indexu), zákaz procházení URL nepomůže. Znemožníme tak vyhledávači pouze přístup na danou adresu, ale v indexu stále bude. Pokyn pro vyřazení z indexu by se měl realizovat pomocí meta značky robots (viz níže), a to bez zákazu procházení dané URL.

Kde hledat robots.txt

Robots.txt by se měl nacházet v kořenovém adresáři, hned za doménou 3. řádu, tzn. například na adrese www.neco.cz/robots.txt. Na jiných adresách např. www.neco.cz/neco/robots.txt jej roboti nehledají.

Příklad obsahu robots.txt

Příklad 1
User-agent: *
Sitemap: https://www.neco.cz/sitemap.xml

V tomto případě je povoleno procházení celého webu bez omezení. Robot se tedy může dostat ke všem stránkám webu, pokud neexistují jiné technické překážky.

Příklad 2
User-agent: *
Disallow: /
Sitemap: https://www.neco.cz/sitemap.xml

Toto je zase opačný případ. Zde je naopak zákaz procházení celého webu. To se nám hodí, pokud provádíme již zmíněný vývoj nového webu.

Příklad 3
User-agent: *
Disallow: /testovaci-stranky/*
Sitemap: https://www.neco.cz/sitemap.xml

V posledním příkladu vidíme zákaz procházení stránek obsahující /testovaci-stranky/. Pokud jsou na webu další URL vycházející ze složky /testovaci-stranky/, pak je pro dané URL procházení zakázané.

Pro testování pravidel můžete využít nástroj v Google Search Console nebo: technicalseo.com.

Roboty můžeme limitovat také přímo ze zdrojového kódu webu pomocí značky meta name=”robots”.

Co když je robots.txt prázdný?

Prázdný soubor robots.txt vůbec ničemu nevadí. Výchozí stav je takový, že roboti mají povolené procházení všech URL na webu, včetně skriptů. Robots.txt bez obsahu tak ve výsledků znamená, že je vše povoleno.

Roboty můžeme limitovat také přímo ze zdrojového kódu webu pomocí značky meta name=”robots”. Pozor na interpretaci a adekvátní použití této značky. Pomocí meta name=”robots” říkáme robotovi, jestli může, nebo nemůže stránku zařadit do svého indexu, resp. zda ji může zaindexovat.

Příklady značky meta name=”robots”

Meta name = ”robots” může nabývat různého contentu pro dosažení konkrétních cílů.

Zákaz indexace a zákaz sledování interních odkazů
<meta name = “robots“ content = “noindex, nofollow“>

Pozornost věnujte obsahu v uvozovkách za částí content. První segment, v tomto případě noindex, říká robotovi, zda může web indexovat, nebo ne. Druhý segment za čárkou, v tomto případě nofollow, říká robotovi, jestli smí následovat interní odkazy ze stránky dál. Prakticky to znamená, zda robot bude přelévat hodnoty ranku interně v rámci webu, nebo se na této URL zastaví.

U robots.txt paradoxně existuje větší šance, že se něco pokazí, než že bychom si něčím pomohli.

Zákaz indexace a (povolení) sledování interních odkazů
<meta name=“robots“ content=“noindex, follow“>

Pokud máte na webu stránku, kterou chcete vyřadit z indexu, doporučujeme používat tento tvar. Díky follow (tedy sledování interních odkazů) neuděláte na svém webu černou díru na přelévání linkjuice, výsledným efektem bude pouhé vyřazení stránky z indexu. Až bude vyřazena z databáze všech důležitých vyhledávačů, tak ji můžete pro jistotu i přesměrovat (to je vhodné zejména, pokud na ní vedl nějaký zpětný odkaz).

Časté chyby v robots.txt

U robots.txt paradoxně existuje větší šance, že se něco pokazí, než že bychom si pomohli.

  • Zapomeneme zákaz procházení po přepnutí vývojové verze webu na ostrou.
  • Omylem zakážeme procházení sekcí webu, které naopak chceme procházet a indexovat.
  • Robots.txt je umístěný v jiném než kořenovém adresáři (robots.txt je dostupný na jiné adrese než na /robots.txt).

Doporučení na závěr

Ve výchozím stavu se robots.txt vůbec nemusíte zabývat, zejména u malých webů. Pokud však existují určité důvody, proč nechcete zobrazovat konkrétní informace (crawlovat, indexovat), mohou se vám příkazy pro robots hodit.

  • Než nasadíte nové pravidlo do ostrého robots.txt, vždy jej pečlivě zkontrolujte – může dojít k nechtěným kolizím s dalšími URL.
  • Kontrolujte nasazení nového robots.txt. Ten nasadíte tak, že upravíte soubor a nahrajete přes FTP. Pak zkontrolujte zdrojový soubor na příslušné adrese.
  • Problémy se mohou vyskytovat při programátorských úpravách (redesign, rychlost, apod.) – nastavte si pro jistotu upozornění do Google Analytics pro neobvyklý pokles návštěv.
  • Sledujte výkon v Google Analytics i podle sekcí webu nebo konkrétních URL.
  • Sledujte statistiky v Google Search Console (procházení, indexace, problémy, atp.).

Univerzální návod, jak robots.txt vytvořit, neexistuje. Vždy se jedná o práci na míru. Pokud v tom tedy tápete, obraťte se na někoho zkušeného.

Autor článku

Martin se stará o SEO a projektový rozvoj webů. Optimalizaci pro vyhledávače se věnuje od roku 2012 a od jara 2017 působí v PROFICIU. Rád testuje a ověřuje, také na vlastních projektech.

Tento článek přináší

PROFICIO se řadí mezi přední brněnské digitální agentury, svoje klienty má také na Slovensku. Je to jediná Sklik Certifikovaná agentura v Brně a patří mezi 16 klíčových agentur Googlu.

Získej novinky jako první

Prihlásením sa do noviniek súhlasíš s ich odberom a týmto úprimným dokumentom, ktorý sme k ochrane osobných údajov pripravili.