Crawlování a indexace
V první řadě bychom měli mít jasno ve dvou základních pojmech. Crawlování znamená procházení webu, indexace je ukládání stránek do databáze.
To znamená, že nejprve musí robot na webové stránky dojít – crawling, a teprve poté je může uložit – indexing. A právě robots.txt slouží k limitování možností crawlování. Zapamatujte si, že není určený k zákazu indexace. Pokud už robot na nějakou URL dorazil a zaindexoval ji, zákazem v robots.txt se jí z indexu nezbavíte. K tomu lze využít jiné metody.
Crawlování znamená procházení webu, indexace je ukládání stránek do databáze.
Co je robots.txt
Robots.txt je soubor s informacemi a pokyny pro vyhledávače. Díky němu můžeme omezit to, jak různí roboti weby procházejí.
Přes robots.txt můžeme určit, které stránky a soubory budou roboti procházet a potenciálně také indexovat.
V robots.txt můžeme například definovat:
- Zákaz procházení konkrétních URL nebo celých sekcí webu (path),
- crawl-delay,
- odkaz na sitemap.xml.
Zpravidla se tak upravuje procházení jednotlivých URL nebo celých cest URL (path), definuje se crawl-delay, sdělujeme robotům, kde mají hledat sitemap.xml a podobně. Omezení se mohou definovat, jak globálně pro všechny vyhledávače, tak jednotlivě, a to pomocí „User-agent”.
Proč využívat robots.txt
Přes robots.txt můžeme určit, které stránky a soubory budou roboti procházet a potenciálně také indexovat (ukládat do databáze). Můžeme snížit objem procházených stránek nebo zakázat plošně procházení celého webu.
Pokyn pro vyřazení z indexu by se měl realizovat pomocí meta značky robots, a to bez zákazu procházení dané URL.
- Optimalizace crawl-budgetu (pro rozsáhlé weby)
- Zákaz procházení URL nebo sekcí, např. pro vývojové/testovací verze webu
- Informace o umístění sitemap.xml
Pokud již roboti vyhledávačů zařadili některé stránky do databáze (indexu), zákaz procházení URL nepomůže. Znemožníme tak vyhledávači pouze přístup na danou adresu, ale v indexu stále bude. Pokyn pro vyřazení z indexu by se měl realizovat pomocí meta značky robots (viz níže), a to bez zákazu procházení dané URL.
Kde hledat robots.txt
Robots.txt by se měl nacházet v kořenovém adresáři, hned za doménou 3. řádu, tzn. například na adrese www.neco.cz/robots.txt. Na jiných adresách např. www.neco.cz/neco/robots.txt jej roboti nehledají.
Příklad obsahu robots.txt
Příklad 1
User-agent: *
Sitemap: https://www.neco.cz/sitemap.xml
V tomto případě je povoleno procházení celého webu bez omezení. Robot se tedy může dostat ke všem stránkám webu, pokud neexistují jiné technické překážky.
Příklad 2
User-agent: *
Disallow: /
Sitemap: https://www.neco.cz/sitemap.xml
Toto je zase opačný případ. Zde je naopak zákaz procházení celého webu. To se nám hodí, pokud provádíme již zmíněný vývoj nového webu.
Příklad 3
User-agent: *
Disallow: /testovaci-stranky/*
Sitemap: https://www.neco.cz/sitemap.xml
V posledním příkladu vidíme zákaz procházení stránek obsahující /testovaci-stranky/. Pokud jsou na webu další URL vycházející ze složky /testovaci-stranky/, pak je pro dané URL procházení zakázané.
Pro testování pravidel můžete využít nástroj v Google Search Console nebo: technicalseo.com.
Roboty můžeme limitovat také přímo ze zdrojového kódu webu pomocí značky meta name=”robots”.
Co když je robots.txt prázdný?
Prázdný soubor robots.txt vůbec ničemu nevadí. Výchozí stav je takový, že roboti mají povolené procházení všech URL na webu, včetně skriptů. Robots.txt bez obsahu tak ve výsledků znamená, že je vše povoleno.
Roboty můžeme limitovat také přímo ze zdrojového kódu webu pomocí značky meta name=”robots”. Pozor na interpretaci a adekvátní použití této značky. Pomocí meta name=”robots” říkáme robotovi, jestli může, nebo nemůže stránku zařadit do svého indexu, resp. zda ji může zaindexovat.
Příklady značky meta name=”robots”
Meta name = ”robots” může nabývat různého contentu pro dosažení konkrétních cílů.
Zákaz indexace a zákaz sledování interních odkazů
<meta name = “robots“ content = “noindex, nofollow“>
Pozornost věnujte obsahu v uvozovkách za částí content. První segment, v tomto případě noindex, říká robotovi, zda může web indexovat, nebo ne. Druhý segment za čárkou, v tomto případě nofollow, říká robotovi, jestli smí následovat interní odkazy ze stránky dál. Prakticky to znamená, zda robot bude přelévat hodnoty ranku interně v rámci webu, nebo se na této URL zastaví.
U robots.txt paradoxně existuje větší šance, že se něco pokazí, než že bychom si něčím pomohli.
Zákaz indexace a (povolení) sledování interních odkazů
<meta name=“robots“ content=“noindex, follow“>
Pokud máte na webu stránku, kterou chcete vyřadit z indexu, doporučujeme používat tento tvar. Díky follow (tedy sledování interních odkazů) neuděláte na svém webu černou díru na přelévání linkjuice, výsledným efektem bude pouhé vyřazení stránky z indexu. Až bude vyřazena z databáze všech důležitých vyhledávačů, tak ji můžete pro jistotu i přesměrovat (to je vhodné zejména, pokud na ní vedl nějaký zpětný odkaz).
Časté chyby v robots.txt
U robots.txt paradoxně existuje větší šance, že se něco pokazí, než že bychom si pomohli.
- Zapomeneme zákaz procházení po přepnutí vývojové verze webu na ostrou.
- Omylem zakážeme procházení sekcí webu, které naopak chceme procházet a indexovat.
- Robots.txt je umístěný v jiném než kořenovém adresáři (robots.txt je dostupný na jiné adrese než na /robots.txt).
Doporučení na závěr
Ve výchozím stavu se robots.txt vůbec nemusíte zabývat, zejména u malých webů. Pokud však existují určité důvody, proč nechcete zobrazovat konkrétní informace (crawlovat, indexovat), mohou se vám příkazy pro robots hodit.
- Než nasadíte nové pravidlo do ostrého robots.txt, vždy jej pečlivě zkontrolujte – může dojít k nechtěným kolizím s dalšími URL.
- Kontrolujte nasazení nového robots.txt. Ten nasadíte tak, že upravíte soubor a nahrajete přes FTP. Pak zkontrolujte zdrojový soubor na příslušné adrese.
- Problémy se mohou vyskytovat při programátorských úpravách (redesign, rychlost, apod.) – nastavte si pro jistotu upozornění do Google Analytics pro neobvyklý pokles návštěv.
- Sledujte výkon v Google Analytics i podle sekcí webu nebo konkrétních URL.
- Sledujte statistiky v Google Search Console (procházení, indexace, problémy, atp.).
Univerzální návod, jak robots.txt vytvořit, neexistuje. Vždy se jedná o práci na míru. Pokud v tom tedy tápete, obraťte se na někoho zkušeného.