Google Search console problem “Indexed, though blocked by robots.txt”
Bodimo jasni: imeti nič »prizadetih strani« v poročilu »Indeksirane, čeprav blokirane z strani robots.txt« samo po sebi ni dosežek, saj bi to lahko dosegli tako, da preprosto ne bi blokirali nobenega URL-ja v datoteki robots.txt.
Spletno mesto za e-trgovino s tipičnimi izzivi SEO za e-trgovino
Tukaj je seznam nekaterih vrst URL-jev, ki se večinoma prikazujejo kot »Indeksirano, čeprav jih blokira robots.txt« v GSC, večino pa verjetno poznate, če ste kdaj delali na spletnem mestu za e-trgovino :
- URL-ji »Dodaj v voziček«.
- URL-ji »Dodaj na seznam želja«.
- Paginirane strani za recenzije
- URL-ji filtriranih kategorij
- Interne strani z rezultati iskanja
- Stari URL-ji z ID-ji sej
- URL-ji košarice in nakupa
Vse zgornje URL-je je mogoče dodati v datoteko robots.txt, ker naj ne bi bili pajkani. Toda ali je njihovo blokiranje prek robots.txt res dobra odločitev?
Zakaj običajno blokiramo URL-je prek robots.txt?
Blokiranje URL-jev prek datoteke robots.txt je priljubljen način za varčevanje z viri za pajkanje in zagotavljanje, da lahko pajki osredotočijo svoje pajkanje na pomembne strani. Toda glavna težava pri tej metodi je, da bodo URL-ji, ki so bili že indeksirani, preden so bili blokirani, ostali indeksirani.
Poleg tega je mogoče URL-je, ki so blokirani prek datoteke robots.txt, še vedno indeksirati, ne da bi jih pajkali, kar se včasih zgodi, ko imajo povezave (notranje ali zunanje), ki kažejo nanje.
Torej robots.txt v resnici rešuje samo problem virov pajkanja, vendar nima neposrednega vpliva na indeksiranje.
Ali nas res mora skrbeti »Indeksirano, čeprav blokirano s strani robots.txt«?
Sama Google Search Console je glede tega precej jasna. V poročilu »Indeksirano, čeprav blokirano s strani robots.txt« piše: »To ni kritična težava«.
Glavni razlog, zakaj bi želeli odpraviti to težavo, je preprečiti, da bi se URL-ji, ki so »indeksirani, čeprav blokirani z robots.txt«, prikazali v Googlovih rezultatih iskanja. V večini primerov lahko domnevamo, da ne želimo, da se URL-ji, ki jim je blokirano pajkanje, indeksirajo in prikažejo v SERP-jih.
Ko se URL, ki je »Indeksiran, čeprav ga blokira robots.txt«, prikaže v Googlovih rezultatih iskanja, je lahko videti deformiran ali z minimalnim delčkom, ki trdi, da za stran ni na voljo nobenih informacij.
Ali obstaja alternativa blokiranju URL-jev prek robots.txt?
Alternativni pristop za zagotovitev, da se URL-ji preiskujejo veliko manj pogosto in tudi ne indeksirajo, je naslednji:
- Odstranite ali maskirajte vse notranje povezave, ki kažejo na URL-je.
- URL-je nastavite na »noindex« ali jih trajno preusmerite (odvisno od vrste URL-ja).
- Prepričajte se, da URL-ji niso blokirani z datoteko robots.txt.
To je v bistvu tisto, kar naredimo z vsemi zgoraj navedenimi vrstami URL-jev in kar nam pomaga znižati število »prizadetih strani« v »Indeksirano, čeprav blokirano s strani robots.txt« v GSC na nič.
TLDR;
Prepričajte se, da zadevni URL-ji niso interno povezani. Če morajo biti interno povezane za uporabnike, maskirajte povezave, da jim iskalniki ne sledijo.
URL-je nastavite na »noindex« ali jih preusmerite na cilje, ki naj bi bili bodisi indeksirani, bodisi nastavljeni na »noindex« (odvisno od primera).
Odstranite navedbo URL-ja v robots.txt.
Če sledite tem korakom, boste zagotovili, da URL-ji ne bodo več indeksirani. Ne boste preprečili njihovega pajkanja, vendar lahko pričakujete, da jih bo Googlebot pajkal veliko manj pogosto kot pomembne URL-je, saj niso več indeksirani in nimajo notranjih povezav, ki bi kazale nanje.