Google Search console problem “Indexed, though blocked by robots.txt”

Bodimo jasni: imeti nič »prizadetih strani« v poročilu »Indeksirane, čeprav blokirane z strani robots.txt« samo po sebi ni dosežek, saj bi to lahko dosegli tako, da preprosto ne bi blokirali nobenega URL-ja v datoteki robots.txt.

Spletno mesto za e-trgovino s tipičnimi izzivi SEO za e-trgovino

+ Razširi članek s svojim mnenjem

Tukaj je seznam nekaterih vrst URL-jev, ki se večinoma prikazujejo kot »Indeksirano, čeprav jih blokira robots.txt« v GSC, večino pa verjetno poznate, če ste kdaj delali na spletnem mestu za e-trgovino :

  • URL-ji »Dodaj v voziček«.
  • URL-ji »Dodaj na seznam želja«.
  • Paginirane strani za recenzije
  • URL-ji filtriranih kategorij
  • Interne strani z rezultati iskanja
  • Stari URL-ji z ID-ji sej
  • URL-ji košarice in nakupa

Vse zgornje URL-je je mogoče dodati v datoteko robots.txt, ker naj ne bi bili pajkani. Toda ali je njihovo blokiranje prek robots.txt res dobra odločitev?

Zakaj običajno blokiramo URL-je prek robots.txt?

Blokiranje URL-jev prek datoteke robots.txt je priljubljen način za varčevanje z viri za pajkanje in zagotavljanje, da lahko pajki osredotočijo svoje pajkanje na pomembne strani. Toda glavna težava pri tej metodi je, da bodo URL-ji, ki so bili že indeksirani, preden so bili blokirani, ostali indeksirani.

Poleg tega je mogoče URL-je, ki so blokirani prek datoteke robots.txt, še vedno indeksirati, ne da bi jih pajkali, kar se včasih zgodi, ko imajo povezave (notranje ali zunanje), ki kažejo nanje.

Torej robots.txt v resnici rešuje samo problem virov pajkanja, vendar nima neposrednega vpliva na indeksiranje.

Ali nas res mora skrbeti »Indeksirano, čeprav blokirano s strani robots.txt«?

Sama Google Search Console je glede tega precej jasna. V poročilu »Indeksirano, čeprav blokirano s strani robots.txt« piše: »To ni kritična težava«.

Glavni razlog, zakaj bi želeli odpraviti to težavo, je preprečiti, da bi se URL-ji, ki so »indeksirani, čeprav blokirani z robots.txt«, prikazali v Googlovih rezultatih iskanja. V večini primerov lahko domnevamo, da ne želimo, da se URL-ji, ki jim je blokirano pajkanje, indeksirajo in prikažejo v SERP-jih.

Ko se URL, ki je »Indeksiran, čeprav ga blokira robots.txt«, prikaže v Googlovih rezultatih iskanja, je lahko videti deformiran ali z minimalnim delčkom, ki trdi, da za stran ni na voljo nobenih informacij.

Ali obstaja alternativa blokiranju URL-jev prek robots.txt?

Alternativni pristop za zagotovitev, da se URL-ji preiskujejo veliko manj pogosto in tudi ne indeksirajo, je naslednji:

  • Odstranite ali maskirajte vse notranje povezave, ki kažejo na URL-je.
  • URL-je nastavite na »noindex« ali jih trajno preusmerite (odvisno od vrste URL-ja).
  • Prepričajte se, da URL-ji niso blokirani z datoteko robots.txt.

To je v bistvu tisto, kar naredimo z vsemi zgoraj navedenimi vrstami URL-jev in kar nam pomaga znižati število »prizadetih strani« v »Indeksirano, čeprav blokirano s strani robots.txt« v GSC na nič.

TLDR;

Prepričajte se, da zadevni URL-ji niso interno povezani. Če morajo biti interno povezane za uporabnike, maskirajte povezave, da jim iskalniki ne sledijo.

URL-je nastavite na »noindex« ali jih preusmerite na cilje, ki naj bi bili bodisi indeksirani, bodisi nastavljeni na »noindex« (odvisno od primera).

Odstranite navedbo URL-ja v robots.txt.

Če sledite tem korakom, boste zagotovili, da URL-ji ne bodo več indeksirani. Ne boste preprečili njihovega pajkanja, vendar lahko pričakujete, da jih bo Googlebot pajkal veliko manj pogosto kot pomembne URL-je, saj niso več indeksirani in nimajo notranjih povezav, ki bi kazale nanje.

Ste že na prvi strani ISKALNIH REZULTATOV?

SEO optimizacija: 90 dni do prve strani

seo optimizacija iskalni promet
Extend the article with your expert input

Do you want to get featured on the article as one of the authors with dofollow backlink to your website? 

Razširi članek s svojim strokovnim mnenjem

Ali želite biti predstavljeni v članku kot eden od avtorjev s povratno povezavo dofollow do vaše spletne strani?