Robots.txt: quando intervenire su disallow e quando su noindex
+39 338 2498107 info@effettoundici.it

Oggi parliamo di un argomento super caldo in ottica SEO, parliamo di SEO Tecnica e ci concentriamo sul file robots.txt e sui comandi che si possono applicare a quest’importantissimo file in ambito SEO.

Andremo dunque a capire in maniera super dettagliata quando ha senso intervenire direttamente sul file robots.txt con un “disallow” e quando con un “noindex” e quando invece è più opportuno intervenire con un noindex all’interno delle singole pagine. 

Cos’è il file robots.txt ?

Prima di cominciare, cos’è il file robots.txt? E’ il primo file che i bot di Google vedono nel processo di scansione di un sito, il primo insieme alla sitemap.xml: si tratta di un file che ha un significato SEO davvero imponente proprio perché determina la usability di un sito in ottica SEO secondo i canoni di Google. Non poco.

Nel senso, da qui possiamo dire a Google cosa vedere, cosa scansionare, cosa lasciar perdere e cosa non indicizzare!

Quali comandi possiamo inserire all’interno del file robots.txt ?

Sono due i comandi che possiamo inserire nel file robots.txt: disallow e noindex. Vediamo in cosa consistono.

Disallow = impedire l’accesso al crawler durante la scansione delle categorie, pagine, articoli, ecc del nostro sito

Noindex = impedire l’indicizzazione di un contenuto, anzi se già indicizzato, addirittura esprime la possibilità di toglierlo dalla SERP

(in realtà ufficialmente non possiamo agire con Noindex da file robots.txt, salvo “rarissimissime” eccezioni…. Abbiamo trovato qui un articolo sul file robots.txt davvero interessante che vi consigliamo di leggere se volete approfondire!)

*Attenzione, in rari casi, è possibile che un contenuto che non è mai stato scansionato venga indicizzato da Google, capite bene dunque che per aver certezza di una non indicizzazione di pagina o deindicizzazione dobbiamo comunque utilizzare un Noindex. Quest’ultimo è infatti il metodo più sicuro per concretizzare la nostra azione di “non far vedere a Google un qualcosa”… ma è anche il metodo migliore?

robots.txt

Meglio usare il disallow o il noindex?

Altra domanda da un milione di punti. Dipende da “cosa volete e dovete fare”.

  • Se siamo di fronte ad un sito di grandi dimensioni e vogliamo evitare che Google passi o scansioni, o indicizzi, insomma che lasci perdere alcuni articoli e / o categorie del nostro sito, senza dubbio è meglio impostare il DISALLOW all’interno del file robots.txt;
  • Siamo di fronte ad un sito web di piccole dimensioni, meglio agire con un NOINDEX per ogni singola pagina, anche perché a monte, nello stesso file robots.txt, non possiamo impostare un NOINDEX (salvo rarissimi casi)!

Perché usare il disallow a volte e non il noindex?

Attenzione, il DISALLOW è sempre comunque meglio “visto” da Google come comando  per una questione semplice: quando il Crawler assorbe l’indicazione di “non passare per una determinata, pagina, articolo, cartella ecc”, il bot la evita senza perdere tempo, e dunque senza sprecare il famoso crawl budget.

Il noindex che è un “arma letale” anti indicizzazione ed è ovviamente la più sicura, ma inserita all’interno delle singole pagine di un sito enorme non mette in condizione il bot di non scansionare, gli dice di entrare, scansionare e non indicizzare.

Tutto quanto detto, fa perdere tempo a Google e se Google PERDE TEMPO ed ENERGIA non va bene per il vostro sito web.

“Google in sostanza si scoccia e smette di darci retta”

Quando invece ha senso usare un noindex?

L’unica formula sensata di utilizzo “secco e duro” di un noindex è quendo lo impostiamo all’interno delle singole pagine, nei meta tag robot per l’esattezza.

Lo si usa quando volete estirpare l’indicizzazione (deindicizzazione) di alcune pagine web del vostro sito da Google oppure assolutamente proprio non volete che Google le indicizzi, è qui che il noindex ci aiuta.

Plugin WP utili

Noindex Pages è un plugin di grande rilievo, usatelo se avete bisogno di quanto detto.

Questo plugin ci permette, grazie ad un piccolo flag all’interno del vostro blog WP che troverete appunto nell’editor di ogni singolo post di applicare l’ìstruzione “noindex”.

Per quanto riguarda WordPress, il plugin dove nel miglior modo possibile possiamo modificare e impostare il nostro robots.txt è proprio SEO Yoast.

sintassi di default in wp tramite SEO Yoast

User-agent: *
Disallow: /blog/wp-admin/
Allow: /blog/wp-admin/admin-ajax.php

Per la stesura di questo post ringraziamo la severa e precisa consulenza di Saverio Bruno di TWOW sempre pronto a dispensare utili consigli in ambito SEO e non solo. 😉