Oggi parliamo di un argomento super caldo in ottica SEO, parliamo di SEO Tecnica e ci concentriamo sul file robots.txt e sui comandi che si possono applicare a quest’importantissimo file in ambito SEO.
Andremo dunque a capire in maniera super dettagliata quando ha senso intervenire direttamente sul file robots.txt con un “disallow” e quando invece è più opportuno intervenire con un noindex all’interno delle singole pagine.
Cos’è il file robots.txt ?
Prima di cominciare, cos’è il file robots.txt? E’ il primo file che i bot di Google vedono nel processo di scansione di un sito, il primo insieme alla sitemap.xml: si tratta di un file che ha un significato SEO davvero importante proprio perché determina la usability di un sito in ottica SEO secondo i canoni di Google. Non poco.
Nel senso, da qui possiamo dire a Google cosa scansionare e di fatto… cosa lasciar perdere!
Quali comandi possiamo inserire all’interno del file robots.txt ?
L’unico comando che possiamo inserire nel file robots.txt è l’istruzione: disallow
Disallow = impedire l’accesso al crawler durante la scansione delle categorie, pagine, articoli, ecc del nostro sito
Alcuni anni fa si poteva inserire l’istruzione Noindex = ovverosia impedire l’indicizzazione di un contenuto, anzi se già indicizzato, il noindex esprime addirittura la possibilità di toglierlo dalla SERP.
*Attenzione, in rari casi, è possibile che un contenuto che non è mai stato scansionato venga indicizzato da Google, capite bene dunque che per aver certezza di una non indicizzazione di pagina o deindicizzazione dobbiamo comunque utilizzare un noindex, ma possiamo farlo solo piazzando quest’istruzione all’interno di una singola pagina, pertanto non agendo a “monte” tramite il file robots.txt.
Possiamo comunque dire che il noindex applicato per singola pagina rappresenta il metodo più sicuro per concretizzare la nostra azione di “non far vedere a Google un qualcosa”… ma è anche il metodo migliore in assoluto per gestire il fragilissimo rapporto tra il nostro sito e il bot di Google?
Meglio usare il disallow o il noindex (pagina per pagina)?
Altra domanda da un milione di punti. Dipende da “cosa volete e dovete fare”.
- Se siamo di fronte ad un sito di grandi dimensioni e vogliamo evitare che Google “passi attraverso il nostro sito” o scansioni, o indicizzi, insomma che lasci perdere alcuni articoli e / o categorie del nostro sito, senza dubbio è meglio impostare il disallow all’interno del file robots.txt;
- Siamo di fronte ad un sito web di piccole dimensioni, possiamo tranquillamente agire con un noindex per ogni singola pagina, anche perché a monte, nello stesso file robots.txt, non possiamo impostare un noindex!
Perché usare il disallow a volte e non il noindex? Risparmio Crawl Budget!
Attenzione, il disallow è sempre comunque meglio “visto” da Google come comando per una questione semplice: quando il crawler assorbe l’indicazione di “non passare per una determinata, pagina, articolo, cartella ecc”, il bot la evita senza perdere tempo, e dunque senza sprecare il famoso crawl budget.
Il noindex che è un “arma letale” anti indicizzazione ed è ovviamente la più sicura se desideriamo far scomparire una pagina dall’indice di Google, essendo all’interno delle singole pagine di un sito enorme non mette in condizione il bot di Google di non scansionare il contenuto, in pratica gli dice di entrare, scansionare e dunque non indicizzare.
Tutto quanto detto, fa perdere tempo a Google e se Google PERDE TEMPO ed ENERGIA non va bene per il vostro sito web.
“Google in sostanza si scoccia e smette di darci retta”, mette dunque in secondo piano il nostro sito, non lo va a vedere spesso, e se non lo vede spesso, ovviamente non lo scansiona e non gli offre le possibilità che meriterebbe in termini di posizionamento. In pratica non dobbiamo sprecare il nostro crawl budget con siti disordinati, senza link interni, pieni e stracolmi di noindex… perché tutto questo fa perdere tempo a Google, e Google vuole usare con noi bene il suo tempo per poterci scansionare liberamente, e dunque posizionare le nostre pagine per una determinata keyword se abbiamo creato ottimi contenuti.
Quando invece ha senso usare un noindex?
Lo si usa quando volete estirpare l’indicizzazione (deindicizzazione) di alcune pagine web del vostro sito da Google oppure assolutamente proprio non volete che Google le indicizzi, ed è qui che il noindex ci aiuta, tutto qui, non in altre “strane” occasioni.
Plugin WP utili
Noindex Pages è un plugin di grande rilievo, usatelo se avete bisogno di quanto detto. Questo plugin ci permette, grazie ad un piccolo flag all’interno del vostro blog WP che troverete appunto nell’editor di ogni singolo post di applicare l’ìstruzione “noindex”.
Per quanto riguarda WordPress, il plugin dove nel miglior modo possibile possiamo modificare e impostare il nostro robots.txt è proprio SEO Yoast.
sintassi di default in Wp tramite SEO Yoast
User-agent: *
Disallow: /blog/wp-admin/
Allow: /blog/wp-admin/admin-ajax.php
Per la stesura di questo post ringraziamo la severa e precisa consulenza di Saverio Bruno di Riolab sempre pronto a dispensare utili consigli in ambito SEO e non solo. 😉