Crawl budget: cos’è e come si ottimizza?

Ti piacerebbe sapere se il tuo sito web è apprezzato da Google vero? Allora la prima cosa da fare è capire quante risorse Google decide di dedicare alla sua scansione, ossia capire il Crawl Budget che ti mette a disposizione. Ma una volta che l’hai capito perché non cercare di ottimizzarlo in modo tale che lo utilizzi per scansionare solo i contenuti più importanti per il tuo sito web?

Cerchiamo di capire cos’è il crawl budget e come ottimizzarlo!

Come funziona Googlebot

Googlebot è il crawler di Google, ossia lo spider che scandaglia il web 24 ore su 24, alla ricerca di nuove pagine da indicizzare (ne abbiamo già parlato in questo articolo su indicizzazione e posizionamento siti web su Google).

Per farlo segue i link e le direttive che incontra nei file robots.txt dei siti web che l’hanno impostato.

Il web è composto da miliardi di pagine, ed altrettante ne vengono create in ogni istante, quindi capirete bene che è davvero impossibile che Googlebot riesca scansionarle tutte. Per questo motivo nasce quello che viene definito il Crawl Budget.

Cos’è il crawl budget

Il crawl budget non è altro che il quantitativo di risorse che Google decide di dedicare ad un sito web per la sua scansione ed indicizzazione. Tramite questo parametro stabilisce quante pagine, quante immagini e soprattutto quanti kilobyte del sito web Googlebot scansionerà e scaricherà.

Ovviamente maggiore sarà il numero delle pagine e dei Kilobyte scaricati, maggiore sarà l’importanza che Google attribuisce al sito web.

Ma come è possibile monitorare questi valori?

Monitorare il crawl budget dalla search console

Questi valori possono essere verificati tramite uno strumento gratuito (e indispensabile) che ci mette a disposizione Google stesso: la Google Search Console. Al suo interno, purtroppo per il momento solo nella vecchia versione, c’è una sezione chiamata statistiche di scansione nella quale è possibile vedere relativamente agli ultimi 90 giorni il numero di pagine sottoposte a scansione giornalmente, i Kilobyte scaricati giornalmente ed il tempo trascorso per il download di una pagina (in millisecondi). Vediamo nel dettaglio questi valori.

Numero di pagine sottoposte a scansione giornalmente

Il numero di pagine sottoposte a scansione giornalmente ci indica quante pagine del nostro sito web il crawler visita. Chiaramente se questo valore è inferiore al numero di pagine presenti sul sito è un problema perché vuol dire che alcune pagine, magari anche importanti, non vengono visitate. Se questo valore è invece pari o addirittura superiore al numero delle pagine del sito web vuol dire che Googlebot riesce a visitarlo in maniera approfondita ed è un segnale più che positivo.

Prima di valutare questo parametro devi però capire di quante pagine effettivamente è composto il sito web, e per pagine si intendono anche ad esempio i contenuti multimediali (immagini, allegati .pdf, etc..) le pagine archivio (categorie, tag, attributi etc..) e così via. Per farlo è possibile utilizzare dei software di Crawling, come ad esempio Screaming Frog oppure Visual Seo Studio, che emulano in tutto e per tutto la scansione di Googlebot.

Kilobyte scaricati giornalmente

Questo valore si potrebbe pensare che più sia alto meglio è, ma in realtà, in ottica di ottimizzazione delle performance di un sito web, è un valore che deve tendere verso il basso poiché si deve cercare sempre di ottimizzare il peso delle pagine in modo tale che possano essere scaricate e navigate facilmente sia dal crawler che dagli utenti.

Tempo trascorso per il download di una pagina

Ricollegandoci a quanto scritto poco fa anche questo valore deve tendere verso al basso, poiché dobbiamo fare in modo che il crawler e gli utenti scarichino velocemente le pagine del nostro sito.

Monitorare il crawl budget dai log del server

Il crawl budget può essere monitorato anche analizzando i Log del server. Cosa sono i Log? I log non sono altro che le richieste di “accesso” che vengono effettuate al server che ospita il nostro sito web. Anche Googlebot quando scansiona il nostro sito web fa delle richieste al server e di conseguenza genera dei log che possono essere letti e interpretati.

Dall’analisi dei log è possibile scoprire alcuni dati fondamentali che dalla Search Console non riusciamo a verificare in particolare:

lo User Agent che ha effettuato la “richiesta”, nel nostro caso ci interessa analizzare tutte le richieste effettuate da Googlebot;
le URL che sono state richieste, per verificare quali pagine ha scansionato Googlebot e capire se ha effettivamente scansionato le pagine più importanti o se sta “perdendo tempo” con pagine secondarie;
di contro è possibile capire quali pagine non sono state scansionate da Googlebot e, nel caso siano pagine importanti, correre subito ai ripari per dargli maggiore visibilità;

Se ci si appoggia a piattaforme hosting che mettono a disposizione un Cpanel, come ad esempio Serverplan o Keliweb, è possibile scaricare i log direttamente dal suo interno selezionando la voce “accesso non elaborato”. Una volta scaricati basterà utilizzare un software come SEO Log File Analyzer di Screming Frog per effettuare l’analisi.

L’alternativa è scaricarli direttamente da FTP.

Quali sono i fattori che influiscono negativamente sul crawl budget

Visto che i motori di ricerca decidono di dedicare un tempo limitato alla scansione del nostro sito web, tutto quello che può fargli “perdere” tempo influisce negativamente sul crawl budget. Vediamo in particolare quali sono i fattori che hanno il maggior impatto negativo:

duplicazione di contenuti: url diverse che portano a pagine con contenuti identici;
tempi di caricamento lunghi;
contenuti di bassa qualità;
pagine compromesse;
url che portano a pagine con errore 404

Come ottimizzare ed aumentare il crawl budget

Vediamo adesso come ottimizzare ed aumentare il crawl budget che Google mette a disposizione del nostro sito web.

Ottimizza la struttura del sito e link interni

Creando una struttura pulita, ed efficace, oltre a render felice l’utente, renderai la scansione del crawler più semplice e avrai maggiori probabilità che passi attraverso tutte le pagine importanti del tuo sito web. I link interni e le breadcrumbs sono due elementi fondamentali per determinare la struttura del sito, quindi cerca di ottimizzarli al meglio e correggi eventuali broken link.

Ottimizza i contenuti

Fai in modo che tutti i tuoi contenuti siano di valore per l’utente e per il crawler. Nel caso in cui vi siano delle pagine, come ad esempio la cookie policy o la privacy policy, che è inutile far navigare al crawler, bloccane la scansione attraverso il file robots.txt.

Aumenta la frequenza di pubblicazione di nuovi contenuti

Se pubblichi nuovi contenuti (DI VALORE) con maggiore frequenza, e li segnali tramite search console, Googlebot sarà più incentivato a visitare più spesso il tuo sito web, aumentando di volta in volta il crawl budget che ti mette a disposizione.

Link in ingresso di qualità

Più link in ingresso di qualità ricevi maggiori saranno le possibilità che Googlebot venga a visitare il tuo sito. Inoltre non dimentichiamoci che i link in ingresso sono uno dei 200 fattori di ranking di Google, quindi se gestiti a dovere aumenteranno le performance SEO del tuo sito web.