Wednesday, June 9, 2010

Come per il controllo robot dei motori di ricerca

Non sarebbe bello essere in grado di lasciare qualche codice nel vostro sito web per raccontare la crawler dei motori di ricerca ragno per rendere il sito numero uno? Purtroppo un file robots.txt o dei meta tag robots non lo farà, ma possono aiutare il crawler di indicizzare il tuo sito
meglio e bloccare quelli indesiderati.

In primo luogo una definizione poco spiegando:

Spider dei motori di ricerca o Crawlers - Un web crawler (detto anche spider web) è un programma che esplora il World Wide Web in un metodico, modo automatico. Web crawler sono principalmente utilizzati per creare una copia di tutte le pagine visitate per la successiva trasformazione da parte di un motore di ricerca, che indicizza le pagine scaricate per fornire ricerche velocemente.

Un web crawler è un tipo di bot, o un agente software. In generale, si comincia con un elenco di URL da visitare. Poiché le visite questi URL, identifica tutti i collegamenti ipertestuali nella pagina e li aggiunge alla lista di URL da visitare, ricorsivamente l'esplorazione del Web secondo una serie di politiche.

Robots.txt - L'esclusione robot standard o protocollo robots.txt è una convenzione per evitare ben educati web spider e robot web di accedere a tutti o parte di un sito web. Le informazioni specificando le parti che non si deve accedere è specificato in un file chiamato robots.txt nella directory di livello superiore del sito.

Il protocollo robots.txt è meramente consultivo, e si avvale della collaborazione del robot web, in modo che la marcatura di uno spazio del vostro sito fuori limite con robots.txt non garantisce la privacy. Molti amministratori del sito web sono stati sorpresi nel tentativo di utilizzare il robot file per rendere le parti intime di un sito web invisibile al resto del mondo. Tuttavia, il file è necessariamente a disposizione del pubblico ed è facilmente controllato da chiunque con un browser web.

I modelli robots.txt è compensato dal confronto sottostringa semplice, quindi occorre prestare attenzione per assicurarsi che i modelli di cartelle di corrispondenza avere l'ultima carattere '/' aggiunto: altrimenti tutti i file con nomi che iniziano con quella sottostringa corrisponderà, anziché i soli in la directory di destinazione.

Meta Tag - Meta-tag sono utilizzati per fornire dati strutturati sui dati.

Nei primi anni del 2000, i motori di ricerca girò via da dipendenza Meta tag, come in molti altri siti utilizzate parole chiave inappropriate, o sono stati keyword stuffing per ottenere qualsiasi possibile il traffico.

Alcuni motori di ricerca, tuttavia, ancora prendere Meta tag in qualche considerazione in sede di conseguimento di risultati. Negli ultimi anni, i motori di ricerca sono diventati più intelligenti, penalizzando i siti web che sono barare (ripetendo la stessa parola chiave più volte per ottenere una spinta nella classifica di ricerca). Invece di andare su classifiche, questi siti passerà alla classifica o, su alcuni motori di ricerca, sarà dato il via del motore di ricerca completamente.

Indicizzare un sito - L'atto di scansione del tuo sito e la raccolta di informazioni.

Come può il file robots.txt e meta tag aiutare?

Nel robots.txt si può dire al web nocivi 'crawler' di lasciare il vostro sito web da solo, e dare suggerimenti utili a quelli che si desidera eseguire la scansione del tuo sito. Ecco un esempio su come disabilitare un crawler per la ricerca nel vostro sito:

# Questo identifica la Wayback Machine
User-agent: ia_archiver
Disallow: /

ia_archiver è il nome del crawler per la Wayback Machine, che si può avere sentito parlare, e il / disabilitare dopo dice di non ai_archiver di indicizzare qualsiasi del tuo sito. Il # consente di scrivere commenti a te stesso in modo da poter tenere traccia di quello che avete digitato.

Digitare le tre linee di cui sopra in Blocco note dal computer e salvarlo nella directory principale del proprio sito web come robots.txt. Web crawler look per questo primo documento in un sito web prima di fare qualsiasi altra cosa. Questo aiuta il crawler a fare il suo lavoro, e aiuta il proprietario del sito web raccontare il ragno che cosa fare. Dire per esempio avete alcuni dati che non si desidera che il crawler di vedere. (Come contenuto duplicato per altre pagine referrer del browser)

Si può dissuadere i crawler di indicizzare le directory 'duplicato digitando questo nel file robots.txt. Oppure, se volete avere il file robots.txt creato per te, www.rietta.com visitare / robogen. Per convalidare il file robots.txt per verificare che funzioni correttamente è possibile visitare www.searchengineworld.com / cgi-bin / robotcheck.cgi

User-agent: *
Disallow: / duplicato /

Un * dopo user-agent, dice che questa azione si applica a tutti i crawler e / duplicato / dopo non consentire dice tutto crawler di ignorare questa directory e non di ricerca. Per ciascun user-agent e la linea di non consentire ci deve essere uno spazio vuoto tra loro per poter funzionare correttamente. Così questo è come si dovrebbe creare le sopra due comandi in un file robots.txt:

# Questo identifica la Wayback Machine
User-agent: ia_archiver
Disallow: /

User-agent: *
Disallow: / duplicato /

Una cosa da notare che è molto importante: chiunque può accedere al file robots.txt del sito. Quindi, se si dispone di informazioni che non volete a chiunque di vedere non lo include nel file robots.txt. Se la directory che non si desidera a chiunque di vedere non è collegato A dal tuo sito web crawler non indicizzerà comunque.

Un'alternativa a bloccare l'indicizzazione del proprio sito è quello di mettere un meta tag nella pagina. Ecco come si presenta:

Hai messo questo nel tag della pagina web. Questa riga indica al crawler non robot di indicizzare (ricerca) la pagina e non per seguire uno dei collegamenti ipertestuali nella pagina. Quindi, ad esempio dice al crawler robot di non indicizzare la pagina, ma seguire i collegamenti ipertestuali in questa pagina.

Lo sapevate che Google ha la sua etichetta personale?

Ecco come si presenta: Questo dice il crawler di Google non robot di indicizzare la pagina, non seguire uno dei link, e non per evitare di memorizzare versioni cache del vostro sito web. Si vuole questo fatto se si aggiorna il contenuto del tuo sito di frequente. Questo impedisce all'utente di visualizzare contenuti web obsoleto che non viene aggiornata a causa di memorizzazione nella cache.
È possibile utilizzare il tag per parlare specificamente per i robot di Google al fine di evitare complicazioni o se si è ottimizzare il suo sito per il motore di ricerca di Google. Si conclude così l'articolo di questo mese.

Fino al prossimo articolo avere un grande giorno!

Copyright © Rock Michael
Web imprenditore di sviluppo (Web Design e Hosting)
Presenza su Internet
http://www.TheInternetPresence.com

No comments:

Post a Comment