site-ul de indexare Management, un blog despre internet marketing
de gestionare a site-ului de indexare toate motoarele de căutare pot utiliza un fișier robots.txt localizat în directorul rădăcină al serverului. Acest fișier spune crawleri (bot), ce fișiere ce pot indexa și ce nu.
Fișierul robots.txt este format din înregistrări. Fiecare intrare este format din cel puțin două linii: o linie cu numele aplicației client - User-agent, și unul sau mai multe linii care încep cu Directiva Disallow. Liniile goale din fișierul robots.txt sunt importante, ele împărtășesc înregistrarea cu linie diferită User-agent.
User-agent șir de caractere pentru a specifica numele robotului. De exemplu, în linia următoare este numele unui robot de căutare Google - «Googlebot»:
Barca Yandex - «Yandex»
Barca Rambler - «StackRambler»
Barca Yahoo! - «Yahoo! Slurp »
MSN Bot - «msnbot»
Numele altor roboți pot fi găsite în jurnalele de server.
Dacă doriți să dezactivați indexarea fișierelor și / sau foldere pentru toate motoarele de căutare, puteți utiliza wildcard „*“:
A doua parte constă în înregistrarea liniilor Disallow. Aceste linii - directive pentru robot (sau pentru mai multe roboți). Ei spun robotul ce fișiere și / sau foldere pentru a indexa interzise. În linii cu Disallow câmp scris nu absolut, ci prefixele relative, care este de a introduce numele de domeniu nu este necesară.
De exemplu, următoarea directivă interzice păianjenii să indice un fișier «download.htm», localizat în directorul rădăcină al site-ului:
Directiva poate include numele folderului. De exemplu, următoarea directivă interzice indexare foldere «cgi-bin», care se află în directorul rădăcină al site-ului:
Următoarea directivă va interzice păianjeni indexa și fișier «catalog.html», iar dosarul «catalog»:
În cazul în care directiva Disallow este gol, înseamnă că indicele robotul poate toate fișierele. Cel puțin o directivă Interdicție trebuie să fie prezent pentru fiecare domeniu User-agent, pentru a robots.txt a fost perceput în mod corect de către motoarele de căutare. Complet robots.txt gol este la fel ca și absența completă pe server.
Toate motoarele de căutare sunt pe deplin permis să indexeze site-ul:
Site-ul a interzis prin Indexarea toate motoarele de căutare:
Interdicția privind dosarele de indexare «cgi-bin» toate motoarele de căutare:
User-agent: *
Disallow: / cgi-bin /
O interdicție asupra «download.htm» indexare de fișiere de către toate motoarele de căutare:
User-agent: *
Disallow: download.htm
O interdicție asupra «download.htm» indexare fișier și «cgi-bin» folderul toate motoarele de căutare:
User-agent: *
Disallow: / cgi-bin /
Disallow: download.htm
Interdicția de indexare «download.htm» fișier pentru Google robotului - «Googlebot»:
User-agent: Googlebot
Disallow: download.htm
# Yahoo! Nr index.
User-agent: Yahoo! Slurp
Disallow: /
Citește toate notele din categoria: Search Engine Optimization
Multumesc pentru articol.
O problemă urgentă. Cum de a exclude roboții de tranziție la paginile din Urla care conțin „cuvânt de oprire“?
exemplu:
site.com/1/2/3/stop/
site.com/2/1/3/stop/
Nu știu ... singura cale pe care o văd acum, este generarea de script-ul samopisnaya robots.txt în cazul în care o mulțime și devin din ce în mod constant astfel de URL-ul tot mai mult (sau o listă de „stop cuvinte“ suficient de dinamică) sau adăugarea manuală, dacă interzise URL-ul puțin și rar există noi ... puteţi lua în considerare, de asemenea, opțiuni cu un roboți meta tag-ul ...
Dar sensul este fie mâini sau electronic. Opțiuni, folosind doar sintaxa eu nu văd robots.txt.
Germik, Yandex este acum vă permite să inserați pictograme * și $ pentru substituire.
Puteți face acest lucru:
Disallow: / * / * / * / oprire /
Alexander Sadovsky răspunde la întrebări optimizatori
Răspunsuri Sadovsky pune sub semnul întrebării optimizatori pe motorul de căutare pe forum.
Cum de a menține unitatea în companie?
a declarat frumos Dmitry Ivanov (director de proiecte în cadrul companiei Yandex): Și dacă pentru un mic start-up la locul de muncă, ca un hobby - norma.
Andrey Muravov (Grandmaster)
Internet marketing.
[email protected]