configurare manuală colector-cheie pentru analizarea eficientă

Întreaga serie de articole:

Instalarea programului

Dacă nu sunteți încă familiarizați cu programul Key colector, acesta trebuie să fie descărcat de aici. Există instrucțiuni cu privire la modul în care să cumpere și să instalați programul. Odată ce programul este instalat și activat, puteți continua la pasul următor.

Important! Colector cheie - un program care ruleaza pe computere Windows și Mac (Macbook, Macbook Air) cu OSX să nu fie stabilită. Această limitare, puteți instala mașină virtuală pentru Windows, de exemplu, prin intermediul utilitate Parallels Desktop.

Un proxy va fi suficient pentru a lucra și de a înțelege modul în care funcționează programul. Bine proxy, individuale oferă site-ul proxy-sale.com. Noi luăm cei care lucrează în colector-cheie.

Acum trebuie doar să înțelegem principiul setărilor cheie de colectori și a dokrutku suplimentare se poate face mai târziu.

Du-te la setările de program - click pe pictograma „unelte“ în panoul de control.

Foto 1: Meniu Setări colector cheie.

Uchetki pentru Yandex.Direct

Du-te la secțiunea de setări "Yandex.Direct" (parsare -> Yandex.Direct).

configurare manuală colector-cheie pentru analizarea eficientă
Foto 2: În prima etapă, vom face numai date uchetki și setările proxy se va face în continuare. Acest lucru va reduce numărul de erori și probleme potențiale.

O astfel de legare este în mare măsură îmbunătățește stabilitatea parsing, reduce numărul de afișări CAPTCHA (cec de robot), care duce în cele din urmă la o colectare mai rapidă a datelor și de a reduce timpul total necesar pentru a colecta.

Odată ce datele sunt introduse, avem nevoie pentru a seta numărul de fire în blocul 2 la numărul de proxy-uri pe care le-am dobândit. În acest caz, am stabilit această valoare la 1 și a trece la pasul următor.

Fila de „rețea“

Aici trebuie să adăugăm nostru (e) de proxy și a instala un număr de setări suplimentare.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 3: Principalul domeniu de interes în fila „Rețea“.

Primul pas în adăugarea unui tabel proxy №1, marcate în captura de ecran. Puteți face un rând, fie manual sau faceți clic pe „Adăugați la tampon“ și de a face lista. Specificați adresa IP a serverului, portul, numele de utilizator și parola serverului proxy (nu Yandex.Direct uchetki!). Noi luăm datele din scrisoarea, pe care el ne-a trimis un serviciu, în care am achiziționat un proxy.

Setările de bază (2)

  1. Utilizați un server proxy. Activați această opțiune prin verificarea, HTTP rămâne neschimbat. Pentru simplificare, vom folosi un proxy HTTP. protocol Socks necesită mai multă îndemânare și experiență și, în unele cazuri, de lucru cu erori care pot duce la incapacitatea de a continua.
  2. proxy-uri nu au fost Dezactivarea testate. Rândul său, este o măsură de precauție în cazul în care au existat unele probleme cu proxy. După 360 de secunde, încercați din nou conexiunea va fi sistemul de loc.

Verificarea proxy (3)

Expune numărul numărul de fire egal cu numărul proxy. Ie dacă avem un proxy, setul 1.

După aceea, sărbătorim noastre de verificare proxy (a le activa), astfel încât fiecare linie din blocul 1 a fost evidențiată în verde și rulați testul (unul după altul, unul câte unul):

  1. Verificați PS Yandex
  2. Verificați în Yandex.Wordstat

Verificările trebuie să înțeleagă dacă totul este în regulă cu setările, uchetki Yandex și server proxy (e). Dacă cheia colector blocat proxy (marcată în linia roșie) în blocul 1, după verificarea prin PS Yandex, problema de configurarea unui server proxy. Poate că ați introdus numele de utilizator, parola, sau portul server proxy. În cazul în care proxy-ul a fost inspectată de către Yandex.Wordstat, problema a fost deja configurat uchetki Yandex.

Secvențial Testarea vă permite să localizați rapid și corectați cauza erorii prompt.

Pentru durata de viață a bateriei a programului va trebui să se înregistreze la serviciul care oferă „servicii antikapchu“. Bugetul pentru serviciile de date au nevoie de un pic, dar va folosi nave spațiale într-un mod autonom. Mai jos este o listă de servicii de Kay colector sprijinit:

Foto 4: Lista de servicii, care sunt susținute de program și de a furniza servicii pentru a rezolva o captcha.

Selectați serviciul dorit și înregistrați-l. Asigurați-100-500r pe echilibru, vom obține o cheie API, pe care trebuie să le facă pentru setările de mai jos.

configurare manuală colector-cheie pentru analizarea eficientă
Fotografie 5: Setări antikapchu (recunoaștere automată a captcha).

În timpul parsare, surse statistice arată utilizatorului captcha (verificarea robotului), pentru a vă asigura că acestea folosesc oamenii și pentru a limita parsarea automată.

setările parsing

Prima secțiune mare de „parsing“ este în lista de opțiuni de program, care este responsabil pentru înființarea colectarea de date din diferite surse.

setări generale

Configurarea „General“, după cum urmează:

configurare manuală colector-cheie pentru analizarea eficientă
Fotografie 6: Configurarea parsarea de bază.

  1. Adăugați fraza în tabel, care conține nu mai mult de N cuvinte. După cum arată practica, numărul optim de cuvinte este de 10. Este cu acest număr putem obține cât mai mare și mid-range și joasă frecvență interogări. cerere Coada nu vrem să-și piardă, cu toate acestea, și colectarea de gol pe frecvența solicitărilor, ne, de asemenea, nu sunt interesați. 10 cuvinte din interogarea dvs. îndeplinește pe deplin aceste cerințe.
  2. Numărul de încercări de încărcare de pagini. În caz de eșec este numărul de încercări pentru a face programul. Valoarea standard a 30. Nu schimba, pentru că este suficient pentru funcționarea corectă a programului.
  3. Timeout de așteptare pentru un răspuns de la serviciu. Timpul de așteptare pentru pagini pentru a încărca de la serviciu. Setarea implicită de 30000 ms este potrivit pentru proiecte de orice dimensiune.
  4. Modul de colectare. Acest articol trebuie să fie marcate „Linii de date netransmise“ - pentru siruri de caractere cu informațiile care lipsesc vor fi colectate în program, acesta va scurta timpul de colectare, deoarece vor exista inspecții subsecvente deja finalizate de date.
  5. caractere de filtrare. Exemplu Setați o listă destul de mare de caractere, care vor fi eliminate atunci când parsarea. Noi nu suntem de expresie nevoi expresive interesate ale utilizatorului în căutare, și sunt interesați în sensul cererii sale. În același timp, de caractere, cum ar fi „-“ „“, și pot fi utilizate de către diferiți utilizatori, în diferite moduri, de exemplu, cu cunoașterea regulilor de scriere a unei cereri și fără. Pentru a aduce totul la un singur tip, înlocuiți aceste caractere cu un spațiu. Înlocuirea litera e la e este, de asemenea, o ajustare a diferențelor dintre cererile de utilizator. Nu există nici o diferență, a primit o cerere de arici sau în format Arici, deoarece acestea sunt un sens semantic. Prin urmare, pentru comoditatea tuturor fraze pe care le prezentăm o viziune unificata asupra acestui parametru.
  6. Citat în litere mici. Este, de asemenea, un cadru convenabil pentru a aduce toate frazele într-un singur format.
Scopul nostru final - pentru a obține o listă de fraze de cuvinte cheie într-un singur format, ușor de înțeles. Acest lucru va facilita activitatea viitoare și de a facilita procesul de curățare și căutarea ia.

Yandex.Wordstat

configurare manuală colector-cheie pentru analizarea eficientă
Fotografie 7: Setări parsare Yandex.Wordstat.

Yandex.Direct

configurare manuală colector-cheie pentru analizarea eficientă
Fotografie 9: Setările funcționează cu serviciul Yandex.Direct.
  1. Întârzierile între cereri. Întârzierea între cereri este mai bine să se instaleze între 10.000 și 15.000 de milisecunde, pentru a nu obține un sistem de blocare și încărcare. Direct este foarte sensibil la parsarea și oferă mult mai surprinde colectarea agresivă.
  2. Numărul de fire. Puneți numărul de fire, egal cu numărul de proxy. Setările de dezactivare prevăzute așa cum se arată în captura de ecran.

Google AdWords

Google AdWords Setările surse rămân de obicei standard, ca și au restricții cu privire la care ne-am avertizat colector Kay.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 10: Setări Google AdWords.

În general, nu este nevoie să le schimbe. Folosind frecvența exactă a Google AdWords după ce folosit pentru instrumente de „analiză duble implicite“ ca frecventa exacta AdWords ia în considerare ordinea cuvintelor. În momentul de față, această problemă este rezolvată prin colectarea corectă masca de frecvență QUERY prin Yandex (așa-numitele între paranteze [] operator, ținând cont de secvența de cuvinte într-o propoziție).

hoinar Adstat

configurare manuală colector-cheie pentru analizarea eficientă
Foto 11: Setări Rambler Adstat.

SERP

Setarea de blocare a Yandex.XML ignora si nu schimba nimic acolo. În munca noastră, nu vom folosi serviciul XML Yandex, astfel încât nu este nevoie să-l activați.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 12: Setări de lucru cu SERP Yandex.

Setați numărul de fire și setările dezactiva aceleași pentru toate sursele, vom lucra: Yandex, Google, YouTube, Mail.ru.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 13: Stabilirea de lucru cu livrare de căutare Google, YouTube, Mail.ru.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 14: Setările funcționează cu sfaturi de căutare.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 15: Setări lucra cu statistici Mail.ru.

configurare manuală colector-cheie pentru analizarea eficientă
Foto 16: Alte setări cheie colector.

Așa că ne-am plimbat prin setările principale cheie de colecție au pregătit un instrument pentru parsarea offline. instrument de configurare inițială poate lua într-adevăr o mulțime de timp, dar va salva o mulțime de timp în viitor, deoarece configurată în acest fel programul funcționează pe pilot automat și nu necesită o atenție și monitorizare. Acesta poate fi instalat pe o mașină virtuală și se lasă timp de noapte, fără griji despre ce se va opri parsare dintr-un motiv sau altul.