Cum forum de știri matriksnet pentru webmasteri

Utilizatorul vine la site-ul motorului de căutare, specifică sistemului său de cerere și de regăsire, sarcina este de a emite o cerere pentru cele mai relevante documente de top. Documentele care corespund interogării în index - miliarde, și chiar și după prima filtrare le - milioane de oameni. Aceste milioane de oameni trebuie să organizeze într-un fel. Pentru ajutor în compilarea formula clasament vine masina de învățare - și anume Matriksnet, gradient de algoritm de proprietate stimularea Yandex.

. Matriksnet - un gradient stimularea arborelui de decizie, care sprijină toate modurile majore: clasificarea, multiklassifikatsii, regresie, clasament, etc Există moduri mai complexe - o combinație a celor de mai sus. Departamentul nostru este dezvoltarea de noi moduri pentru nevoile de departamente conexe, precum și utilizatorii interni Yandex este acum, de asemenea, pot adăuga propriile lor regimuri.

Matriksnet poate lucra cu valori lipsă - în cazul în care valoarea unui factor nu este specificat, nu va fi o problemă. În plus, formarea Matriksneta poate fi pornit pe cluster-ul - un algoritm distribuit. Acest lucru este important, deoarece în căutarea pentru proba de formare este acum o dimensiune pe care ei pur și simplu nu se potrivesc în memoria principală a serverului, care este motivul pentru care aveți nevoie pentru a face procesul de învățare distribuite.

Matriksneta utilizați în Yandex

Cine este în domeniul public există mai multe algoritmi de gradient de stimulare, așa că am să-ți spun ce este diferit de ei Matriksnet. O caracteristică importantă este faptul că aproape nu are nevoie de o selecție de opțiuni pentru el. De ce?

Când a scris Matriksnet, a fost testat pe un set de probe diferite de formare (pool-uri), astfel încât acesta este la a da tuturor o bună calitate, astfel încât noile seturi de date pe care le obține, de asemenea, de bună calitate. Matriksnet ușor de utilizat, nu numai pentru că aproape nu are nevoie de o selecție de parametri, dar, de asemenea, pentru că Yandex are infrastructura pentru a rula literalmente de formare într-un singur clic (mai multe despre aceasta mai jos). Matriksnet câștigă cu privire la calitatea altor algoritmi de arbori de gradient în soluții de ridicare a modului de regresie.

Cum forum de știri matriksnet pentru webmasteri

În Matriksneta de formare extrem de optimizat. Este important ca toate sarcinile Yandex, dar mai ales pentru căutare. Deși avem o mare de formare și de prelevare de probe, nu ne putem permite să formula studiat luni, deoarece calitatea va avea de suferit. Prin urmare, se aplică tot felul de optimizare, atât algoritmică și la nivel scăzut, precum și optimizarea sarcinii rețelei. Aplicarea formulei Matriksneta zaoptimizirovano prea mult (timp de 1 sec. Într-o formulă flux poate fi aplicat la 100.000 de documente).

Gradient stimularea arborelui decizional

Arbori de decizie - aceasta este o astfel de structură de date - un arbore binar - în cazul în care toate nodurile de date, cu excepția frunzei, este o partiție de pe un factor, sau un număr, iar în topuri cu frunze sunt numere. Acesta este modul în care arborele poate fi aplicat la documentul:

Cum forum de știri matriksnet pentru webmasteri

Gradient stimularea - modele mai simple este suma (în acest caz, arbori de decizie), fiecare dintre acestea îmbunătățește rezultatul combinației precedente.

Matriksnet - nu este o decizie arbitrară copaci, și așa-numitele «arbori de decizie uitând“, în cazul în care există o partiție de pe unul și același lucru la fiecare nivel al motivelor și același număr. O astfel de metodă de construcție a arborelui are un set de caracteristici:

• Obținerea unei foarte simple, modele care sunt rezistente la recalifice
• spațiu partiție cu un hiperplan, ceea ce înseamnă că, pentru a calcula valoarea foii, este necesar să se calculeze valoarea tuturor partițiilor, ceea ce înseamnă că nu contează în ce ordine de a face acest lucru
• regularizare. Este necesar să se garanteze absența frunzelor, care aproape nu se întâmplă niciodată obiecte, deci va trebui să vină cu o varietate de regularizare pentru a penaliza astfel de situații

Educația pe un cluster

Există mai multe moduri, ca soluții de gradient stimularea pe copaci în paralel pe mai multe servere:

1. pe baza
2. documente

Dacă ne paralelă de formare pe motive (în cazul în care semne diferite sunt pe mai multe servere), atunci cantitatea de informații care trebuie să fie trimise prin rețea, va fi direct proporțională cu numărul de documente. Deoarece numărul de documente avem o foarte mare și în creștere, nu-l putem permite, și este paralel cu formarea potrivit documentelor.

Gâtuire în formarea tuturor gradientului stimularea arborelui de decizie este de a alege structura de copac, și anume, set de atribute, dintre care va fi următoarea noastră copac. Selecția se face în două moduri:

1. Modul de master-slave, atunci când există un nod principal și un set de sclavi, fiecare dintre care consideră că unele statistici privind caracteristicile și trimite-l la master, pe care le agregă și să aleagă cea mai bună indicație
2. toate modul rază în cazul în care nu există nici un maestru dedicat și fiecare nod contorizează toate statisticile și agregate în sine

Fiecare dintre aceste abordări au deficiențe grave. Comandantul modul de master-slave devine o strangulare în rețea, toate modul de rază este o mulțime de trafic, deoarece fiecare nod trebuie să primească o mulțime de informații. De exemplu, XGBoost funcționează în toate modul rază, astfel încât să nu o paralelă bună. În Matriksnete ambele aceste probleme sunt rezolvate în felul următor: atunci când selectarea unui alt arbore pentru fiecare caracteristică este selectat aleatoriu nod care declară un maestru virtual, toate celelalte slave comunica deja cu acest nod. El agregă informațiile de care aveți nevoie, această caracteristică calculează și trimite rezultatul la master.