regăsire informații
căutare de informații - procesul de identificare și selectare a documentelor date semnificative și formale sau date din fluxul de informații, sau rețele.
Informații problemă regăsire este cea mai dezvoltată în teoria și practica informatică.
În procesul de utilizare a informațiilor pentru o varietate de sarcini membrilor societății (.. Artiști, scriitori, oameni de știință, etc) pentru a efectua o căutare de informații - acte, metode și proceduri pentru a efectua selectarea anumitor informații din setul de date, satisfăcând astfel nevoile lor de informare.
Caracteristicile zonei subiect, valorile care trebuie să fie stabilite pentru sarcina în practică, se face referire la informația are nevoie.
căutare Informațiile sunt furnizate de sistemul informatic de preluare (IRS) - un set de instrumente și metode, organizate într-un sistem funcțional care realizează stocarea și regăsirea informațiilor. Pentru solicitarea de informații importante IRS de la un consumator, - o expresie de text de informații are nevoie.
Esența de regăsire a informațiilor este de a extrage într-un set (informații matrice) dintr-un subset de documente sau date relevante care îndeplinesc cererea consumatorului. regăsire a informațiilor este ca răspuns la nevoia de informații de utilizator, exprimată într-o solicitare de informații. Procesul de recuperare a informațiilor cu privire la nivelul cel mai general descris de următorul algoritm:
1. Formularea cererii, alocarea structurii sale majore criterii de căutare: cuvinte cheie și concepte, obiecte și aspecte ale căutării.
2. Date de identificare: compararea datelor de căutare cu atribute în informațiile (căutare) matrice.
3. Selecția: verificarea documentelor subarray dezvăluite sau date pentru a îndeplini criteriile de căutare specificate.
4. Structurarea (ordonarea) a documentelor sau a datelor, în conformitate cu logica interogare.
regăsirea informației este un proces complex care implică o multitudine de procedee de prelucrare a informațiilor semantice și interogări de care depinde eficacitatea sa. Acest lucru se realizează prin formularea cerințelor de căutare, de ex., E. Textul, inclusiv imaginea de interogare de căutare și instrucțiuni despre operațiile logice care urmează să fie efectuate în procesul de regăsire a informațiilor.
căutare de informații este de a compara imaginea căutării documentului cu rețeta de căutare. Când acestea coincid suficient de bine a considerat că documentul având imaginea de explorare satisface cererea de informații date. Pentru o evaluare obiectivă a corespunzătoare căutare de imagini de căutare folosind criterii pe bază de rețetă, numite criteriile de emitere. Criteriul emitent - un set de atribute, care este determinată de gradul de căutare corespondență documentului de interogare prescripție imagine și o decizie de acordare sau de negare a documentului, ca răspuns la o solicitare de informații.
Informații despre conformitate primit solicitarea de informații menționate la relevanță. În cazurile în care consumatorul de informații care nu exprimă în mod clar nevoile lor de informare în cererea de informații, informațiile relevante nu vor fi în deplină concordanță cu nevoile de informații. Se spune că informația nu are proprietatea de pertinență. Astfel, informațiile primite corespondența informațională nevoile numite pertinenta.
Fig. 19. Clasificarea IRL
Expresia de proces conținutul semantic al principalelor elemente de informare (desen căutarea de imagini) folosind un limbaj de regăsire a informațiilor numit indexare.
În funcție de IRL, distinge tipuri de indexare.
Index Clasificare (sistematizare) - atribuirea de date sau documente de simboluri de clasificare, în conformitate cu normele de orice IRL clasificare.
Subiect indexare - indexarea conținutului subiect al documentelor.
Free indexare - tehnologia de indexare, care nu prevede înlocuirea cuvintelor-cheie ale textului, în conformitate cu recomandările unui dicționar special.
Coordonarea indexare - indexare, oferind expresie cu multiple fațete a conținutului de bază semantic al documentului sau conținutul semantic al numărului de solicitare de informații de cuvinte cheie sau descriptori.
Factual indexare - indexare, oferind o reflectare a informațiilor specifice imaginii documentului de căutare (fapte).
indexare automata - indexare, a cărei tehnologie implică utilizarea unor proceduri formale efectuate cu ajutorul tehnicii de calcul, și include utilizarea procedurilor inteligente pentru deciziile majore privind compoziția de căutare a imaginii.
indexare automată: indexare, a cărei tehnologie implică utilizarea de numai procedurile formale de procesare a textului efectuate cu ajutorul tehnicii de calcul.
În practică, cele mai frecvente sunt de trei tipuri de interogări de căutare.
anchetă tematică - este o aplicație pentru selectarea documentelor pe un anumit subiect.
Atunci când este necesar referință de tip interogare de fapt se consulta, de exemplu, decodificarea simbolurilor, durata de viață a unei persoane, valoarea constantele fizico-chimice și m. P.
Real IPA, de obicei, se specializează în abordarea unul (uneori mai multe) tipuri de cereri de diferite tipuri de regăsire a informațiilor, în scopuri diferite, mijloacele și obiectul de căutare.
Căutare documentar - o căutare de informații în care căutarea obiectele sunt documentele. căutare documentar folosind automate de calculator numit căutare documentar.
Căutare factual - Această informație de căutare care are scopul de a găsi descrieri de fapt care sunt relevante pentru cererea. căutare factual are unele diferențe față de cercetarea documentară. Sistemul documentar produce o serie de documente relevante pentru cererea, oferind consumatorului posibilitatea de a alege date reale din aceste documente. IPS Facto scuti consumatorul de la această procedură prin trimiterea acesteia o descriere a acesteia fapt interesant.
extragerea de informații de informații unice cereri la informațiile acumulate anterior matrice numit căutare retrospectivă. Căutarea se realizează în toate elementele unui tablou de informații cu privire la acest subiect.
extragerea de informații, în care solicitarea de informații este generată folosind operatori booleeni sunt numite de căutare boolean.
În sistemul de căutare de informații și de regăsire curent, în general, puse în aplicare cu ajutorul echipamentelor de calculator, astfel de informații de căutare este numită o căutare de informații automatizat. Să ne definim tipurile de bază de căutare a informațiilor automatizate.
Privind la limbaj natural înțelegere de regăsire a informațiilor automate, pentru care o cerere de informații este formulată în limbaj natural.
Automate de căutare documentare, care, ca o imagine de căutare a documentului este utilizat pentru textul integral sau părți semnificative ale textului, este o căutare full-text.
Eficiența de căutare a informațiilor este mai dependentă de cererea formulată de informații care trebuie să exhaustivitatea maximă și precizie reflectă nevoia informațiile utilizatorului. Pentru a face acest lucru, utilizați modul interactiv de regăsire a informațiilor. Automat de regăsire a informațiilor, în care un sistem automat, utilizatorul poate formula cereri de informații în dialog, pentru a le adapta la procesul de căutare și rezultatele intermediare se numește dialog de căutare.
Există, de asemenea, un mod de căutare lot, care este pus în aplicare prin utilizarea unui lot de căutare, de exemplu, regăsirea informațiilor automate, în care cererile de informații sunt acumulate într-o matrice specială pentru continuare co-procesare.
Evaluarea calității regăsire a informațiilor se bazează pe indicatorii semantice, adică. E. Capacitatea sa de a găsi elemente de informații de solicitare de informații relevante. Rezultatele căutării de informații sunt evaluate în conformitate cu următoarele criterii semantice:
factor de plenitudine - raportul dintre numărul de documente relevante găsite la numărul total de documente relevante disponibile în matrice de date.
factor de precizie - raportul dintre numărul de găsit relevant pentru numărul total al documentelor în cauză.
Raportul de zgomot - raportul dintre numărul de documente irelevante pentru a elibera numărul total de documente de a emite (inversul coeficientului de precizie).
Emiterea unui factor de fals - raportul dintre numărul de documente irelevante pentru a elibera numărul total de documente irelevante în baza de date.
Raportul tăcere - raportul dintre documente irelevante fără precedent la numărul total de documente relevante în baza de date.
Formulele de calcul al acestor indici sunt derivate din tabel reprezintă o partiție a unui fișier de informații pe baza relevanței având în vedere cererea de informații.
Tabelul utilizează următoarele simboluri: A - set de documente relevante și emise; - o mulțime de irelevante, dar a emis documente; C - o mulțime de documente relevante, dar care nu sunt emise; D - o mulțime de documente irelevante și nevăzute.