11 token-uri pentru a prelua și stoca date de la site-urile

Fără script-uri, macro-uri, expresii regulate și linia de comandă.
Există trei obiective principale de extragere / stocare a datelor de pe site-ul web la computer:
O situație în care brusc nevoie automat pentru a salva orice informații de pe site-ul, se poate întâmpla oricui, iar noi trebuie să fim pregătiți pentru ei. Dacă știți cum să scrie script-uri pentru a lucra cu utilitati wget / curl, puteți închide în siguranță acest articol. Și dacă nu, atunci acum veți afla despre cele mai simple metode de a salva / prelua date de pe site-uri.

În OS X acest lucru poate fi realizat cu ajutorul aplicației SiteSucker. În App Store, se vinde pentru 379 de ruble, dar pe site-ul oficial poate descărca versiunea veche a aplicației gratuite. În exemplele folosite versiunea 2.4.6, care este suficient pentru majoritatea sarcinilor. Utilizatorii Windows pot folosi HTTrack Website Copier. care este configurat într-un mod similar.
Site-ul Sucker utilizare este foarte simplu. Deschideți programul, selectați meniul File -> Nou. specificați adresa URL a site-ului, faceți clic pe butonul Descărcare și așteptați până când descărcarea este finalizată.
Pentru a vizualiza site-ul ar trebui să faceți clic pe butonul Folder. găsit în index.html ei fișierul (pagina de start) și deschideți-l în browser. download-uri SiteSucker numai acele date care sunt accesibile prin HTTP. Dacă sunteți interesat în codul sursă al site-ului (de exemplu, PHP-script-uri), pentru aceasta trebuie să ceară în mod deschis dezvoltator FTP-acces.
2. pretinde a fi mult pe site-ul
3. limitele stabilite pe paginile de descărcare ale site-ului
4. Descărcați fișierele de pe site-ul web al unui anumit tip

5. descarca doar anumite dosare
6. Rezolva problema cu codificarea

Dacă observați că descărcat pagina în locul textului conține păsărească, în cazul în care puteți încerca să rezolve această problemă prin schimbarea codificarea în Setări -> Advanced -> General. Dacă aveți probleme cu site-ul românesc, este probabil că trebuie să specificați codificarea chirilice pentru Windows. În cazul în care nu funcționează, apoi încercați să găsiți codificarea cerută folosind decodorul Lebedev (este necesar pentru a lipi text din pagini web reprezentate prin curbele).
7. Asigurați-un instantaneu al unei pagini web

Ia-o captură de ecran fiecare poate. Și știi cum să ia o imagine a întregii pagini web? O modalitate - de a merge la web-capture.net și introduceți acolo un link către site-ul dorit. Ia timp pentru pagini complexe, în timp ce instantaneul poate dura câteva zeci de secunde. Cu toate acestea, ea poate fi transformat în Google Chrome și alte browsere folosind iMacros add-on.
8. Salvați imaginea cu doar o anumită pagină

Hai owdig.com. Indică un link va fi afișat atunci când de așteptare pentru toate imaginile și faceți clic pe banda portocalie de pe dreptul de a le descărca în arhivă.
9. Eliminarea culorilor HEX-coduri de la un site web

Și dacă aveți nevoie pentru a filtra legende text, date și alte informații, atunci va veni în ajutorul expresiilor regulate și text sublim.
Există și alte metode de a extrage date din site-uri web. Puteți solicita informații direct de la proprietarul resursei. Amintiți-vă o parte a paginilor web folosind iMacros și analiza site-uri utilizând Google Apps Script. Puteți merge în continuare ruta tradițională și scrie pentru a analiza bash script-uri, dar acest articol despre iPhones.ru încă.
Vrei sa primesti noutati de la Apple? Da | nu

Ce este, prea timid pentru a cere? vezi Stupid informații off-line? Deci, în Safari are această opțiune.
A fișiere PHP, de exemplu, opțiuni pentru site-ul neoktorye descarcat? )
De exemplu, ce motiv am dezumfle blog-ul ...
Nu, SiteSucker descarcă doar un cod html și fișiere, link-uri la care sunt în interiorul acestuia.
Nu știi ce motiv, precum și articole cu iPhone, unii proprietari de site descărca și loc la domiciliu, fără a da o sursă. Judecând după amploarea operațiunilor, este, de asemenea, într-un fel care le-au automatizat.
/ Desktop. Și apoi, în cele din urmă, introduceți -O buclat [inserați link-ul], apăsând pe Enter și vei fi fericit. Un sfat pentru elevii nu asculta)