Datacol - program universal pentru web scraping

Recent, arsenalul meu de programe seo s-a completat cu un alt software grozav.

Datacol este un instrument universal cu ajutorul căruia puteți colecta date de pe orice site de pe Internet.

Imediat după ce programul este descărcat și instalat, aveți acces la o varietate de analizoare gata făcute care pot:

Și acest software se numește universal pentru că, pe lângă analizatoarele de conținut gata făcute, vă puteți crea propriul parser individual în câteva minute, care va colecta date din resursa web de care aveți nevoie.

De exemplu, am decis să fac un mic parser care va colecta recenzii despre produse pe site-ul fotomag.com.ua

Ce s-a făcut: Am creat o nouă companie - Fotomag.par, nu sa deranjat încă să analizeze întregul site, ci pur și simplu a specificat o listă de adrese URL de pe care să colecteze recenzii (fila Navigare -> URL-uri de pornire).

scraping

În fila Colectare date -> Câmpurile de date au creat 3 câmpuri de date în care vor fi înregistrate informațiile necesare (url-ul paginii cu recenzii despre produse, numele produsului și recenziile în sine).Primul câmp : title_product;Tipul de date : câmp obișnuit;Linii de tăiere :

Folosind această expresie regulată, obținem datele dintre etichetele h1, și anume numele produsului.

Nu am schimbat nimic la celelalte file.

universal

Al doilea câmp : products_reviews;Tipul de date : câmp static;Linii de tăiere :

Folosind această expresie regulată, obținem datele dintre eticheta div cu clasa de text și eticheta a cu clasa de răspuns, și anume, o recenzie a produsului.

În fila Avansat, am bifat câmpul Obligatoriu, astfel încât, dacă nu se găsesc recenzii pe pagină, grupul de date din intervalul curent să nu fie salvat.

În fila Static, în mod implicit, am părăsit selecția tuturor valorilor și am setat un punct și virgulă ca șir de unire. De fapt, particularitatea unui câmp static este că puteți obține nu numai prima valoare găsită (prima recenzie), ci puteți colecta totul sau specifica intervalul de date dorit.

program

Al treilea câmp : url;Tipul de date : câmp special. În fila Valori personalizate, a lăsat URL-ul selectat în mod implicit.

datacol

În fila Export -> Basic a ales un format de export arbitrar și a exportat în modul streaming. În fila Export -> Formatele de export au indicat calea pentru salvarea datelor colectate, au decis să le scrie într-un fișier text și au ales următorul format ca format:

„%url%” „%title_product%” Recenzii: „%products_reviews%”

pentru

După lansare, în zona de afișare a știrilor și a rezultatelor, puteți vedea grupurile de date colectate în timpul lucrului parserului.

date

Cu ajutorul Datacol, nu poți doar să analizezi orice date, programul are o funcție de export a datelor în WordPress cu care poți umple cu ușurință armata blogurilor tale. Funcționalitatea de bază a Datacol vă permite, de asemenea, să completați magazine online pe Webasyst, Opencart și Virtuemart.

Separat, puteți achiziționa pluginuri pentru exportul de date către alte motoare populare: DLE, Joomla, Blogspot, Livejournal etc. O listă completă a pluginurilor disponibile plătite și gratuite poate fi găsită pe pagina — Pluginuri Datacol.

Un punct destul de important este că dezvoltatorii Datacol își susțin proiectul și lansează în mod regulat actualizări în care remediază erorile găsite și adaugă funcționalități noi.

În prezent, prețul unei licențe este de 59 USD (în loc de 89 USD), reducere. site-ul web al programului spune că costula fost redusă pentru perioada sărbătorilor de Anul Nou, deci este posibil ca în timp să se ridice din nou. Dacă, în timp ce citiți această postare, aveți și gânduri despre cum puteți utiliza acest software în munca dvs., există totuși ocazia să vă faceți un cadou de Anul Nou și să cumpărați Datacol la un preț redus.