Cum să găsiți conținut duplicat pe un site web

Conținutul duplicat de pe site poate apărea adesea fără știrea dvs. Ce ar trebui verificat și cum se poate preveni?

Cu siguranță, ați auzit de mai multe ori expresia „conținut duplicat” și, în calitate de proprietar de site cu experiență, nu ați posta niciodată același conținut de două ori, nu?

Conținutul duplicat poate fi comparat cu un descoperit de cont bancar. Numai în acest caz vă cheltuiți bugetul valoros de crawling.

Bugetul de accesare cu crawlere este numărul de pagini de pe site pe care un robot de căutare le poate accesa cu crawlere într-o anumită perioadă de timp. Prin urmare, este atât de important să-l cheltuim pe paginile de care avem nevoie.

Manifestându-se sub diferite forme, conținutul duplicat poate deveni una dintre cele mai evazive și invizibile probleme care pot afecta negativ clasarea și promovarea unui site. Aspectul său este adesea asociat cu particularitățile arhitecturii site-ului sau cu limitările CMS.

Din păcate, nu există un astfel de verificator în Google Webmaster care ar putea detecta cu ușurință conținut duplicat. Chiar și cele mai avansate instrumente terțe nu sunt întotdeauna bune la această sarcină, mai ales când sursa problemei este în interior. Verificarea manuală este inevitabilă.

Iată o listă cu 8 motive potențiale pentru apariția paginilor duplicate pe site:

Pagini HTTP și HTTPS

Una dintre cele mai rapide moduri de a verifica dacă aveți două versiuni ale unui site disponibile pentru indexare este să încercați să îl accesați folosind atât protocoalele HTTP, cât și HTTPS. Dacă ambele versiuni se deschid, este evident că dezvoltatorul dvs. a mutat site-ul pe HTTPS și nu a configurat o redirecționare 301 din versiunea HTTP.

În același mod, trebuie să verificați dacă site-ul are două versiuni de pagini atât cu WWW, cât și fără WWW. Puteți rezolva această problemă prin configurarea unei redirecționări 301 șiprin specificarea domeniului preferat (oglindă principală) în Google Webmaster.

Site-uri care vă fură conținutul

Deși nu există nicio legislație care să vă returneze conținutul furat, există doar modalități prin care puteți folosi codul pentru a îngreuna hoții să vă transmită conținutul drept al lor. Pentru a face acest lucru, utilizați întotdeauna link-uri absolute de pe site în loc de link-uri relative:

Legături absolute:http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (începe cu protocolul și conține numele site-ului).Legături relative:/wiki/dublirovannyi-kontent.html (proiectează din rădăcina site-ului sau din documentul curent).

Dacă dezvoltatorul nu dorește să rescrie întregul site, pot fi utilizate etichete canonice cu auto-referință. Atunci când conținutul dvs. este găzduit pe alt site, etichetele canonice pot rămâne, ajutând Google să stabilească că site-ul dvs. este sursa originală a conținutului.

Pentru a afla că conținutul dvs. a fost furat, puteți utiliza oricare dintre serviciile gratuite (de exemplu, Siteliner, Copyscape. Etxt, AdvegoPlagiatus etc.)

Subdomenii abandonate

Să presupunem că ați renunțat la un subdomeniu și ați decis să utilizați un subdirector. Sau, de exemplu, ați creat un site complet nou. În orice caz, conținutul tău vechi poate fi în continuare accesibil și, mai mult, poate avea un efect negativ asupra clasamentului paginilor noi. Cel mai bun mod de a rezolva problema este să utilizați o redirecționare 301 din acest subdomeniu către noul site/director. Acest lucru este deosebit de important dacă resursa dvs. veche are o masă mare de linkuri.

Pagini ascunse în curs de dezvoltare

Te-ai decis să actualizezi designul? Îți pregătești site-ul pentru o schimbare majoră? Dacă nu ați închis cazurile de testare înaintepagini (și cu atât mai mult versiunea dev a site-ului) de la indexare, atunci nu ești imun de faptul că robotul nu le va detecta.

Există o concepție greșită comună că nimeni nu va ghici vreodată să introducă o adresă URL fictivă în linia browserului de pe site-ul dvs. http://razrabotka.sait.ru/, dacă nu există niciun link către acesta nicăieri în cod, se pare că acest lucru este pur și simplu nerealist. Dar nu este! Google caută și indexează în mod constant noi pagini web, inclusiv cele în curs de dezvoltare. Toate acestea pot afecta rezultatele clasamentului, precum și pot induce în eroare utilizatorii.

Acest lucru nu numai că ia o taxă uriașă pe site în ceea ce privește confidențialitatea și securitatea, dar poate, de asemenea, să ia o taxă mare asupra bugetului de accesare cu crawlere. A evita acest lucru este simplu: utilizați metaeticheta robots c noindex pe toate paginile de testare sau blocați-le în fișierul robots.txt.

Amintiți-vă că atunci când mutați pagini din modul dev în live, trebuie să eliminați aceste directive de blocare din cod.

Parametri URL generați dinamic

Cel mai adesea, adresele URL dinamice sunt generate pe baza filtrelor utilizate pe site. Cum arată exact aceste adrese URL?

Adresa URL 1: www.shop.com/chocolate/cake/vanilla Adresa URL 2: www.shop.com/chocolate/cake/vanilla%8in Adresa URL 3: www.shop.com/chocolate/cake/vanilla %8in=marmură

Astfel, Google poate crea și indexa combinații nesfârșite de adrese URL pe care utilizatorul nici măcar nu le solicită.

În acest caz, aplicați eticheta canonică cu adresa URL preferată și configurați opțiunile de accesare cu crawlere a adresei URL în Google Webmaster.

Subdirectoare în oglindă

Afacerea dvs. operează în mai multe regiuni? Unele companii aleg să creeze o pagină de destinație principală care să permită utilizatorilor să aleagăregiunea cea mai potrivită pentru ei, apoi le redirecționează către subdirectorul corespunzător. De exemplu:

Adresa URL 1: www.wonderfullywhisked.com/fr Adresa URL 2: www.wonderfullywhisked.com/de

Sindicarea conținutului

Sindicarea de conținut este reutilizarea aceluiași conținut pe diferite resurse pentru a vă promova site-ul/marca/conținutul și pentru a atrage trafic suplimentar.

Sindicarea este o modalitate excelentă de a introduce noi audiențe pe site-ul dvs., cu toate acestea, merită să stabiliți reguli pentru cine vă va republica conținutul.

În mod ideal, ar trebui să le cereți editorilor să folosească atributul „rel=canonic” de pe pagina de conținut pentru a indica motoarelor de căutare că site-ul dvs. este sursa originală a conținutului. În plus, ele pot împiedica, de asemenea, indexarea conținutului, ceea ce va rezolva potențialele probleme legate de duplicarea rezultatelor căutării.

La urma urmei, editorii pot trimite înapoi la articolul original, creditându-vă ca sursă originală.

Conținut înrudit

Conținutul similar poate provoca la fel de mult rău ca și conținutul duplicat. Definiția Google a conținutului duplicat include chiar și expresia „substanțial similar”. În timp ce părți ale materialului pot diferi în sintaxă, regula generală este că, dacă puteți obține aceleași informații de la ele, atunci nu există niciun motiv pentru ca ambele să existe pe un site web. Aici, o soluție excelentă la problemă este să folosiți eticheta canonică sau să luați în considerare combinarea acestor părți de conținut într-una singură.