Completați spațiile libere, BaseGroup Labs

Se întâmplă adesea ca unele date să lipsească dintr-o coloană dintr-un anumit motiv (datele sunt necunoscute, sau au fost uitate să fie introduse etc.). Ștergerea tuturor rândurilor care conțin date lipsă nu este întotdeauna o modalitate de a rezolva problema, deoarece informațiile despre coloanele completate se pierd sau, ca urmare a ștergerii datelor pentru analiză, poate rămâne prea puțin pentru analiză.

Tabelul listează toate metodele posibile de recuperare a golurilor în funcție de tipul de date și dacă setul de date este comandat sau nu.

Metodă Câmp neordonat Câmp ordonatContinuu Discret Continuu Discret
Lăsați neschimbat++++
Înlocuiți cu cel mai probabil++++
Înlocuiți cu valori aleatorii++++
Înlocuiți cu mediu++
Înlocuiți cu mediana++
Înlocuiți cu valoarea Nesetat++
Interpola+
Ștergeți intrările++

Luați în considerare aceste metode:

  • Înlocuiește cu cea mai probabilă - în cazul datelor continue, înlocuirea se face cu valoarea medie din intervalul cel mai probabil, numărul de intervale variază în funcție de mărimea eșantionului - cu cât este mai mare, cu atât mai multe intervale; în cazul discret, se selectează valoarea cu cea mai mare probabilitate.
  • Înlocuiți cu valori aleatorii – golurile sunt înlocuite cu o valoare aleatorie din distribuție, ai cărei parametri sunt estimați din valorile disponibile în coloană.
  • Înlocuire cu medie - calculează valoarea medie,care înlocuiește toate golurile.
  • Înlocuiți cu mediana - mediana este calculată și toate golurile sunt înlocuite cu aceasta.
  • Înlocuiți cu valoareaNespecificat – disponibil numai pentru un câmp discret, golurile sunt înlocuite cu valoarea „Nespecificat”. Metoda este disponibilă pentru câmpurile șir.
  • Ștergeți înregistrările - rândurile cu goluri identificate sunt excluse din setul de date. Metoda nu este disponibilă pentru seriile comandate.

Metoda de interpolare este disponibilă numai pentru datele ordonate, cel mai adesea este vorba despre serii de timp. Recuperarea golurilor în coloanele ale căror valori sunt ordonate poate fi considerată ca interpolarea valorilor unei funcții în puncte în care aceasta este necunoscută. Această sarcină este implementată folosind A-splines.