Prezentare despre Analiza Clusterelor în STATISTICA Continuare Metoda K-Means

Prezentări similare

Prezentare pe tema: „Cluster Analysis in STATISTICA Continuare: K-Means.” - Transcriere:

1 Analiza cluster în STATISTICA Continuare: metoda k-means

3 În caseta de dialog Cluster Analysis, selectați K-Means clustering

4 În caseta de dialog care apare, trebuie să specificați toate variabilele (LMB pe butonul Variabile și să selectați toate variabilele)

5 În lista derulantă Cluster, selectați Cazuri (rânduri) - rânduri cluster (regiuni)

6 Specificați numărul de clustere (Numărul de clustere) egal cu 2. Vom crește succesiv numărul de clustere începând de la două și vom analiza calitatea împărțirii în clustere.

7 Restul parametrilor din caseta de dialog vor rămâne neschimbați Numărul de iterații este numărul maxim de iterații care trebuie efectuate (dacă stabilizarea clusterului nu are loc într-un număr mai mic de iterații) În cazul nostru, stabilizarea va avea loc în mai puțin de 10 iterații implicite

8 Secțiunea centrelor inițiale ale clusterului - o modalitate de a determina centrele inițiale ale clusterului: - Alegeți observațiile pentru a maximiza distanțele inițiale dintre clustere (selectați observațiile care maximizează distanțele inițiale dintre clustere) - Sortați distanțele și luați observații la intervale constante (sortați distanțele și selectați observațiile la intervale constante) - Alegeți primul N (Numărul de clustere selectați) pentru a realiza stabilizarea clusterului sau pentru a verifica dacă se obține o altă soluție

9 După apăsarea butonului Ok, apare o casetă de dialog pentru afișarea rezultatelor analizei(în fila Avansat, set de rezultate avansat) Informațiile generale sunt indicate în partea de sus: - Număr de variabile: 7 - Număr de observații: 13 - Metoda K-means - Gestionarea valorilor lipsă omisă - Număr de clustere: 2 - Soluție găsită într-o iterație

10 Butonul Rezumat: Clustere înseamnă & Distanțele euclidiene vă permit să afișați informații despre coordonatele centrelor clusterelor și să afișați matricea distanțelor dintre clustere (folosind metrica euclidiană) Sarcina principală a metodei este de a obține clustere cât mai diferite.De aceea, centrele clusterelor ar trebui să difere cât mai mult unul de celălalt (acest lucru poate fi văzut clar pe grafic)

11 Butonul Rezumat: Clusters înseamnă & Distanțele euclidiene vă permit să afișați informații despre coordonatele centrelor clusterului și să afișați o matrice a distanțelor dintre clustere (folosind metrica euclidiană) Sarcina principală a metodei este de a obține clustere cât mai diferite.De aceea, cu cât distanța dintre clustere este mai mare, cu atât mai bine Sub diagonala principală este distanța euclidiană dintre clustere, iar deasupra diagonalei principale este pătratul dintre clustere.

12 Butonul Analiza varianței afișează un tabel de analiză a dispersiei.Tabelul arată valorile variațiilor intergrup (Între SS) și intragrup (În cadrul SS) ale caracteristicilor. Cu cât valoarea variației intra-grup este mai mică și cu atât este mai mare valoarea varianței inter-grup, cu atât atributul caracterizează mai bine apartenența obiectelor la cluster și cu atât este mai bună gruparea.Calitatea grupării poate fi judecată atât după valoarea criteriului F (cu cât mai mult, cu atât mai bine) cât și prin nivelul de semnificație p (cu cât mai mic, cu atât mai bine). Caracteristicile cu un nivel de semnificație de p> 0,05 pot fi excluse din procedura de grupare 0,05 pot fi excluse din procedura de grupareexclude">

13 Butonul Analiza varianței afișează un tabel de analiză a varianței Pentru două grupuri, rezultatele analizei varianței indică o bună calitate a grupării: nivelul de semnificație p este mai mic de 5% peste tot, doar pentru caracteristica X2 nivelul de semnificație este de aproape 3%

16 Interpretarea rezultatelor grupării Cluster 1: Republica Dagestan Teritoriul Krasnodar Teritoriul Stavropol Regiunea Volgograd Regiunea Rostov Cluster 2: Alte regiuni

17 Interpretarea rezultatelor grupării Cluster 1: Republica Dagestan Teritoriul Krasnodar Teritoriul Stavropol Regiunea Volgograd Regiunea Rostov Cluster 2: Alte regiuni Graficul coordonatelor centrelor clusterului arată că valorile medii ale tuturor caracteristicilor din primul cluster sunt semnificativ mai mari decât indicatorii corespunzători din al doilea cluster

18 Compararea rezultatelor grupării Metoda k-mediilor Cluster 1: Republica Dagestan Teritoriul Krasnodar Teritoriul Stavropol Regiunea Volgograd Regiunea Rostov Cluster 2: Alte regiuni Algoritmi ierarhici 5) Republica Kalmykia 8) Republica Cecenă 3 cluster: 2) Republica Daghestan) Regiunea Volgograd) Terrigrad 1941) Teritoriul Krasnodar 13) Regiunea Rostov

19 Să repetăm gruparea k-means, crescând succesiv numărul de clustere Trei clustere. Toate coordonatele centrelor cluster sunt diferite șivalorile din primul grup sunt cele mai mari, în al doilea este mai mic, iar în al treilea este chiar mai mic Primul cluster diferă semnificativ de al doilea și al treilea

20 Rezultatele analizei varianței Trei clustereDouă clustere Comparând rezultatele analizei varianței pentru două și trei clustere, observăm că pentru trei clustere valorile variațiilor intragrup au crescut considerabil, cu o ușoară scădere a varianței intergrup pentru trei clustere.De asemenea, în cazul a trei clustere, caracteristica X2 a început să joace un rol mai semnificativ și valoarea ei a scăzut semnificativ de la 0% 3% la 0.0%3.

21 Concluzie Împărțirea regiunilor în trei clustere poate fi considerată acceptabilă: indicatorii din primul cluster sunt cei mai înalți, în al doilea cluster - medie, în al treilea cluster - cel mai scăzut Compoziția clusterelor Împărțit în 2 clustere Cluster 1: Republica Dagestan, Teritoriul Krasnodar, Teritoriul Stavropol, Regiunea Volgograd, În Regiunea Rostov 2, Regiunea Krastov Alte Divizia Krastov 2, Regiunea Krasnodar Regiunea s-a distins de primul cluster. Al doilea cluster a rămas neschimbat

22 Să continuăm k-înseamnă gruparea, crescând succesiv numărul de clustere Patru clustere Cinci clustere În cazul a cinci clustere, o deteriorare semnificativă a diferențelor dintre mai multe clustere - coordonatele individuale din diferite clustere diferă puțin unele de altele. Prin urmare, o creștere suplimentară a numărului de clustere înrăutățește calitatea clusterării

23 Patru clustere În cazul a patru clustere, conform caracteristicii X1, coordonatele celui de-al treilea și al patrulea cluster coincid, iar coordonatele rămase diferă.De aceea, gruparea în 4 grupe poate fi considerată satisfăcătoare.De asemenea, se păstrează distribuția regiunilor cu o creștere a indicatorilor considerați.

24 Patru clustere Rezultatele dispersieianaliza pentru patru grupuri s-a îmbunătățit și mai mult: varianța intra-grup este scăzută și varianța inter-grup este mare; Valorile testului F sunt ridicate, nivelurile de semnificație sunt mai mici de 1%

25 Compoziția a patru clustere coincide cu metodele de grupare ierarhică identificate anterior 1 cluster: 1) Republica Adygea 6) Republica Karachay-Cherkess 4) Republica Kabardino-Cherkes 7) Republica Osetia de Nord 11) Regiunea Astrahan 2 cluster: 3) Republica Ingușetia 5) Republica Stagia 2) Republica Dastan 38) Republica Cecenia Dastan Teritoriul ropol 12) Regiunea Volgograd 4 cluster: 9) Regiunea Krasnodar 13) Regiunea Rostov