Translate

2018. október 4., csütörtök

Új preprint kézirat az osztályozások validációjáról

A többváltozós osztályozó módszereket rendkívül elterjedten használják, legyen szó vegetációs felvételek, génexpressziós profilok, pszichológiai karakterek vagy talajminták csoportosításáról, hiszen logikailag minden esetben ugyanaz történik: a több jellemzővel leírt objektumokat csoportokba rendezzük úgy, hogy a hasonló objektumok azonos csoportba kerüljenek. Az osztályozás igen fontos lépése, amelyről szerencsére talán egyre kevesebben feledkeznek el, a validáció, vagyis az osztályozás "jóságának" utólagos megítélése. Rengeteg validációs módszer létezik, mind egy kicsit más kritériumok alapján minősíti az objektumok csoportosítását. Az egyik legelterjedtebb validációs index a sziluett index ('silhouette width'), amely minden egyes objektumra megadja, hogy mennyire jól illik a csoportjába. Az értéke -1 és +1 között változik, minél nagyobb, annál jobban illik a csoportba az adott objektum. A 0-hoz közeli értékek kétes besorolást jelentenek, a pozitív értékek jelölik a megfelelően besorolt objektumokat. Ezzel azonosíthatók a csoportok tipikus, átmeneti és kiugró (félreosztályozott) elemei, továbbá az objektumok értékeit csoportonként vagy az egész osztályozásra átlagolva a csoportok, illetve az osztályozás jóságának mutatóit is megkaphatjuk. A sziluett index a hasonló belső variabilitású és kompakt, szférikus alakú csoportokat tekinti jónak, ami nem mindig előnyös, hiszen valós adatsorok esetén a gyakorlati szempontból jól értelmezhető csoportok más alakokat is felvehetnek a változók többdimenziós terében. Munkánkban a sziluett index egy általánosított formuláját mutatjuk be, amelynek szabályozható a kompaktság iránti érzékenysége, így megfelelő beállításokkal elnyújtott alakú csoportokat is jónak fogadhat el.

A sziluett index "viselkedése" különböző beállításokkal három elnyújott csoport esetén. A p paramétert változtatjuk az általánosított formulánkban, a keresztek az objektumok két változó (vízszintes és függőleges tengely) dimenziójában, a bekarikázottakat az index félreosztályozottnak tekinti. MR a félreosztályozottnak tekintett objektumok aránya, MSW az áltagos sziluett index. A p=1 eset a "hagyományos" sziluett index. Látható, hogy a csoportok szélső objektumait, a pontok 11%-át félreosztályozottnak tekinti, míg alacsonyabb p értékekkel ez nem történik meg.

A cikk jelenleg bírálat alatt áll egy folyóiratban, de a szerzői kéziratot már feltöltöttem a bioRxiv nevű preprint szerverre. A preprint publikálás lényege, hogy a felfedezések gyakorlatilag azonnal, még a folyóiratok szakmai bírálata előtt nyilvánossá és hivatkozhatóvá válnak, így megspóroljuk azt a több hónapot, vagy akár évet, ami egy cikk első beküldése és a nyilvános megjelenés között eltelik. A preprint kéziratok szabadon kommentelhetők, folyamatosan javíthatók, viszont utólag nem törölhetők.

A kézirat elérhetősége és összefoglalója:


Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used measure for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. This index uses two clustering criteria, compactness (average within-cluster distances) and separation (average between-cluster distances), which implies that spherical cluster shapes are preferred over others - a property that can be seen as a disadvantage in the presence of clusters with high internal heterogeneity, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness vs. connectedness. With higher sensitivity to connectedness instead of compactness the preference of silhouette width towards spherical clusters is expected to reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by single linkage, group average, and complete linkage algorithms are evaluated, if p is set to different values. When p was negative, well separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness, hence the preference towards spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average and complete linkage seemed better. The generalized silhouette width is a promising tool for assessing clustering quality. It allows for adjusting the contribution of compactness and connectedness criteria to the index value, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.

Nincsenek megjegyzések:

Megjegyzés küldése