Translate

A következő címkéjű bejegyzések mutatása: sziluett. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: sziluett. Összes bejegyzés megjelenítése

2021. február 19., péntek

Megjelent a REMOS osztályozási módszerről szóló cikkünk a JVS-ben

2019 novemberében írtam arról, hogy kitaláltunk egy új osztályozási módszert, amelynek a REMOS (REallocation of Misclassified Objects based on Silhouette width) nevet adtuk. A módszerről most csak annyit írnék, hogy ezzel meglévő (akár véletlenszerű) osztályozásokon lehet javítani azáltal, hogy a "félreosztályozott" elemeket lépésenként átpakolgatjuk egy megfelelőbbnek tűnő csoportba. A jóság kritériuma pedig az adott objektum sziluett indexe. A módszert először preprintként közöltük le, hogy azonnal használhassuk és hivatkozhassuk a lengyel gyepek jellegalapú osztályozásához. Közben benyújtottuk a Journal of Vegetation Science-be is közlésre, s némi átalakítás után most végre el is fogadták. A cikkben a REMOS két verzióját egy hasonló elven működő, OPTSIL nevű módszerrel vetjük össze. A bírálati idő kicsit hosszúra nyúlt, mert nehezen talált a szerkesztő bírálót a viszonylag szűk és elméleti témájú cikkhez (azt írta, 11 visszautasított felkérés után vállalta el valaki), de cserébe mi gyorsan javítottunk mindent, így összességében az átlagosnak mondható, egy év körüli átfutás jött ki. A cikk nyílt hozzáférésű, és a 123997 azonosítójú OTKA PD projektem első cikke.


A REMOS mindkét verziója sokkal gyorsabb az OPTSIL-nél


Lengyel, A, Roberts, DW, Botta‐Dukát, Z. 2021. Comparison of silhouette‐based reallocation methods for vegetation classification. Journal of Vegetation Science; 32:e12984. https://doi.org/10.1111/jvs.12984

Abstract

Aims: Vegetation classification seeks to partition the variability of vegetation into relatively homogeneous but distinct types. There are many ways to evaluate, and potentially improve, such a partitioning. One effective approach involves calculating silhouette widths which measure the goodness‐of‐fit of plots to their cluster. We introduce a new iterative reallocation clustering method — Reallocation of Misclassified Objects based on Silhouette width (REMOS) — and compare its performance with an existing algorithm — OPTimizing SILhouette widths (OPTSIL). REMOS reallocates misclassified objects to their nearest‐neighbour cluster iteratively. Of its two variants, REMOS1 reallocates only the object with the lowest silhouette width, while REMOS2 reallocates all objects with negative silhouette width in each iteration. We test how REMOS1, REMOS2 and OPTSIL perform in terms of: (a) cluster homogeneity and separation; (b) the number of diagnostic species; and (c) runtime.

Methods: We classified simulated data with the flexible‐beta algorithm for values of beta from −1 to 0. These classifications were subsequently optimized by REMOS1, REMOS2 and OPTSIL and compared for mean silhouette widths, misclassification rate, and runtime. We classified three vegetation data sets from two to ten clusters, optimized all outcomes with the three reallocation methods, and compared their mean silhouette widths, misclassification rate, and number of diagnostic species.

Results: OPTSIL achieved the highest mean silhouette width across the majority of the data sets. REMOS achieved zero or negligible misclassifications, outperforming OPTSIL on this criterion. REMOS algorithms were typically more than an order of magnitude faster to calculate than OPTSIL. There was no clear difference between REMOS and OPTSIL in the number of diagnostic species.

Conclusions: REMOS algorithms may be preferable to OPTSIL when: (a) the primary objective is to reduce the number of negative silhouette widths in a classification, as opposed to maximizing mean silhouette width; or (b) when the time efficiency of the algorithm is important.

2019. december 16., hétfő

Általánosított sziluett index - új cikk az Ecology and Evolution folyóiratban

FRISSÍTÉS: A bejegyzés közzétételének másnapján kaptam az értesítést arról, hogy a cikk a decemberi számban jelent meg (előtte 'early view' volt), amelynek ez a tüneményes borz virít a címlapján. Ideteszem a bejegyzés elejére, mert jól mutat indexképként. :)



A sziluett indexről más többször írtam mostanában, pl. itt és itt, és van neki Wiki oldala is. Röviden a lényeg, hogy ez egy osztályozások jóságát értékelő index, amely minden objektumra megmondja, hogy mennyire illik abba a csoportba, amelyikben van. Negatív érték esetén rossz, pozitív esetén jó helyen van, 0 esetén átmeneti. Fontos tudni, hogy a sziluett ezt úgy éri el, hogy az adott objektumnak az azonos csoportban lévő többi objektumtól vett átlagos távolságát összehasonlítja a legközelebbi egyéb csoport (tehát amelyiknek ő maga nem tagja) objektumaitól vett távolságok átlagával. Mivel átlagos távolságokkal dolgozik, előnyben részesíti a szférikus (3D-ben gömb alakú), hasonló átmérőjű csoportokat, hiszen ilyenkor nincsenek nagy távolságok a saját csoportokon belül, minden csoporton belüli távolság hasonlóan kicsi. Ebben a preprintünkben beharangoztunk egy újítást, amellyel a sziluett indexnek a csoport alakja iránti érzékenységét lehet szabályozni. A kézirat nem rég megjelent az Ecology and Evolution nevű folyóiratban, ezért most már itt is lerántom a leplet a "trükkről".

A megoldást az általánosított átlag (generalized mean, power mean, Holder mean) szolgáltatja. Az alábbi képletben a p változtatásával különböző átlagokat és határértékeket lehet előállítani:
Ennek a speciális esetei:

M-∞ : minimum;
M-1 : harmónikus közép;
M0 : mértani közép;
M1 : számtani közép, vagyis a hagyományos átlag;
M2 : kvadratikus közép
M: maximum

Az általánosított átlaggal lehetővé válik, hogy a csoporttagoktól vett távolságoknak ne a számtani közepével számoljunk, hanem akár a minimumával, vagy valami minimumhoz közeli, nem nevesített "középpel". Ennek az a következménye, hogy a saját és a szomszéd csoporttól vett távolságba csak a közeli objektumok számítanak bele, szélsőséges esetben (a minimum esetén) csak a legközelebbi szomszéd. Ilyenkor a csoport egészének alakja irrelevánssá válik, csak az számít a vizsgált objektum helyzetének megítélében, hogy a közeli szomszédjai melyik csoportba tartoznak és milyen messze vannak pontosan. Ha általánosított átlaggal és negatív p-vel számoljuk a sziluettet, akkor változatos alakú és méretű csoportok is jóknak tűnnek, hogy ha az elválásuk más csoportoktól egyértelmű. Ez gyakorlati szempontból hasznos lehet, mert a természetben, ha vannak is éles határú csoportok, típusok, akkor azok gyakran nem szférikus formát öltenek a változók sokdimenziós terében. A cikkben felhívjuk a figyelmet a negatív p paraméter veszélyére is, miszerint ha csak a nagyon közeli szomszédságok számítanak, akkor a "jó" csoportok egésze akár át is fedhet annak ellenére, hogy minden egyes objektumnak van egy közeli szomszédja azonos csoportból. Az ingyen letölthető tanulmány linkje, hivatkozása, absztraktja alább látható:

Lengyel, A, Botta‐Dukát, Z. Silhouette width using generalized mean—A flexible method for assessing clustering efficiency. Ecology and Evolution 2019; 9: 13231–13243. https://doi.org/10.1002/ece3.5774

Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used index for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. Silhouette combines two clustering criteria, compactness and separation, which imply that spherical cluster shapes are preferred over others—a property that can be seen as a disadvantage in the presence of complex, nonspherical clusters, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness versus connectedness. With higher sensitivity to connectedness, the preference of silhouette width toward spherical clusters should reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by different algorithms are evaluated, if p is set to different values. When p was negative, well‐separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness; hence, the preference toward spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average, complete linkage, and beta flexible with beta = −0.25 seemed better. The generalized silhouette allows for adjusting the contribution of compactness and connectedness criteria, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.