2019 novemberében írtam arról, hogy kitaláltunk egy új osztályozási módszert, amelynek a REMOS (REallocation of Misclassified Objects based on Silhouette width) nevet adtuk. A módszerről most csak annyit írnék, hogy ezzel meglévő (akár véletlenszerű) osztályozásokon lehet javítani azáltal, hogy a "félreosztályozott" elemeket lépésenként átpakolgatjuk egy megfelelőbbnek tűnő csoportba. A jóság kritériuma pedig az adott objektum sziluett indexe. A módszert először preprintként közöltük le, hogy azonnal használhassuk és hivatkozhassuk a lengyel gyepek jellegalapú osztályozásához. Közben benyújtottuk a Journal of Vegetation Science-be is közlésre, s némi átalakítás után most végre el is fogadták. A cikkben a REMOS két verzióját egy hasonló elven működő, OPTSIL nevű módszerrel vetjük össze. A bírálati idő kicsit hosszúra nyúlt, mert nehezen talált a szerkesztő bírálót a viszonylag szűk és elméleti témájú cikkhez (azt írta, 11 visszautasított felkérés után vállalta el valaki), de cserébe mi gyorsan javítottunk mindent, így összességében az átlagosnak mondható, egy év körüli átfutás jött ki. A cikk nyílt hozzáférésű, és a 123997 azonosítójú OTKA PD projektem első cikke.
A REMOS mindkét verziója sokkal gyorsabb az OPTSIL-nél |
Lengyel, A, Roberts, DW, Botta‐Dukát, Z. 2021. Comparison of silhouette‐based reallocation methods for vegetation classification. Journal of Vegetation Science; 32:e12984. https://doi.org/10.1111/jvs.12984
Abstract
Aims: Vegetation classification seeks to partition the variability of vegetation into relatively homogeneous but distinct types. There are many ways to evaluate, and potentially improve, such a partitioning. One effective approach involves calculating silhouette widths which measure the goodness‐of‐fit of plots to their cluster. We introduce a new iterative reallocation clustering method — Reallocation of Misclassified Objects based on Silhouette width (REMOS) — and compare its performance with an existing algorithm — OPTimizing SILhouette widths (OPTSIL). REMOS reallocates misclassified objects to their nearest‐neighbour cluster iteratively. Of its two variants, REMOS1 reallocates only the object with the lowest silhouette width, while REMOS2 reallocates all objects with negative silhouette width in each iteration. We test how REMOS1, REMOS2 and OPTSIL perform in terms of: (a) cluster homogeneity and separation; (b) the number of diagnostic species; and (c) runtime.
Methods: We classified simulated data with the flexible‐beta algorithm for values of beta from −1 to 0. These classifications were subsequently optimized by REMOS1, REMOS2 and OPTSIL and compared for mean silhouette widths, misclassification rate, and runtime. We classified three vegetation data sets from two to ten clusters, optimized all outcomes with the three reallocation methods, and compared their mean silhouette widths, misclassification rate, and number of diagnostic species.
Results: OPTSIL achieved the highest mean silhouette width across the majority of the data sets. REMOS achieved zero or negligible misclassifications, outperforming OPTSIL on this criterion. REMOS algorithms were typically more than an order of magnitude faster to calculate than OPTSIL. There was no clear difference between REMOS and OPTSIL in the number of diagnostic species.
Conclusions: REMOS algorithms may be preferable to OPTSIL when: (a) the primary objective is to reduce the number of negative silhouette widths in a classification, as opposed to maximizing mean silhouette width; or (b) when the time efficiency of the algorithm is important.