Translate

2016. május 12., csütörtök

Osztályozások jóságának mérése, és egy új prediktív módszer

A bejegyzés lényegét adó élményem megosztását egy rövid elméleti bevezetővel kezdem.

Amikor élő közösségeket reprezentáló mintavételi egységeket osztályozunk fajösszetételük vagy a fajok tömegességei alapján, szükségszerűen szembesülünk a kérdéssel, hogy az elkészült osztályozás (elég) "jó"-e? Hűen tükrözi-e a közösségek mintázatát? Élesen elkülönülő, biológiailag azonosítható típusokat különít-e el? Előzetes megfontolások alapján egyformán indokolható és elfogadható, de különböző számításmenetű módszerekkel készített, nem egyező osztályozások közül melyik a "legjobb"? Az osztályozások jóságának megítélésére rengeteg módszer létezik, elég csak belepillantanunk Milligan & Cooper (1985)Aho et al. (2008), Tichý et al. (2010), Vendramin et al. (2010) cikkeibe, vagy a témavezetőm, Botta-Dukát Zoltán akadémiai doktori értekezésébe. A módszereket az alábbi csoportokba sorolhatjuk:

1. "Külső" (external) módszerek: az osztályozás jóságának megítélése olyan változók segítségével történik, amelyek nem vettek részt az osztályozás elkészítésében. Ez olyan esetekben merül fel, amikor van egy előzetes várakozásunk arról, hogy az osztályozásnak milyen mintázatot kellene felfedni. Például ha a növényzeti mintáink különböző talaj pH-jú élőhelyekről származnak, és a mintaegységeket a fajösszetételük alapján osztályoztuk, kíváncsiak lehetünk, hogy a növényzeti adatokból képzett osztályozás mennyire jól tükrözi a talajkémhatás szerinti különbségeket. Mivel a pH nem szerepelt a csoportképzésben, "külső" változóként használjuk. Vagy ha erdőkben vettünk fel mintaegységeket, majd a lombkoronaszint fajai alapján osztályoztuk őket, megvizsgálhatjuk, hogy mennyire esik egybe az osztályozás az aljnövényzet fajai alapján kapott osztályozással. Itt az aljnövényzet szerepel "külső" változóként (már amennyiben azt tekintjük referenciának).

2. "Belső" (internal) módszerek: az osztályozást az elkészítéséhez felhasznált változók segítségével értékeljük. Két altípusa van:

2a. Geometriai módszerek: ezeknél az osztályozást a mintavételi egységek közti távolságot vagy disszimilaritást kifejező mérőszámok bevonásával értékeljük. Például úgy, hogy kiszámoljuk az egy csoportba tartozó felvételpárok közti és a különböző csoportokba tartozó felvételek párjai közti disszimilaritások arányát, hiszen a "jó" osztályozás esetén az egy csoportba tartozó felvételek kevésbé térnek el egymástól, mint a különböző csoportokba tartozók. A "geometriai" szó annyit jelent ebben az esetben, hogy azt vizsgáljuk, hogy a felvételek közti disszimilaritásokat távolságként leképező, sokdimenziós térben a csoportok milyen alakzatokat vesznek fel, mennyire válnak el egymástól. Az osztályozáshoz felhasznált változók (pl. fajok tömegességei) csak közvetve, a mintaegységek közti disszimilaritások kiszámolásakor szerepelnek az elemzésben.

2b. Nem-geometriai módszerek: itt közvetlenül a fajok mintázatai alapján értékelünk. Például azzal a feltételezéssel élünk, hogy akkor jó egy osztályozás, ha a csoportoknak sok karakterfajuk van. Ebben az esetben a magas fidelitásértékű fajok száma lesz a csoportjóság mérőszáma, több osztályozást összehasonlítva azt tekintjük a legjobbnak, amelyiknél a karakterfajok száma a legmagasabb.

Ennyi az elmélet, most jön a lényeg.

A csoportjóság mérésének módjai mindig is érdekeltek, még módszertani fejlesztésekkel is próbálkoztam, de nem sok sikerrel. Még végzős egyetemista koromban, tehát kb. 6 éve, volt egy ötletem, amely úgy szólt, hogy az osztályozást fogjuk fel egy statisztikai modellként, amely a fajok előfordulásainak megjósolására (predikciójára) alkalmas. A modellben maga az osztályozás (a mintaelemek csoporttagságait kódoló vektor) egy faktorjellegű, vagyis nominális típusú magyarázó változó annyi lehetséges állapottal, ahány csoportunk van. A fajok előfordulásai pedig a függő változók mátrixaként szerepelnek. Ezt egy redundanciaanalízisbe (RDA) berakva kiszámolhatjuk, hogy mekkora a modell magyarázó ereje (R-négyzete), s minél nagyobb ez a szám, annál jobb az osztályozás. Néhány hónap számolgatás után azonban a témavezetőmmel be kellett látnunk, hogy bármennyire is elegáns megoldásnak tűnt, az RDA által alkalmazott lineáris modellek (többszörös lineáris regresszió) és az R-négyzet több szempontból sem alkalmas vegetációosztályozások értékelésére. Az ötlet ennyiben maradt, soha nem publikáltam róla semmit, pedig ilyen szép ábrák készültek róla.

Itt azt néztem, hogy különböző jósági indexek hány csoportot mutatnak optimálisnak
 adott csoportszámú, szimulált adatsorok esetén

Idén aztán a Journal of Vegetation Science-ben megjelent egy cikk, ahol ausztrál szerzők gyakorlatilag teljesen ugyanezt csinálják, de RDA* helyett minden egyes fajra általánosított lineáris modellt (GLM) számolnak, a modell jóságát pedig nem R-négyzettel, hanem AIC-vel mérik, amit fajonként összeadnak, s ez adja ki a teljes modell (az összes fajra érvényesen) jóságát. És ez működik. A módszer a fenti csoportosítás 2b. kategóriájába esik, vagyis egy belső, nem-geometriai mutató. Valahol egy picit sajnálom, hogy ez nekem nem jutott eszembe, pedig ennyire közel voltam hozzá, de közben kimondottan örülök, hogy más megcsinálta, és hogy az akkori, egyetemistaként kitalált ötletem veleje nagyon is jó volt. Ezúton is gratulálok a szerzőknek! A cikk hivatkozása:

Lyons, M. B., Keith, D. A., Warton, D. I., Somerville, M., Kingsford, R. T. (2016), Model-based assessment of ecological community classifications. Journal of Vegetation Science. doi: 10.1111/jvs.12400

*Az RDA gyakorlatilag minden egyes fajra csinál egy lineáris regressziót (ami a GLM egy speciális esete), majd ezek R-négyzeteinek súlyozott átlagolásával adja meg a teljes modell R-négyzetét.

Nincsenek megjegyzések:

Megjegyzés küldése