Lengyel Attila kutatói blogja: Vegetációosztályozás 5. Felügyelt osztályozások

2015. március 15., vasárnap

Vegetációosztályozás 5. Felügyelt osztályozások

Frissítve: 2015.03.18

A vegetációosztályozásról szóló bejegyzéssorozat előző részében (ami elég rég volt...) a jelenleg is igen elterjedten használt, nem felügyelt módszerek gyengéiről, főképp a stabilitás és a robusztusság hiányáról írtam. Az instabilitás azt jelenti, hogy az elemzés eredményéül kapott osztályozás nagy mértékben függ a mintavétel során meghozott döntésektől. Robusztusnak pedig akkor nevezünk egy összefüggést, ha az a mintavétel véletlenszerű komponensétől, a mintvételi hibáktól függetlenül mindig kimutatható. Ezek hiánya a szüntaxonómiai vizsgálatok esetén nagyon hátrányos, mivel a cél éppen az lenne, hogy a növényzet változatosságában ismétlődő, jól elkülöníthető egységeket ismerjünk fel.

A felügyelt osztályozások működési elve, hogy a mintában rejlő típusokat nem nekünk kell felismernünk, hanem már rendelkezünk valamilyen a priori információval arról, hogy mit kell keresnünk. Aszerint, hogy ez az előzetes információ milyen formában (teljes osztályozási rendszer, referenciatabellák, típusdefiníciók) jelenik meg az osztályozás műveletében, három fő típus különítek el.

A felügyelt osztályozások első típusa a nem felügyelt módszerek adoptációjának tekinthető, és lehetővé teszi a két osztályozási szemlélet közti átjárást. Az átjárást a kettő keverékei, a félig-felügyelt osztályozások jelentik. Ezt a módszercsaládot Tichý és mtsai (2014) vezették be a vegetációosztályozás irodalmába tavaly. A megértésüket érdemes a nem-felügyelt megközelítés felől kezdenünk. A k-közép és a PAM ('partitioning around medoids') nevű nem-hierarchikus osztályozó eljárások lényege, hogy a felvételeket olyan csoportokra osztják, hogy a csoportok középpontjától a csoportba tartozó felvételek távolsága minimális legyen. A középpont a k-közép esetén a csoportba tartozó felvételek súlypontja (vagy centroidja) a minta sokdimenziós terében, a PAM esetében pedig az a felvétel, amelytől a csoport többi felvételének a távolsága (vagy disszimilaritása) minimális - vagyis a csoport "középső" felvétele, vagyis a medoid. Az optimális osztályozás elérése több lépésen keresztül történik. A kezdő lépés a csoportok középpontjainak kiválasztása, ami úgy történik, hogy a felvételeket véletlenszerűen csoportokra osztjuk, majd megkeressük a csoportok súlypontját vagy medoidját. Ezt követi a felvételek középpontokhoz való hozzárendelése: mindegyiket a legközelebbihez/leghasonlóbbhoz. A csoportok meghatározása után a középpont újraszámolása történik: új súlypont vagy medoid kerül(het) kijelölésre. Ha a középpont elmozdult, akkor megint a felvételek csoportosítása következik, majd a középpont újraszámolása, és így tovább ismétlődnek ezek a lépések, amíg el nem érjük a legjobb konfigurációt. A jósági kritérium a felvételeknek a csoportjuk középpontjától vett távolságainak a négyzetösszege. A nem-felügyelt k-közép és PAM random osztályozásokból indul ki, de semmi nem akadályoz meg abban, hogy mi adjuk meg a kezdő konfigurációt. Ha az adatsorunkban van néhány ismert besorolású felvételünk, akkor megtehetjük, hogy a kezdő középpont az eredetileg is egy típushoz tartozó felvételek súlypontja/medoidja legyen, és ezekhez rendeljük hozzá a besorolatlan felvételeket. Az eljárás folyamatában az előzetes információt azonban lényegileg akkor vezetjük be, ha úgy döntünk, az eredetileg összetartozónak ítélt felvételek később már nem lehetnek szétválaszthatóak, csak a korábban besorolatlanok változtathassanak helyet az osztályozás újraszámolásai alkalmával.

Az alábbiakban mutatok erre egy rövid példát. Tegyük fel, hogy van 40 felvételünk, ezek közül tudjuk, hogy 10-10 felvétel besorolható a Piros és a Kék társulásba, a többiek pedig besorolatlanok, ezeket fekete mutatja. A piros és a kék csoport medoidját telt kör jelzi.

A félig-felügyelt PAM a besorolatlanokat hozzárendeli a piros vagy a kék medoidhoz, így a feketék is piros vagy kék színt kapnak. Jelen esetben a csoportok medoidjai ettől nem változtak meg. X jelöli a csoportok centroidját, vagyis a súlypontot, ami nem teljesen esik egybe a medoiddal.

A csoportok középpontjait rögzíthetjük is úgy, hogy nem engedjük meg, hogy a később hozzárendelt felvételeknek legyen hatásuk a középpont pozíciójára. A nem-hierarchikus osztályozó módszerek közt szokásos módon a csoportszámot előzetesen kell megadnunk. Ha a létező típusokról csak részleges információink vannak, pl. három társulásról vannak felvételeink, de várhatóan még legalább kettő előkerülhet, akkor megtehetjük, hogy a három ismert társulást felügyelt, a priori kiindulási csoportként adjuk meg, míg a besorolatlan felvételek közt kettő csoportnak véletlenszerűen sorsoljuk ki a középpontját. Az utóbbi esetet hívjuk félig felügyelt osztályozásnak, hiszen egyszerre adunk meg felügyelt és nem-felügyelt csoportokat.

A módszer az adatsorunk minden felvételét besorolja valamelyik csoportba, még akkor is, ha valójában egyik csoporthoz sem tartozik egyértelműen. Az ilyen átmeneti felvételek leválasztása csak utólag, egyéb módszerekkel lehetséges.
Szintén teljes osztályozási rendszerbe illeszthetőek be új felvételek Černá & Chytrý (2005) neuronháló-modelleken alapuló módszereivel. Ezek azonban (talán viszonylagos bonyolultságuk miatt) nem vertek gyökeret a cönológia módszertanában.

A felügyelt osztályozások második típusának jellegzetes példája az Associa nevű módszer, amelyet Van Tongeren és mtsai (2008) cikkéből ismerhetünk meg. Az Associa alkalmas annak kifejezésére, hogy egy cönológiai felvétel milyen távolságra van egy adott felvételcsoporttól. A távolság két komponensen alapul: a furcsaságon ('Weirdness') és a hiányosságon ('Incompleteness'). A furcsasági komponens értéke akkor magas, ha a felvétel sok olyan fajt tartalmaz, ami a referenciacsoportban ritka, míg a hiányosság a felvételből hiányzó, de a referenciacsoportban gyakori fajok számával áll kapcsolatban. A referenciacsoporthoz nagyon hasonlító (valószínűleg beletartozó) felvétel Weirdness és Incompleteness értéke is alacsony, emiatt a távolság értéke is az. A módszer megengedi, hogy a két komponens eltérő súllyal járuljon hozzá a távolsághoz, illetve az abundanciaértékek súlyozására is van lehetőség. A gyakorlatban a távolság, a Weirdness és az Incompleteness értékét is normált formában szokás megadni, ami úgy készül, hogy az adott referenciacsoportba tartozó felvételek saját csoporttól való távolság, Weirdness, stb. értékeinek az átlagával elosztjuk az összes felvétel megfelelő értékét, majd kivonunk belőle 1-et. Így a biztosan a vizsgált csoportba tartozó felvételek -1-hez közeli értéket kapnak, az átlagos mértékben odatartozók 0 körülit, az átlagosnál kevésbé hasonlóak pedig pozitív értékeket. A 1 értékű távolság azt jelenti, hogy a felvételek kétszer olyan távol vannak adott csoport középpontjától, mint a csoport átlaga, és ezek a felvételek atipikusnak tekinthetőek.

Az Associa tehát minden felvétel minden csoporthoz való kapcsolatát egy-egy értékkel fejezi ki. Az értékek alapján eldönthetjük, hogy mely felvételt hová sorolunk be, s lehetőségünk van arra is, hogy ha egy felvétel egyik referenciacsoport iránt sem mutat kellően alacsony (pl. 1 alatti) távolságot, akkor besorolatlanul hagyjuk. Ugyanakkor az is előfordulhat, hogy egy felvétel több csoporthoz is nagyon kis távolságra van. Sok ilyen felvétel esetén megfontolandó, hogy a csoportok elválasztása indokolt-e.
Hasonlóan egyedi felvételeket referenciatabellákhoz "hasonlító" indexeket mutat be Tichý (2005). Az ő módszerei a felvételcsoport fajainak gyakoriságát, valamint fidelitását (diagnosztikus értékét) használják fel annak kiszámítására, hogy adott felvétel mennyire tartozhat a referenciacsoport reprezentált típusba. A több javasolt index közül az FPFI (frekvencia-pozitív fidelitás index) tűnt az eddigiekben a legsikeresebbnek. Ez a kérdéses felvételben előforduló fajoknak a referenciacsoportban tanúsított gyakoriságértékétől és fidelitásától függ. A fidelitásértékek alkalmazása erre a célra alkalmanként hasznos is lehet, azonban hátránya, hogy egy faj egy felvételcsoport felé mutatott fidelitása attól függ, hogy a referenciacsoportot milyen más típusokkal hasonlítjuk össze. Vagyis a felvétel és a referenciacsoport FPFI index szerinti hasonlóság változik, ha más alternatív referenciacsoportokat veszünk számításba (Ld. még Chytry et al. 2002. cikkét a fidelitás kontextusfüggéséről; később még fogok írni a fidelitásról.)

A felügyelt osztályozások harmadik típusa, a Cocktail nevű módszer (Bruelheide 2000), explicit típusdefiníciókat használ a felvételek besorolására. A Cocktail lényege, hogy az ÉS, VAGY és NEM logikai operátorok használatával fajok vagy fajcsoportok előfordulásai alapján definíciókat gyártunk vegetációtípusok azonosítása céljából. A fajcsoportokat általában hasonló preferenciájú, együtt gyakran előforduló fajok alkotják, melynek megállapítása többnyire egy nagy, vegetációs adatbázis alapján statisztikai asszociáltságvizsgálattal történik. Akkor van jelen egy fajcsoport egy felvételben, ha a tagjainak fele előfordult benne. Például a cseh vegetációmonográfia az alábbi módon definiálja a kárpátias elterjedésű bükkösét (Carici pilosae-Fagetum sylvaticae Oberdorfer 1957):

Fagus sylvatica borítás >50% ÉS Carex pilosa csoport NEM Cephalanthera damasonium csoport.

A Carex pilosa csoport tagjai: Carex pilosa, Euphorbia amygdaloides, Galium intermedium, Hacquetia epipactis.

A Cephalanthera damasonium csoport tagjai: Cephalanthera damasonium, C. rubra, Corallorhiza trifida, Epipactis helleborine agg.

Az értelmezés egyszerű: akkor tartozik egy felvétel a Carici pilosae-Fagetum társuláshoz, ha a bükk borítása legalább 50% benne, a Carex pilosa fajcsoportból megvan benne legalább kettő faj, a Cephalanthera damasonium csoportból viszont nincs meg benne egynél több faj.

A Cocktail módszer igen előnyös tulajdonsága, hogy a definíciók birtokában bármely felvételről eldönthető, hogy adott társuláshoz tartozik-e vagy sem, vagyis a döntésünk egyedül a vizsgált felvételtől és a definíciótól függ, a teljes mintától nem. Ahogyan az Associa esetében, itt is előfordulhat, hogy egy-egy felvétel nem sorolható be egyik típusba sem, illetve némelyek több definíciót is kielégítenek. A Cocktail-definíciók közlése egyre inkább elvárás kezd lenni a modern vegetációmonográfiák felé. A tapasztalatok szerint az eredeti verziója elsősorban fajgazdag vegetációtípusokra működik jól. Fajszegény növényzetre alkalmazható módosítását közölték Landucci és mtsai (2015).

A felügyelt és félig felügyelt módszerek nagy előnye, hogy az aktuális elemzésbe be tudjuk építeni a korábbi vizsgálatok eredményeit, fel tudjuk használni a korábban létrehozott definíciókat, követhetjük a hagyományos osztályozási rendszereket, s közben (várhatóan) stabilabb eredményeket is kapunk, hiszen az a priori típusok nagy mértékben megkötik az osztályozás lehetséges kimenetelét. Ezzel - elviekben - létrehozható egy olyan osztályozás, amely megőrzi az eddig kialakult és bevált típusokat, míg a "problémás" esetekben statisztikailag megalapozott támpontot nyújt a döntéshez.

A minta lehatárolásától való függésünktől azonban még mindig nem szabadultunk meg teljes mértékben, s így univerzális osztályozások még a felügyelt módszerek sem vezetnek egyenes úton. Bármilyen felügyelt vagy félig felügyelt módszert alkalmazunk ugyanis, az a priori típusok meghatározása kulcskérdés. Egyelőre kevés tapasztalatot tettek a kutatók közkincsé arról, hogy a referenciatípusok megállapítása, a definíciók meghozása hogyan és milyen mértékben befolyásolja a (félig-)felügyelt osztályozások eredményét, de az sejthető volt mindig is, hogy a referenciák (felvételcsoportok, definíciók) földrajzilag korlátozott érvényűek. Mielőtt ezt magyarázni kezdeném, nézzünk egy példát: a Holcetum lanati Issler 1934 nevű társulás definícióját a már említett cseh, és a szlovák kézikönyvből:

Cseh: Holcus lanatus borítás > 25% NEM Caltha palustris csoport.

Caltha palustris csoport: Angelica sylvestris, Caltha palustris, Galium uliginosum, Myosotis palustris agg., Scirpus sylvaticus.

Szlovák: Lychnis flos-cuculi csoport ÉS Holcus lanatus borítás > 25% NEM Caltha palustris csoport NEM Carex nigra csoport NEM Cirsium rivulare csoport NEM Gratiola officinalis csoport NEM Trisetum flavescens csoport NEM Viola pumila csoport NEM Cirsium palustre borítás > 5%.

Lychnis flos-cuculi csoport: Alopecurus pratensis, Cardamine pratensis agg., Festuca pratensis, Lathyrus pratensis, Lychnis flos-cuculi, Ranunculus acris, Ranunculus auricomus agg., Rumex acetosa.

Caltha palustris csoport: Caltha palustris, Myosotis palustris agg., Scirpus sylvaticus, Filipendula ulmaria, Geum rivale, Galium uliginosum, Crepis paludosa.

Carex nigra csoport: Carex nigra, Carex panicea, Carex flava agg., Eriophorum angustifolium.

Cirsium rivulare csoport: Cirsium rivulare, Dactylorhiza majalis, Equisetum palustre, Valeriana simplicifolia.

Gratiola officinalis csoport: Allium angulosum, Gratiola officinalis, Lythrum virgatum, Scutellaria hastifolia.

Trisetum flavescens csoport: Dactylis glomerata, Taraxacum sect. Ruderalia, Trisetum flavescens.

Viola pumila csoport: Carex praecox, Cnidium dubium, Clematis integrifolia, Pseudolysimachion longifolium, Viola pumila.

Ilyesmi lehet a Holcetum lanati Issler 1934

A két definíció között van átfedés, hiszen mindkét mű szerzői említést tesznek a Holcus lanatus nagy borításáról és egy "Caltha palustris csoport" hiányáról, melyet szintén hasonlóan definiálnak. Az egyezés azonban nem tökéletes, hiszen a szlovák definíció több elemű, így jóval specifikusabb: az azonosítás megkívánja egy további fajcsoport jelenlétét, de tiltja hat másik csoport előfordulását. Mindeközben ugyanarról a névről van szó elvileg, amit eredetileg a Rajna völgyében egy mocsárrét-társulás jelölésére vezettek be, nyilván nem olyan aprólékos dokumentációval, amire ma törekszünk. A különbségnek így több oka is lehet. Az egyik, hogy a csehek és a szlovákok másként értelmezik ezt a nevet, vagyis másképp alkalmazzák a Holcetum lanati társulás eredeti diagnózisát a saját növényzetükre. A másik lehetséges ok, hogy egyformán értik, de az adatbázisukban, ami alapján a definíciókat megalkották, olyan adatok kerültek, amelyek eltérő formalizált definíciókra vezettek. Ez utóbbi eset megint kettébontható: az adatbázis eltérően reprezentálhatja ugyanazt a vegetációtípust az eltérő mintavételi preferencia miatt (vagyis a terepi adatgyűjtés elvei közt volt különbség), illetve a fajok viselkednek másképpen a két területen. Egy újabb lehetőség, hogy a definíciók pusztán azért különböznek, mert a fajcsoportok megállapításánál bizonyos szubjektív döntéseket másképp hoztak meg az elemzést végző kutatók, pl. más határértékeket alkalmaztak a fajok közti asszociáltság szignifikanciájának megállapítására.

A (félig-)felügyelt osztályozások tehát igen fontos és hasznos eszközök abban az esetben, amikor előzetes tudásunkra építve próbálunk létrehozni egy statisztikailag támogatott, reprodukálható osztályozást. A növényzet nagyobb léptékű, nemzetközi szintű osztályozásában való felhasználásukhoz, különösen, ami a szüntaxonnevek konzisztens névhasználatának elősegítését jelenti, még további fejlesztésekre van szükség.

Lengyel Attila kutatói blogja

Translate

2015. március 15., vasárnap

Vegetációosztályozás 5. Felügyelt osztályozások

Nincsenek megjegyzések:

Megjegyzés küldése

Statcounter