Lengyel Attila kutatói blogja: Vegetációosztályozás 4. A "nem felügyelt" osztályozás korlátai a numerikus szüntaxonómiában

2014. május 16., péntek

Vegetációosztályozás 4. A "nem felügyelt" osztályozás korlátai a numerikus szüntaxonómiában

A kezdeti vegetációleírások szűkebb földrajzi kiterjedésű adatgyűjtés és nagyrészt szubjektív (bár szakértői) megítélés alapján osztályozták a növényzetet. Ezt valahogy úgy kell elképzelni, hogy a XX. század eleji-közepi, német (vagy akár cseh, francia, holland...) botanikus, aki a növénytannak egyéb ágai mellett a feltörekvőben lévő társulástannak (fitoszociológiának) is szakértője volt, s akit fantázianéven most Jörgnek nevezünk, rendszeresen járta a kedvenc hegységének erdeit. Gyakorlott szemmel felfedezte, hogy kitettségtől, vízellátottságtól, alapkőzettől, talajtípustól függően különböző fajösszetételű erdők alakulnak ki, és a háttértényezők kombinációjára jellemző fajösszetétel ismétlődik. (Bizonyára észrevette az erdészeti tevékenységek hatását is, de ennek nem tulajdonított nagy jelentőséget.) Ezeket az ismétlődő fajösszetételű típusokat elnevezte társulásoknak, nevet is adott nekik fajaik alapján, mindezt megírta egy cikkben - eddig semmi meglepő nem történt, ma sem ritka ez a fajta munka.

A nehézségek akkor kezdődtek, amikor a szomszédos hegységben hasonlóképpen dolgozó kollégája, Hans, elolvasta Jörg cikkét. A Jörg által leírt társulások némelyikét egész jól felismerte az általa látogatott területeken, másokat csak hellyel-közzel, megint másokat egyáltalán nem. Felmerült a kérdés: vajon a Hans által ismert típusok azonosnak tekinthetők-e a Jörg által ismertekkel? Közülük melyik igen és melyik nem? Innen már egyenesen vezet az út a kérdéshez: mennyire kell hasonlítania két állománynak ahhoz, hogy azonos társuláshoz tartozónak nevezzük őket? Minimálisan mekkora különbségnek kell lennie két egység közt ahhoz, hogy különállóknak tekinthessük őket, és egy egységen belül mekkora változatosságot engedhetünk meg ahhoz, hogy egyként számoljunk velük? Egyáltalán: hogyan, milyen "mértékegységben", miket összehasonlítva mérjük hasonlóságukat? Hogyan definiáljuk a társulásokat, amelyeket össze akarunk hasonlítani?

A XX. század második felében erre a kérdésre a sokváltozós statisztikai adatfeltárás módszereitől remélte/reméli a megoldást a cönológia, az így született rendszerezést ezért numerikus szüntaxonómiának hívjuk. A kezdeti feltételezés tehát valahogy így szólhatott: külön társulás az, amelyet a megfelelőnek tartott sokváltozós módszer különállónak "lát". Vagyis ha van 100 cönológiai felvételünk, amelyeket 10, jól különválasztható és értelmezhető csoportba tudunk rendezni a megfelelő módszerekkel, akkor jogosultak vagyunk 10 társulás leírására. Jörg és Hans problémája tehát orvosolható lenne olymódon, ha mindkettejük cönológiai felvételeit egy adatsorba rendeznénk, osztályoznánk megfelelő módszerekkel, és amelyik társulás különállását a statisztika is kihozza, azt elfogadjuk, amit nem, azt kisebb-nagyobb revíziónak vetjük alá, de arra is van esély, hogy egyik által sem kimutatott csoportot kapunk, amelyről új társulást írhatunk le.Tegyük fel, hogy ez éppen így megtörténik: kiderül, hogy a Jörg által leírt öt társulásból (legyenek A, B, C, D, E) egy nem fordul elő Hans területén (A), egy előfordul ott (B), kettő igazából együtt alkot egy csoportot és nem vegyül Hans felvételeivel (CD), egy viszont két kisebb csoportra oszlik (Ea, Eb), mely közül az egyikben Hans-féle felvételek is vannak, és van egy olyan csoport is (F), amelyet csak Hans felvételei alkotnak. A közös osztályozásban tehát hat csoport jelenik meg jól elkülöníthetőként (A, B, CD, Ea, Eb, F). A Jörg-féle A és B tehát megerősítést nyert, C és D ezután összevontan kezelendő, E két részre szakad, F pedig új társulásként kerül leírásra. Folytassuk gondolatkísérletünket, s üdvözöljük Helmutot, aki egy harmadik terület szakértője, ő is hozza felvételeit, egybedobja a másik két kollégáéval, lefuttat egy sokváltozós elemzést. Ennek az eredménye megint valami olyasmi lesz, hogy bizonyos, korábban társulásként elkülönített egységek megerősítést nyernek, másoknak az összevonása tűnik logikusabbnak, egyeseket inkább alegységekre kéne szétválasztani, és jó eséllyel új társulások is jelennek meg. A Jörg és Hans által megalkotott rendszer tehát újabb revízióra szorul, még hozzá úgy tűnik, jogosan, hiszen Helmut színrelépésével már három hegység adatsorát vetettük egybe. Ahányszor bővítjük az adatsorunkat és újraelemezzük azt, annyiszor tapasztaljuk majd, hogy a meglévő rendszer legalább részben módosítandó - az adatsorunk bármilyen változtatása meg fog látszani az osztályozásunkon. Ugyanakkor bízhatunk abban, hogy minél nagyobb területről gyűjtünk adatokat, annál megbízhatóbb osztályozást kapunk eredményül, ezért úgy tűnik, megéri ezt csinálni. Ennek mintájára készült máig a legtöbb numerikus szüntaxonómiai revízió. Egy fontos tény azonban gyakran elsikkad: a statisztika "vak". Ugyanis amint megváltoztatjuk az adatsorunkat, például új földrajzi területek felvételeinek hozzáadásával, úgy változik az adatsor belső mintázata. Jörg kezdeti adatsora, mely talán csak 50 felvétel volt, egyetlen hegységből származott. A felvételei hasonló makroklimatikus adottságú pontokon készültek, a köztük lévő különbségek inkább a domborzati, vízellátottsági, tápanyagellátottsági mintázatokat tükrözték. Ebben a szűk térbeli léptékben a társulásszerveződés legfontosabb mozgatórugója a különböző abiotikus adottságú foltok közti "válogatás" és a fajok közti versengés lehet: a hegységben előforduló fajok mindegyike elterjedt a hegység egész területén, és többé-kevésbé képes megjelenni bármely olyan ponton, ahol azt a lokális adottságok lehetővé teszik. Egy ilyen szűk térbeli léptékben az osztályozó módszer a hegységen belüli abiotikus változatossággal összefüggő típusokat különíti el jól. Jörg eredeti célja is ezeknek a különbségeknek a kiemelése volt. De ha hozzáteszünk még további adatsorokat, kezdve Hans és Helmut hegyeiből származó felvételekkel, de akár egész tartományokra vagy országokra kiterjedően is, az adatsorunk belső mintázata jelentősen megváltozik. Most már lesznek jelentősen eltérő makroklímájú területekről származó felvételeink, lesznek olyan fajok, amelyek akár történeti, akár klimatikus okokból nem jelenhetnek meg akárhol, még akkor sem, ha azt például a lokális, abiotikus adottságok lehetővé tennék. Ha Jörg, Hans és Helmut hegységeinek sok "saját", csak rá jellemző faja van, akkor a statisztikai elemzés "hajlamos" lesz őket jól elkülönülő típusoknak mutatni, míg a hegységen belüli mintázatot (amely Jörg eredeti célja volt!) kevésbé hűen visszaadni. Amíg Jörg lokális kérdésfeltevése (hogyan különülnek el egy a hegységen belüli abiotikus tényezők szerint a társulások) a szűkebb területről gyűjtött adatsorral volt megválaszolható, a lokális rendszer általánosítása (új területekre való kiterjesztése) iránti törekvésünk során előállítottunk egy olyan, bővebb adatsort, amely éppen erre nem érzékeny már, ehelyett a nagyobb léptékű földrajzi változatosság vizsgálatára lenne alkalmas. Már pedig a szüntaxonómiai rendszernek érzékenynek kell lennie a lokális léptékű mintázatokra, például azért is, mert a leggyorsabb növényzeti változások mindig kis térléptékben valósulnak meg, és a legtöbb természetvédelmi feladathoz is lokális léptékű élőhelyismeret, térképezés szükséges.

A fenti mesével a szüntaxonok leírásának és felülvizsgálatának teljesen tipikus esetét próbáltam leegyszerűsítve szemléltetni. A példában osztályozó módszerként olyan eljárás szerepelt, amely a felvételeket minden előzetes információ figyelembevétele nélkül, csupán a köztük lévő hasonlóságok alapján csoportosítja. Ezeket ún. felügyelet nélküli osztályozó módszereknek ('unsupervised classification') hívjuk. A legtöbb numerikus szüntaxonómiai kutatás ilyen eljárások segítségével készült és készül ma is, és a biológiai adatok statisztikai elemzésével foglalkozó tankönyvek többsége csak ezt a típust tárgyalja. (Néhány módszer a legismertebbek közül: UPGMA, egyszerű lánc, teljes lánc, Ward-féle módszer, Twinspan, K-közép módszer, PAM... továbbiak itt, általánosabban itt).
Az EVS Konferencián bemutatott előadásomban konkrét példán prezentáltam a nem felügyelt osztályozások egy gyengéjét. Egy egész Közép-Európára kiterjedő vizsgálatban felhasznált, mezofil (Arrhenatheretalia) és félszáraz (Brometalia erecti) réti felvételeket tartalmazó adatsoron kétféle térbeli lefedettségű osztályozást végeztem. Egyrészt készítettem egy regionális osztályozást, amely az összes, szám szerint 8033 felvételt tartalmazta. Aztán sok ismétlésben vettem kevés felvételből álló részmintákat, amelyek a teljes mintavételi területnek mindig csak egy szűk részéről származtak. Ezekre készítettem a lokális osztályozásokat. Ezután összehasonlítottam minden lokális osztályozást a regionális osztályozással azon felvételek helyzetei alapján, amelyek mindkét osztályozásban szerepeltek. Két index értékét néztem: az egyik a kiválasztott felvételek egymáshoz viszonyított helyzetei alapján a két osztályozás hasonlóságát mutatta meg ('Correlation'), a másik azt, hogy a kiválasztott felvételek a regionális osztályozásban mennyire szóródnak szét ('Dispersion').

A "kísérleti" terv diája

Az eredmények azt mutatták, hogy a teljes mintavételi terület középső tájékáról származó lokális osztályozások kevésbé hasonlítottak a regionális osztályozásra, mint a periférián készült felvételek lokális osztályozásai.

A lokális és regionális osztályozás közti összefüggést mérő index térbeli mintázata. A piros pontok a legmagasabb 10%-ot, a kékek a legalacsonyabb 10%-ot jelölik.

A periférián, Szlovéniában készült lokális osztályozásokban a kiválasztott felvételek elhelyezkedése nagyon hasonlított a regionális osztályozásban kapott pozícióikhoz (egymáshoz képest). A piros nyilak az egyes felvételek pozícióit kötik össze a két osztályozásban. (A regionális osztályozást itt leegyszerűsítettem, nem rajzoltattam ki azokat a felvételeket, amelyek a lokálisban nem szerepeltek.)

A centrumban, Csehországban készült lokális osztályozás sokkal kevésbé hasonlított a regionális osztályozásra. (A regionális osztályozást itt is csak a lokálisban szereplő felvételekre redukáltam.)

Ez a hasonlóság negatív összefüggést mutatott azzal, hogy a lokális részmintában szereplő felvételek mennyire szóródnak szét a regionális osztályozásban. A középső területekről származó részminták felvételei ugyanis eléggé széles elterjedést mutattak, míg a perifériáról származó részminták felvételei alacsony hierarchikus szinten elkülönülve, aggregáltabban helyezkedtek el.

A felvételek regionális osztályozásban való szóródásának mértékét mutató index térbeli mintázata. A periferiális felvételek jóval kevésbé szóródnak (jobban aggregálódnak), mint a terület közepén lévők.

A periférián lévő szlovén felvételek néhány nagyobb "csomóban" tömörülnek.

A centrumban lévő cseh felvételek egyenletesen oszlanak szét.

Eszerint ha nem felügyelt módszerrel végzünk nagy földrajzi lefedettségű osztályozást a lokális adatgyűjtésen alapuló tipizálások felülvizsgálata céljából, akkor a mintavételi területünk középső részén nagyobb eséllyel fogjuk felülbírálni a lokális érvényű osztályozásokat, mint a periférián. Ez viszont esetünkben egy műtermék, hiszen ideális esetben nem kellene, hogy a földrajzi helyzettől függjön a lokális osztályozás megítélése. Ha a vizsgálati területünket megváltoztatjuk, például új területekről veszünk be felvételeket, s másokat kihagyunk úgy, hogy ami a közepén volt eddig, az a szélén lesz, s bizonyos felvételek a perifériáról középre kerülnek, akkor a korábban jó eséllyel felülbírált lokális osztályozásokat az új regionális osztályozás már támogatni fogja, ellenben azokkal, amiket korábban a periférián megerősített, s most inkább cáfol. A hasonlóság és a szétszórtság közti negatív összefüggés pedig azt mutatja, hogy a lokális osztályozás akkor kaphat csak megerősítést, ha az egész lokális részminta a hierarchia minél alacsonyabb szinten elkülönül, vagyis a felvételek nem szóródnak nagyon szét a regionális fában. Ez konkrétan azt támasztja alá, hogy az elsődlegesen földrajzi alapú elkülönülés után lehetséges csak a finomabb léptékű csoportstruktúra feltárása. Ha ez az éles elkülönülés nincs meg, mint a terület közepén lévő részmintáknál, amelyek felvételei a regionális osztályozásban sokfelé megjelenhetnek, akkor a lokális osztályozásban kimutatott struktúra nem kap megerősítést.

Összefoglalva: a nem felügyelt osztályozó módszerek értelmezésekor mindig figyelembe kell venni, hogy az eredmények kizárólag arra az egy mintára vonatkoznak, amelyre az elemzést lefuttattuk. Ha ez a minta reprezentatív a növényzetnek egy térben, időben és környezeti háttérváltozók szerint jól lehatárolható egységére nézve, akkor ezek a módszerek hasznos eredményt adhatnak, és akár általánosíthatóak és szüntaxonómia megalapozására is használhatók. Ha azonban a vizsgált növényzeti egység definiálása nehézségekbe ütközik és önkényes döntést igényel, akkor az eredményeket igen körültekintően kell értelmezni, gyakran nem is várható végleges, stabil és robusztus osztályozás. Szintén óvakodni kell attól, hogy nem felülvizsgált osztályozások eredményei alapján hozzunk döntést korábban leírt szüntaxonok elfogadásáról. Nagy segítséget jelenthetnek viszont olyan esetekben, amikor szüntaxonómiai vonatkozás nélkül vagy ilyen célú elemzés előtt fel szeretnénk tárni az adatsorunk belső struktúráját, az adatokkal való "előzetes ismerkedés" során.

A sorozat következő bejegyzésében a nem felügyelt osztályozások alternatíváiról fogok írni.

Lengyel Attila kutatói blogja

Translate

2014. május 16., péntek

Vegetációosztályozás 4. A "nem felügyelt" osztályozás korlátai a numerikus szüntaxonómiában

Nincsenek megjegyzések:

Megjegyzés küldése

Statcounter