Translate

A következő címkéjű bejegyzések mutatása: nem felügyelt. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: nem felügyelt. Összes bejegyzés megjelenítése

2015. március 15., vasárnap

Vegetációosztályozás 5. Felügyelt osztályozások

Frissítve: 2015.03.18
A vegetációosztályozásról szóló bejegyzéssorozat előző részében (ami elég rég volt...) a jelenleg is igen elterjedten használt, nem felügyelt módszerek gyengéiről, főképp a stabilitás és a robusztusság hiányáról írtam. Az instabilitás azt jelenti, hogy az elemzés eredményéül kapott osztályozás nagy mértékben függ a mintavétel során meghozott döntésektől. Robusztusnak pedig akkor nevezünk egy összefüggést, ha az a mintavétel véletlenszerű komponensétől, a mintvételi hibáktól függetlenül mindig kimutatható. Ezek hiánya a szüntaxonómiai vizsgálatok esetén nagyon hátrányos, mivel a cél éppen az lenne, hogy a növényzet változatosságában ismétlődő, jól elkülöníthető egységeket ismerjünk fel.
A felügyelt osztályozások működési elve, hogy a mintában rejlő típusokat nem nekünk kell felismernünk, hanem már rendelkezünk valamilyen a priori információval arról, hogy mit kell keresnünk. Aszerint, hogy ez az előzetes információ milyen formában (teljes osztályozási rendszer, referenciatabellák, típusdefiníciók) jelenik meg az osztályozás műveletében, három fő típus különítek el.

A felügyelt osztályozások első típusa a nem felügyelt módszerek adoptációjának tekinthető, és lehetővé teszi a két osztályozási szemlélet közti átjárást. Az átjárást a kettő keverékei, a félig-felügyelt osztályozások jelentik. Ezt a módszercsaládot Tichý és mtsai (2014) vezették be a vegetációosztályozás irodalmába tavaly. A megértésüket érdemes a nem-felügyelt megközelítés felől kezdenünk. A k-közép és a PAM ('partitioning around medoids') nevű nem-hierarchikus osztályozó eljárások lényege, hogy a felvételeket olyan csoportokra osztják, hogy a csoportok középpontjától a csoportba tartozó felvételek távolsága minimális legyen. A középpont a k-közép esetén a csoportba tartozó felvételek súlypontja (vagy centroidja) a minta sokdimenziós terében, a PAM esetében pedig az a felvétel, amelytől a csoport többi felvételének a távolsága (vagy disszimilaritása) minimális - vagyis a csoport "középső" felvétele, vagyis a medoid. Az optimális osztályozás elérése több lépésen keresztül történik. A kezdő lépés a csoportok középpontjainak kiválasztása, ami úgy történik, hogy a felvételeket véletlenszerűen csoportokra osztjuk, majd megkeressük a csoportok súlypontját vagy medoidját. Ezt követi a felvételek középpontokhoz való hozzárendelése: mindegyiket a legközelebbihez/leghasonlóbbhoz. A csoportok meghatározása után a középpont újraszámolása történik: új súlypont vagy medoid kerül(het) kijelölésre. Ha a középpont elmozdult, akkor megint a felvételek csoportosítása következik, majd a középpont újraszámolása, és így tovább ismétlődnek ezek a lépések, amíg el nem érjük a legjobb konfigurációt. A jósági kritérium a felvételeknek a csoportjuk középpontjától vett távolságainak a négyzetösszege. A nem-felügyelt k-közép és PAM random osztályozásokból indul ki, de semmi nem akadályoz meg abban, hogy mi adjuk meg a kezdő konfigurációt. Ha az adatsorunkban van néhány ismert besorolású felvételünk, akkor megtehetjük, hogy a kezdő középpont az eredetileg is egy típushoz tartozó felvételek súlypontja/medoidja legyen, és ezekhez rendeljük hozzá a besorolatlan felvételeket. Az eljárás folyamatában az előzetes információt azonban lényegileg akkor vezetjük be, ha úgy döntünk, az eredetileg összetartozónak ítélt felvételek később már nem lehetnek szétválaszthatóak, csak a korábban besorolatlanok változtathassanak helyet az osztályozás újraszámolásai alkalmával.
Az alábbiakban mutatok erre egy rövid példát. Tegyük fel, hogy van 40 felvételünk, ezek közül tudjuk, hogy 10-10 felvétel besorolható a Piros és a Kék társulásba, a többiek pedig besorolatlanok, ezeket fekete mutatja. A piros és a kék csoport medoidját telt kör jelzi.



A félig-felügyelt PAM a besorolatlanokat hozzárendeli a piros vagy a kék medoidhoz, így a feketék is piros vagy kék színt kapnak. Jelen esetben a csoportok medoidjai ettől nem változtak meg. X jelöli a csoportok centroidját, vagyis a súlypontot, ami nem teljesen esik egybe a medoiddal.




A csoportok középpontjait rögzíthetjük is úgy, hogy nem engedjük meg, hogy a később hozzárendelt felvételeknek legyen hatásuk a középpont pozíciójára. A nem-hierarchikus osztályozó módszerek közt szokásos módon a csoportszámot előzetesen kell megadnunk. Ha a létező típusokról csak részleges információink vannak, pl. három társulásról vannak felvételeink, de várhatóan még legalább kettő előkerülhet, akkor megtehetjük, hogy a három ismert társulást felügyelt, a priori kiindulási csoportként adjuk meg, míg a besorolatlan felvételek közt kettő csoportnak véletlenszerűen sorsoljuk ki a középpontját. Az utóbbi esetet hívjuk félig felügyelt osztályozásnak, hiszen egyszerre adunk meg felügyelt és nem-felügyelt csoportokat.
A módszer az adatsorunk minden felvételét besorolja valamelyik csoportba, még akkor is, ha valójában egyik csoporthoz sem tartozik egyértelműen. Az ilyen átmeneti felvételek leválasztása csak utólag, egyéb módszerekkel lehetséges.
Szintén teljes osztályozási rendszerbe illeszthetőek be új felvételek Černá & Chytrý (2005) neuronháló-modelleken alapuló módszereivel. Ezek azonban (talán viszonylagos bonyolultságuk miatt) nem vertek gyökeret a cönológia módszertanában.


A felügyelt osztályozások második típusának jellegzetes példája az Associa nevű módszer, amelyet Van Tongeren és mtsai (2008) cikkéből ismerhetünk meg. Az Associa alkalmas annak kifejezésére, hogy egy cönológiai felvétel milyen távolságra van egy adott felvételcsoporttól. A távolság két komponensen alapul: a furcsaságon ('Weirdness') és a hiányosságon ('Incompleteness'). A furcsasági komponens értéke akkor magas, ha a felvétel sok olyan fajt tartalmaz, ami a referenciacsoportban ritka, míg a hiányosság a felvételből hiányzó, de a referenciacsoportban gyakori fajok számával áll kapcsolatban. A referenciacsoporthoz nagyon hasonlító (valószínűleg beletartozó) felvétel Weirdness és Incompleteness értéke is alacsony, emiatt a távolság értéke is az. A módszer megengedi, hogy a két komponens eltérő súllyal járuljon hozzá a távolsághoz, illetve az abundanciaértékek súlyozására is van lehetőség. A gyakorlatban a távolság, a Weirdness és az Incompleteness értékét is normált formában szokás megadni, ami úgy készül, hogy az adott referenciacsoportba tartozó felvételek saját csoporttól való távolság, Weirdness, stb. értékeinek az átlagával elosztjuk az összes felvétel megfelelő értékét, majd kivonunk belőle 1-et. Így a biztosan a vizsgált csoportba tartozó felvételek -1-hez közeli értéket kapnak, az átlagos mértékben odatartozók 0 körülit, az átlagosnál kevésbé hasonlóak pedig pozitív értékeket. A 1 értékű távolság azt jelenti, hogy a felvételek kétszer olyan távol vannak adott csoport középpontjától, mint a csoport átlaga, és ezek a felvételek atipikusnak tekinthetőek.
Az Associa tehát minden felvétel minden csoporthoz való kapcsolatát egy-egy értékkel fejezi ki. Az értékek alapján eldönthetjük, hogy mely felvételt hová sorolunk be, s lehetőségünk van arra is, hogy ha egy felvétel egyik referenciacsoport iránt sem mutat kellően alacsony (pl. 1 alatti) távolságot, akkor besorolatlanul hagyjuk. Ugyanakkor az is előfordulhat, hogy egy felvétel több csoporthoz is nagyon kis távolságra van. Sok ilyen felvétel esetén megfontolandó, hogy a csoportok elválasztása indokolt-e.
Hasonlóan egyedi felvételeket referenciatabellákhoz "hasonlító" indexeket mutat be Tichý (2005). Az ő módszerei a felvételcsoport fajainak gyakoriságát, valamint fidelitását (diagnosztikus értékét) használják fel annak kiszámítására, hogy adott felvétel mennyire tartozhat a referenciacsoport reprezentált típusba. A több javasolt index közül az FPFI (frekvencia-pozitív fidelitás index) tűnt az eddigiekben a legsikeresebbnek. Ez a kérdéses felvételben előforduló fajoknak a referenciacsoportban tanúsított gyakoriságértékétől és fidelitásától függ. A fidelitásértékek alkalmazása erre a célra alkalmanként hasznos is lehet, azonban hátránya, hogy egy faj egy felvételcsoport felé mutatott fidelitása attól függ, hogy a referenciacsoportot milyen más típusokkal hasonlítjuk össze. Vagyis a felvétel és a referenciacsoport FPFI index szerinti hasonlóság változik, ha más alternatív referenciacsoportokat veszünk számításba (Ld. még Chytry et al. 2002. cikkét a fidelitás kontextusfüggéséről; később még fogok írni a fidelitásról.)


A felügyelt osztályozások harmadik típusa, a Cocktail nevű módszer (Bruelheide 2000), explicit típusdefiníciókat használ a felvételek besorolására. A Cocktail lényege, hogy az ÉS, VAGY és NEM logikai operátorok használatával fajok vagy fajcsoportok előfordulásai alapján definíciókat gyártunk vegetációtípusok azonosítása céljából. A fajcsoportokat általában hasonló preferenciájú, együtt gyakran előforduló fajok alkotják, melynek megállapítása többnyire egy nagy, vegetációs adatbázis alapján statisztikai asszociáltságvizsgálattal történik. Akkor van jelen egy fajcsoport egy felvételben, ha a tagjainak fele előfordult benne. Például a cseh vegetációmonográfia az alábbi módon definiálja a kárpátias elterjedésű bükkösét (Carici pilosae-Fagetum sylvaticae Oberdorfer 1957):


Fagus sylvatica borítás >50% ÉS Carex pilosa csoport NEM Cephalanthera damasonium csoport.


Carex pilosa csoport tagjai: Carex pilosaEuphorbia amygdaloidesGalium intermediumHacquetia epipactis.
Cephalanthera damasonium csoport tagjai: Cephalanthera damasoniumC. rubraCorallorhiza trifidaEpipactis helleborine agg.

Az értelmezés egyszerű: akkor tartozik egy felvétel a Carici pilosae-Fagetum társuláshoz, ha a bükk borítása legalább 50% benne, a Carex pilosa fajcsoportból megvan benne legalább kettő faj, a Cephalanthera damasonium csoportból viszont nincs meg benne egynél több faj.

A Cocktail módszer igen előnyös tulajdonsága, hogy a definíciók birtokában bármely felvételről eldönthető, hogy adott társuláshoz tartozik-e vagy sem, vagyis a döntésünk egyedül a vizsgált felvételtől és a definíciótól függ, a teljes mintától nem. Ahogyan az Associa esetében, itt is előfordulhat, hogy egy-egy felvétel nem sorolható be egyik típusba sem, illetve némelyek több definíciót is kielégítenek. A Cocktail-definíciók közlése egyre inkább elvárás kezd lenni a modern vegetációmonográfiák felé. A tapasztalatok szerint az eredeti verziója elsősorban fajgazdag vegetációtípusokra működik jól. Fajszegény növényzetre alkalmazható módosítását közölték Landucci és mtsai (2015).

A felügyelt és félig felügyelt módszerek nagy előnye, hogy az aktuális elemzésbe be tudjuk építeni a korábbi vizsgálatok eredményeit, fel tudjuk használni a korábban létrehozott definíciókat, követhetjük a hagyományos osztályozási rendszereket, s közben (várhatóan) stabilabb eredményeket is kapunk, hiszen az a priori típusok nagy mértékben megkötik az osztályozás lehetséges kimenetelét. Ezzel - elviekben - létrehozható egy olyan osztályozás, amely megőrzi az eddig kialakult és bevált típusokat, míg a "problémás" esetekben statisztikailag megalapozott támpontot nyújt a döntéshez.

A minta lehatárolásától való függésünktől azonban még mindig nem szabadultunk meg teljes mértékben, s így univerzális osztályozások még a felügyelt módszerek sem vezetnek egyenes úton. Bármilyen felügyelt vagy félig felügyelt módszert alkalmazunk ugyanis, az a priori típusok meghatározása kulcskérdés. Egyelőre kevés tapasztalatot tettek a kutatók közkincsé arról, hogy a referenciatípusok megállapítása, a definíciók meghozása hogyan és milyen mértékben befolyásolja a (félig-)felügyelt osztályozások eredményét, de az sejthető volt mindig is, hogy a referenciák (felvételcsoportok, definíciók) földrajzilag korlátozott érvényűek. Mielőtt ezt magyarázni kezdeném, nézzünk egy példát: a Holcetum lanati Issler 1934 nevű társulás definícióját a már említett cseh, és a szlovák kézikönyvből:

Cseh:  Holcus lanatus borítás > 25% NEM Caltha palustris csoport.
Caltha palustris csoport: Angelica sylvestris, Caltha palustris, Galium uliginosum, Myosotis palustris agg., Scirpus sylvaticus.

Szlovák: Lychnis flos-cuculi csoport ÉS Holcus lanatus borítás > 25% NEM Caltha palustris csoport NEM Carex nigra csoport NEM Cirsium rivulare csoport NEM Gratiola officinalis csoport NEM Trisetum flavescens csoport NEM Viola pumila csoport NEM Cirsium palustre borítás > 5%.
Lychnis flos-cuculi csoport: Alopecurus pratensis, Cardamine pratensis agg., Festuca pratensis, Lathyrus pratensis, Lychnis flos-cuculi, Ranunculus acris, Ranunculus auricomus agg., Rumex acetosa.
Caltha palustris csoport: Caltha palustris, Myosotis palustris agg., Scirpus sylvaticus,  Filipendula ulmaria, Geum rivale, Galium uliginosum, Crepis paludosa.
Carex nigra csoport: Carex nigra, Carex panicea, Carex flava agg., Eriophorum angustifolium.
Cirsium rivulare csoport: Cirsium rivulare, Dactylorhiza majalis, Equisetum palustre, Valeriana simplicifolia.
Gratiola officinalis csoport: Allium angulosum, Gratiola officinalis, Lythrum virgatum, Scutellaria hastifolia.
Trisetum flavescens csoport: Dactylis glomerata, Taraxacum sect. Ruderalia, Trisetum flavescens.
Viola pumila csoport: Carex praecox, Cnidium dubium, Clematis integrifolia, Pseudolysimachion longifolium, Viola pumila.

Ilyesmi lehet a Holcetum lanati Issler 1934

A két definíció között van átfedés, hiszen mindkét mű szerzői említést tesznek a Holcus lanatus nagy borításáról és egy "Caltha palustris csoport" hiányáról, melyet szintén hasonlóan definiálnak. Az egyezés azonban nem tökéletes, hiszen a szlovák definíció több elemű, így jóval specifikusabb: az azonosítás megkívánja egy további fajcsoport jelenlétét, de tiltja hat másik csoport előfordulását. Mindeközben ugyanarról a névről van szó elvileg, amit eredetileg a Rajna völgyében egy mocsárrét-társulás jelölésére vezettek be, nyilván nem olyan aprólékos dokumentációval, amire ma törekszünk. A különbségnek így több oka is lehet. Az egyik, hogy a csehek és a szlovákok másként értelmezik ezt a nevet, vagyis másképp alkalmazzák a Holcetum lanati társulás eredeti diagnózisát a saját növényzetükre. A másik lehetséges ok, hogy egyformán értik, de az adatbázisukban, ami alapján a definíciókat megalkották, olyan adatok kerültek, amelyek eltérő formalizált definíciókra vezettek. Ez utóbbi eset megint kettébontható: az adatbázis eltérően reprezentálhatja ugyanazt a vegetációtípust az eltérő mintavételi preferencia miatt (vagyis a terepi adatgyűjtés elvei közt volt különbség), illetve a fajok viselkednek másképpen a két területen. Egy újabb lehetőség, hogy a definíciók pusztán azért különböznek, mert a fajcsoportok megállapításánál bizonyos szubjektív döntéseket másképp hoztak meg az elemzést végző kutatók, pl. más határértékeket alkalmaztak a fajok közti asszociáltság szignifikanciájának megállapítására.

A (félig-)felügyelt osztályozások tehát igen fontos és hasznos eszközök abban az esetben, amikor előzetes tudásunkra építve próbálunk létrehozni egy statisztikailag támogatott, reprodukálható osztályozást. A növényzet nagyobb léptékű, nemzetközi szintű osztályozásában való felhasználásukhoz, különösen, ami a szüntaxonnevek konzisztens névhasználatának elősegítését jelenti, még további fejlesztésekre van szükség.

2014. május 16., péntek

Vegetációosztályozás 4. A "nem felügyelt" osztályozás korlátai a numerikus szüntaxonómiában

A kezdeti vegetációleírások szűkebb földrajzi kiterjedésű adatgyűjtés és nagyrészt szubjektív (bár szakértői) megítélés alapján osztályozták a növényzetet. Ezt valahogy úgy kell elképzelni, hogy a XX. század eleji-közepi, német (vagy akár cseh, francia, holland...) botanikus, aki a növénytannak egyéb ágai mellett a feltörekvőben lévő társulástannak (fitoszociológiának) is szakértője volt, s akit fantázianéven most Jörgnek nevezünk, rendszeresen járta a kedvenc hegységének erdeit. Gyakorlott szemmel felfedezte, hogy kitettségtől, vízellátottságtól, alapkőzettől, talajtípustól függően különböző fajösszetételű erdők alakulnak ki, és a háttértényezők kombinációjára jellemző fajösszetétel ismétlődik. (Bizonyára észrevette az erdészeti tevékenységek hatását is, de ennek nem tulajdonított nagy jelentőséget.) Ezeket az ismétlődő fajösszetételű típusokat elnevezte társulásoknak, nevet is adott nekik fajaik alapján, mindezt megírta egy cikkben - eddig semmi meglepő nem történt, ma sem ritka ez a fajta munka.

A nehézségek akkor kezdődtek, amikor a szomszédos hegységben hasonlóképpen dolgozó kollégája, Hans, elolvasta Jörg cikkét. A Jörg által leírt társulások némelyikét egész jól felismerte az általa látogatott területeken, másokat csak hellyel-közzel, megint másokat egyáltalán nem. Felmerült a kérdés: vajon a Hans által ismert típusok azonosnak tekinthetők-e a Jörg által ismertekkel? Közülük melyik igen és melyik nem? Innen már egyenesen vezet az út a kérdéshez: mennyire kell hasonlítania két állománynak ahhoz, hogy azonos társuláshoz tartozónak nevezzük őket? Minimálisan mekkora különbségnek kell lennie két egység közt ahhoz, hogy különállóknak tekinthessük őket, és egy egységen belül mekkora változatosságot engedhetünk meg ahhoz, hogy egyként számoljunk velük? Egyáltalán: hogyan, milyen "mértékegységben", miket összehasonlítva mérjük hasonlóságukat? Hogyan definiáljuk a társulásokat, amelyeket össze akarunk hasonlítani?
A XX. század második felében erre a kérdésre a sokváltozós statisztikai adatfeltárás módszereitől remélte/reméli a megoldást a cönológia, az így született rendszerezést ezért numerikus szüntaxonómiának hívjuk. A kezdeti feltételezés tehát valahogy így szólhatott: külön társulás az, amelyet a megfelelőnek tartott sokváltozós módszer különállónak "lát". Vagyis ha van 100 cönológiai felvételünk, amelyeket 10, jól különválasztható és értelmezhető csoportba tudunk rendezni a megfelelő módszerekkel, akkor jogosultak vagyunk 10 társulás leírására. Jörg és Hans problémája tehát orvosolható lenne olymódon, ha mindkettejük cönológiai felvételeit egy adatsorba rendeznénk, osztályoznánk megfelelő módszerekkel, és amelyik társulás különállását a statisztika is kihozza, azt elfogadjuk, amit nem, azt kisebb-nagyobb revíziónak vetjük alá, de arra is van esély, hogy egyik által sem kimutatott csoportot kapunk, amelyről új társulást írhatunk le.Tegyük fel, hogy ez éppen így megtörténik: kiderül, hogy a Jörg által leírt öt társulásból (legyenek A, B, C, D, E) egy nem fordul elő Hans területén (A), egy előfordul ott (B), kettő igazából együtt alkot egy csoportot és nem vegyül Hans felvételeivel (CD), egy viszont két kisebb csoportra oszlik (Ea, Eb), mely közül az egyikben Hans-féle felvételek is vannak, és van egy olyan csoport is (F), amelyet csak Hans felvételei alkotnak. A közös osztályozásban tehát hat csoport jelenik meg jól elkülöníthetőként (A, B, CD, Ea, Eb, F). A Jörg-féle A és B tehát megerősítést nyert, C és D ezután összevontan kezelendő, E két részre szakad, F pedig új társulásként kerül leírásra. Folytassuk gondolatkísérletünket, s üdvözöljük Helmutot, aki egy harmadik terület szakértője, ő is hozza felvételeit, egybedobja a másik két kollégáéval, lefuttat egy sokváltozós elemzést. Ennek az eredménye megint valami olyasmi lesz, hogy bizonyos, korábban társulásként elkülönített egységek megerősítést nyernek, másoknak az összevonása tűnik logikusabbnak, egyeseket inkább alegységekre kéne szétválasztani, és jó eséllyel új társulások is jelennek meg. A Jörg és Hans által megalkotott rendszer tehát újabb revízióra szorul, még hozzá úgy tűnik, jogosan, hiszen Helmut színrelépésével már három hegység adatsorát vetettük egybe. Ahányszor bővítjük az adatsorunkat és újraelemezzük azt, annyiszor tapasztaljuk majd, hogy a meglévő rendszer legalább részben módosítandó - az adatsorunk bármilyen változtatása meg fog látszani az osztályozásunkon. Ugyanakkor bízhatunk abban, hogy minél nagyobb területről gyűjtünk adatokat, annál megbízhatóbb osztályozást kapunk eredményül, ezért úgy tűnik, megéri ezt csinálni. Ennek mintájára készült máig a legtöbb numerikus szüntaxonómiai revízió. Egy fontos tény azonban gyakran elsikkad: a statisztika "vak". Ugyanis amint megváltoztatjuk az adatsorunkat, például új földrajzi területek felvételeinek hozzáadásával, úgy változik az adatsor belső mintázata. Jörg kezdeti adatsora, mely talán csak 50 felvétel volt, egyetlen hegységből származott. A felvételei hasonló makroklimatikus adottságú pontokon készültek, a köztük lévő különbségek inkább a domborzati, vízellátottsági, tápanyagellátottsági mintázatokat tükrözték. Ebben a szűk térbeli léptékben a társulásszerveződés legfontosabb mozgatórugója a különböző abiotikus adottságú foltok közti "válogatás" és a fajok közti versengés lehet: a hegységben előforduló fajok mindegyike elterjedt a hegység egész területén, és többé-kevésbé képes megjelenni bármely olyan ponton, ahol azt a lokális adottságok lehetővé teszik. Egy ilyen szűk térbeli léptékben az osztályozó módszer a hegységen belüli abiotikus változatossággal összefüggő típusokat különíti el jól. Jörg eredeti célja is ezeknek a különbségeknek a kiemelése volt. De ha hozzáteszünk még további adatsorokat, kezdve Hans és Helmut hegyeiből származó felvételekkel, de akár egész tartományokra vagy országokra kiterjedően is, az adatsorunk belső mintázata jelentősen megváltozik. Most már lesznek jelentősen eltérő makroklímájú területekről származó felvételeink, lesznek olyan fajok, amelyek akár történeti, akár klimatikus okokból nem jelenhetnek meg akárhol, még akkor sem, ha azt például a lokális, abiotikus adottságok lehetővé tennék. Ha Jörg, Hans és Helmut hegységeinek sok "saját", csak rá jellemző faja van, akkor a statisztikai elemzés "hajlamos" lesz őket jól elkülönülő típusoknak mutatni, míg a hegységen belüli mintázatot (amely Jörg eredeti célja volt!) kevésbé hűen visszaadni. Amíg Jörg lokális kérdésfeltevése (hogyan különülnek el egy a hegységen belüli abiotikus tényezők szerint a társulások) a szűkebb területről gyűjtött adatsorral volt megválaszolható, a lokális rendszer általánosítása (új területekre való kiterjesztése) iránti törekvésünk során előállítottunk egy olyan, bővebb adatsort, amely éppen erre nem érzékeny már, ehelyett a nagyobb léptékű földrajzi változatosság vizsgálatára lenne alkalmas. Már pedig a szüntaxonómiai rendszernek érzékenynek kell lennie a lokális léptékű mintázatokra, például azért is, mert a leggyorsabb növényzeti változások mindig kis térléptékben valósulnak meg, és a legtöbb természetvédelmi feladathoz is lokális léptékű élőhelyismeret, térképezés szükséges.
A fenti mesével a szüntaxonok leírásának és felülvizsgálatának teljesen tipikus esetét próbáltam leegyszerűsítve szemléltetni. A példában osztályozó módszerként olyan eljárás szerepelt, amely a felvételeket minden előzetes információ figyelembevétele nélkül, csupán a köztük lévő hasonlóságok alapján csoportosítja. Ezeket ún. felügyelet nélküli osztályozó módszereknek ('unsupervised classification') hívjuk. A legtöbb numerikus szüntaxonómiai kutatás ilyen eljárások segítségével készült és készül ma is, és a biológiai adatok statisztikai elemzésével foglalkozó tankönyvek többsége csak ezt a típust tárgyalja. (Néhány módszer a legismertebbek közül: UPGMA, egyszerű lánc, teljes lánc, Ward-féle módszer, Twinspan, K-közép módszer, PAM... továbbiak itt, általánosabban itt).
Az EVS Konferencián bemutatott előadásomban konkrét példán prezentáltam a nem felügyelt osztályozások egy gyengéjét. Egy egész Közép-Európára kiterjedő vizsgálatban felhasznált, mezofil (Arrhenatheretalia) és félszáraz (Brometalia erecti) réti felvételeket tartalmazó adatsoron kétféle térbeli lefedettségű osztályozást végeztem. Egyrészt készítettem egy regionális osztályozást, amely az összes, szám szerint 8033 felvételt tartalmazta. Aztán sok ismétlésben vettem kevés felvételből álló részmintákat, amelyek a teljes mintavételi területnek mindig csak egy szűk részéről származtak. Ezekre készítettem a lokális osztályozásokat. Ezután összehasonlítottam minden lokális osztályozást a regionális osztályozással azon felvételek helyzetei alapján, amelyek mindkét osztályozásban szerepeltek. Két index értékét néztem: az egyik a kiválasztott felvételek egymáshoz viszonyított helyzetei alapján a két osztályozás hasonlóságát mutatta meg ('Correlation'), a másik azt, hogy a kiválasztott felvételek a regionális osztályozásban mennyire szóródnak szét ('Dispersion').

A "kísérleti" terv diája

Az eredmények azt mutatták, hogy a teljes mintavételi terület középső tájékáról származó lokális osztályozások kevésbé hasonlítottak a regionális osztályozásra, mint a periférián készült felvételek lokális osztályozásai.

A lokális és regionális osztályozás közti összefüggést mérő index térbeli mintázata. A piros pontok a legmagasabb 10%-ot, a kékek a legalacsonyabb 10%-ot jelölik.

A periférián, Szlovéniában készült lokális osztályozásokban a kiválasztott felvételek elhelyezkedése nagyon hasonlított a regionális osztályozásban kapott pozícióikhoz (egymáshoz képest). A piros nyilak az egyes felvételek pozícióit kötik össze a két osztályozásban. (A regionális osztályozást itt leegyszerűsítettem, nem rajzoltattam ki azokat a felvételeket, amelyek a lokálisban nem szerepeltek.)

A centrumban, Csehországban készült lokális osztályozás sokkal kevésbé hasonlított a regionális osztályozásra. (A regionális osztályozást itt is csak a lokálisban szereplő felvételekre redukáltam.)

Ez a hasonlóság negatív összefüggést mutatott azzal, hogy a lokális részmintában szereplő felvételek mennyire szóródnak szét a regionális osztályozásban. A középső területekről származó részminták felvételei ugyanis eléggé széles elterjedést mutattak, míg a perifériáról származó részminták felvételei alacsony hierarchikus szinten elkülönülve, aggregáltabban helyezkedtek el.

A felvételek regionális osztályozásban való szóródásának mértékét mutató index térbeli mintázata. A periferiális felvételek jóval kevésbé szóródnak (jobban aggregálódnak), mint a terület közepén lévők.

A periférián lévő szlovén felvételek néhány nagyobb "csomóban" tömörülnek.

A centrumban lévő cseh felvételek egyenletesen oszlanak szét.

Eszerint ha nem felügyelt módszerrel végzünk nagy földrajzi lefedettségű osztályozást a lokális adatgyűjtésen alapuló tipizálások felülvizsgálata céljából, akkor a mintavételi területünk középső részén nagyobb eséllyel fogjuk felülbírálni a lokális érvényű osztályozásokat, mint a periférián. Ez viszont esetünkben egy műtermék, hiszen ideális esetben nem kellene, hogy a földrajzi helyzettől függjön a lokális osztályozás megítélése. Ha a vizsgálati területünket megváltoztatjuk, például új területekről veszünk be felvételeket, s másokat kihagyunk úgy, hogy ami a közepén volt eddig, az a szélén lesz, s bizonyos felvételek a perifériáról középre kerülnek, akkor a korábban jó eséllyel felülbírált lokális osztályozásokat az új regionális osztályozás már támogatni fogja, ellenben azokkal, amiket korábban a periférián megerősített, s most inkább cáfol. A hasonlóság és a szétszórtság közti negatív összefüggés pedig azt mutatja, hogy a lokális osztályozás akkor kaphat csak megerősítést, ha az egész lokális részminta a hierarchia minél alacsonyabb szinten elkülönül, vagyis a felvételek nem szóródnak nagyon szét a regionális fában. Ez konkrétan azt támasztja alá, hogy az elsődlegesen földrajzi alapú elkülönülés után lehetséges csak a finomabb léptékű csoportstruktúra feltárása. Ha ez az éles elkülönülés nincs meg, mint a terület közepén lévő részmintáknál, amelyek felvételei a regionális osztályozásban sokfelé megjelenhetnek, akkor a lokális osztályozásban kimutatott struktúra nem kap megerősítést.

Összefoglalva: a nem felügyelt osztályozó módszerek értelmezésekor mindig figyelembe kell venni, hogy az eredmények kizárólag arra az egy mintára vonatkoznak, amelyre az elemzést lefuttattuk. Ha ez a minta reprezentatív a növényzetnek egy térben, időben és környezeti háttérváltozók szerint jól lehatárolható egységére nézve, akkor ezek a módszerek hasznos eredményt adhatnak, és akár általánosíthatóak és szüntaxonómia megalapozására is használhatók. Ha azonban a vizsgált növényzeti egység definiálása nehézségekbe ütközik és önkényes döntést igényel, akkor az eredményeket igen körültekintően kell értelmezni, gyakran nem is várható végleges, stabil és robusztus osztályozás. Szintén óvakodni kell attól, hogy nem felülvizsgált osztályozások eredményei alapján hozzunk döntést korábban leírt szüntaxonok elfogadásáról. Nagy segítséget jelenthetnek viszont olyan esetekben, amikor szüntaxonómiai vonatkozás nélkül vagy ilyen célú elemzés előtt fel szeretnénk tárni az adatsorunk belső struktúráját, az adatokkal való "előzetes ismerkedés" során.

A sorozat következő bejegyzésében a nem felügyelt osztályozások alternatíváiról fogok írni.