Translate

A következő címkéjű bejegyzések mutatása: klasszifikáció. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: klasszifikáció. Összes bejegyzés megjelenítése

2019. december 16., hétfő

Általánosított sziluett index - új cikk az Ecology and Evolution folyóiratban

FRISSÍTÉS: A bejegyzés közzétételének másnapján kaptam az értesítést arról, hogy a cikk a decemberi számban jelent meg (előtte 'early view' volt), amelynek ez a tüneményes borz virít a címlapján. Ideteszem a bejegyzés elejére, mert jól mutat indexképként. :)



A sziluett indexről más többször írtam mostanában, pl. itt és itt, és van neki Wiki oldala is. Röviden a lényeg, hogy ez egy osztályozások jóságát értékelő index, amely minden objektumra megmondja, hogy mennyire illik abba a csoportba, amelyikben van. Negatív érték esetén rossz, pozitív esetén jó helyen van, 0 esetén átmeneti. Fontos tudni, hogy a sziluett ezt úgy éri el, hogy az adott objektumnak az azonos csoportban lévő többi objektumtól vett átlagos távolságát összehasonlítja a legközelebbi egyéb csoport (tehát amelyiknek ő maga nem tagja) objektumaitól vett távolságok átlagával. Mivel átlagos távolságokkal dolgozik, előnyben részesíti a szférikus (3D-ben gömb alakú), hasonló átmérőjű csoportokat, hiszen ilyenkor nincsenek nagy távolságok a saját csoportokon belül, minden csoporton belüli távolság hasonlóan kicsi. Ebben a preprintünkben beharangoztunk egy újítást, amellyel a sziluett indexnek a csoport alakja iránti érzékenységét lehet szabályozni. A kézirat nem rég megjelent az Ecology and Evolution nevű folyóiratban, ezért most már itt is lerántom a leplet a "trükkről".

A megoldást az általánosított átlag (generalized mean, power mean, Holder mean) szolgáltatja. Az alábbi képletben a p változtatásával különböző átlagokat és határértékeket lehet előállítani:
Ennek a speciális esetei:

M-∞ : minimum;
M-1 : harmónikus közép;
M0 : mértani közép;
M1 : számtani közép, vagyis a hagyományos átlag;
M2 : kvadratikus közép
M: maximum

Az általánosított átlaggal lehetővé válik, hogy a csoporttagoktól vett távolságoknak ne a számtani közepével számoljunk, hanem akár a minimumával, vagy valami minimumhoz közeli, nem nevesített "középpel". Ennek az a következménye, hogy a saját és a szomszéd csoporttól vett távolságba csak a közeli objektumok számítanak bele, szélsőséges esetben (a minimum esetén) csak a legközelebbi szomszéd. Ilyenkor a csoport egészének alakja irrelevánssá válik, csak az számít a vizsgált objektum helyzetének megítélében, hogy a közeli szomszédjai melyik csoportba tartoznak és milyen messze vannak pontosan. Ha általánosított átlaggal és negatív p-vel számoljuk a sziluettet, akkor változatos alakú és méretű csoportok is jóknak tűnnek, hogy ha az elválásuk más csoportoktól egyértelmű. Ez gyakorlati szempontból hasznos lehet, mert a természetben, ha vannak is éles határú csoportok, típusok, akkor azok gyakran nem szférikus formát öltenek a változók sokdimenziós terében. A cikkben felhívjuk a figyelmet a negatív p paraméter veszélyére is, miszerint ha csak a nagyon közeli szomszédságok számítanak, akkor a "jó" csoportok egésze akár át is fedhet annak ellenére, hogy minden egyes objektumnak van egy közeli szomszédja azonos csoportból. Az ingyen letölthető tanulmány linkje, hivatkozása, absztraktja alább látható:

Lengyel, A, Botta‐Dukát, Z. Silhouette width using generalized mean—A flexible method for assessing clustering efficiency. Ecology and Evolution 2019; 9: 13231–13243. https://doi.org/10.1002/ece3.5774

Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used index for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. Silhouette combines two clustering criteria, compactness and separation, which imply that spherical cluster shapes are preferred over others—a property that can be seen as a disadvantage in the presence of complex, nonspherical clusters, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness versus connectedness. With higher sensitivity to connectedness, the preference of silhouette width toward spherical clusters should reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by different algorithms are evaluated, if p is set to different values. When p was negative, well‐separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness; hence, the preference toward spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average, complete linkage, and beta flexible with beta = −0.25 seemed better. The generalized silhouette allows for adjusting the contribution of compactness and connectedness criteria, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.

2019. november 15., péntek

REMOS - új módszer a numerikus osztályozásban

A numerikus osztályozás számos tudományterületen az alapvető statisztikai módszerek közé tartozik. A növényzeti típusok reprodukálható, objektív kritériumok alapján történő elkülönítése kapcsán én is rendszeresen írok róla. A legtöbb klasszifikációs módszer jellemzője, hogy akkor is adnak eredményt (vagyis csoportokat), ha a mintának nincs különösebb struktúrája. Emiatt az objektumok (mintavételi egységek, megfigyelések, felvételek, fajlisták... amiket osztályozunk) csoportjainak létrehozása mellett ugyanennyire fontos, hogy teszteljük, tényleg jók-e a csoportok. Ez a "jóság" temérdek kritérium szerint mérhető, Vendramin és társai (2010) például 40 módszert tekintenek át a review cikkükben. Azonban ha tudjuk, hogy a célunk egy olyan osztályozás elérése, amelyre majd egy ilyen, ún. validitási index alapján azt mondjuk, hogy ez egy "jó osztályozás", akkor miért nem keressük célirányosan már az osztályozás létrehozásakor azt a megoldást, amelynek a lehető legmagasabb a validitási indexe? A megközelítés teljesen valid, ahogyan Roberts (2015) cikkében is láthatjuk: két módszert is bemutat, amelyek valamilyen kezdeti (akár random, de inkább valami más klaszterező módszerrel legyártott) osztályozásból kiindulva addig-addig pakolgatják az objektumokat egyik csoportból a másikba, amíg az adott validitási index a lehető legmagasabb értéket el nem éri. Roberts módszerei ezt úgy érik el, hogy megvizsgálnak minden egyes lehetséges áthelyezést, majd végül azt az egyet hajtják végre, amely a legnagyobb növekedést okozza a validitási index értékében. Az egyik módszer neve OPTSIL, és a sziluett nevű indexet optimalizálja. Botta-Dukát Zoltánnal nem rég írtunk egy preprintet a sziluett index általánosításáról, amellyel különféle alakú clusterekre válik érzékennyé a módszer (azóta elfogadták az Ecology and Evolution lapban, hamarosan meg kéne jelennie). A sziluettben az a jó, hogy minden egyes objektumra ad egy értéket, ami kifejezi, hogy mennyire illik abba a csoportba, amelyikbe került, az alapján, hogy milyen átlagos távolságra (a távolságok az objektumok közti különbözőséget fejezik ki) van a csoport többi tagjától, illetve a legközelebbi másik csoport tagjaitól. Az index -1 és +1 közötti értékeket vehet fel. Ha az értéke pozitív, akkor az objektum jó helyen van, mert közelebb van a csoportja többi tagjához, mint a szomszédos csoport tagjaihoz. Ha 0 (vagy ahhoz nagyon közeli), akkor az objektum átmeneti helyzetű, ha negatív, akkor "félreosztályozott", egy másik csoport tagjaira jobban hasonlít, mint azokra, amelyekkel egy csoportba sorolták. Értelemszerűen minél kevesebb a félreosztályozott objektum, annál jobb egy osztályozás. Vegetációosztályozások "szakértői" ellenőrzésekor és értékelésekor is gyakori, hogy viszonylag szubjektív módon kijelentjük, hogy egyik vagy másik felvétel "rossz" helyen van abban a csoportban, ahová a numerikus módszer tette, néha felül is bíráljuk ezt a besorolást. Mivel a sziluett index alkalmas arra, hogy a félreosztályozott objektumokat objektív módon azonosítsa, semmi nem gátol meg minket abban, hogy csináljunk egy olyan módszert, amely egy meglévő osztályozást a félreosztályozott felvételek átsorolgatásával, iteratív módon javít egészen addig, amíg minden objektum a helyére nem kerül.
Ezt csináltuk meg, először csak Botta-Dukát Zoltánnal, amiből írtunk egy preprintet, amit felraktunk a bioRxiv szerverre. Az új módszernek a REMOS (REallocation of Misclassified Objects based on Silhouette width) nevet adtuk. A kéziratot elküldtem Dave Robertsnek, aki fontos elemzésekkel és gondolatokkal egészítette ki a munkákat, így a preprintet (immár hárman) újraírtuk. A javított verzió itt olvasható, a módszer R kódja az elektronikus függelékben, az összefoglalót alább bemásolom. Közben a kézirat bírálat alatt is áll egy folyóiratban.
A REMOS-nak két verziója áll rendelkezésre. A REMOS1 mindig csak a legalacsonyabb sziluett értékű félreosztályozott objektumot rakja át a szomszédos csoportba, míg a REMOS2 az összes félreosztályozottat. Az áthelyezés után újraszámolják az összes objektumra a sziluetteket, és ha vannak félreosztályozott objektumok, akkor jön a következő áthelyezés, majd megint újraszámolás, megint áthelyezés, és így tovább addig, amíg el nem fogynak a negatív sziluett értékek. Fontos látni, hogy a REMOS alapvetően nem ellenőrzi az áthelyezések hatását az osztályozás egészére, szemben az OPTSIL-el. A REMOS csak azt tartja szem előtt, hogy az egyedi felvételek a helyükre kerüljenek, így inkább "lokális" perspektívájú, míg az OPTSIL "globális" kritérium szerint dolgozik. (Tapasztalatom szerint a gyakorlatban jobban szeretjük azokat az osztályozásokat, ahol minden objektum a helyén van, mint azokat, amelyekben átlagosan jó helyen van minden.) Mindkét REMOS verzió képes ciklusokba kerülni. Ez azt jelenti, hogy ismétlődően ide-oda pakolgatják az objektumokat a csoportok között, de mindig marad félreosztályozott, nem érnek soha a dolog végére. Ilyenkor az algoritmus automatikusan megáll és azt a megoldást fogadja el végsőként, amely a legkevesebb félreosztályozottat tartalmazza. Ha ebben egyenlőség van, akkor az lesz a végső, amely esetén a negatív sziluettek abszolút összege (az osztályozás "hibája") a legkisebb.

A félreosztályozott objektumok arányának (Misclassification rate) változása különböző béta-flexibilis osztályozással, különböző béta értékkel készített osztályozásokból indítva optimalizálás nélkül (Initial), illetve REMOS1, REMOS2 és OPTSIL módszerekkel történő optimalizálás után


A preprintben különböző adatsorokon és különböző kiindulási osztályozásokkal hasonlítottuk össze a REMOS-t és az OPTSIL-t. Az összehasonlítás kritériuma a végső osztályozás átlagos sziluett értéke, a negatív sziluettű objektumok aránya, valamint a diagnosztikus fajok száma volt. Emellett megnéztük a két módszer által igényelt futási időt is. Amikor már eleve "jó" osztályozásból indultunk ki, mindkét módszer jól teljesített, hasonlóan magas átlagos sziluettű és kevés félreosztályozott objektumot tartalmazó megoldásokat adott. Nyilván az átlagos sziluett tekintetében az OPTSIL, a félreosztályozottak arányát nézve a REMOS volt kicsivel jobb, de mivel ez a két dolog erősen összefügg, elhanyagolható volt a különbség. Amikor azonban a kiindulási osztályozás elég rossz volt, akár véletlenszerű, akkor a REMOS sokkal jobb volt, mint az OPTSIL, mindkét fenti kritérium tekintetében. Ez annak volt köszönhető, hogy az OPTSIL az iteráció során gyakran hamar "megrekedt" lokális optimumokban. A REMOS1 és a REMOS2 között ha volt különbség, akkor mindig az előbbi javára billent a mérleg. A fenti elemzéseket szimulált adatsorokon végeztük. Valós elemzési helyzeteket eljátszva, amikor "jó" osztályozásokból indultunk ki, a diagnosztikus fajok számában nem láttunk szisztematikus különbséget, hol az egyik, hol a másik módszer tűnt jobbnak. Nagy különbség volt azonban a futási időben. A REMOS nagyságrendekkel gyorsabb volt. Pl. míg egy 300 objektumot tartalmazó adatsoron "jó" osztályozásból indítva a REMOS1 századmásodpercek alatt futott le, az OPTSIL esetén ehhez kb. 10 másodperc kellett. Nyilván 10 másodperce mindenkinek van, de a tesztünk végletesen egyszerű volt. A valóságban ezres-tízezres adatsorok és "rosszabb" osztályozások is szerepelhetnek majd, ott pedig az OPTSIL (Dave tapasztalatai alapján) akár napokig vagy hetekig is futhat, míg a REMOS2 percek, a REMOS1 órák alatt is végezhet.
A javaslatunk szerint az OPTSIL akkor jó megoldás, ha (1) kimondottan az átlagos sziluettet akarjuk optimalizálni; (2) van időnk megvárni a programot. Minden más esetben a REMOS a jobb választás.


Abstract
Aims: To introduce REMOS, a new iterative reallocation method (with two variants) for vegetation classification, and to compare its performance with OPTSIL. We test (1) how effectively REMOS and OPTSIL maximize mean silhouette width and minimize the number of negative silhouette widths when run on classifications with different structure; (2) how these three methods differ in runtime with different sample sizes; and (3) if classifications by the three reallocation methods differ in the number of diagnostic species, a surrogate for interpretability.
Study area: Simulation; example data sets from grasslands in Hungary and forests in Wyoming and Utah, USA.
Methods: We classified random subsets of simulated data with the flexible-beta algorithm for different values of beta.  These classifications were subsequently optimized by REMOS and OPTSIL and compared for mean silhouette widths and proportion of negative silhouette widths. Then, we classified three vegetation data sets of different sizes from two to ten clusters, optimized them with the reallocation methods, and compared their runtimes, mean silhouette widths, numbers of negative silhouette widths, and the number of diagnostic species. 
Results: In terms of mean silhouette width, OPTSIL performed the best when the initial classifications already had high mean silhouette width. REMOS algorithms had slightly lower mean silhouette width than what was maximally achievable with OPTSIL but their efficiency was consistent across different initial classifications; thus REMOS was significantly superior to OPTSIL when the initial classification had low mean silhouette width. REMOS resulted in zero or a negligible number of negative silhouette widths across all classifications. OPTSIL performed similarly when the initial classification was effective but could not reach as low proportion of misclassified objects when the initial classification was inefficient. REMOS algorithms were typically more than an order of magnitude faster to calculate than OPTSIL. There was no clear difference between REMOS and OPTSIL in the number of diagnostic species.
Conclusions: REMOS algorithms may be preferable to OPTSIL when (1) the primary objective is to reduce or eliminate negative silhouette widths in a classification, (2) the initial classification has low mean silhouette width, or (3) when the time efficiency of the algorithm is important because of the size of the data set or the high number of clusters.

2019. február 12., kedd

Új szintézis a közép- és kelet-európai sztyepprétekről

A különféle szárazgyepek változatossága igen kedvelt téma az európai cönológusok számára, nem meglepő, hogy gyakran újraértékeli valaki a korábbi vizsgálatok eredményeit. Egy frissen megjelent cikkben, amiben társszerzőként szerepelek, a közép- és kelet-európai sztyepprétek szintézisét kíséreltük meg. Emlékeztetőül, főként középmagas vagy magas füvű gyepekről van szó, amelyek leginkább a közép- és kelet-európai erdőssztyepp zónához kötődnek. Félszáraz gyepeknek is hívjuk őket, utalva arra, hogy nem szélsőségesen vízhiányos, csak "aránylag száraz" élőhelyekről van szó. Erdősebb vidékeken gyakran másodlagosan jöttek létre, míg keletebbre klímazonális gyepet is alkotnak, de a megkülönböztetés nem tökéletes. A szüntaxonómiai rendszerben a félszáraz gyepeket a Brachypodietalia pinnati (="Brometalia erecti" érvénytelen név) rend foglalja magában, azon belül Közép-Európában megkülönböztetjük az atlantikusabb Mesobromion erecti (="Bromion erecti"), a szubkontinentális Cirsio-Brachypodion, a Balkánon a Scorzonerion villosae és a Chrysopogono-Danthonion alpinae, Kelet-Európában pedig több további asszociációcsoportot.

Polygalo-Brachypodietum sztyepprét a Kelet-Cserhátban

Jelen kutatás legfőbb érdemének tartom, hogy egy eddig példátlanul nagy, a Rajnától az Ural hegységig terjedő területre érvényesen igyekszik összefoglalni a vegetációtípus változatosságát és tisztázni a szüntaxonómiáját. A szüntaxonok definiálásánál a biogeográfiai kapcsolatok nagy szerepet kaptak. Emögött az az elmélet búvik meg, hogy a legutóbbi jégkorszak után a melegkedvelő sztyeppi fajok csak lassan kolonizálták vissza a potenciális élőhelyeiket, illetve ez a folyamat még mindig tart. Ennek köszönhetően délről észak felé csökken a sztyepprétek fajgazdagsága, az északabbi típusok gyakran "negatívan karakterizáltak", vagyis inkább bizonyos fajok hiányával jellemezhetők. A társulásfelosztás tehát úgy lett meghatározva, hogy a társulások az újrakolonizálás fokát (is) tükrözzék. A cikkben elfogadottnak vett szüntaxonokhoz formális definíciókat is közlünk.

A Colchico-Festucetum rupicolae markáns társulásnak bizonyult a Cirsio-Brachypodionon belül

Egy ekkora térléptékű áttekintés mindig kemény feladat, nekem is tört már bele a bicskám ilyenbe. Ezúttal sem alkottunk tökéletest. A biogeográfiai megközelítés miatt az asszociációk eléggé elnagyolt egységek, tényleg csak nullhipotézisekként értékelendők, amelyek megmondják, hogy adott földrajzi területen az abiotikus környezet főbb komponenseit figyelembe véve valószínűleg melyik társulást kéne találnunk. Részben ennek köszönhető, hogy a cikk több ponton ellent mond az általam vezetett, hasonló témájú, de a magyar országhatáron belül maradó cikknek (Lengyel et al. 2016). Az új feldolgozás például nem igazít el kielégítően a dunántúli sudár rozsnokos gyepek változatosságát illetően, továbbá a Polygalo-Brachypodietumra hasonlító, de pontusi fajokat nem tartalmazó gyepek kezelése sem megnyugtató. Emiatt a hazai félszáraz gyepekkel kapcsolatban (szerénytelenség ide vagy oda) még mindig a 2016-ban megjelent cikkünket ajánlom, és csak néhány részletkérdésben látom jogosnak a Willner et al. (2019) által javasolt változtatásokat. Az egyik a Lengyel et al. (2016) által leírt Colchico-Festucetum rupicolae átsorolása a Cirsio-Brachypodionba (ez már bennem is felmerült korábban, de nem mertem meglépni). Indokolhatónak látom még a Trifolio-Brachypodietum beolvasztását a Brachypodio-Molinietumba, legalább is egy ilyen földrajzi dimenziójú feldolgozásban. Hangsúlyozom, ez a Magyarországon belüli megállapításokra igaz, és bizonyos szempontból természetes az, hogy minél általánosabb érvényű igazságokat keresünk, annál jobban meggyűlik a bajunk a specifikus esetekkel, lokális jelenségekkel.

Bőven van még kutatnivaló, például a kisalföldi sudár rozsnokos rétsztyeppeken

Amint látható, maradtak bőven nyitott kérdések, vitatható pontok. Az elemzés gyengéje még, hogy (részben technikai okokból) a szubjektivitás szerepe nagy volt, így az elkülönített egységek statisztikailag rigorózusabb felülvizsgálatát meghagytuk a jövő kutatóinak. Mégis azt gondolom, jó kiindulási alapot jelent a cikk, akár megerősítjük, akár elvetjük a hipotéziseit.




Abstract
European semi-dry grasslands are among the most species-rich vegetation types in the northern hemisphere and form an important part of the habitat mosaics in the forest-steppe zone. However, there is no comprehensive evaluation of the variation in their composition and the phytosociological classification of these grasslands. For the syntaxonomic revision, we used a dataset of 34,173 vegetation plot records (relevés) from central and eastern Europe, which were assigned to the class Festuco-Brometea using the diagnostic species listed in the EuroVegChecklist. To determine the diagnostic species of the orders, we used a TWINSPAN classification of the whole dataset. Of the total dataset, 15, 449 relevés were assigned to the order Brachypodietalia pinnati, which corresponds to semi-dry grasslands. This subset was again classified using TWINSPAN. Formal definitions of the following alliances were established: Mesobromion erecti, Cirsio-Brachypodion pinnati (incl. Fragario-Trifolion montani, Agrostio-Avenulion schellianae, Scabioso ochroleucae-Poion angustifoliae and Adonido vernalis-Stipion tirsae), Scorzonerion villosae and Chrysopogono-Danthonion. Another alliance, Armerion elongatae (= Koelerio-Phleion phleoidis p.p.), is transitional towards the class Koelerio-Corynephoretea and its status needs further evaluation. We also established formal definitions of all of the associations of Mesobromion and Cirsio-Brachypodion within the area studied. Associations were identified using (i) a TWINSPAN classification of the whole order, (ii) TWINSPAN classifications of regionally restricted data sets (usually all Brachypodietalia plots in one country) and (iii) existing national classification schemes. All formal definitions were written in the expert system language of the JUICE program. To obtain a more complete picture of the floristic similarities and gradients, we performed a DCA ordination of the associations. Our results revealed that meadow steppes in the forest-steppe zone in eastern Europe are very similar to semi-dry grasslands in central Europe.

Keywords: Brachypodietalia pinnati, Cirsio-Brachypodion, Festuco-Brometea, meadow steppe, Mesobromion, semi-dry grassland, syntaxonomy, vegetation classification

2018. január 22., hétfő

Az adattranszformáció és a csoportszám megválasztásának hatása az osztályozás jóságára - új cikk a Journal of Vegetation Science-ben

A numerikus vegetáció-osztályozás során meghozott módszertani döntések meghatározzák, hogy milyen eredményt kapunk az elemzés végén, és abból milyen következtetéseket vonunk le. Online már elérhető az a cikkünk a Journal of Vegetation Science folyóiratban, amelyben azt mutatjuk be, hogyan változik az osztályozások stabilitása, ha az abundancia-transzformáció módját és a csoportszámot változtatjuk. A jelenség illusztrálására különböző valós és szimulált adatsorokat használtunk. A módszertani döntések és a stabilitás összefüggését kétdimenziós "hőtérképeken" mutatjuk be, ahol az abundancia-transzformáció egy paramétere jelenti az egyik, a csoportszám a másik tengelyt, a kettő metszetében lévő cellák színe pedig a stabilitás mértékét. A legstabilabb osztályozást adó csoportszám változhat az adattranszformáció módjával, és ez elsősorban monodomináns felvételek alkotta vegetációtípusokban (pl. mocsári növényzetben) várható. Ha egyformán indokolható választásnak tartunk többféle adattranszformációs módszert és/vagy csoportszámot, akkor érdemes e két döntés minden értelmes kombinációjában lefuttatni az osztályozást, és valamilyen erre való (validitási) indexszel kiválasztani a legjobbat. Az elemzés R kódja elérhető a cikk mellékleteként, és remélhetőleg hamarosan a Juice szoftverben is helyet kap.

A mocsári adatsorunk esetén minél nagyobb súlyt kaptak a tömegességbeli különbségek, annál magasabb volt az osztályozások stabilitása, és annál magasabb volt a legstabilabb osztályozás csoportszáma


Abstract
Question: Is it possible to determine which combination of cluster number and taxon abundance transformation would produce the most effective classification of vegetation data? What is the effect of changing cluster number and taxon abundance weighting (applied simultaneously) on the stability and biological interpretation of vegetation classifications?
Locality: Europe, Western Australia, simulated data.
Methods: Real data sets representing Hungarian submontane grasslands, European wetlands, and Western Australian kwongan vegetation, as well as simulated data sets were used. The data sets were classified using the partitioning around medoids method. We generated classification solutions by gradually changing the transformation exponent applied to the species projected covers and the number of clusters. The effectiveness of each classification was assessed by a stability index. This index is based on bootstrap resampling of the original data set with subsequent elimination of duplicates. The vegetation types delimited by the most stable classification were compared with other classifications obtained at local maxima of the stability values. The effect of changing the transformation power exponent on the number of clusters, indexed according to their stability, was evaluated.
Results: The optimal number of clusters varied with the power exponent in all cases, both with real and simulated data sets. With the real data sets, optimal cluster numbers obtained with different data transformations recovered interpretable biological patterns. Using the simulated data, the optima of stability values identified the simulated number of clusters correctly in most cases.
Conclusions: With changing the settings of data transformation and the number of clusters, classifications of different stability can be produced. Highly stable classifications can be obtained from different settings for cluster number and data transformation. Despite similarly high stability, such classifications may reveal contrasting biological patterns, thus suggesting different interpretations. We suggest testing a wide range of available combinations to find the parameters resulting in the most effective classifications.


2017. november 20., hétfő

Meghívó a "27th Congress of the European Vegetation Survey" konferenciára

A European Vegetation Survey program éves találkozóiról már többször írtam, legutóbb éppen 2 hónapja a 2017-es bilbaói konferenciáról. Az EVS kongresszus (eleinte 'workshop' néven futott, az utóbbi években jött divatba a 'congress') a kontinens vegetációjának leírásával, főleg osztályozásával foglalkozó kutatók éves találkozója. Az előadások és poszterek jellemzően egy-egy terület vegetációtípusaival, vegetációtérképezésével, szüntaxonok numerikus revíziójával, Natura2000 élőhelytípusok lehatárolásával, definiálásával, veszélyeztetett vegetációtípusokkal, a növényzet időbeli változásával, invazív fajok alkotta növényzettel, növényzeti adatbázisokkal, a témát érintő statisztikai problémákkal és szoftverefejlesztésekkel foglalkoznak. Általában 150-250 résztvevő szokott érkezni, különféle európai, ritkábban Európán kívüli országokból. A közelmúltbeli alkalmakon magyarok változó, de kb. 5-10 résztvevővel képviseltették magukat. 2018-ban éppen a mostani munkahelyemen, a Wroclawi Egyetemen fogják rendezni, és a helyi szervezőbizottságnak én is tagja leszek. A pontos dátum: 2018. május 23-26.

forrás: http://evs2018wroclaw.uni.wroc.pl

A találkozó fő témáját ezúttal egy évforduló adja. 1928-ban jelent meg a cönológia és vegetációosztályozás egy alapműve a tudományterület atyjától, Josias Braun-Blanquet-tól. A konferencián szeretnénk azzal foglalkozni, hogy az eltelt 90 év alatt milyen utat járt be a növényzet leírásának tudománya, milyen kérdések, elméletek, módszerek, eszközök jelentek meg, maradtak fenn vagy tűntek el, s milyen irányban képzelhető el a tudományterület jövője. Ezen a fő témán belül az alábbi résztémákkal szeretnénk foglalkozni specifikusabban:
- durvaléptékű vizsgálatok sajátosságai, avagy a kutatás skálájának kiterjesztése földrajzi, időbeli és környezeti dimenziók mentén;
- a növényközösségek válasza a kezelés megváltozására;
- adventív fajok szerepe a növényzet átalakulásában;
- Natura2000-es élőhelyek ismerete és védelme;
- az elméleti ökológia és a vegetációskutatás kapcsolata;
- adatbázis-kezelés.

A témákat azok elismert szakértői fogják felvezetni plenáris előadások formájában, majd lesznek hagyományos konferenciaszekciók rövidebb előadásokkal, valamint poszterek is. Az egyik napon konferenciakirándulásokat szervezünk, a résztvevők három lehetséges helyszín közül választhatnak: (1) Stołowe Nemzeti Park, (2) Kaczawskie vulkanikus hegyvidék, (3) az Odra (Odera) folyó völgye. A Stołowe-hegységben nem rég jártam én is, íme néhány fotó kedvcsinálóul:





További részletek a helyszínről, a határidőkről, a részvételi díjakról és minden egyébről olvashatók a kongresszus honlapján. Mindenkit szeretettel várunk!

2016. június 17., péntek

Magyarországi mezofil és félszáraz gyepek osztályozása - új cikk a Preslia folyóiratban

Megjelent a hazai mezofil és félszáraz gyepek osztályozását taglaló cikkünk a Preslia folyóiratban. Ez a tanulmány képezte tartalmilag a doktori értekezésem harmadik részét, de mivel azt korábban le kellett adnom, egyes eredmények már csak a cikkbe kerülhettek be.

Szúnyoglábú bibircsvirág (Gymnadenia conopsea) egy bükki hegyi réten

Numerikus osztályozást végeztünk egy hazai üde és félszáraz gyepi felvételeket tartalmazó adatbázison, majd az elkülönített felvételcsoportokat ismert növénytársulásokkal próbáltuk azonosítani. Az elemzés módszertana természetesen ennél - sőt, a numerikus szüntaxonómiai kutatások átlagánál is - lényegesen bonyolultabb. Az első látásra talán hókuszpókusznak tűnő műveletsort nem statisztikai macsóságunk, hanem a szükség hívta elő belőlünk: az elemzés során sokszor tapasztaltuk, hogy a minta, a közismertebb módszerek és a cönológiai szemléletmód sajátosságainak (nem ritkán korlátainak) köszönhetően az előzetes eredmények nem adtak adekvát választ a kutatási kérdéseinkre. A mintánk további bővítése több évi terepmunkát igényelt volna, a szemléletmód pedig egy tudományterületen belül maradva viszonylag kötött, így a módszereket kellett olyan módon megválogatnunk és összekombinálnunk, hogy értelmes növényzeti mintázatokat fedjenek fel. Három olyan megoldást alkalmaztunk, amit eddig viszonylag ritkán láttunk numerikus szüntaxonómiai tanulmányokban:
- nem-hierarchikus osztályozó módszert választottunk hierarchikus helyett, mert az előbbiek általában jobban elváló csoportokat határolnak le. A csoportokat ezt követően kevésbé formális úton illesztettük a szüntaxonómiai rendszer hierarchikájához;
- egy finom felbontású, 60 csoportos osztályozás készítettünk, mert bíztunk abban, hogy ez a ritka, kevés felvétellel reprezentált típusokat is kimutatja, míg a gyakori típusokat több csoport is képviselheti;
- a típusok közti átmeneti helyzetű, nem egyértelmű besorolású felvételeket egy statisztikai mérőszám segítségével azonosítottuk, s kizártuk a csoportok értékeléséből, ezzel mesterségesen tettük egyértelműbbé a típusok elválását (természetesen erről a diszkusszió során megemlékeztünk).
Ezek a megoldások csak a mi felfogásunkat tükrözik a problémákról, alternatív megközelítések lehetségesek (mi több, kipróbálandók).

Az alábbi rendszert javasoljuk a vizsgált vegetációtípusok osztályozására:

Arrhenatheretalia Tüxen 1931 asszociációrend: mezofil gyepek
1. Arrhenatherion elatioris Koch 1926 asszociációcsoport: mezofil kaszálók
1.1. Ranunculo bulbosi-Arrhenatheretum elatioris Ellmauer 1993: ez egy kevésbé tápanyagigényes, átmeneti szárazságot is tűrő fajok által jellemzett kaszálóréti társulás
1.2. Tanaceto vulgaris-Arrhenatheretum elatioris Fischer ex Ellmauer 1993: ez a félruderális franciaperjés, sok gyommal, kevés "igazi" mezofil réti fajjal
1.3. Pastinaco sativae-Arrhenatheretum elatioris (Knapp 1954) Passarge 1964: ez a "tipikus" franciaperjés, sok generalista réti fajjal, ld. ebben a bejegyzésben is
1.4. Filipendulo vulgaris-Arrhenatheretum elatioris Hundt et Hübl ex Ellmauer 1995: változó vízellátottságú, tápanyagban aránylag szegény, szubatlanikus elterjedésű kaszálórét
1.5. Anthoxantho odorati-Festucetum pratensis Borhidi 2012: az előzőhöz hasonló karakterű fajok alkotta, de északi-középhegységi ("kárpátiasabb") elterjedésű társulás
1.6. Diantho deltoidis-Arrhenatheretum elatioris (Máthé et Kovács 1960) Lengyel 2016: sovány gyepi, erdőszegély és félszáraz gyepi elemeket tartalmazó, franciaperje uralta hegyi kaszáló
1.7. Ranunculo repentis-Alopecuretum pratensis Ellmauer 1993: a mocsárrétek felé átmenetet mutató, jó víz- és tápanyagellátottságú kaszálórét

2. Cynosurion cristati Tüxen 1947 asszociációcsoport: mezofil legelők
2.1. Colchico autumnalis-Festucetum rupicolae Lengyel, Csiky, Dénes et Király 2016: változó vízellátottságú, de nyárra többnyire kiszáradó, extenzív legelő; új társulásként írtuk le
2.2. Anthoxantho odorati-Festucetum pseudovinae Juhász-Nagy 1957: mint a fenti, de kontinentálisabb elterjedésű
2.3. Alopecuro pratensis-Festucetum pseudovinae Juhász-Nagy 1957: ingadozó vízellátottságú, tömörödött talajú, sokat taposott legelő
2.4. Cynosuro cristati-Lolietum perennis Br.-Bl. et De Leeuw 1936: üde vagy nedves talajú, tápanyagban gazdag, intenzív legelő

Brometalia erecti Br.-Bl. 1936 asszociációrend: Félszáraz gyepek
1. Cirsio pannonicae-Brachypodion pinnati Hadač et Klika 1944: szubkontinentális félszáraz gyepek
1.1. Brachypodio pinnati-Molinietum arundinaceae Klika 1939: kárpáti üde-félszáraz (átmeneti) kaszálók
1.2. Filipendulo vulgaris-Brometum erecti Hundt et Hübl ex Willner 2013: szubatlanti üde-félszáraz (átmeneti) kaszálók
1.3. Sanguisorbo minoris-Brometum erecti Illyés, Bauer et Botta-Dukát 2009: pannon mészkedvelő félszáraz sudár rozsnokos gyepek
1.4. Polygalo majoris-Brachypodietum pinnati Wagner 1941: pontuszi-pannon fajokban gazdag, dombsági, félszáraz, szálkaperjés gyepek
1.5. Euphorbio pannonicae-Brachypodietum pinnati Horváth 2010: szubkontinentális és pannon, félszáraz löszgyep
1.6. Trifolio medii-Brachypodietum pinnati Illyés, Bauer et Botta-Dukát 2009: hegyvidéki, félszáraz, szálkaperjés és fogtekercses gyep

A sudár rozsnok uralta üde-félszáraz átmeneti gyepeket az Ausztriából nem rég leírt
Filipendulo vulgaris-Brometum erecti társulással azonosítottuk

Kimutattunk több olyan társulást, amelyet a szomszédos országokban már jeleztek, de nálunk nem. Két új társulásnevet is javasoltunk, ezek közül a Diantho-Arrhenatheretum bevezetését egy korábbi szubasszociáció asszociációszintre emelése indokolta, a Colchico-Festucetum rupicolae névvel pedig egy ismert, de érvényes leírással nem rendelkező típust jelöltünk meg. Egyes korábban Magyarországról jelzett szüntaxonok előfordulását nem tudtuk megerősíteni.

Bevezettük a Colchico autumnalis-Festucetum rupicolae társulásnevet
A gyepek cönológiájában jártasabb Olvasó számára feltűnhet, hogy a fenti rendszerrel inkább a több, de homogén, mint a kevesebb, de nagy belső változatosságú, robusztus társulás elkülönítése mellett döntöttünk. Ennek az egyik (igazán prózai) oka, hogy a statisztikai elemzések eredményeit az irodalmi és a terepi tapasztalatainkkal összevetve inkább ezt a mintázatot láttuk kirajzolódni. A másik, kissé filozófiaibb ok, hogy a vizsgált gyepek változatosságát folytonosnak látjuk, és ebben a kontinuumban a társulásleírások inkább "tájékozódási pontokként" szolgálnak, mintsem valóban élesen lehatárolható egységek definícióiként. Ezzel elismerjük, hogy léteznek olyan állományok, amelyek az általunk megadott leírásokkal nem azonosíthatóak, hanem gyakran átmeneti bélyegeket hordoznak két, vagy akár több társulás között. Az ilyen állományok besorolásáról mindig az adott vizsgálat céljainak megfelelően kell dönteni.

A nyugat-dunántúli őszi vérfüves üde kaszálókat nem tudtuk társulásszinten azonosítani

A vizsgálat nem elhanyagolható eredményének tartom, hogy a lehetőségeinkhez mérten részletesen körülírtunk olyan típusokat is, amelyeket nem tudtunk megfeleltetni egy társulással sem. Ezek között egyesek elterjedtnek mondhatók (pl. a veres csenkesz, illatos borjúpázsit és cérnatippan uralta domb- és hegyvidéki rétek), míg mások lokális előfordulásúak (pl. az őszi vérfüves kaszálók a Nyugat-Dunántúlon). A javasolt rendszer tehát nem végleges (talán soha, egyetlen osztályozás sem lesz az); kiegészítésekre és felülvizsgálatokra szorul. Reményeim szerint ezzel új kutatásoknak ad alapot, amelyek fokozatosan eltüntetik a fehér foltokat a hazai gyepi diverzitás térképéről. Nagy örömömre szolgálna, ha a gyeptársulások korszerű leíró vizsgálata más kutatóknak vagy hallgatóknak is felkeltené az érdeklődését. Ideális M.Sc. szakdolgozati vagy doktori téma lehet egy-egy vegetációtípus egy tájegységen belüli, vagy akár az egész országban mutatott változatosságának a korszerű feldolgozása. (Néhány példa ilyesmi doktori értekezésekre: Illyés 2010, Bauer 2012Schmidt 2013.) Igény esetén a segítségemet vagy az adataimat is fel tudom ajánlani együttműködés céljára.

Remélem továbbá, hogy a tanulmányunkkal méltó emléket állítottunk a közös munkát elindító, majd tragikus balesetet szenvedő kollégánknak, Illyés Eszternek.

A cikk a Preslia honlapján előfizetés fejében érhető el, de személyes megkeresésem esetén bárkinek elküldhetem. (Az elektronikus függelék ingyenesen is letölthető.)


Lengyel A., Illyés E., Bauer N., Csiky J., Király G., Purger D. & Botta-Dukát Z. (2016): Classification and syntaxonomical revision of mesic and semi-dry grasslands in Hungary. – Preslia 88: 201–228.


Abstract
Mesic and semi-dry grasslands are among the most valuable and species-rich anthropogenic habitats in Hungary. In contrast to the high respect with which they are regarded by conservationists, the diversity of this vegetation and its syntaxonomy were neglected for a long time. In this paper we present the first country-level synthesis and syntaxonomical review of this vegetation based on the numerical classification of the Arrhenatheretalia order, and an update of Brometalia erecti. After careful data selection and resampling, we classified 1204 relevés to 60 clusters. Clusters representing the same association were merged on the basis of a minimum spanning tree and expert assessment of their species composition. Species composition, geographical distribution and environmental background of each mesic and semi-dry grassland association are discussed. The relationships of associations were also examined by ordination. Evaluation of clusters and associations were based only on those relevés that were unambiguously classified. We recognized 11 associations in the Arrhenatheretalia order in two alliances. In the Arrhenatherion alliance, several new association names are adopted from the literature of other countries, and a new one is proposed. According to our concept, Arrhenatherion includes Ranunculo-Alopecuretum, a meso-hygrophilous type; Filipendulo-Arrhenatheretum and Anthoxantho-Festucetum pratensis, which are typical for meadows of fluctuating soil water level but have a different geographic distribution; PastinacoArrhenatheretum, that is a widespread mesic meadow with many generalist species; Ranunculo bulbosi-Arrhenatheretum containing drought-tolerant and less nutrient-demanding species; Tanaceto-Arrhenatheretum, a semi-ruderal type; and Diantho-Arrhenatheretum, that harbours many species of montane meadows. In the Cynosurion, four associations are distinguished. Cynosuro-Lolietum is an intensively grazed type on nutrient-rich, mesic or moist soil in humid climates; Alopecuro-Festucetum pseudovinae is also a heavily grazed type, but in areas with a more continental climate and on packed soil. Anthoxantho-Festucetum pseudovinae and Colchico-Festucetum rupicolae are lowland mesic pastures that contain some xerophilous species, however, they differ in grazing intensity and regional species pool. Two associations of Cirsio-Brachypodion transitional towards more mesic types are detected for the first time in Hungary: Filipendulo-Brometum with sub-Atlantic distribution and Brachypodio-Molinietum with a more montane and Carpathian distribution. We also recognized Sanguisorbo-Brometum, that is a common semi-dry grassland type on rocky soils in Transdanubia; Polygalo-Brachypodietum, a colline type with many Pontic species; Trifolio-Brachypodietum, an association of more forested and montane landscapes, and Euphorbio-Brachypodietum, the semi-dry grassland type of Pannonian loess regions. We concluded it is unlikely that Phyteumo-Trisetion and Bromion erecti occur in Hungary.

Keywords: ArrhenatheretaliaBrometalia erectiCarpathian Basin, classification, clustering, meadow, Hungary, phytosociology, syntaxonomy

2016. május 12., csütörtök

Osztályozások jóságának mérése, és egy új prediktív módszer

A bejegyzés lényegét adó élményem megosztását egy rövid elméleti bevezetővel kezdem.

Amikor élő közösségeket reprezentáló mintavételi egységeket osztályozunk fajösszetételük vagy a fajok tömegességei alapján, szükségszerűen szembesülünk a kérdéssel, hogy az elkészült osztályozás (elég) "jó"-e? Hűen tükrözi-e a közösségek mintázatát? Élesen elkülönülő, biológiailag azonosítható típusokat különít-e el? Előzetes megfontolások alapján egyformán indokolható és elfogadható, de különböző számításmenetű módszerekkel készített, nem egyező osztályozások közül melyik a "legjobb"? Az osztályozások jóságának megítélésére rengeteg módszer létezik, elég csak belepillantanunk Milligan & Cooper (1985)Aho et al. (2008), Tichý et al. (2010), Vendramin et al. (2010) cikkeibe, vagy a témavezetőm, Botta-Dukát Zoltán akadémiai doktori értekezésébe. A módszereket az alábbi csoportokba sorolhatjuk:

1. "Külső" (external) módszerek: az osztályozás jóságának megítélése olyan változók segítségével történik, amelyek nem vettek részt az osztályozás elkészítésében. Ez olyan esetekben merül fel, amikor van egy előzetes várakozásunk arról, hogy az osztályozásnak milyen mintázatot kellene felfedni. Például ha a növényzeti mintáink különböző talaj pH-jú élőhelyekről származnak, és a mintaegységeket a fajösszetételük alapján osztályoztuk, kíváncsiak lehetünk, hogy a növényzeti adatokból képzett osztályozás mennyire jól tükrözi a talajkémhatás szerinti különbségeket. Mivel a pH nem szerepelt a csoportképzésben, "külső" változóként használjuk. Vagy ha erdőkben vettünk fel mintaegységeket, majd a lombkoronaszint fajai alapján osztályoztuk őket, megvizsgálhatjuk, hogy mennyire esik egybe az osztályozás az aljnövényzet fajai alapján kapott osztályozással. Itt az aljnövényzet szerepel "külső" változóként (már amennyiben azt tekintjük referenciának).

2. "Belső" (internal) módszerek: az osztályozást az elkészítéséhez felhasznált változók segítségével értékeljük. Két altípusa van:

2a. Geometriai módszerek: ezeknél az osztályozást a mintavételi egységek közti távolságot vagy disszimilaritást kifejező mérőszámok bevonásával értékeljük. Például úgy, hogy kiszámoljuk az egy csoportba tartozó felvételpárok közti és a különböző csoportokba tartozó felvételek párjai közti disszimilaritások arányát, hiszen a "jó" osztályozás esetén az egy csoportba tartozó felvételek kevésbé térnek el egymástól, mint a különböző csoportokba tartozók. A "geometriai" szó annyit jelent ebben az esetben, hogy azt vizsgáljuk, hogy a felvételek közti disszimilaritásokat távolságként leképező, sokdimenziós térben a csoportok milyen alakzatokat vesznek fel, mennyire válnak el egymástól. Az osztályozáshoz felhasznált változók (pl. fajok tömegességei) csak közvetve, a mintaegységek közti disszimilaritások kiszámolásakor szerepelnek az elemzésben.

2b. Nem-geometriai módszerek: itt közvetlenül a fajok mintázatai alapján értékelünk. Például azzal a feltételezéssel élünk, hogy akkor jó egy osztályozás, ha a csoportoknak sok karakterfajuk van. Ebben az esetben a magas fidelitásértékű fajok száma lesz a csoportjóság mérőszáma, több osztályozást összehasonlítva azt tekintjük a legjobbnak, amelyiknél a karakterfajok száma a legmagasabb.

Ennyi az elmélet, most jön a lényeg.

A csoportjóság mérésének módjai mindig is érdekeltek, még módszertani fejlesztésekkel is próbálkoztam, de nem sok sikerrel. Még végzős egyetemista koromban, tehát kb. 6 éve, volt egy ötletem, amely úgy szólt, hogy az osztályozást fogjuk fel egy statisztikai modellként, amely a fajok előfordulásainak megjósolására (predikciójára) alkalmas. A modellben maga az osztályozás (a mintaelemek csoporttagságait kódoló vektor) egy faktorjellegű, vagyis nominális típusú magyarázó változó annyi lehetséges állapottal, ahány csoportunk van. A fajok előfordulásai pedig a függő változók mátrixaként szerepelnek. Ezt egy redundanciaanalízisbe (RDA) berakva kiszámolhatjuk, hogy mekkora a modell magyarázó ereje (R-négyzete), s minél nagyobb ez a szám, annál jobb az osztályozás. Néhány hónap számolgatás után azonban a témavezetőmmel be kellett látnunk, hogy bármennyire is elegáns megoldásnak tűnt, az RDA által alkalmazott lineáris modellek (többszörös lineáris regresszió) és az R-négyzet több szempontból sem alkalmas vegetációosztályozások értékelésére. Az ötlet ennyiben maradt, soha nem publikáltam róla semmit, pedig ilyen szép ábrák készültek róla.

Itt azt néztem, hogy különböző jósági indexek hány csoportot mutatnak optimálisnak
 adott csoportszámú, szimulált adatsorok esetén

Idén aztán a Journal of Vegetation Science-ben megjelent egy cikk, ahol ausztrál szerzők gyakorlatilag teljesen ugyanezt csinálják, de RDA* helyett minden egyes fajra általánosított lineáris modellt (GLM) számolnak, a modell jóságát pedig nem R-négyzettel, hanem AIC-vel mérik, amit fajonként összeadnak, s ez adja ki a teljes modell (az összes fajra érvényesen) jóságát. És ez működik. A módszer a fenti csoportosítás 2b. kategóriájába esik, vagyis egy belső, nem-geometriai mutató. Valahol egy picit sajnálom, hogy ez nekem nem jutott eszembe, pedig ennyire közel voltam hozzá, de közben kimondottan örülök, hogy más megcsinálta, és hogy az akkori, egyetemistaként kitalált ötletem veleje nagyon is jó volt. Ezúton is gratulálok a szerzőknek! A cikk hivatkozása:

Lyons, M. B., Keith, D. A., Warton, D. I., Somerville, M., Kingsford, R. T. (2016), Model-based assessment of ecological community classifications. Journal of Vegetation Science. doi: 10.1111/jvs.12400

*Az RDA gyakorlatilag minden egyes fajra csinál egy lineáris regressziót (ami a GLM egy speciális esete), majd ezek R-négyzeteinek súlyozott átlagolásával adja meg a teljes modell R-négyzetét.

2015. június 16., kedd

Összefoglaló konszenzuscikk a vegetációosztályozás elméletéről az Applied Vegetation Science-ben

A 'European Vegetation Survey' program éves találkozóin szerveződött egy informális munkacsoport, amelynek célja a vegetációosztályozás mint folyamat egységes elméleti rendszerbe foglalása volt. A vegetációtudomány terén komoly munkássággal rendelkező tapasztaltabb, illetve fiatal, de aktív és lelkes kutatók neveivel fémjelzett csoportot Miquel De Cáceres vezette, mellette Milan Chytrý tett igen sokat a munka koordinálásáért. Nagy megtiszteltetés számomra, hogy én is hozzájárulhattam a csoport munkájának első komoly gyümölcséhez, amely egy összefoglaló cikk megjelenése az Applied Vegetation Science folyóiratban. Az írás típusa ún. "konszenzuscikk", amely a téma vezető kutatóinak egységes véleményét tükrözi.

A cikkben a kvadrátalapú vegetációosztályozást tágan értelmezzük, alatta értjük a növényzet bármiféle felosztását valamilyen mintavételi egységekben felvett, növényzeti adatok alapján, tehát a Braun-Blanquet-féle cönológiánál jóval messzebbre tekintünk. Az összefoglalásban bizonyos fogalmak definiálásával egy elméleti rendszert vezetünk be, amely segít áttekinteni az osztályozás folyamata során meghozandó döntéseket, és segít a különböző döntések alapján létrehozott osztályozások összehasonlításában, valamint új osztályozó munkák tervezésekor a céloknak legjobban megfelelő döntések meghozatalában.




A cikk elérhetősége és absztraktja:

Letölthető a Researchgate-ről itt

Keywords:
Assignment rule; Braun-Blanquet approach; Classification system; Consistent classification section; EcoVeg approach; Phytosociology; Vegetation continuum; Vegetation type; Vegetation-plot database

Abstract
Aims
Classification of vegetation is an essential tool to describe, understand, predict and manage biodiversity. Given the multiplicity of approaches to classify vegetation, it is important to develop international consensus around a set of general guidelines and purpose-specific standard protocols. Before these goals can be achieved, however, it is necessary to identify and understand the different choices that are made during the process of classifying vegetation. This paper presents a framework to facilitate comparisons between broad-scale plot-based classification approaches.

Results
Our framework is based on the distinction of four structural elements (plot record, vegetation type, consistent classification section and classification system) and two procedural elements (classification protocol and classification approach). For each element we describe essential properties that can be used for comparisons. We also review alternative choices regarding critical decisions of classification approaches; with a special focus on the procedures used to define vegetation types from plot records. We illustrate our comparative framework by applying it to different broad-scale classification approaches.

Conclusions
Our framework will be useful for understanding and comparing plot-based vegetation classification approaches, as well as for integrating classification systems and their sections.

2015. március 15., vasárnap

Vegetációosztályozás 5. Felügyelt osztályozások

Frissítve: 2015.03.18
A vegetációosztályozásról szóló bejegyzéssorozat előző részében (ami elég rég volt...) a jelenleg is igen elterjedten használt, nem felügyelt módszerek gyengéiről, főképp a stabilitás és a robusztusság hiányáról írtam. Az instabilitás azt jelenti, hogy az elemzés eredményéül kapott osztályozás nagy mértékben függ a mintavétel során meghozott döntésektől. Robusztusnak pedig akkor nevezünk egy összefüggést, ha az a mintavétel véletlenszerű komponensétől, a mintvételi hibáktól függetlenül mindig kimutatható. Ezek hiánya a szüntaxonómiai vizsgálatok esetén nagyon hátrányos, mivel a cél éppen az lenne, hogy a növényzet változatosságában ismétlődő, jól elkülöníthető egységeket ismerjünk fel.
A felügyelt osztályozások működési elve, hogy a mintában rejlő típusokat nem nekünk kell felismernünk, hanem már rendelkezünk valamilyen a priori információval arról, hogy mit kell keresnünk. Aszerint, hogy ez az előzetes információ milyen formában (teljes osztályozási rendszer, referenciatabellák, típusdefiníciók) jelenik meg az osztályozás műveletében, három fő típus különítek el.

A felügyelt osztályozások első típusa a nem felügyelt módszerek adoptációjának tekinthető, és lehetővé teszi a két osztályozási szemlélet közti átjárást. Az átjárást a kettő keverékei, a félig-felügyelt osztályozások jelentik. Ezt a módszercsaládot Tichý és mtsai (2014) vezették be a vegetációosztályozás irodalmába tavaly. A megértésüket érdemes a nem-felügyelt megközelítés felől kezdenünk. A k-közép és a PAM ('partitioning around medoids') nevű nem-hierarchikus osztályozó eljárások lényege, hogy a felvételeket olyan csoportokra osztják, hogy a csoportok középpontjától a csoportba tartozó felvételek távolsága minimális legyen. A középpont a k-közép esetén a csoportba tartozó felvételek súlypontja (vagy centroidja) a minta sokdimenziós terében, a PAM esetében pedig az a felvétel, amelytől a csoport többi felvételének a távolsága (vagy disszimilaritása) minimális - vagyis a csoport "középső" felvétele, vagyis a medoid. Az optimális osztályozás elérése több lépésen keresztül történik. A kezdő lépés a csoportok középpontjainak kiválasztása, ami úgy történik, hogy a felvételeket véletlenszerűen csoportokra osztjuk, majd megkeressük a csoportok súlypontját vagy medoidját. Ezt követi a felvételek középpontokhoz való hozzárendelése: mindegyiket a legközelebbihez/leghasonlóbbhoz. A csoportok meghatározása után a középpont újraszámolása történik: új súlypont vagy medoid kerül(het) kijelölésre. Ha a középpont elmozdult, akkor megint a felvételek csoportosítása következik, majd a középpont újraszámolása, és így tovább ismétlődnek ezek a lépések, amíg el nem érjük a legjobb konfigurációt. A jósági kritérium a felvételeknek a csoportjuk középpontjától vett távolságainak a négyzetösszege. A nem-felügyelt k-közép és PAM random osztályozásokból indul ki, de semmi nem akadályoz meg abban, hogy mi adjuk meg a kezdő konfigurációt. Ha az adatsorunkban van néhány ismert besorolású felvételünk, akkor megtehetjük, hogy a kezdő középpont az eredetileg is egy típushoz tartozó felvételek súlypontja/medoidja legyen, és ezekhez rendeljük hozzá a besorolatlan felvételeket. Az eljárás folyamatában az előzetes információt azonban lényegileg akkor vezetjük be, ha úgy döntünk, az eredetileg összetartozónak ítélt felvételek később már nem lehetnek szétválaszthatóak, csak a korábban besorolatlanok változtathassanak helyet az osztályozás újraszámolásai alkalmával.
Az alábbiakban mutatok erre egy rövid példát. Tegyük fel, hogy van 40 felvételünk, ezek közül tudjuk, hogy 10-10 felvétel besorolható a Piros és a Kék társulásba, a többiek pedig besorolatlanok, ezeket fekete mutatja. A piros és a kék csoport medoidját telt kör jelzi.



A félig-felügyelt PAM a besorolatlanokat hozzárendeli a piros vagy a kék medoidhoz, így a feketék is piros vagy kék színt kapnak. Jelen esetben a csoportok medoidjai ettől nem változtak meg. X jelöli a csoportok centroidját, vagyis a súlypontot, ami nem teljesen esik egybe a medoiddal.




A csoportok középpontjait rögzíthetjük is úgy, hogy nem engedjük meg, hogy a később hozzárendelt felvételeknek legyen hatásuk a középpont pozíciójára. A nem-hierarchikus osztályozó módszerek közt szokásos módon a csoportszámot előzetesen kell megadnunk. Ha a létező típusokról csak részleges információink vannak, pl. három társulásról vannak felvételeink, de várhatóan még legalább kettő előkerülhet, akkor megtehetjük, hogy a három ismert társulást felügyelt, a priori kiindulási csoportként adjuk meg, míg a besorolatlan felvételek közt kettő csoportnak véletlenszerűen sorsoljuk ki a középpontját. Az utóbbi esetet hívjuk félig felügyelt osztályozásnak, hiszen egyszerre adunk meg felügyelt és nem-felügyelt csoportokat.
A módszer az adatsorunk minden felvételét besorolja valamelyik csoportba, még akkor is, ha valójában egyik csoporthoz sem tartozik egyértelműen. Az ilyen átmeneti felvételek leválasztása csak utólag, egyéb módszerekkel lehetséges.
Szintén teljes osztályozási rendszerbe illeszthetőek be új felvételek Černá & Chytrý (2005) neuronháló-modelleken alapuló módszereivel. Ezek azonban (talán viszonylagos bonyolultságuk miatt) nem vertek gyökeret a cönológia módszertanában.


A felügyelt osztályozások második típusának jellegzetes példája az Associa nevű módszer, amelyet Van Tongeren és mtsai (2008) cikkéből ismerhetünk meg. Az Associa alkalmas annak kifejezésére, hogy egy cönológiai felvétel milyen távolságra van egy adott felvételcsoporttól. A távolság két komponensen alapul: a furcsaságon ('Weirdness') és a hiányosságon ('Incompleteness'). A furcsasági komponens értéke akkor magas, ha a felvétel sok olyan fajt tartalmaz, ami a referenciacsoportban ritka, míg a hiányosság a felvételből hiányzó, de a referenciacsoportban gyakori fajok számával áll kapcsolatban. A referenciacsoporthoz nagyon hasonlító (valószínűleg beletartozó) felvétel Weirdness és Incompleteness értéke is alacsony, emiatt a távolság értéke is az. A módszer megengedi, hogy a két komponens eltérő súllyal járuljon hozzá a távolsághoz, illetve az abundanciaértékek súlyozására is van lehetőség. A gyakorlatban a távolság, a Weirdness és az Incompleteness értékét is normált formában szokás megadni, ami úgy készül, hogy az adott referenciacsoportba tartozó felvételek saját csoporttól való távolság, Weirdness, stb. értékeinek az átlagával elosztjuk az összes felvétel megfelelő értékét, majd kivonunk belőle 1-et. Így a biztosan a vizsgált csoportba tartozó felvételek -1-hez közeli értéket kapnak, az átlagos mértékben odatartozók 0 körülit, az átlagosnál kevésbé hasonlóak pedig pozitív értékeket. A 1 értékű távolság azt jelenti, hogy a felvételek kétszer olyan távol vannak adott csoport középpontjától, mint a csoport átlaga, és ezek a felvételek atipikusnak tekinthetőek.
Az Associa tehát minden felvétel minden csoporthoz való kapcsolatát egy-egy értékkel fejezi ki. Az értékek alapján eldönthetjük, hogy mely felvételt hová sorolunk be, s lehetőségünk van arra is, hogy ha egy felvétel egyik referenciacsoport iránt sem mutat kellően alacsony (pl. 1 alatti) távolságot, akkor besorolatlanul hagyjuk. Ugyanakkor az is előfordulhat, hogy egy felvétel több csoporthoz is nagyon kis távolságra van. Sok ilyen felvétel esetén megfontolandó, hogy a csoportok elválasztása indokolt-e.
Hasonlóan egyedi felvételeket referenciatabellákhoz "hasonlító" indexeket mutat be Tichý (2005). Az ő módszerei a felvételcsoport fajainak gyakoriságát, valamint fidelitását (diagnosztikus értékét) használják fel annak kiszámítására, hogy adott felvétel mennyire tartozhat a referenciacsoport reprezentált típusba. A több javasolt index közül az FPFI (frekvencia-pozitív fidelitás index) tűnt az eddigiekben a legsikeresebbnek. Ez a kérdéses felvételben előforduló fajoknak a referenciacsoportban tanúsított gyakoriságértékétől és fidelitásától függ. A fidelitásértékek alkalmazása erre a célra alkalmanként hasznos is lehet, azonban hátránya, hogy egy faj egy felvételcsoport felé mutatott fidelitása attól függ, hogy a referenciacsoportot milyen más típusokkal hasonlítjuk össze. Vagyis a felvétel és a referenciacsoport FPFI index szerinti hasonlóság változik, ha más alternatív referenciacsoportokat veszünk számításba (Ld. még Chytry et al. 2002. cikkét a fidelitás kontextusfüggéséről; később még fogok írni a fidelitásról.)


A felügyelt osztályozások harmadik típusa, a Cocktail nevű módszer (Bruelheide 2000), explicit típusdefiníciókat használ a felvételek besorolására. A Cocktail lényege, hogy az ÉS, VAGY és NEM logikai operátorok használatával fajok vagy fajcsoportok előfordulásai alapján definíciókat gyártunk vegetációtípusok azonosítása céljából. A fajcsoportokat általában hasonló preferenciájú, együtt gyakran előforduló fajok alkotják, melynek megállapítása többnyire egy nagy, vegetációs adatbázis alapján statisztikai asszociáltságvizsgálattal történik. Akkor van jelen egy fajcsoport egy felvételben, ha a tagjainak fele előfordult benne. Például a cseh vegetációmonográfia az alábbi módon definiálja a kárpátias elterjedésű bükkösét (Carici pilosae-Fagetum sylvaticae Oberdorfer 1957):


Fagus sylvatica borítás >50% ÉS Carex pilosa csoport NEM Cephalanthera damasonium csoport.


Carex pilosa csoport tagjai: Carex pilosaEuphorbia amygdaloidesGalium intermediumHacquetia epipactis.
Cephalanthera damasonium csoport tagjai: Cephalanthera damasoniumC. rubraCorallorhiza trifidaEpipactis helleborine agg.

Az értelmezés egyszerű: akkor tartozik egy felvétel a Carici pilosae-Fagetum társuláshoz, ha a bükk borítása legalább 50% benne, a Carex pilosa fajcsoportból megvan benne legalább kettő faj, a Cephalanthera damasonium csoportból viszont nincs meg benne egynél több faj.

A Cocktail módszer igen előnyös tulajdonsága, hogy a definíciók birtokában bármely felvételről eldönthető, hogy adott társuláshoz tartozik-e vagy sem, vagyis a döntésünk egyedül a vizsgált felvételtől és a definíciótól függ, a teljes mintától nem. Ahogyan az Associa esetében, itt is előfordulhat, hogy egy-egy felvétel nem sorolható be egyik típusba sem, illetve némelyek több definíciót is kielégítenek. A Cocktail-definíciók közlése egyre inkább elvárás kezd lenni a modern vegetációmonográfiák felé. A tapasztalatok szerint az eredeti verziója elsősorban fajgazdag vegetációtípusokra működik jól. Fajszegény növényzetre alkalmazható módosítását közölték Landucci és mtsai (2015).

A felügyelt és félig felügyelt módszerek nagy előnye, hogy az aktuális elemzésbe be tudjuk építeni a korábbi vizsgálatok eredményeit, fel tudjuk használni a korábban létrehozott definíciókat, követhetjük a hagyományos osztályozási rendszereket, s közben (várhatóan) stabilabb eredményeket is kapunk, hiszen az a priori típusok nagy mértékben megkötik az osztályozás lehetséges kimenetelét. Ezzel - elviekben - létrehozható egy olyan osztályozás, amely megőrzi az eddig kialakult és bevált típusokat, míg a "problémás" esetekben statisztikailag megalapozott támpontot nyújt a döntéshez.

A minta lehatárolásától való függésünktől azonban még mindig nem szabadultunk meg teljes mértékben, s így univerzális osztályozások még a felügyelt módszerek sem vezetnek egyenes úton. Bármilyen felügyelt vagy félig felügyelt módszert alkalmazunk ugyanis, az a priori típusok meghatározása kulcskérdés. Egyelőre kevés tapasztalatot tettek a kutatók közkincsé arról, hogy a referenciatípusok megállapítása, a definíciók meghozása hogyan és milyen mértékben befolyásolja a (félig-)felügyelt osztályozások eredményét, de az sejthető volt mindig is, hogy a referenciák (felvételcsoportok, definíciók) földrajzilag korlátozott érvényűek. Mielőtt ezt magyarázni kezdeném, nézzünk egy példát: a Holcetum lanati Issler 1934 nevű társulás definícióját a már említett cseh, és a szlovák kézikönyvből:

Cseh:  Holcus lanatus borítás > 25% NEM Caltha palustris csoport.
Caltha palustris csoport: Angelica sylvestris, Caltha palustris, Galium uliginosum, Myosotis palustris agg., Scirpus sylvaticus.

Szlovák: Lychnis flos-cuculi csoport ÉS Holcus lanatus borítás > 25% NEM Caltha palustris csoport NEM Carex nigra csoport NEM Cirsium rivulare csoport NEM Gratiola officinalis csoport NEM Trisetum flavescens csoport NEM Viola pumila csoport NEM Cirsium palustre borítás > 5%.
Lychnis flos-cuculi csoport: Alopecurus pratensis, Cardamine pratensis agg., Festuca pratensis, Lathyrus pratensis, Lychnis flos-cuculi, Ranunculus acris, Ranunculus auricomus agg., Rumex acetosa.
Caltha palustris csoport: Caltha palustris, Myosotis palustris agg., Scirpus sylvaticus,  Filipendula ulmaria, Geum rivale, Galium uliginosum, Crepis paludosa.
Carex nigra csoport: Carex nigra, Carex panicea, Carex flava agg., Eriophorum angustifolium.
Cirsium rivulare csoport: Cirsium rivulare, Dactylorhiza majalis, Equisetum palustre, Valeriana simplicifolia.
Gratiola officinalis csoport: Allium angulosum, Gratiola officinalis, Lythrum virgatum, Scutellaria hastifolia.
Trisetum flavescens csoport: Dactylis glomerata, Taraxacum sect. Ruderalia, Trisetum flavescens.
Viola pumila csoport: Carex praecox, Cnidium dubium, Clematis integrifolia, Pseudolysimachion longifolium, Viola pumila.

Ilyesmi lehet a Holcetum lanati Issler 1934

A két definíció között van átfedés, hiszen mindkét mű szerzői említést tesznek a Holcus lanatus nagy borításáról és egy "Caltha palustris csoport" hiányáról, melyet szintén hasonlóan definiálnak. Az egyezés azonban nem tökéletes, hiszen a szlovák definíció több elemű, így jóval specifikusabb: az azonosítás megkívánja egy további fajcsoport jelenlétét, de tiltja hat másik csoport előfordulását. Mindeközben ugyanarról a névről van szó elvileg, amit eredetileg a Rajna völgyében egy mocsárrét-társulás jelölésére vezettek be, nyilván nem olyan aprólékos dokumentációval, amire ma törekszünk. A különbségnek így több oka is lehet. Az egyik, hogy a csehek és a szlovákok másként értelmezik ezt a nevet, vagyis másképp alkalmazzák a Holcetum lanati társulás eredeti diagnózisát a saját növényzetükre. A másik lehetséges ok, hogy egyformán értik, de az adatbázisukban, ami alapján a definíciókat megalkották, olyan adatok kerültek, amelyek eltérő formalizált definíciókra vezettek. Ez utóbbi eset megint kettébontható: az adatbázis eltérően reprezentálhatja ugyanazt a vegetációtípust az eltérő mintavételi preferencia miatt (vagyis a terepi adatgyűjtés elvei közt volt különbség), illetve a fajok viselkednek másképpen a két területen. Egy újabb lehetőség, hogy a definíciók pusztán azért különböznek, mert a fajcsoportok megállapításánál bizonyos szubjektív döntéseket másképp hoztak meg az elemzést végző kutatók, pl. más határértékeket alkalmaztak a fajok közti asszociáltság szignifikanciájának megállapítására.

A (félig-)felügyelt osztályozások tehát igen fontos és hasznos eszközök abban az esetben, amikor előzetes tudásunkra építve próbálunk létrehozni egy statisztikailag támogatott, reprodukálható osztályozást. A növényzet nagyobb léptékű, nemzetközi szintű osztályozásában való felhasználásukhoz, különösen, ami a szüntaxonnevek konzisztens névhasználatának elősegítését jelenti, még további fejlesztésekre van szükség.