Translate

2018. január 27., szombat

Az első mérföldkő: összeálltak az adatok

Így fest a cönológiai adattábla első néhány sora a Juice szoftverben...

... illetve a traites táblázat az R-ben

A lengyel kollégák együttműködésével a napokban sikerült elérni a Polonez projektem első harmadára kitűzött mérföldkövét, az elemzéshez szükséges adatok összerendezését. A közel 20.000 cönológiai felvétel alkotta minta lekérésével már az ősszel végeztünk, a keményebb dió a növényi traiteket és a rendszertani helyzetet tartalmazó rész precíz és dokumentált összeállítása volt. A táblázat 2010 fajra vonatkozóan tartalmaz jellegadatokat a CLO-PLA és a LEDA adatbázisokból, továbbá rendszertani adatokat a Catalogue of Life szerint. A munka legnehezebb (és talán legunalmasabb) részét a különböző adatbázisok által követett nevezéktanok egységesítése jelentette. Ezután következett egy félig-meddig automatizált fázis, amelyben a forrásadatbázisok rekordjainak fajonkénti és traitenkénti robusztus (vagyis a kiugró értékeket "intelligensen" felismerő és mellőző) átlagolása, kvalitatív változók esetén többnyire a módusz kiválasztása történt. A traitadatok minőségellenőrzése, a "gyanús" rekordok azonosítása folyamatosan történik - sajnos nem lehetünk teljesen biztosak abban, hogy a változatos forrásokból összegyűjtött, adatbázisokból átvett jellegadatok reálisak és egymással tökéletesen összehasonlíthatóak, de bízunk benne, hogy ha gondosan járunk el, akkor a hiba mértéke jelentősen kisebb, mint a keresett, biológiai mintázat. Cseppet sem meglepően nem minden faj minden traitjéről van adatunk. Az adathiányok pótlására a rendszertani információn és a traitek közti korreláción alapuló BHPMF módszert fogjuk kipróbálni hamarosan.

2018. január 22., hétfő

Az adattranszformáció és a csoportszám megválasztásának hatása az osztályozás jóságára - új cikk a Journal of Vegetation Science-ben

A numerikus vegetáció-osztályozás során meghozott módszertani döntések meghatározzák, hogy milyen eredményt kapunk az elemzés végén, és abból milyen következtetéseket vonunk le. Online már elérhető az a cikkünk a Journal of Vegetation Science folyóiratban, amelyben azt mutatjuk be, hogyan változik az osztályozások stabilitása, ha az abundancia-transzformáció módját és a csoportszámot változtatjuk. A jelenség illusztrálására különböző valós és szimulált adatsorokat használtunk. A módszertani döntések és a stabilitás összefüggését kétdimenziós "hőtérképeken" mutatjuk be, ahol az abundancia-transzformáció egy paramétere jelenti az egyik, a csoportszám a másik tengelyt, a kettő metszetében lévő cellák színe pedig a stabilitás mértékét. A legstabilabb osztályozást adó csoportszám változhat az adattranszformáció módjával, és ez elsősorban monodomináns felvételek alkotta vegetációtípusokban (pl. mocsári növényzetben) várható. Ha egyformán indokolható választásnak tartunk többféle adattranszformációs módszert és/vagy csoportszámot, akkor érdemes e két döntés minden értelmes kombinációjában lefuttatni az osztályozást, és valamilyen erre való (validitási) indexszel kiválasztani a legjobbat. Az elemzés R kódja elérhető a cikk mellékleteként, és remélhetőleg hamarosan a Juice szoftverben is helyet kap.

A mocsári adatsorunk esetén minél nagyobb súlyt kaptak a tömegességbeli különbségek, annál magasabb volt az osztályozások stabilitása, és annál magasabb volt a legstabilabb osztályozás csoportszáma


Abstract
Question: Is it possible to determine which combination of cluster number and taxon abundance transformation would produce the most effective classification of vegetation data? What is the effect of changing cluster number and taxon abundance weighting (applied simultaneously) on the stability and biological interpretation of vegetation classifications?
Locality: Europe, Western Australia, simulated data.
Methods: Real data sets representing Hungarian submontane grasslands, European wetlands, and Western Australian kwongan vegetation, as well as simulated data sets were used. The data sets were classified using the partitioning around medoids method. We generated classification solutions by gradually changing the transformation exponent applied to the species projected covers and the number of clusters. The effectiveness of each classification was assessed by a stability index. This index is based on bootstrap resampling of the original data set with subsequent elimination of duplicates. The vegetation types delimited by the most stable classification were compared with other classifications obtained at local maxima of the stability values. The effect of changing the transformation power exponent on the number of clusters, indexed according to their stability, was evaluated.
Results: The optimal number of clusters varied with the power exponent in all cases, both with real and simulated data sets. With the real data sets, optimal cluster numbers obtained with different data transformations recovered interpretable biological patterns. Using the simulated data, the optima of stability values identified the simulated number of clusters correctly in most cases.
Conclusions: With changing the settings of data transformation and the number of clusters, classifications of different stability can be produced. Highly stable classifications can be obtained from different settings for cluster number and data transformation. Despite similarly high stability, such classifications may reveal contrasting biological patterns, thus suggesting different interpretations. We suggest testing a wide range of available combinations to find the parameters resulting in the most effective classifications.