Translate

A következő címkéjű bejegyzések mutatása: adatelemzés. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: adatelemzés. Összes bejegyzés megjelenítése

2023. szeptember 13., szerda

Áttekintés a funkcionális különbözőség mérőszámairól - új cikk az Ecography-ban

Az ökológia és a biogeográfia egyik központi kérdése, hogy a közösségek vagy területek fajösszetétele milyen változatosságot mutat. A probléma vizsgálatához az egyik legalapvetőbb statisztikai eszközt a különbözőségi (disszimilaritási) indexek jelentik. Ezek olyan egyszerű matematikai formulák, amikkel számszerűsíteni lehet, hogy az egyik közösség mennyire különbözik a másiktól. A közösségeket főleg a fajösszetételük alapján hasonlították össze korábban, az utóbbi évtizedekben azonban megnőtt az érdeklődés egyéb szempontok figyelembe vétele felé. Ilyen például a közösségek funkcionális összetétel alapján történő összevetése. A szakirodalomban kb. 40-50 mérőszámot javasoltak az utóbbi években erre a célra. Ezek az indexek azonban mind-mind különböző feltételezésekkel éltek az adatokra nézve, és különböző elméleteket követtek a funkcionális sokféleség számszerűsítése és a különbözőség értelmezése céljából. A funkcionális különbözőség iránt érdeklődő felhasználó így meglehetősen elveszve, útmutatás nélkül érezhette magát, amikor a saját kutatásához próbált megfelelő módszert választani.

Ezen a helyzeten igyekeztünk javítani a kutatócsoport-vezetőmmel. A most megjelent 'review' cikkünkben feldolgoztuk az irodalomban eddig javasolt módszereket, és egy közös elméleti rendszerbe foglalva őket kiemeltük azokat a módszertani döntéseket vagy adottságokat, amelyeket figyelembe kell venni a módszerválasztáskor. Két döntést tartunk alapvetőnek: a különbözőség értelmezésének mikéntjét, valamint azt, hogy a közösségek funkcionális összetételét milyen módon írjuk le. A különbözőségnek két típusát tárgyaljuk: a távolságokat (distance) és az ellentétet (kicsit gyenge a magyar megfelelő, angolul találóbb: disagreement). A kettő között a lényegi különbség, hogy a távolságok felső korlátját az eredeti változók skálája szabja meg, tehát akár a végtelen is lehet, míg az ellentétek standardizáltak, 0 és 1 között változnak. Előbbiek hosszú, utóbbiak rövidebb grádiensek esetén működnek jól. A funkcionális összetétel leírásának három módja van. Az első (typical values), amikor a közösséget egyetlen pont reprezentálja, pl. amikor egyetlen gyepet a teljes biomasszája ír le. A második (discrete sets), amikor minden taxonhoz tartozik egy jellemző, egy trait, amit a taxon tömegességének figyelembe vételével együtt használunk fel egy közösségi szintű trait-eloszlás kiszámolásához. A harmadik (hypervolumes), amikor a traitek mint dimenziók által meghatározott térben egy többdimenziós alakzattal vagy eloszlással írjuk le a közösséget. A cikkben áttekintjük a tárgyalt módszerek kiszámolásához szükséges R-csomagokat is.


A funkcionális különbözési indexekről javasolt elméleti rendszerünk sematikus ábrája

Amit nem tudunk egyelőre megmondani, az az, hogy melyik index mennyire működik "jól", mennyire pontosan adja vissza a két közösség közti tényleges eltérést. Valójában a munkát ez utóbbi kérdés vizsgálatával kezdtük, azonban a bírálatok során világossá vált, hogy az elméleti megalapozás előbbre való, a körültekintő tesztelés pedig a vártnál összetettebb probléma. De ami késik, nem múlik. :)

Az összefoglaló és elérhetőség alább látható:


Lengyel, A. & Botta-Dukát, Z. (2023), A guide to between-community functional dissimilarity measures. Ecography e06718. https://doi.org/10.1111/ecog.06718

Abstract

One of the effective tools to study the variation between communities is the use of pairwise dissimilarity indices. Besides species as variables, the involvement of trait information provides valuable insight into the functioning of ecosystems. In recent years, a variety of indices have been proposed to quantify functional dissimilarity between communities. These indices follow different approaches to account for between-species similarities in calculating community dissimilarity, yet they all have been proposed as straightforward tools. In this paper, we review the trait-based dissimilarity indices available in the literature and identify the most important conceptual and technical properties that differentiate among them, and that must be considered before their application. We identify two primary aspects that need to be considered before choosing a functional dissimilarity index. The first one is the way communities are represented in the trait space. The three main types of representations are the typical values, the discrete sets using the combination of species × sites and species × traits matrices, and the hypervolumes. The second decision is the concept of dissimilarity to follow, including two options: distances and disagreements. We use the above scheme to discuss the available functional dissimilarity indices and evaluate their relations to each other, their capabilities, and accessibility.

2020. június 19., péntek

"Methods in Vegetation Science" - módszertani cikkrovat az IAVS folyóirataiban

A Journal of Vegetation Science-ben és az Applied Vegetation Science-ben indult egy rovat "Methods in Vegetation Science" címmel, amely a módszertani cikkeket állítja reflektorfénybe. A cikkgyűjteménybe visszamenőlegesen 2018-tól kezdődően válogattak publikációkat, és ezeket szabad hozzáférésűvé tették. Örömmel láttam, hogy a válogatásba bekerült a 2018-ban megjelent "Joint optimization of cluster number and abundance transformation for obtaining effective vegetation classifications" című cikkünk.



A jövőben új kéziratokat is lehet ide benyújtani. Ezzel párhuzamosan elindult a "Methods" mint új cikktípus, amelybe új módszerek leírásait, régi és új módszerek összehasonlító tesztjeit, valamint más tudományterületeken fejlesztett módszerek vegetációtudományben történő hasznosításait várják.

2019. december 4., szerda

Egy kutatástervezési jótanács

Egy nagyon találó idézetet olvastam egy statisztikai cikkben (Halsey 2019):

‘To call in a statistician after the experiment is done may be no more than asking him to perform a post-mortem examination: he may be able to say what the experiment died of.’
vagyis:
'Statisztikushoz fordulni a kísérlet elvégzése után nem több, mint boncolást kérni tőle: talán meg tudja mondani, mitől halt meg a kísérlet.'

Az idézet forrása Sir Ronald Fisher, akit a statisztika és a populációgenetika atyjának is szoktak nevezni, és akinek a nevéhez olyan statisztikai alapfogalmak fűződnek, mint a hipotézistesztelés, a p-érték, az ANOVA, a Fisher-féle egzakt teszt, vagy a meta-analízis. 

Ronald Fisher, amikor még nem volt Sir, és talán még nem sejtett semmit...

Néhány éves aktív tudományos pályafutásom alatt nem kevés kutatáshoz járultam már hozzá adatelemzőként (erős eufemizmussal "statisztikusként"), és a személyes tapasztalatom tökéletesen egybehangzik azzal, amire Fisher is utalhatott: egy rosszul megtervezett vagy kivitelezett kutatásból a statisztikában jártas személy sem tud értelmes eredményt elővarázsolni. Legyen bármekkora is a tudása, ezen a ponton gyakran csak annyira elég, hogy megállapítsa, mi a konkluzív vizsgálat akadálya. Folytatva a metaforát: mint halottnak a csók...

Hogyan lehetne ezt elkerülni? Evidens, hogy érdemes a kutatás tervezési fázisában is kérni a statisztikus segítségét. Vele együtt kell tisztázni a célok és a mintavételi terv minden, elsőre mellékesnek tűnő részletét:

  • Mindenek előtt: mi a kutatás pontos, vagy inkább nagyon-nagyon pontos kérdése? Milyen változók érdekelnek minket? Melyek a függő és független változók? Mi a null-hipotézis, mik az alternatív hipotézisek? Mi hat mire? Milyen eredményt sejt a kutató?
  • Mik/Vannak-e random és fix faktorok?
  • Milyen a változók eloszlási típusa?
  • Mik a mintavétel tér- és időbeli kötöttségei?
  • Milyen tesztek illenek ehhez az elrendezéshez?
  • Mekkora legyen a minta? Elég lesz-e a "statisztikai erő" ('statistical power'), vagyis elég nagy-e a minta a tesztek számához és az elvárt hatásnagysághoz képest a konkluzív vizsgálathoz?
Talán nem túlzok, ha azt állítom, az a jól megtervezett kutatás, amelynek adattábláit a kutató az adatgyűjtés megkezdése előtt ki tudja tölteni képzeletbeli, de a változó eloszlástípusának megfelelő értékkel, majd az így készített táblázatokon el tudja végezni a kutatási kérdés megválaszolásához szükséges elemzéseket. Ez feltételezi azt, hogy pontosan tudjuk, mennyi és milyen adat kell, és mit fogunk velük csinálni. Törekedjünk erre! Ne hagyatkozzunk arra, hogy majd az adatok birtokában kitaláljuk, hogy milyen tesztet végezzünk, hanem olyan és annyi adatot gyűjtsünk, amiből fogunk tudni számolni!


Természetesen fontos feltétel, hogy az adatgyűjtéskor se vétsünk (súlyos) hibát. Hiába a jól megtervezett kutatás, ha pl. nem ismerjük fel a fajokat, amelyekkel dolgozunk, nagy mérési hibával dolgozunk, stb. Ráadásul ezeket a statisztikus se szúrja ki feltétlenül, hiszen a számok mögé nem lát.

Mi van, ha közbejön valami, és mégsem úgy végezzük az adatelemzést, ahogyan elterveztük? Semmi, újratervezés, de legalább van honnan elindulnunk: a kutatás egésze ugyanis jó eséllyel nem fog megváltozni, csak kiderül, hogy kisebb lesz a minta, mint gondoltuk, az egyik változót más skálán kellett felvenni, eggyel több random faktor lesz, és kettővel kevesebb lokalitást, stb. Ezek nem nagy változások, az eredeti tervek kis mértékű átírását igénylik csak.

Mi van, ha minden a terv szerint haladt, de nem jött ki semmi? Nem kizárt, hogy a legjobban átgondolt terv is technikailag rossz - ilyen az élet. Ilyenkor egyszerűen jobbat kell csinálni. A másik, tudományosan érdekesebb eset a negatív eredmény jelensége. Ilyenkor elméletek és korábbi vizsgálatok tanulságai alapján feltételeztünk egy kimenetelt, de nem ezt kaptuk. Ez tulajdonképpen jó eredmény, hiszen rávilágít a korábbi tudásunk hiányos voltára. Sajnos a folyóiratok az ilyeneket ritkán közlik le. Ezek visszaszorítására vezették be az "előregisztrált vizsgálatokat". Ilyenkor egy nagyon részletes kutatási tervet kell beküldeni a folyóirathoz, azt elbírálják, és ha úgy látják, hogy a vizsgálat konkluzív lesz, akkor az eredmények pozitív vagy negatív kimenetelétől (pl. a nullhipotézis elutasításától vagy megtartásától) függetlenül leközlik a cikket. Ilyenre van lehetőség pl. a BMC Ecology és az Ecology and Evolution folyóiratokban. 

A kutatás sikerén kívül mikor jön jól még ez a szintű tervezés? Például ha kutatási tervünkre támogatást is szeretnénk nyerni. A bírálókra meggyőzőleg hat ugyanis, ha azt látják, a pályázó nem a levegőbe beszél, mélységében ismeri a témát, van elképzelése a kutatás kivitelezésének mikéntjéről, felkészült az esetleges nehézségekre. Mintegy demonstrálja, hogy képes a kutatási terv megvalósítására. Van is ebben valami.

Zárásul még egy idézet:

'Failing to plan is planning to fail.' 
vagyis: 
'Elbukni a tervezést olyan, mint tervezni a bukást.' (Alan Lakein)

2017. december 19., kedd

"Te hiszel a statisztikában?"

A fenti kérdést egy másik tanszéken dolgozó kolléga szegezte nekem múltkor, az első találkozásunkkor. De vajon igaz, hogy a statisztika hit kérdése? Hogy lehet benne hinni, meg nem hinni, de mintha nem lenne igazán logikus érv mellette? Hogy a statisztika egyfajta vallás, a statisztikusok pedig voltaképpen sámánok, akik különféle csodaszereket kínálgatnak az olyan "jól bevált" eszközök helyett, mint a tapasztalati tudás, az intuíció vagy a híres "józan paraszti ész"?

Erről szó sincs. Valójában minden kutató, aki sokaságokat hasonlít össze, jóslatokba bocsátkozik egy folyamat kimeneteléről, összefüggések erősségéről nyilatkozik, röviden: kvantitatív jellegű kérdéseket feszeget, szükségszerűen statisztikát használ, tulajdonképpen modellez. Csak nem feltétlenül számítógépen, hanem fejben. Sőt, minden ember modellez. Ha megkérdezik, hogy az "A" zöldségesnél nagyobbak a dinnyék, vagy a "B"-nél, akkor a kínálatra ránézve, mérés nélkül is arra gondolunk, hogy mekkora lehet az átlag az egyik és a másik zöldségesnél, és az átlag körül mennyire szórnak az egyes dinnyék (mennyire térnek el az átlagtól az egyes darabok), mekkora az átfedés a kettő között. Ugyanez történik a t-próbánál, több zöldséges esetén az ANOVA-nál. Ha fontos kérdés, hogy "jelentősen" nagyobbak a dinnyék A-nál, mint B-nél, akkor kell egy referenciaérték, amely a "jelentős" és a "nem jelentős" közti különbség határvonala. Ez a referencia sokféleképpen kitűzhető, de a leggyakoribb eset, hogy ha nagyobb (persze, mennyivel?) a különbség két zöldséges között, mint hogyha a dinnyéket véletlenszerűen osztottuk volna szét közöttük, akkor a különbség "jelentős" ("szignifikáns"). De ennél többet is megtudhatunk a zöldségesek dinnyeforgalmazásáról, ha figyelembe vesszük, mondjuk azt, hogy igaz, hogy az "A"-nál kisebbek a dinnyék, viszont az régebb óta van nyitva, tehát lehet, hogy az "A"-ból a vásárlók már elvitték a nagyokat, ez okozza a különbséget. Erre szépen fel lehet írni egy modellt: a vásárlók egységnyi idő alatt n dinnyét vesznek meg, a dinnye megvásárlási valószínűsége a méretével arányos, "A" zöldséges t1 ideje van nyitva, "B" zöldséges t2 ideje, t1>t2, feltételezzük, hogy nyitáskor nem volt köztük semmi más különbség. Amit meg akarunk jósolni vagy magyarázni, az a dinnyék átlagos mérete közötti különbség a zöldségesek között. Ha a modellünk helyes, akkor a modell kimenete (egy jósolt vagy valószínűsített dinnyeméret-eltérés "A" és "B" átlaga között) jól közelíti a valóságot, ha nem helyes, akkor távol áll attól. Vegyük észre, hogy ezt fejben pontosan így csináljuk a faék egyszerűségű, hétköznapi kérdésekben, csak annyira természetes számunkra, hogy nem tudatosul bennünk, hogy modellezünk! A modellezés (és úgy általában, a statisztika) nem más, mint a gondolkodásunk formalizálása, mások számára egyértelművé tétele egy közös nyelv, a matematika segítségével. A modell egy feltételezés egy jelenség hátterében álló mechanizmusról. Egy hipotézis, amit elfogadhatok, ha az adatok alátámasztják, és elvethetek, ha nem támasztják alá eléggé. A modell megalkotásához kulcsfontosságú a vizsgált jelenség (pl. a szóban forgó zöldségesek) beható ismerete. És itt van a tapasztalati tudás szerepe: tudni kell, hogy egyáltalán mely tényezőkkel érdemes számolni. Van-e egyáltalán esély arra, hogy a beszállító kiléte, a nyitvatartási idő vagy a vasárlói preferencia magyarázza meg a két zöldséges közti különbséget, és nem a névválasztásuk, az eladó külleme vagy a szakmai múltja? A tapasztalati tudás és a modellezés tehát kéz a kézben jár. Az előbbi nélkül nem lehet értelmes modelleket gyártani, értelmes modellek azonban szükségesek a jelenségek mechanizmusának megértéséhez és az előrejelzéshez. Az, aki "nem hisz" a statisztikában, valójában nem tudja használni. Természetesen nem kell minden kutatónak statisztika-gurunak lenni, de aki kvantitatív kérdéseket feszeget, az lehetőleg annyira sajátítsa el a statisztika nyelvét, hogy a hipotézisét meg tudja fogalmazni, le tudja írni a vizsgálat változóit és objektumait, majd az elemzést egy hozzáértőre bízva az eredményeket tudja értelmezni. Fontos tudni, hogy a statisztikai módszerek eszközök, amik nem válaszolják meg helyettünk a problémáinkat, ahogy a kalapács sem veri be magától a szöget. Tudni kell jól kérdezni, a kérdéshez megfelelő módszert kell választani, és az eredményeket helyesen kell értelmezni - legalább 1-1 személynek a kutatás résztvevői közül.

A statisztika nem csak azok számára tűnik fel a mágia szerepében, akik szkeptikus tartózkodással viseltetnek iránta, hanem azok számára is, akik hajlamosak az elemzések eredményeit abszolutizálni. Ők nem kívülállóként, hanem követőként viszonyulnak a valláshoz. Ennek a tünete, amikor elfeledkeznek a statisztikai módszerek korlátairól. Egy valós biológiai kérdés megválaszolására gyakran több alternatív módszer kínálkozik, némelyek egyformán indokolható választásnak tűnnek, de mégis eltérő eredményt adnak. A kutató szubjektív döntése, hogy melyik módszert választja, de ennek a döntésnek hatása lesz az eredményre, így a belőle levont következtetésre is. A statisztikai elemzések eredménye tehát módszerfüggő. Ha a kutatási kérdésünket minél több különböző módszerrel próbáljuk megválaszolni, akkor árnyaltabb képet kapunk az adatsorunkról, illetve a vizsgált jelenségről, a téves következtetés esélyét pedig csökkentjük. Különösen hatékonyan járhatunk el, ha a módszerünket kis lépésekben változtatjuk, és figyeljük, hogy ez milyen változást okoz az eredményekben. Ez történik például akkor, amikor egy osztályozási probléma esetén növekvő csoportszámú klasszifikációkat gyártunk, és figyeljük, hogy az egyre finomabb felbontás milyen mintázatokat fed fel az adatsorunkból. Vagy amikor bonyolult kiindulási modellből lépésről lépésre kihagyjuk a jelentéktelen hatású tényezőket, míg el nem jutunk addig, hogy a modellünk már csak a valóban fontos változókat tartalmazza. Gyakran maga a minta is magán hordoz olyan sajátosságokat, amelyek miatt nem tudható pontosan, hogy az eredmények mennyire általánosíthatók. Pl. vajon ugyanazt a jelenséget mérem-e, ha egy kiskunsági homokpusztagyepen és egy mátrai hegyi réten vizsgálom a fajgazdagság és a biomassza összefüggését? A konklúziónk soha nem választható el teljesen sem a mintától, sem az alkalmazott módszerektől.

Ne felejtsük el tehát, hogy a statisztikai módszerek eszközök. Nem lehet velük csodát tenni, nem oldanak meg helyettünk problémákat intelligens módon, nem találják ki a gondolatainkat, de kellő hozzáértés birtokában eredményesen alkalmazhatók hipotézisek formális tesztelésére, kvantitatív mintázatok felfedésére.
A fenti témában ajánlom Juhász-Nagy Páltól a Beszélgetések az ökológiáról című könyvet.

2017. szeptember 6., szerda

A béta-diverzitás felbontása fajszám-különbség és fajcsere komponensekre

A diverzitásról írt bejegyzéseimben eddig csak egyedi közösségen belüli sokféleségről, vagyis az alfa-diverzitásról volt szó. Létezik azonban a diverzitásnak olyan értelmezése is, amely nem egy tetszőlegesen lehatárolt közösség belső sokféleségét hivatott kifejezni, hanem a közösségek egymás közti változatosságát - ezt hívják béta-diverzitásnak. Gamma-diverzitás alatt pedig a sok közösség összevonása során kapott belső, "összegzett" sokféleséget értjük. Mondok egy példát. Van 10 tavunk, amelyekben különböző halfajok élnek. Az átlagos tavon belüli fajszám a tórendszerre jellemző alfa-diverzitás, míg a 10 tóban összesen előforduló fajok száma a gamma-diverzitás. A béta-diverzitás intuitíve valahogy úgy értelmezhető, hogy a tavaink fajösszetétele (tehát nem a fajszáma!) mennyire változatos - ennek formalizált kifejezése azonban korántsem olyan egyértelmű, mint a fajszámé. Az egyik megközelítés szerint a béta-diverzitás a gamma- és az alfa-diverzitás hányadosa. A béta = gamma/alfa képlet szerint a béta-diverzitás azt fejezi ki, hogy hányféle közösség alkotja a statisztikai sokaságot, vagyis hányféle fajkombináció (vagy közösség) fordul elő a tórendszerben. Ezt hívják a diverzitás multiplikatív felbontásának, mivel a béta és az alfa szorzata adja a gammát. Ezzel szemben az additív megközelítés szerint a béta-diverzitás a gamma és az alfa különbsége: béta = gamma - alfa, alfa + béta = gamma. Itt a béta-diverzitás annak a mértéke, hogy egy átlagos lokális közösség hány fajjal gazdagodik, ha kiegészül a többi lokális közösséggel: átlagosan mennyivel több faj van az összes lokális közösségben együttvéve, mint egyetlenegyben? A béta-diverzitás kifejezésére e két nevezetes képleten kívül számtalan javaslat született, olyannyira, hogy az elmúlt néhány évben több szintéziscikket is írtak a rendszerbe foglalásukról, ld. Tuomisto (2010a2010b), Anderson et al. (2011).

A béta-diverzitást a lokális közösségek páronkénti különbözőségének kiszámolásával is számszerűsíthetjük. Vegyünk egy egyszerű szimilaritási mérőszámot, pl. a Jaccard indexet: SJaccard = a/(a+b+c), ahol az a a két összehasonlítandó közösségben egyaránt előforduló fajok száma, a b és a c pedig a csak az első, illetve csak a második közösségben előforduló fajok száma. Könnyen belátható, hogy a nevezőben az a+b+c a két közösségben előforduló fajok száma, amit n-el szoktak jelölni (tehát n=a+b+c), vagyis egyfajta gamma diverzitás, míg az alfa diverzitás a két közösség fajszámának átlaga: ((a+b)+(a+c))/2. A Jaccard index a hasonlóságot fejezi ki, ezért disszimilaritássá kell alakítanunk ahhoz, hogy a közösségek közti diverzitást fejezze ki: DJaccard = 1-SJaccard = 1-a/n.
Két közösség különbözőségéről azonban ez a képlet még keveset árul el, hiszen csak annyit mond, hogy az egyesített fajlistájukból mennyi az olyan faj, amely csak az egyik közösségben fordul elő. Az alábbi példákban olyan közösségpárokat mutatok, amelyek disszimilaritása azonos, de mégis nagy mértékben különböző mintázatok rejlenek e szám mögött.

Első példa - a két közösség különbözőségét a fajcsere okozza

Az első esetben az 1. és a 2. közösség fajszáma azonos, és van 2 faj, amely mindkettőben előfordul, míg van 2-2, amely csak az elsőben vagy csak a másodikban. A disszimilaritás értéke DJaccard=1-2/(2+2+2)=0.667. A közösségek 4-4 fajából tehát 2-2 lecserélődik: ezt hívják a fajcsere (turnover, species replacement) jelenségének. A közösségek közti fajcsere jelensége általában akkor figyelhető meg, ha a közösségek más-más élőhelytípusokat reprezentálnak, ezért más-más élőhelyigényű fajok népesítik be őket, vagy ha bizonyos fajok biotikus interakciók (pl. kompetíció) miatt nem tudnak együtt élni, ezért "kerülik" egymást. A közösségek hasonló (azonos) fajszáma azonban arra utal, hogy hasonló mértékben kolonizálhatóak az élőhelyek, a fajok megtelepedéséhez szükséges idő rendelkezésre állt, az élőhelyek eltartóképessége is hasonló.

Második példa - a két közösség különbözősége a fajszám-különbségnek köszönhető

A második esetben a 2. közösség fajai közül 2 ("A" és "B" fajok) alkotja a 1. közösséget is, emellett van 4 olyan faj ("C"-től "F"-ig), amely csak a 2.-ban fordul elő, mindeközben az 1. közösségnek nincs "saját" faja. A két közösség közti különbséget tehát kizárólag a fajszámkülönbség (richness difference) jelenti, fajcserével nem kell számolnunk. Amikor a fajszegényebb közösség a fajgazdagabb közösség részhalmaza (vagy más szavakkal: a ritkább fajok ott fordulnak elő, ahol a gyakoribbak már jelen vannak), akkor az egymásbaágyazottság (nestedness) jelenségével van dolgunk. Az egymásbaágyazottság akkor jelentkezik, ha a közösségek egy elszegényedési vagy betelepülési grádiens mentén helyezkednek el, de azonos fajkészletből "táplálkoznak". Pl. ha azonos fajösszetételű, fajgazdag közösségeket különböző erősségű bolygatásnak teszünk ki, akkor az erősebben bolygatott közösségekből az érzékenyebb fajok eltűnnek, csak a zavarástűrők maradnak, alacsonyabb fajszámot produkálva. A másik jellegzetes példa, amikor az élőhelyfoltok kolonizálására eltérő idő állt rendelkezésre. A régóta elfoglalható foltokba már sok fajnak volt ideje megérkezni, míg az újabb foltokat csak a leghatékonyabban terjedő fajok kolonizálták, ezért még fajszegényebbek. Így a fajgazdag közösségeknek a fajszegények részhalmazát képezik. Számoljuk ki a disszimilaritást a második példára is: DJaccard=1-2/(2+0+4)=0.667 - csak úgy, mint az első példánál, a magyarázat mégis egészen más.

Az utóbbi években legalább két megközelítés látott napvilágot azzal a céllal, hogy a béta-diverzitást felbontsa fajszám-különbség (illetve nestedness) és fajcsere okozta komponensekre. Az egyiket Andrés Baselga (2010) javasolta, a másikat Podani János és Schmera Dénes (2011). Én most az utóbbival foglalkozom, mert nekem az a szimpatikusabb, de Legendre (2014) kiváló cikkéből mindkét módszercsalád megérthető, az előnyeikkel, hátrányaikkal, és a lehetséges további felhasználásaikkal együtt. Érdemes még megemlítenem Baselga bejegyzését a Methods in Ecology & Evolution folyóirat blogján, amelyben a saját rendszere szerint magyarázza el a béta-diverzitás felbontását.

A Podani & Schmera-féle módszer (nem bonyolult) teljes algebrai levezetésétől most eltekintek, csak a lényegre szorítkozom. A relatív fajszám-különbség kifejezhető az alábbi módon:

Drel = |b-c|/n

A relatív fajcsere pedig így:

Rrel = 2*min(b,c)/n

Vegyük észre, hogy a fajszám-különbség (Drel), a fajcsere (Rrel) és a hasonlóság (SJaccard) összege 1, emiatt:

Drel+Rrel+SJaccard = 1

A fajcsere és a fajszám-különbség összege pedig a disszimilaritással, vagyis a béta-diverzitással egyenlő:

béta = 1-SJaccard = Rrel+Drel

Podani és Schmera kiválóan vették észre, hogy a fajszám-különbség, a fajcsere és a hasonlóság közös skálája egy nagyon szemléletes ábrázolási módra nyújt lehetőséget, amit szimplex ábrának hívnak. Ez egy olyan háromdimenziós koordinátarendszer, amelyen belül a pontok csak egy egyenlő oldalú háromszögön belülre eshetnek. A koordinátatengelyek (a szimplexek) a háromszög oldalfelező merőlegesei (egyúttal szögfelezői), és minden tengelynek a hozzá tartozó oldal felezőpontjában van a 0 értéke, a vele szemben lévő csúcsban pedig az 1-es értéke. Egy adott pontot a tengelyekre merőlegesen levetítve kapjuk meg a koordinátákat, amelyek összege mindig 1. A háromszög súlypontjában a koordináták értéke 1/3 mindhárom tengelyre, egy csúcsban mindig 1 az egyik tengelyre és 0 a másik kettőre. Ha egy pont egy oldalra esik, akkor egy koordinátája mindig 0, a másik kettő pedig attól függ, hogy mennyire közel van a két szomszédos csúcshoz. Ha a háromszög csúcsait a hasonlóság, a fajszám-különbség és a fajcsere relatív hozzájárulásának mértékének tekintjük, akkor a közösségek párjai közt kiszámolt értékek szemléltethetők a szimplex ábrán. Több párt egyszerre is ábrázolhatunk, így pontfelhőt kapunk, amelyen azonnal látjuk, hogy milyen relációk jellemzőek az összehasonlított párok közt. Például ha van 10 mintánk egy élőhelytípusból, majd minden lehetséges párosításra kiszámoljuk az S, D és R értékeket, akkor a pontfelhő elhelyezkedéséből következtethetünk, hogy a mintaelemek között mekkora a hasonlóság, a fajszám-különbség és a fajcsere átlagos értéke, és ezek fontos információt jelentenek az élőhelytípus belső változatosságáról.

Az SDR szimplex ábra komponensei
A kép forrása: Herczeg & Horváth (2015) Link


Mutatok néhány példát:

Barro Colorado erdőfelmérés adatsor
A Barro Colorado-sziget a Panama-csatornában található, mesterséges sziget, a világ egyik legintenzívebben kutatott trópusi területe. 1923 óta áll védelem alatt. Az 1980-as években egy 50 hektáros erdődinamikai mintaterületet létesítettek, amiben hektáronként feljegyezték a faegyedeket. Az adatmátrix 50 mintavételi kvadrátot és 225 fajt tartalmaz, és a vegan R-csomagból érhető el. Forrás: Condit et al. (2002).
A BCI adatsor szimplex diagramja

Az ábrán minden pont egy kvadrát-pár közti szimilaritás, fajcsere és fajszám-különbség értékét mutatja. A pontfelhő a fajszám-különbséget jelentő D csúcstól messze van, ehelyett az R (fajcsere) és S (szimilaritás) közti oldalhoz közel helyezkedik el. Ez arra utal, hogy az esőerdei kvadrátok fajszám tekintetében hasonlóak, de közepes mértékű fajcsere megfigyelhető közöttük. A pontok elég kis területen helyezkednek el, ami arra utal, hogy a kvadrátpárok közti eltérések hasonló típusúak és hasonló mértékűek.

Dűne adatsor
Hollandiai tengerparti dűnék kaszált és legeltetett gyepi vegetációja, 20 kvadrátban 30 fajjal. Forrás: Jongman et al. (1987). A vegan csomagból elérhető.

Első ránézésre szembetűnő, hogy a pontok itt sokkal nagyobb területen helyezkednek el, ami arra utal, hogy a kvadrátpárok közt sokkal változatosabbak a viszonyok: a fajszámkülönbség lehet kicsi vagy közepes, a fajcsere mértéke lehet kicsi és nagy is, a szimilaritás is lehet kicsi és nagy.


Páncélosatkák
Egy 2.5 m × 10 méteres területről vett 70 talajmintából származó 35 páncélosatka-faj előfordulási adatai. Forrás: Borcard et al. (1994). Elérhető szintén a veganon keresztül.


Valami hasonlót látunk, mint az előző esetben: a pontok szinte az egész háromszög területén előfordulnak, a tiszta fajszám-különbség, fajcsere és hasonlóság állapotait (vagyis a csúcsok közvetlen közelét) kivéve.

Északi-középhegységi mezofil gyepek
Legelt, kaszált és nem rég felhagyott mezofil gyepek az Északi-középhegység különböző részeiről. 55 kvadrátban 269 faj, saját, publikálatlan adatsor.



A pontok szóródása jóval kisebb, mint az előző kettő példában, de nagyobb, mint a Barro Colorado adatsor esetén. A pontok többsége a D-től és az S-től távol, az R-hez közelebb helyezkedik el. Ez arra utal, hogy a kvadrátok fajszáma mérsékelten variál (D értéke alacsony), és a fajcsere a domináns jelenség a kvadrátpárok között, noha teljes fajcserére itt sem látunk példát, ami azt jelenti, hogy nincs olyan kvadrátpár, aminek ne lenne legalább egy közös faja.

További érdekes példák láthatók valódi és szimulált adatsorokkal Podani és Schmera cikkében, továbbá fontos speciális eseteket (pl. a nestedness "szigorú" és "nem szigorú" értelmezése) is tárgyalnak a Szerzők - érdemes elolvasni.

A módszerhez írtam egy R kódot, amely a nem rég megjelent cikkünk függelékében érhető el. Kérem, hogy aki használja a szkriptet, hivatkozzon az alábbi cikkre:





2016. május 12., csütörtök

Osztályozások jóságának mérése, és egy új prediktív módszer

A bejegyzés lényegét adó élményem megosztását egy rövid elméleti bevezetővel kezdem.

Amikor élő közösségeket reprezentáló mintavételi egységeket osztályozunk fajösszetételük vagy a fajok tömegességei alapján, szükségszerűen szembesülünk a kérdéssel, hogy az elkészült osztályozás (elég) "jó"-e? Hűen tükrözi-e a közösségek mintázatát? Élesen elkülönülő, biológiailag azonosítható típusokat különít-e el? Előzetes megfontolások alapján egyformán indokolható és elfogadható, de különböző számításmenetű módszerekkel készített, nem egyező osztályozások közül melyik a "legjobb"? Az osztályozások jóságának megítélésére rengeteg módszer létezik, elég csak belepillantanunk Milligan & Cooper (1985)Aho et al. (2008), Tichý et al. (2010), Vendramin et al. (2010) cikkeibe, vagy a témavezetőm, Botta-Dukát Zoltán akadémiai doktori értekezésébe. A módszereket az alábbi csoportokba sorolhatjuk:

1. "Külső" (external) módszerek: az osztályozás jóságának megítélése olyan változók segítségével történik, amelyek nem vettek részt az osztályozás elkészítésében. Ez olyan esetekben merül fel, amikor van egy előzetes várakozásunk arról, hogy az osztályozásnak milyen mintázatot kellene felfedni. Például ha a növényzeti mintáink különböző talaj pH-jú élőhelyekről származnak, és a mintaegységeket a fajösszetételük alapján osztályoztuk, kíváncsiak lehetünk, hogy a növényzeti adatokból képzett osztályozás mennyire jól tükrözi a talajkémhatás szerinti különbségeket. Mivel a pH nem szerepelt a csoportképzésben, "külső" változóként használjuk. Vagy ha erdőkben vettünk fel mintaegységeket, majd a lombkoronaszint fajai alapján osztályoztuk őket, megvizsgálhatjuk, hogy mennyire esik egybe az osztályozás az aljnövényzet fajai alapján kapott osztályozással. Itt az aljnövényzet szerepel "külső" változóként (már amennyiben azt tekintjük referenciának).

2. "Belső" (internal) módszerek: az osztályozást az elkészítéséhez felhasznált változók segítségével értékeljük. Két altípusa van:

2a. Geometriai módszerek: ezeknél az osztályozást a mintavételi egységek közti távolságot vagy disszimilaritást kifejező mérőszámok bevonásával értékeljük. Például úgy, hogy kiszámoljuk az egy csoportba tartozó felvételpárok közti és a különböző csoportokba tartozó felvételek párjai közti disszimilaritások arányát, hiszen a "jó" osztályozás esetén az egy csoportba tartozó felvételek kevésbé térnek el egymástól, mint a különböző csoportokba tartozók. A "geometriai" szó annyit jelent ebben az esetben, hogy azt vizsgáljuk, hogy a felvételek közti disszimilaritásokat távolságként leképező, sokdimenziós térben a csoportok milyen alakzatokat vesznek fel, mennyire válnak el egymástól. Az osztályozáshoz felhasznált változók (pl. fajok tömegességei) csak közvetve, a mintaegységek közti disszimilaritások kiszámolásakor szerepelnek az elemzésben.

2b. Nem-geometriai módszerek: itt közvetlenül a fajok mintázatai alapján értékelünk. Például azzal a feltételezéssel élünk, hogy akkor jó egy osztályozás, ha a csoportoknak sok karakterfajuk van. Ebben az esetben a magas fidelitásértékű fajok száma lesz a csoportjóság mérőszáma, több osztályozást összehasonlítva azt tekintjük a legjobbnak, amelyiknél a karakterfajok száma a legmagasabb.

Ennyi az elmélet, most jön a lényeg.

A csoportjóság mérésének módjai mindig is érdekeltek, még módszertani fejlesztésekkel is próbálkoztam, de nem sok sikerrel. Még végzős egyetemista koromban, tehát kb. 6 éve, volt egy ötletem, amely úgy szólt, hogy az osztályozást fogjuk fel egy statisztikai modellként, amely a fajok előfordulásainak megjósolására (predikciójára) alkalmas. A modellben maga az osztályozás (a mintaelemek csoporttagságait kódoló vektor) egy faktorjellegű, vagyis nominális típusú magyarázó változó annyi lehetséges állapottal, ahány csoportunk van. A fajok előfordulásai pedig a függő változók mátrixaként szerepelnek. Ezt egy redundanciaanalízisbe (RDA) berakva kiszámolhatjuk, hogy mekkora a modell magyarázó ereje (R-négyzete), s minél nagyobb ez a szám, annál jobb az osztályozás. Néhány hónap számolgatás után azonban a témavezetőmmel be kellett látnunk, hogy bármennyire is elegáns megoldásnak tűnt, az RDA által alkalmazott lineáris modellek (többszörös lineáris regresszió) és az R-négyzet több szempontból sem alkalmas vegetációosztályozások értékelésére. Az ötlet ennyiben maradt, soha nem publikáltam róla semmit, pedig ilyen szép ábrák készültek róla.

Itt azt néztem, hogy különböző jósági indexek hány csoportot mutatnak optimálisnak
 adott csoportszámú, szimulált adatsorok esetén

Idén aztán a Journal of Vegetation Science-ben megjelent egy cikk, ahol ausztrál szerzők gyakorlatilag teljesen ugyanezt csinálják, de RDA* helyett minden egyes fajra általánosított lineáris modellt (GLM) számolnak, a modell jóságát pedig nem R-négyzettel, hanem AIC-vel mérik, amit fajonként összeadnak, s ez adja ki a teljes modell (az összes fajra érvényesen) jóságát. És ez működik. A módszer a fenti csoportosítás 2b. kategóriájába esik, vagyis egy belső, nem-geometriai mutató. Valahol egy picit sajnálom, hogy ez nekem nem jutott eszembe, pedig ennyire közel voltam hozzá, de közben kimondottan örülök, hogy más megcsinálta, és hogy az akkori, egyetemistaként kitalált ötletem veleje nagyon is jó volt. Ezúton is gratulálok a szerzőknek! A cikk hivatkozása:

Lyons, M. B., Keith, D. A., Warton, D. I., Somerville, M., Kingsford, R. T. (2016), Model-based assessment of ecological community classifications. Journal of Vegetation Science. doi: 10.1111/jvs.12400

*Az RDA gyakorlatilag minden egyes fajra csinál egy lineáris regressziót (ami a GLM egy speciális esete), majd ezek R-négyzeteinek súlyozott átlagolásával adja meg a teljes modell R-négyzetét.

2016. február 26., péntek

Gondolatok a nemrég megjelent Flóraatlasz kapcsán

Az idei Flóra Konferencián került bemutatásra a "Flóraatlasz", vagyis Magyarország edényes növényfajainak elterjedési atlasza (Atlas Florae Hungariae). A könyvet a Nyugat-magyarországi Egyetem adta ki, s számos szerkesztő, területi koordinátor és terepi adatgyűjtő sokéves munkája kellett ahhoz, hogy végre kezünkbe vehessük. Az atlasz 2832 db megközelítőleg 6,25km * 5,55km oldalhosszú négyzetből álló hálórendszeren ábrázolja a hazai edényes növényfajok (ha jól számoltam, 2231 taxon) előfordulásait. Az adatok saját terepi felvételezésekből, 1990 utáni, pontosan lokalizálható irodalmi forrásokból, valamint herbáriumi gyűjtésekből származnak. A Flóraatlasz megjelenésével a hazai botanikus szakma régóta dédelgetett álma látszik teljesülni. Ezúton is gratulálok az Atlasz szerkesztőinek és adatgyűjtőinek!

Bartha D., Király G., Schmidt D., Tiborcz V., Barina Z., Csiky J., Jakab G., Lesku B., Schmotzer A., Vidéki R., Vojtkó A., Zólyomi Sz. (szerk. / eds.): Magyarország edényes növényfajainak elterjedési atlasza / Distribution atlas of vascular plants of Hungary. - Nyugat-magyarországi Egyetem Kiadó / University of West Hungary Press, Sopron, 329 pp.





Bár az Atlasz "száraz" információtömege elsőre talán riasztóan hathat, a hazai flóra iránt érdeklődők számára már-már a perverzió határát súrolóan izgalmas böngészni a fajok elterjedési térképei közt. Öröm látni, hogy egyes fajoknál mennyire szépen visszaigazolódik az az area, amit tulajdonképpen eddig is sejtettünk vagy tudtunk (pl. ahogyan az erdőalkotó fafajok eltérő klimatikus/edafikus niche-ei kirajzolódnak, vagy ahogyan vikariáns fajok "leváltják" egymást), máshol a meglepetés erejével hat az elterjedési mintázat szabályossága olyan gyakori fajoknál, amelyekre már egy átlagos botanikus sem fordít elég figyelmet (engem például meghökkentett, hogy a Kiskunság homokterületein hiányzik, illetve szórványszerűen van csak jelen az erdei és a héjakút-mácsonya, és az, hogy a homoki pimpó képes szinte teljesen hiányozni a Nagykunságban).
A puszta gyönyörködésen kívül azonban egy ilyen atlasz, illetve az előfordulások adatbázisa, hatalmas eszköz lehet a botanikai és ökológiai kutatások számára. A kérdés, hogy hogyan?


1. Nyilvánvaló, hogy hatalmas lökést fog adni az Atlasz a hazai florisztikai kutatásoknak. Már csak azért is, mert - mi tagadás - az adatbázis jelenlegi állapotában meglehetősen hiányos. A Szerkesztők az atlas.florae.hungariae@emk.nyme.hu címen várják a kiegészítéseket, valamint a Studia botanica hungarica és a Kitaibelia folyóiratok szerkesztői is jelezték, hogy az Atlasz adatbázisát kiegészítendő és folyamatosan frissítendő új rovatot indítanak florisztikai adatközlések részére. A Studia botanicában már meg is jelent egy ilyen cikk. Mindkét kezdeményezésnek kifejezetten örülök, ugyanis én elsődlegesen nem folytatok florisztikai kutatást, néha azonban mégis rábukkanok egy-egy regionálisan új előfordulásra, amit megérné lepublikálni, viszont általában nem tudok elég időt szánni egy igényesebb, "kerekebb" florisztikai cikk megírására, így végül az adat marad a "fiókban". A fenti lehetőségekkel az érdekes előfordulási adatok lepublikálása könnyebb lesz, s remélem, ez rajtam kívül másokat is arra indít, hogy adataikat közzétegyék.

Mea culpa - a Müller-nőszőfű egy tájegységre új adatával máig adós vagyok...

2. A megbízható adatokkal rendelkező fajok esetén, illetve az adatminőség javítása után az Atlasz alkalmas lesz makroökológiai mintázatok vizsgálatára. A "modellező biogeográfia" manapság az ökológia frontvonalába tartozó irányzat, nívós folyóiratokban jelennek meg olyan cikkek, amelyek gridalapú adatbázisok (atlaszok, flóraművek, faunalisták) alapján komoly statisztikai módszertannal boncolgatnak olyan kérdéseket, mint pl. hogyan változik a fajgazdagság földrajzi és környezeti grádiensek mentén, hogyan jósolható meg egyes fajok vagy közösségek előfordulása, klímaváltozásra adott válasza. Magyarországról egyelőre nem sok efféle vizsgálatot olvashattunk, s ennek egyik oka minden bizonnyal az adathiány. Talán a Flóraatlasz megjelenésével nálunk is többen kezdenek majd modern biogeográfiai kutatásokba. Lássunk néhány példát, milyen kérdésekkel lenne érdemes foglalkozni:

- Milyen a fajgazdagság térbeli mintázata Magyarországon? Milyen klimatikus, tájtörténeti, geológiai és felszín-morfológiai változókkal magyarázható a térségek eltérő fajgazdagsága? Ugyanezt a kérdést megvizsgálhatjuk fajcsoportonként: csak adventív fajokra, csak szubmediterrán flóraelemekre, csak fásszárúakra...

- Alátámaszthatóak-e statisztikai módszerekkel az ország növényföldrajzi mintázatainak leírására tett korábbi kísérletek, pl. a növényföldrajzi régiók lehatárolása, a közép-dunai flóraválasztó, a kontinentális-szubmediterrán-kárpáti hatás alatt álló régiók átmenetei vagy határai.


3. A Flóraatlaszból megkaphatunk olyan flóralistákat, amelyek egy-egy tágabb térség regionális fajkészletét jelentik. Ezek azok a fajok, amelyek a lokális közösségekben ("növénytársulásokban") megjelenhetnek. Pl. hiába lenne alkalmas élőhely egy néhány hektáros nedves talajú legelő a héjakút-mácsonyának a Kiskunság közepén, ha valamilyen okból a környéken nem fordul elő, így nincs honnan betelepüljön, s végül nem fog megjelenni az adott foltban. A Flóraatlasz ilyen módon értékes referenciát szolgáltathat az Atlaszénál finomabb térléptékű növényzeti mintázatok kutatása számára, segíthet megérteni, a lokális közösségek szerveződésének törvényszerűségeit. A regionális fajkészlet és a lokális közösségek szerveződése közti kapcsolat szintén egy divatos, gyorsan fejlődő irányzata az ökológiának - a hazai vizsgálatok azonban itt is ritkák.


A Flóraatlasz megjelenése és folyamatos frissítése tehát a klasszikus florisztikai kutatások mellett több olyan irányzat számára is megtermékenyítően hathat, amelyeknek eddig kevés figyelmet szenteltek a hazai ökológusok, az adathiánynak is köszönhetően. Remélem, hogy a Flóraatlasz és a modern adatelemző módszertan együttesen hozzájárul az ország biogeográfiai és közösségi ökológiai sajátosságainak megismeréséhez.

2015. április 18., szombat

A 'distance decay' jelenség a közösségi ökológiában I.

Akik magyar nyelven próbálnak korszerű, természettudományos ismereteket közzétenni, könnyen találkozhatnak azzal a nehézséggel, hogy egy idegen, rendszerint angol nyelvű, nemzetközi szakirodalomban közismert szakkifejezés nehezen ültethető át magyar nyelvre a kifejezés jelentéstartalmának, frappánsságának és használhatóságának megőrzésével, bármennyire egyszerű jelentéssel bírjon is. Éppen ez a helyzet a 'distance decay' nevű fogalommal.

A blogom nyilvánosságát megragadva javaslatokat várok arra, hogy milyen magyar nevet lehetne adni ennek a jelenségnek. Az angolban 'distance' = távolság, 'decay' =hanyatlás, rothadás. A javaslatokat hozzászólásként vagy a jobb oldali menüben a kapcsolatfelvételi űrlapon várom.

A 'distance decay' (mostantól DD-nek rövidítem - ha már nem magyar a szó, legalább legyen rövid) egy földrajzi kifejezés, amely egy teljesen triviális megfigyelésben gyökerezik, amit Tobler (1970) után a geográfia első törvényének is hívnak: "minden mindennel kapcsolatban áll, de az egymáshoz közeli dolgok erősebben, mint a távoliak". Ez tulajdonképpen a térbeli autokorreláció definíciója. Nem tudom, van-e olyan földrajzi térbeli mintázat, amire ne lehetne találni olyan térbeli és időbeli vizsgálati léptéket, amelyben a fenti kijelentés teljesül - szerintem nincs. A jelenséget a fizikában tulajdonképpen az általános tömegvonzás törvénye írta le elsőként, s a gravitációs modellek más tudományterületeken is analógiaként szolgáltak a távolság függvényében gyengülő interakciók leírására. Éppen így definiálhatnánk a DD-t: a növekvő távolsággal gyengülő interakció közti függvénykapcsolat. A DD jelenséget általánossága miatt az élet legkülönbözőbb területein sikerült felismerni. DD-t mutat például az utazások gyakorisága az út hosszának (vagyis az úticél távolságának) függvényében, a koraszülöttek életben maradási valószínűsége a legközelebbi egészségügyi ellátóhelytől való távolság függvényében és a kereskedelmi kapcsolatok erőssége a földrajzi távolság függvényében.

Utazások száma adott távolságú célpontra
forrás: Peeters & Landré, Sustainability 2012, http://www.mdpi.com/2071-1050/4/1/42/htm
Különböző bolttípusok vásárlóinak száma a lakóhelyük távolsága szerint
forrás: http://lewishistoricalsociety.com/wiki2011/tiki-read_article.php?articleId=9


A térbeli autokorreláció ökológiai mintázatokban játszott fontos szerepét a XX. század utolsó évtizedeiben fogalmazták meg (Legendre & Fortin 1989, Legendre 1993), noha implicit módon már jóval korábban felismerték (pl. MacArthur & Wilson 1967). A közösségi ökológia terén pedig Nekola és White (1999) cikkéhez köthetjük a DD leírását, amely szerint a közösségek (most: adott területen előforduló fajok összessége) közti hasonlóság csökken a köztük lévő távolság növekedésével.

Egy jellemző distance decay ábra a közösségi ökológia területéről: az x-tengelyen a közösségek földrajzi távolságai, az y-tengelyen a közösségek hasonlóságai, a pontok az összehasonlított közösségpárokat jelölik
forrás: Dexter et al., PNAS 2012, http://www.pnas.org/content/109/20/7787/F1.expansion.html

A tapasztalat általában megerősíti azt a megfigyelést, hogy egy adott közösségtől minél messzebbre megyünk, átlagosan annál kevésbé várható, hogy hasonló fajösszetételű közösséget találjunk. Az azonban nagyon gyakran nem egyértelmű, hogy a hasonlóság csökkenésének mi az oka, illetve a különböző lehetséges okok milyen mértében járulnak ehhez hozzá. Amit tudunk, hogy a közösségek térbeli mintázata levezethető az egyes fajokéból (Morlon et al. 2008, Nekola & McGill 2014).

DD jelenség magyarázatához két modell lehet segítségünkre: a (1) niche-modell és a (2) korlátozott terjedési modell. A niche-modellben azt feltételezzük, hogy a vizsgált tájat különböző adottságú foltok alkotják, a foltok valamilyen léptékben térben aggregáltak (vagyis a környezetnek van térbeli autokorrelációja), a fajok élőhelyigényükben különböznek, valamint bármely nekik megfelelő élőhelyfoltban előfordulhatnak, terjedésüket egyedül az élőhely alkalmatlan mivolta korlátozhatja. Ebben az esetben tehát a közösség DD-je egy "külső" tényező, a környezeti DD lenyomata. A korlátozott terjedési modellben ezzel szemben azt feltételezzük, hogy a táj homogén a fajok megtelepedése szempontjából, a fajok élőhelyigénye nem különbözik, viszont terjedésük időben és térben korlátozott: új megtelepedések a régi megtelepedések közelében várhatóak, a teljes területen való elterjedéshez pedig hosszú időre van szükség. Eszerint a DD egy "belső" tényezőnek, a fajok korlátozott terjedőképességének köszönhető.
A valóságban rendszerint mindkét mechanizmus, tehát a niche-folyamatok és a korlátozott terjedés is felelős a tapasztalt összefüggés kialakulásáért. A DD jelenség tehát az alábbi tényezőkből vezethető le:
- a vizsgált területen a környezet heterogenitása, vagyis a területen az élőhelyfoltok különbözőségének mértéke: ez szabja meg, hogy az egyes fajok mennyi megtelepedésre alkalmas foltot találnak a területen, hiszen ha egy területen nagyon különböző élőhelyfoltok vannak, akkor azokon nagyon különböző élőhelyigényű fajok tudnak előfordulni, viszont minden élőhelyen talán egyik faj sem fordul elő.
- a vizsgált terület tájstruktúrája, vagyis az élőhelyfoltok térbeli mintázata: ezt fogja tükrözni a közösségek térbeli mintázata, amennyiben a terjedés azt lehetővé teszi.
- a fajok niche-szélessége, vagyis az, hogy mennyire ragaszkodnak egy bizonyos élőhelytípushoz (mennyire generalisták vagy specialisták): a generalista fajok többféle élőhelyen is előfordulnak, így a térbeli mintázatukat nem annyira az élőhelyfoltok térbeli struktúrája, hanem a terjedési potenciáljuk határozza meg. A specialista fajok egy adott élőhelytípushoz ragaszkodnak, és jó terjedőképesség esetén pontosan követik annak foltosságát.
- a fajok terjedőképessége: minél jobban terjed egy faj, annál inkább a megfelelő élőhelyek térbeli mintázatát követi, míg a rosszul terjedő fajok nem jutnak el minden potenciálisan megfelelő foltba, vagy nem maradnak fenn ott hosszú távon. (Pl. egy hím madárnak nem elég eljutni egy élőhelyre a faj tartós megtelepedéséhez, mert ehhez kell egy tojó is...)
A DD-re ható tényezőkkel Nekola & White (1999) és Soininen et al. (2007) is foglalkoznak, mindkét cikkben megfogalmaznak általánosságokat arról, hogy mely tényezők eredményeznek "meredek", "erős", csökkenést a hasonlóságban, vagy nagyfokú térbeli strukturáltságot. Később bemutatom, hogy a DD milyen sokféle mérőszámmal írható le, amelyek mind a csökkenés mértékének kifejezésére szolgálnak, de valójában nem egészen ugyanazt fejezik ki, és nem is függetlenek egymástól. Emiatt igyekszem óvatosan fogalmazni azzal kapcsolatban, hogy egyes tényezők hogyan hatnak a várható DD-re.

A változatos domborzatú, magashegységi tájban a közösségek hasonlósága kis távolságon belül is hirtelen lecsökkenhet

A niche-modell reális magyarázatot nyújt a DD-re, ha:
- a környezeti (a fajok szempontjából) heterogén, vagyis a fajok specialisták,
- a környezeti háttérváltozók térben autokorreláltak,
- a fajok jól (csaknem korlátlanul) terjednek.

A korlátozott terjedési modell ad jó magyarázatot, ha:
- a környezet (a fajok szempontjából) homogén, vagyis a fajok generalisták,
- a háttérváltozók nem autokorreláltak (ez részben a homogenitásból is fakadhat),
- a fajok rosszul terjednek.

Nincs jelentős DD, ha:
- a környezet (a fajok szempontjából) homogén vagy heterogén, de akkor a változók a vizsgált léptékben nem autokorreláltak,
- a fajok jól terjednek.

A kis holdruta (Botrychium lunaria) jól terjedő, de specialista faj


Hogy konkrét esetekben a fenti szempontok hogyan teljesülnek, az az adott vizsgálat módszertani döntéseitől is függ, mindenek előtt a mintavételi egységek méretétől és a mintavételezett terület nagyságától. Ugyanaz a vizsgálati objektum teljesen más DD-t mutathat, ha eltérő térléptékben vizsgáljuk. Pl. ha Magyarország növényzetét vizsgáljuk, más térbeli mintázatok tűnnek fel, ha a mintavételi egységeink 1 m2-esek és ha 1 km2-esek. Általánosságban igaz, hogy minél nagyobb a mintavételi egység és a mintavételezett terület, annál valószínűbb, hogy erős DD összefüggést kapunk.

Ennyi elmélet után jogosan merül fel a kérdés: mire jó ez az egész? A válasz(om): az, hogy valamilyen élő közösség, pl. egy terület növényzete, milyen térbeli változatossággal (béta diverzitással) rendelkezik, alapvető kérdés a természetet leíró, ökológiai kutatásokban. Az erről szerzett ismeretek pedig fontosak lehetnek természetvédelmi értékek minősítése, veszélyek felmérése, területek védelme szempontjából. Például ha egy területről kimutattuk, hogy a rajta élő fajok terjedőképessége alacsony, akkor a természetvédelmi kezeléseknek kiemelt figyelmet kell fordítaniuk arra, hogy a fajok potenciális élőhelyei között ökológiai folyosókat tartsanak fenn, valamint fokozottan kell ügyelniük a lokális kihalások elkerülésére. A béta diverzitás térbeli elemzése szintén hozzásegít olyan alapvető biológiai folyamatok megértéséhez, mint a fajképződés, a klímaváltozások alkalmával történő flóra- és faunavándorlások és a biológiai inváziók. Hogy a gyakorlati célok számára is fontos információk birtokába technikailag hogyan juthatunk a DD modellek segítségével, egy későbbi bejegyzésben fogom leírni.

2015. március 15., vasárnap

Vegetációosztályozás 5. Felügyelt osztályozások

Frissítve: 2015.03.18
A vegetációosztályozásról szóló bejegyzéssorozat előző részében (ami elég rég volt...) a jelenleg is igen elterjedten használt, nem felügyelt módszerek gyengéiről, főképp a stabilitás és a robusztusság hiányáról írtam. Az instabilitás azt jelenti, hogy az elemzés eredményéül kapott osztályozás nagy mértékben függ a mintavétel során meghozott döntésektől. Robusztusnak pedig akkor nevezünk egy összefüggést, ha az a mintavétel véletlenszerű komponensétől, a mintvételi hibáktól függetlenül mindig kimutatható. Ezek hiánya a szüntaxonómiai vizsgálatok esetén nagyon hátrányos, mivel a cél éppen az lenne, hogy a növényzet változatosságában ismétlődő, jól elkülöníthető egységeket ismerjünk fel.
A felügyelt osztályozások működési elve, hogy a mintában rejlő típusokat nem nekünk kell felismernünk, hanem már rendelkezünk valamilyen a priori információval arról, hogy mit kell keresnünk. Aszerint, hogy ez az előzetes információ milyen formában (teljes osztályozási rendszer, referenciatabellák, típusdefiníciók) jelenik meg az osztályozás műveletében, három fő típus különítek el.

A felügyelt osztályozások első típusa a nem felügyelt módszerek adoptációjának tekinthető, és lehetővé teszi a két osztályozási szemlélet közti átjárást. Az átjárást a kettő keverékei, a félig-felügyelt osztályozások jelentik. Ezt a módszercsaládot Tichý és mtsai (2014) vezették be a vegetációosztályozás irodalmába tavaly. A megértésüket érdemes a nem-felügyelt megközelítés felől kezdenünk. A k-közép és a PAM ('partitioning around medoids') nevű nem-hierarchikus osztályozó eljárások lényege, hogy a felvételeket olyan csoportokra osztják, hogy a csoportok középpontjától a csoportba tartozó felvételek távolsága minimális legyen. A középpont a k-közép esetén a csoportba tartozó felvételek súlypontja (vagy centroidja) a minta sokdimenziós terében, a PAM esetében pedig az a felvétel, amelytől a csoport többi felvételének a távolsága (vagy disszimilaritása) minimális - vagyis a csoport "középső" felvétele, vagyis a medoid. Az optimális osztályozás elérése több lépésen keresztül történik. A kezdő lépés a csoportok középpontjainak kiválasztása, ami úgy történik, hogy a felvételeket véletlenszerűen csoportokra osztjuk, majd megkeressük a csoportok súlypontját vagy medoidját. Ezt követi a felvételek középpontokhoz való hozzárendelése: mindegyiket a legközelebbihez/leghasonlóbbhoz. A csoportok meghatározása után a középpont újraszámolása történik: új súlypont vagy medoid kerül(het) kijelölésre. Ha a középpont elmozdult, akkor megint a felvételek csoportosítása következik, majd a középpont újraszámolása, és így tovább ismétlődnek ezek a lépések, amíg el nem érjük a legjobb konfigurációt. A jósági kritérium a felvételeknek a csoportjuk középpontjától vett távolságainak a négyzetösszege. A nem-felügyelt k-közép és PAM random osztályozásokból indul ki, de semmi nem akadályoz meg abban, hogy mi adjuk meg a kezdő konfigurációt. Ha az adatsorunkban van néhány ismert besorolású felvételünk, akkor megtehetjük, hogy a kezdő középpont az eredetileg is egy típushoz tartozó felvételek súlypontja/medoidja legyen, és ezekhez rendeljük hozzá a besorolatlan felvételeket. Az eljárás folyamatában az előzetes információt azonban lényegileg akkor vezetjük be, ha úgy döntünk, az eredetileg összetartozónak ítélt felvételek később már nem lehetnek szétválaszthatóak, csak a korábban besorolatlanok változtathassanak helyet az osztályozás újraszámolásai alkalmával.
Az alábbiakban mutatok erre egy rövid példát. Tegyük fel, hogy van 40 felvételünk, ezek közül tudjuk, hogy 10-10 felvétel besorolható a Piros és a Kék társulásba, a többiek pedig besorolatlanok, ezeket fekete mutatja. A piros és a kék csoport medoidját telt kör jelzi.



A félig-felügyelt PAM a besorolatlanokat hozzárendeli a piros vagy a kék medoidhoz, így a feketék is piros vagy kék színt kapnak. Jelen esetben a csoportok medoidjai ettől nem változtak meg. X jelöli a csoportok centroidját, vagyis a súlypontot, ami nem teljesen esik egybe a medoiddal.




A csoportok középpontjait rögzíthetjük is úgy, hogy nem engedjük meg, hogy a később hozzárendelt felvételeknek legyen hatásuk a középpont pozíciójára. A nem-hierarchikus osztályozó módszerek közt szokásos módon a csoportszámot előzetesen kell megadnunk. Ha a létező típusokról csak részleges információink vannak, pl. három társulásról vannak felvételeink, de várhatóan még legalább kettő előkerülhet, akkor megtehetjük, hogy a három ismert társulást felügyelt, a priori kiindulási csoportként adjuk meg, míg a besorolatlan felvételek közt kettő csoportnak véletlenszerűen sorsoljuk ki a középpontját. Az utóbbi esetet hívjuk félig felügyelt osztályozásnak, hiszen egyszerre adunk meg felügyelt és nem-felügyelt csoportokat.
A módszer az adatsorunk minden felvételét besorolja valamelyik csoportba, még akkor is, ha valójában egyik csoporthoz sem tartozik egyértelműen. Az ilyen átmeneti felvételek leválasztása csak utólag, egyéb módszerekkel lehetséges.
Szintén teljes osztályozási rendszerbe illeszthetőek be új felvételek Černá & Chytrý (2005) neuronháló-modelleken alapuló módszereivel. Ezek azonban (talán viszonylagos bonyolultságuk miatt) nem vertek gyökeret a cönológia módszertanában.


A felügyelt osztályozások második típusának jellegzetes példája az Associa nevű módszer, amelyet Van Tongeren és mtsai (2008) cikkéből ismerhetünk meg. Az Associa alkalmas annak kifejezésére, hogy egy cönológiai felvétel milyen távolságra van egy adott felvételcsoporttól. A távolság két komponensen alapul: a furcsaságon ('Weirdness') és a hiányosságon ('Incompleteness'). A furcsasági komponens értéke akkor magas, ha a felvétel sok olyan fajt tartalmaz, ami a referenciacsoportban ritka, míg a hiányosság a felvételből hiányzó, de a referenciacsoportban gyakori fajok számával áll kapcsolatban. A referenciacsoporthoz nagyon hasonlító (valószínűleg beletartozó) felvétel Weirdness és Incompleteness értéke is alacsony, emiatt a távolság értéke is az. A módszer megengedi, hogy a két komponens eltérő súllyal járuljon hozzá a távolsághoz, illetve az abundanciaértékek súlyozására is van lehetőség. A gyakorlatban a távolság, a Weirdness és az Incompleteness értékét is normált formában szokás megadni, ami úgy készül, hogy az adott referenciacsoportba tartozó felvételek saját csoporttól való távolság, Weirdness, stb. értékeinek az átlagával elosztjuk az összes felvétel megfelelő értékét, majd kivonunk belőle 1-et. Így a biztosan a vizsgált csoportba tartozó felvételek -1-hez közeli értéket kapnak, az átlagos mértékben odatartozók 0 körülit, az átlagosnál kevésbé hasonlóak pedig pozitív értékeket. A 1 értékű távolság azt jelenti, hogy a felvételek kétszer olyan távol vannak adott csoport középpontjától, mint a csoport átlaga, és ezek a felvételek atipikusnak tekinthetőek.
Az Associa tehát minden felvétel minden csoporthoz való kapcsolatát egy-egy értékkel fejezi ki. Az értékek alapján eldönthetjük, hogy mely felvételt hová sorolunk be, s lehetőségünk van arra is, hogy ha egy felvétel egyik referenciacsoport iránt sem mutat kellően alacsony (pl. 1 alatti) távolságot, akkor besorolatlanul hagyjuk. Ugyanakkor az is előfordulhat, hogy egy felvétel több csoporthoz is nagyon kis távolságra van. Sok ilyen felvétel esetén megfontolandó, hogy a csoportok elválasztása indokolt-e.
Hasonlóan egyedi felvételeket referenciatabellákhoz "hasonlító" indexeket mutat be Tichý (2005). Az ő módszerei a felvételcsoport fajainak gyakoriságát, valamint fidelitását (diagnosztikus értékét) használják fel annak kiszámítására, hogy adott felvétel mennyire tartozhat a referenciacsoport reprezentált típusba. A több javasolt index közül az FPFI (frekvencia-pozitív fidelitás index) tűnt az eddigiekben a legsikeresebbnek. Ez a kérdéses felvételben előforduló fajoknak a referenciacsoportban tanúsított gyakoriságértékétől és fidelitásától függ. A fidelitásértékek alkalmazása erre a célra alkalmanként hasznos is lehet, azonban hátránya, hogy egy faj egy felvételcsoport felé mutatott fidelitása attól függ, hogy a referenciacsoportot milyen más típusokkal hasonlítjuk össze. Vagyis a felvétel és a referenciacsoport FPFI index szerinti hasonlóság változik, ha más alternatív referenciacsoportokat veszünk számításba (Ld. még Chytry et al. 2002. cikkét a fidelitás kontextusfüggéséről; később még fogok írni a fidelitásról.)


A felügyelt osztályozások harmadik típusa, a Cocktail nevű módszer (Bruelheide 2000), explicit típusdefiníciókat használ a felvételek besorolására. A Cocktail lényege, hogy az ÉS, VAGY és NEM logikai operátorok használatával fajok vagy fajcsoportok előfordulásai alapján definíciókat gyártunk vegetációtípusok azonosítása céljából. A fajcsoportokat általában hasonló preferenciájú, együtt gyakran előforduló fajok alkotják, melynek megállapítása többnyire egy nagy, vegetációs adatbázis alapján statisztikai asszociáltságvizsgálattal történik. Akkor van jelen egy fajcsoport egy felvételben, ha a tagjainak fele előfordult benne. Például a cseh vegetációmonográfia az alábbi módon definiálja a kárpátias elterjedésű bükkösét (Carici pilosae-Fagetum sylvaticae Oberdorfer 1957):


Fagus sylvatica borítás >50% ÉS Carex pilosa csoport NEM Cephalanthera damasonium csoport.


Carex pilosa csoport tagjai: Carex pilosaEuphorbia amygdaloidesGalium intermediumHacquetia epipactis.
Cephalanthera damasonium csoport tagjai: Cephalanthera damasoniumC. rubraCorallorhiza trifidaEpipactis helleborine agg.

Az értelmezés egyszerű: akkor tartozik egy felvétel a Carici pilosae-Fagetum társuláshoz, ha a bükk borítása legalább 50% benne, a Carex pilosa fajcsoportból megvan benne legalább kettő faj, a Cephalanthera damasonium csoportból viszont nincs meg benne egynél több faj.

A Cocktail módszer igen előnyös tulajdonsága, hogy a definíciók birtokában bármely felvételről eldönthető, hogy adott társuláshoz tartozik-e vagy sem, vagyis a döntésünk egyedül a vizsgált felvételtől és a definíciótól függ, a teljes mintától nem. Ahogyan az Associa esetében, itt is előfordulhat, hogy egy-egy felvétel nem sorolható be egyik típusba sem, illetve némelyek több definíciót is kielégítenek. A Cocktail-definíciók közlése egyre inkább elvárás kezd lenni a modern vegetációmonográfiák felé. A tapasztalatok szerint az eredeti verziója elsősorban fajgazdag vegetációtípusokra működik jól. Fajszegény növényzetre alkalmazható módosítását közölték Landucci és mtsai (2015).

A felügyelt és félig felügyelt módszerek nagy előnye, hogy az aktuális elemzésbe be tudjuk építeni a korábbi vizsgálatok eredményeit, fel tudjuk használni a korábban létrehozott definíciókat, követhetjük a hagyományos osztályozási rendszereket, s közben (várhatóan) stabilabb eredményeket is kapunk, hiszen az a priori típusok nagy mértékben megkötik az osztályozás lehetséges kimenetelét. Ezzel - elviekben - létrehozható egy olyan osztályozás, amely megőrzi az eddig kialakult és bevált típusokat, míg a "problémás" esetekben statisztikailag megalapozott támpontot nyújt a döntéshez.

A minta lehatárolásától való függésünktől azonban még mindig nem szabadultunk meg teljes mértékben, s így univerzális osztályozások még a felügyelt módszerek sem vezetnek egyenes úton. Bármilyen felügyelt vagy félig felügyelt módszert alkalmazunk ugyanis, az a priori típusok meghatározása kulcskérdés. Egyelőre kevés tapasztalatot tettek a kutatók közkincsé arról, hogy a referenciatípusok megállapítása, a definíciók meghozása hogyan és milyen mértékben befolyásolja a (félig-)felügyelt osztályozások eredményét, de az sejthető volt mindig is, hogy a referenciák (felvételcsoportok, definíciók) földrajzilag korlátozott érvényűek. Mielőtt ezt magyarázni kezdeném, nézzünk egy példát: a Holcetum lanati Issler 1934 nevű társulás definícióját a már említett cseh, és a szlovák kézikönyvből:

Cseh:  Holcus lanatus borítás > 25% NEM Caltha palustris csoport.
Caltha palustris csoport: Angelica sylvestris, Caltha palustris, Galium uliginosum, Myosotis palustris agg., Scirpus sylvaticus.

Szlovák: Lychnis flos-cuculi csoport ÉS Holcus lanatus borítás > 25% NEM Caltha palustris csoport NEM Carex nigra csoport NEM Cirsium rivulare csoport NEM Gratiola officinalis csoport NEM Trisetum flavescens csoport NEM Viola pumila csoport NEM Cirsium palustre borítás > 5%.
Lychnis flos-cuculi csoport: Alopecurus pratensis, Cardamine pratensis agg., Festuca pratensis, Lathyrus pratensis, Lychnis flos-cuculi, Ranunculus acris, Ranunculus auricomus agg., Rumex acetosa.
Caltha palustris csoport: Caltha palustris, Myosotis palustris agg., Scirpus sylvaticus,  Filipendula ulmaria, Geum rivale, Galium uliginosum, Crepis paludosa.
Carex nigra csoport: Carex nigra, Carex panicea, Carex flava agg., Eriophorum angustifolium.
Cirsium rivulare csoport: Cirsium rivulare, Dactylorhiza majalis, Equisetum palustre, Valeriana simplicifolia.
Gratiola officinalis csoport: Allium angulosum, Gratiola officinalis, Lythrum virgatum, Scutellaria hastifolia.
Trisetum flavescens csoport: Dactylis glomerata, Taraxacum sect. Ruderalia, Trisetum flavescens.
Viola pumila csoport: Carex praecox, Cnidium dubium, Clematis integrifolia, Pseudolysimachion longifolium, Viola pumila.

Ilyesmi lehet a Holcetum lanati Issler 1934

A két definíció között van átfedés, hiszen mindkét mű szerzői említést tesznek a Holcus lanatus nagy borításáról és egy "Caltha palustris csoport" hiányáról, melyet szintén hasonlóan definiálnak. Az egyezés azonban nem tökéletes, hiszen a szlovák definíció több elemű, így jóval specifikusabb: az azonosítás megkívánja egy további fajcsoport jelenlétét, de tiltja hat másik csoport előfordulását. Mindeközben ugyanarról a névről van szó elvileg, amit eredetileg a Rajna völgyében egy mocsárrét-társulás jelölésére vezettek be, nyilván nem olyan aprólékos dokumentációval, amire ma törekszünk. A különbségnek így több oka is lehet. Az egyik, hogy a csehek és a szlovákok másként értelmezik ezt a nevet, vagyis másképp alkalmazzák a Holcetum lanati társulás eredeti diagnózisát a saját növényzetükre. A másik lehetséges ok, hogy egyformán értik, de az adatbázisukban, ami alapján a definíciókat megalkották, olyan adatok kerültek, amelyek eltérő formalizált definíciókra vezettek. Ez utóbbi eset megint kettébontható: az adatbázis eltérően reprezentálhatja ugyanazt a vegetációtípust az eltérő mintavételi preferencia miatt (vagyis a terepi adatgyűjtés elvei közt volt különbség), illetve a fajok viselkednek másképpen a két területen. Egy újabb lehetőség, hogy a definíciók pusztán azért különböznek, mert a fajcsoportok megállapításánál bizonyos szubjektív döntéseket másképp hoztak meg az elemzést végző kutatók, pl. más határértékeket alkalmaztak a fajok közti asszociáltság szignifikanciájának megállapítására.

A (félig-)felügyelt osztályozások tehát igen fontos és hasznos eszközök abban az esetben, amikor előzetes tudásunkra építve próbálunk létrehozni egy statisztikailag támogatott, reprodukálható osztályozást. A növényzet nagyobb léptékű, nemzetközi szintű osztályozásában való felhasználásukhoz, különösen, ami a szüntaxonnevek konzisztens névhasználatának elősegítését jelenti, még további fejlesztésekre van szükség.