Translate

A következő címkéjű bejegyzések mutatása: R. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: R. Összes bejegyzés megjelenítése

2018. március 1., csütörtök

Funkcionális diverzitás, redundancia és egyediség

Ebben a bejegyzésben a lengyelországi kutatásom néhány kulcsfogalmáról írok röviden. Nincs nehéz dolgom, mert Ricotta és mtsai. (2016) nem rég közöltek egy kiváló elméleti áttekintést, amelyben egymásból kifejezhetően, matematikailag definiálták a címben szereplőket, az ő munkájukra alapozom az írásom. A képletek közül csak a legszükségesebbeket említem, a többi olvasható a cikkben. (A cikk szerzői verziója elérhető a Researchgate-en.)

A közösségek diverzitása sokféleképpen számszerűsíthető

A kiindulási helyzet, hogy van egy közösségünk, amit élőlények egyedei alkotnak. Az egyedek besorolhatók valamilyen kategóriákba, jellemzően fajokba, de technikailag semmilyen nehézséget nem jelentene korcsoportok, ivarok, vagy a fajitól eltérő rendszertani egységek szerint csoportosítani őket. Az egyszerűség kedvéért a továbbiakban mindig fajokról fogok írni. A célunk az, hogy a közösség sokféleségét számszerűsítsük, először egyszerűbben, majd lépésről lépésre felmerülő újabb problémák során egyre jobban koncentrálva apróbb részletekre.

A legegyszerűbb módszer a fajok száma (jelöljük N-el) - ez azonban sajnos nem mond semmit arról, hogy a fajok tömegességei hogyan viszonyulnak egymáshoz. Egy korábbi bejegyzésben erről a problémakörről már írtam, most csak a Simpson diverzitást említem, amely annak a valószínűségét adja meg, hogy a közösségben véletlenszerűen kiválasztott két egyed ugyanahhoz a fajhoz tartozik. Ez az index már figyelembe veszi a tömegesség arányait. Mivel a faji szintű egyezés valószínűsége ellentétes skálázású az intuitív diverzitásfogalmunkkal (a diverzebb közösség alacsonyabb értéket kap, az egyneműbb magasabbat), gyakran 1-D formában alkalmazzák, amelynek neve Gini-Simpson index, és annak az esélyét mutatja, hogy a két random egyed külön fajokhoz tartozik. Figyelem! Ricottáék a cikkükben valójában a Gini-Simpson indexet jelölik D-vel, és a könnyebb érthetőség miatt most én is ezt a gyakorlatot követem. Tehát esetünkben D annak a valószínűsége, hogy két random egyed különböző fajokhoz tartozik.

Fiatal akácos, az aljnövényzetben egyeduralkodó pelyhes selyemperjével (Hierochloe repens) - a közösség diverzitása sok szempontból alacsony

A fentiekben a fajokat egymástól maximálisan különbözőnek tekintettük. Érezhetjük azonban, hogy nem azonos két közösség diverzitása, ha az egyiket pl. csak évelő pázsitfűfajok, a másikat különböző virággal, levélzettel, életformával rendelkező zárvatermők alkotnak, noha a fajok száma és tömegességi eloszlása megegyezik. A fajok "milyenségének" figyelembe vétele jelentős többletinformációhoz juttat minket az ökoszisztémák működésének vizsgálatakor, hiszen az élőlények tulajdonságai (jellegei, traitjei) határozzák meg, hogy hogyan élnek, milyen forrásokat használnak, tápanyagot fogyasztanak, hogyan alakítják át saját környezetüket, milyen melléktermékeket állítanak elő, vagyis milyen funkciót látnak el az ökoszisztémában - ez a funkcionális ökológia alapelve. Jellegadatok vagy filogenetikai rokonság alapján lehetőségünk van arra, hogy a fajpárok különbözőségét finomabb skálán fejezzük ki. Ha a teljesen azonos fajok között a disszimilaritást 0-val, a teljesen különbözők között 1-el, az átmeneteket pedig a köztes értékekkel írjuk le, akkor a Rao-féle kvadratikus entrópia (Q) nagy segítségünkre lehet a diverzitás kvantifikálásában. A Q lényegében két véletlenszerűen választott egyed várható különbözősége, és ha a fajokat maximálisan eltérőnek tekintjük (vagyis a fajok közti disszimilaritás értéke minden fajpárra 1), akkor az értéke megegyezik a Gini-Simpsonéval. A Rao entrópia maximuma tehát a Gini-Simpson index (D), és minél jobban különböznek a fajok egymástól (minél közelebb vannak a disszimilaritások 1-hez), annál jobban közelíti az előbbi az utóbbit. E két mennyiség aránya szintén egy ökológiailag értelmes fogalmat számszerűsít. Q/D azt fejezi ki, hogy mekkora a Rao entrópia a Gini-Simpsonhoz képest, más szavakkal, a fajok közti különbözőség figyelembe vétele mekkora arányban csökkenti a Gini-Simpson diverzitást. Tulajdonképpen ez nem más, mint annak a kifejezése, hogy a fajok átlagosan mennyire "egyediek" a közösségen belül - Ricottáék ezért funkcionális egyediségnek (unikalitás, uniqueness) nevezték ezt a mértéket, és U-val jelölték. Az U értéke 0 és 1 között változik. Ha a fajok azonos tömegességgel vannak jelen, akkor az U=Q/D hányados egyenlő a fajok közti átlagos disszimilaritással. Egy nagy átlagos egyediségű közösségben a fajok nagyon különböznek, míg alacsony egyediségnél a fajok nagyon hasonlóak. A funkcionális redundancia (R) intuitív jelentése pedig, hogy a közösség fajai átfednek funkció (vagyis az azt reprezentáló jellegek) tekintetében. Minél hasonlóbb fajok alkotnak egy közösséget, annál nagyobb a redundancia. A funkcionálisan redundáns közösségek ellenállóbbak, mert a fajok át tudják venni egymás szerepét, hogyha valamelyik állománya meggyengül, vagy akár el is pusztul. A fenti mennyiségeket felhasználva könnyen definiálható: R=1-U, vagyis a redundancia és az egyediség egymást kiegészítő mennyiségek.

A madárfészek-kosbor (Neottia nidus-avis) egy jellegzetes, nem gyakori jellegkombinációt testesít meg:
mikotróf holoparazita kosborféle

Ricottáék a cikkükben foglalkoznak még egy gyakorta feszegetett mennyiséggel, amit funkcionális sérülékenységnek (V) nevezünk. Egy közösség akkor nevezhető funkcionálisan sérülékenynek, ha könnyen elveszíthet olyan fajokat, amelyek funkcionálisan egyediek, tehát nincs a közösségben olyan másik faj, amely hasonló szerepet láthatna el. Ha egy ilyen faj kihal a közösségből, akkor nincs, ami átvegye a szerepét, így a faj által betöltött ökoszisztéma funkció elvész. A (lokális) kihalás esélye a faj relatív gyakoriságával fordítottan arányos, hiszen egyedek véletlenszerű elpusztulását feltételezve a ritka faj előbb fog kihalni, mint a gyakori. Egy faj sérülékenysége tehát két tényező függvénye: a relatív gyakoriságé és a többi fajtól való funkcionális elkülönülésé. Ha a sérülékenységet az összes fajra összegezzük, akkor a Rao entrópiát kapjuk. A Q tehát a közösségi szintű funkcionális sérülékenység mérőszáma is egyben, amelyhez minden faj hozzájárul a rá jellemző V-vel. A funkcionális diverzitás és a sérülékenység algebrai azonossága arra mutat rá, hogy minél sokszínűbb egy közösség, annál könnyebb benne olyan változást előidézni, amely megváltoztathatja a működését. Ez annak is köszönhető, hogy a diverzebb közösségek "multifunkcionálisak": a különböző tulajdonságokkal rendelkező fajok többféle funkció ellátására képesek azonos közösségen belül. A funkcionális sérülékenység/diverzitás és az egyediség között az a különbség, hogy az előbbi egy abszolút skálán értelmezett mennyiség, míg az egyediséget mindig az adott közösség fajabundancia-eloszlásához mérten számoljuk, 0 és 1 közötti standardizált tartományon. Ez azt jelenti, hogy magas Q esetén az egyediség nem lehet nagyon alacsony, míg alacsony Q esetén lehet magas az egyediség. A funkcionális diverzitás/sérülékenység tehát alsó határt szab az unikalitásnak. Hogy mindez a valóságban mit jelent, azt a következő ábra mutatja.

A fajszám, a Gini-Simpson index, a Rao entrópia és a funkcionális egyediség értékeit láthatjuk egymás függvényében egy eredeti adatok alapján randomizált adatsoron. A felvételek a lengyel vegetációs adatbázisból származnak, a jellegadatok a LEDA-ból és a CLOPLA-ból, viszont a fajneveket véletlenszerűen összekevertem, így a jellegadatok nem függenek össze a fajkompozícióval.

A fajszám (N), a Gini-Simpson diverzitás (D), a Rao entrópia (Q) és az unikalitás (U) összefüggése egy adatsoron


N és D összefüggése exponenciális, ebbe a jellegadatok nem "zavarnak" be. Kevésbé szép függvénykép szerint, Q nő a D-vel, D és U között nincs összefüggés. Q és U erősen korrelálnak, s láthatjuk, hogy a pontfelhőből inkább a magasabb U értékek felé szóródnak kiugró pontok, míg az U alacsonyabb értékei irányában "éles" határa van a felhőnek - a határon túlra a fentebb tárgyalt korlátozási okokból nem eshetnek pontok. Érdekes továbbá, hogy a fajszám és a Rao diverzitás, valamint a fajszám és az egyediség legalább részben unimodális összefüggést mutatnak. Alacsony fajszám esetén a Rao diverzitás is alacsony, de ahogy N nő, Q maximuma meredeken növekszik egy értékig, amit további fajok "hozzáadásával" sem lép túl, sőt, enyhén csökkenhet azután. Ez az összefüggés egy ismert "műtermék". Ha túl kevés traitet veszünk figyelembe, akkor bizonyos számú fajnál "tetőzik" a funkcionális diverzitás, és a további fajok hozzáadásakor már csak olyan fajok kerülnek a közösségbe, amelyek a már ott lévőktől nem különböznek jelentősen (a Q maximuma még csökkenhet is). Minél több korrelálatlan traitet veszünk figyelembe, ez a tetőzés annál később következik be, hiszen a korlátozott hasonlóság elve szerint csak olyan fajok tudnak tartósan együtt élni, amelyek eléggé különböző forrásokat használnak, ezzel párhuzamosan eléggé különböző funkciót látnak el, hiszen egyébként a kompetitív kizárás miatt a gyengébbik kihal. Egy meglévő közösségbe tehát csak akkor tud egy újabb faj betelepülni, ha az eléggé különbözik a már ott lévőktől. Adott számú traitet figyelembe véve azonban nem növelhető a végtelenségig az "eléggé különböző" fajok száma, az új fajoknak mindig újabb és újabb jelleg tekintetében kellene eltérniük a kellő fokú különbözőség eléréséhez. Pontosabban, ha a fenti tetőzést tapasztaljuk az adatsorunkon, akkor valószínűleg túl kevés traitet vettünk figyelembe ahhoz, hogy a közösség társulási szabályainak teljességét megértsük. A funkcionális egyediségnek pedig a szórása mutat trendet, hiszen minél nagyobb a fajszám, annál kevésbé szór U. Kis fajszám esetén a közösség átlagos egyedisége változó, hiszen ha a fajokat véletlenszerűen választottuk, néha nagyon különböző, néha nagyon hasonló fajok kerültek a közösségbe. Minél több faj alkotja a közösséget, az U egyre kisebb szórással közelít egy átlagértékhez a véletlen okozta sztochaszticitás csökkenése miatt.

A fenti mutatók R-ben könnyedén kiszámolhatók az eredeti cikkhez mellékelt R kódokkal.

2017. szeptember 6., szerda

A béta-diverzitás felbontása fajszám-különbség és fajcsere komponensekre

A diverzitásról írt bejegyzéseimben eddig csak egyedi közösségen belüli sokféleségről, vagyis az alfa-diverzitásról volt szó. Létezik azonban a diverzitásnak olyan értelmezése is, amely nem egy tetszőlegesen lehatárolt közösség belső sokféleségét hivatott kifejezni, hanem a közösségek egymás közti változatosságát - ezt hívják béta-diverzitásnak. Gamma-diverzitás alatt pedig a sok közösség összevonása során kapott belső, "összegzett" sokféleséget értjük. Mondok egy példát. Van 10 tavunk, amelyekben különböző halfajok élnek. Az átlagos tavon belüli fajszám a tórendszerre jellemző alfa-diverzitás, míg a 10 tóban összesen előforduló fajok száma a gamma-diverzitás. A béta-diverzitás intuitíve valahogy úgy értelmezhető, hogy a tavaink fajösszetétele (tehát nem a fajszáma!) mennyire változatos - ennek formalizált kifejezése azonban korántsem olyan egyértelmű, mint a fajszámé. Az egyik megközelítés szerint a béta-diverzitás a gamma- és az alfa-diverzitás hányadosa. A béta = gamma/alfa képlet szerint a béta-diverzitás azt fejezi ki, hogy hányféle közösség alkotja a statisztikai sokaságot, vagyis hányféle fajkombináció (vagy közösség) fordul elő a tórendszerben. Ezt hívják a diverzitás multiplikatív felbontásának, mivel a béta és az alfa szorzata adja a gammát. Ezzel szemben az additív megközelítés szerint a béta-diverzitás a gamma és az alfa különbsége: béta = gamma - alfa, alfa + béta = gamma. Itt a béta-diverzitás annak a mértéke, hogy egy átlagos lokális közösség hány fajjal gazdagodik, ha kiegészül a többi lokális közösséggel: átlagosan mennyivel több faj van az összes lokális közösségben együttvéve, mint egyetlenegyben? A béta-diverzitás kifejezésére e két nevezetes képleten kívül számtalan javaslat született, olyannyira, hogy az elmúlt néhány évben több szintéziscikket is írtak a rendszerbe foglalásukról, ld. Tuomisto (2010a2010b), Anderson et al. (2011).

A béta-diverzitást a lokális közösségek páronkénti különbözőségének kiszámolásával is számszerűsíthetjük. Vegyünk egy egyszerű szimilaritási mérőszámot, pl. a Jaccard indexet: SJaccard = a/(a+b+c), ahol az a a két összehasonlítandó közösségben egyaránt előforduló fajok száma, a b és a c pedig a csak az első, illetve csak a második közösségben előforduló fajok száma. Könnyen belátható, hogy a nevezőben az a+b+c a két közösségben előforduló fajok száma, amit n-el szoktak jelölni (tehát n=a+b+c), vagyis egyfajta gamma diverzitás, míg az alfa diverzitás a két közösség fajszámának átlaga: ((a+b)+(a+c))/2. A Jaccard index a hasonlóságot fejezi ki, ezért disszimilaritássá kell alakítanunk ahhoz, hogy a közösségek közti diverzitást fejezze ki: DJaccard = 1-SJaccard = 1-a/n.
Két közösség különbözőségéről azonban ez a képlet még keveset árul el, hiszen csak annyit mond, hogy az egyesített fajlistájukból mennyi az olyan faj, amely csak az egyik közösségben fordul elő. Az alábbi példákban olyan közösségpárokat mutatok, amelyek disszimilaritása azonos, de mégis nagy mértékben különböző mintázatok rejlenek e szám mögött.

Első példa - a két közösség különbözőségét a fajcsere okozza

Az első esetben az 1. és a 2. közösség fajszáma azonos, és van 2 faj, amely mindkettőben előfordul, míg van 2-2, amely csak az elsőben vagy csak a másodikban. A disszimilaritás értéke DJaccard=1-2/(2+2+2)=0.667. A közösségek 4-4 fajából tehát 2-2 lecserélődik: ezt hívják a fajcsere (turnover, species replacement) jelenségének. A közösségek közti fajcsere jelensége általában akkor figyelhető meg, ha a közösségek más-más élőhelytípusokat reprezentálnak, ezért más-más élőhelyigényű fajok népesítik be őket, vagy ha bizonyos fajok biotikus interakciók (pl. kompetíció) miatt nem tudnak együtt élni, ezért "kerülik" egymást. A közösségek hasonló (azonos) fajszáma azonban arra utal, hogy hasonló mértékben kolonizálhatóak az élőhelyek, a fajok megtelepedéséhez szükséges idő rendelkezésre állt, az élőhelyek eltartóképessége is hasonló.

Második példa - a két közösség különbözősége a fajszám-különbségnek köszönhető

A második esetben a 2. közösség fajai közül 2 ("A" és "B" fajok) alkotja a 1. közösséget is, emellett van 4 olyan faj ("C"-től "F"-ig), amely csak a 2.-ban fordul elő, mindeközben az 1. közösségnek nincs "saját" faja. A két közösség közti különbséget tehát kizárólag a fajszámkülönbség (richness difference) jelenti, fajcserével nem kell számolnunk. Amikor a fajszegényebb közösség a fajgazdagabb közösség részhalmaza (vagy más szavakkal: a ritkább fajok ott fordulnak elő, ahol a gyakoribbak már jelen vannak), akkor az egymásbaágyazottság (nestedness) jelenségével van dolgunk. Az egymásbaágyazottság akkor jelentkezik, ha a közösségek egy elszegényedési vagy betelepülési grádiens mentén helyezkednek el, de azonos fajkészletből "táplálkoznak". Pl. ha azonos fajösszetételű, fajgazdag közösségeket különböző erősségű bolygatásnak teszünk ki, akkor az erősebben bolygatott közösségekből az érzékenyebb fajok eltűnnek, csak a zavarástűrők maradnak, alacsonyabb fajszámot produkálva. A másik jellegzetes példa, amikor az élőhelyfoltok kolonizálására eltérő idő állt rendelkezésre. A régóta elfoglalható foltokba már sok fajnak volt ideje megérkezni, míg az újabb foltokat csak a leghatékonyabban terjedő fajok kolonizálták, ezért még fajszegényebbek. Így a fajgazdag közösségeknek a fajszegények részhalmazát képezik. Számoljuk ki a disszimilaritást a második példára is: DJaccard=1-2/(2+0+4)=0.667 - csak úgy, mint az első példánál, a magyarázat mégis egészen más.

Az utóbbi években legalább két megközelítés látott napvilágot azzal a céllal, hogy a béta-diverzitást felbontsa fajszám-különbség (illetve nestedness) és fajcsere okozta komponensekre. Az egyiket Andrés Baselga (2010) javasolta, a másikat Podani János és Schmera Dénes (2011). Én most az utóbbival foglalkozom, mert nekem az a szimpatikusabb, de Legendre (2014) kiváló cikkéből mindkét módszercsalád megérthető, az előnyeikkel, hátrányaikkal, és a lehetséges további felhasználásaikkal együtt. Érdemes még megemlítenem Baselga bejegyzését a Methods in Ecology & Evolution folyóirat blogján, amelyben a saját rendszere szerint magyarázza el a béta-diverzitás felbontását.

A Podani & Schmera-féle módszer (nem bonyolult) teljes algebrai levezetésétől most eltekintek, csak a lényegre szorítkozom. A relatív fajszám-különbség kifejezhető az alábbi módon:

Drel = |b-c|/n

A relatív fajcsere pedig így:

Rrel = 2*min(b,c)/n

Vegyük észre, hogy a fajszám-különbség (Drel), a fajcsere (Rrel) és a hasonlóság (SJaccard) összege 1, emiatt:

Drel+Rrel+SJaccard = 1

A fajcsere és a fajszám-különbség összege pedig a disszimilaritással, vagyis a béta-diverzitással egyenlő:

béta = 1-SJaccard = Rrel+Drel

Podani és Schmera kiválóan vették észre, hogy a fajszám-különbség, a fajcsere és a hasonlóság közös skálája egy nagyon szemléletes ábrázolási módra nyújt lehetőséget, amit szimplex ábrának hívnak. Ez egy olyan háromdimenziós koordinátarendszer, amelyen belül a pontok csak egy egyenlő oldalú háromszögön belülre eshetnek. A koordinátatengelyek (a szimplexek) a háromszög oldalfelező merőlegesei (egyúttal szögfelezői), és minden tengelynek a hozzá tartozó oldal felezőpontjában van a 0 értéke, a vele szemben lévő csúcsban pedig az 1-es értéke. Egy adott pontot a tengelyekre merőlegesen levetítve kapjuk meg a koordinátákat, amelyek összege mindig 1. A háromszög súlypontjában a koordináták értéke 1/3 mindhárom tengelyre, egy csúcsban mindig 1 az egyik tengelyre és 0 a másik kettőre. Ha egy pont egy oldalra esik, akkor egy koordinátája mindig 0, a másik kettő pedig attól függ, hogy mennyire közel van a két szomszédos csúcshoz. Ha a háromszög csúcsait a hasonlóság, a fajszám-különbség és a fajcsere relatív hozzájárulásának mértékének tekintjük, akkor a közösségek párjai közt kiszámolt értékek szemléltethetők a szimplex ábrán. Több párt egyszerre is ábrázolhatunk, így pontfelhőt kapunk, amelyen azonnal látjuk, hogy milyen relációk jellemzőek az összehasonlított párok közt. Például ha van 10 mintánk egy élőhelytípusból, majd minden lehetséges párosításra kiszámoljuk az S, D és R értékeket, akkor a pontfelhő elhelyezkedéséből következtethetünk, hogy a mintaelemek között mekkora a hasonlóság, a fajszám-különbség és a fajcsere átlagos értéke, és ezek fontos információt jelentenek az élőhelytípus belső változatosságáról.

Az SDR szimplex ábra komponensei
A kép forrása: Herczeg & Horváth (2015) Link


Mutatok néhány példát:

Barro Colorado erdőfelmérés adatsor
A Barro Colorado-sziget a Panama-csatornában található, mesterséges sziget, a világ egyik legintenzívebben kutatott trópusi területe. 1923 óta áll védelem alatt. Az 1980-as években egy 50 hektáros erdődinamikai mintaterületet létesítettek, amiben hektáronként feljegyezték a faegyedeket. Az adatmátrix 50 mintavételi kvadrátot és 225 fajt tartalmaz, és a vegan R-csomagból érhető el. Forrás: Condit et al. (2002).
A BCI adatsor szimplex diagramja

Az ábrán minden pont egy kvadrát-pár közti szimilaritás, fajcsere és fajszám-különbség értékét mutatja. A pontfelhő a fajszám-különbséget jelentő D csúcstól messze van, ehelyett az R (fajcsere) és S (szimilaritás) közti oldalhoz közel helyezkedik el. Ez arra utal, hogy az esőerdei kvadrátok fajszám tekintetében hasonlóak, de közepes mértékű fajcsere megfigyelhető közöttük. A pontok elég kis területen helyezkednek el, ami arra utal, hogy a kvadrátpárok közti eltérések hasonló típusúak és hasonló mértékűek.

Dűne adatsor
Hollandiai tengerparti dűnék kaszált és legeltetett gyepi vegetációja, 20 kvadrátban 30 fajjal. Forrás: Jongman et al. (1987). A vegan csomagból elérhető.

Első ránézésre szembetűnő, hogy a pontok itt sokkal nagyobb területen helyezkednek el, ami arra utal, hogy a kvadrátpárok közt sokkal változatosabbak a viszonyok: a fajszámkülönbség lehet kicsi vagy közepes, a fajcsere mértéke lehet kicsi és nagy is, a szimilaritás is lehet kicsi és nagy.


Páncélosatkák
Egy 2.5 m × 10 méteres területről vett 70 talajmintából származó 35 páncélosatka-faj előfordulási adatai. Forrás: Borcard et al. (1994). Elérhető szintén a veganon keresztül.


Valami hasonlót látunk, mint az előző esetben: a pontok szinte az egész háromszög területén előfordulnak, a tiszta fajszám-különbség, fajcsere és hasonlóság állapotait (vagyis a csúcsok közvetlen közelét) kivéve.

Északi-középhegységi mezofil gyepek
Legelt, kaszált és nem rég felhagyott mezofil gyepek az Északi-középhegység különböző részeiről. 55 kvadrátban 269 faj, saját, publikálatlan adatsor.



A pontok szóródása jóval kisebb, mint az előző kettő példában, de nagyobb, mint a Barro Colorado adatsor esetén. A pontok többsége a D-től és az S-től távol, az R-hez közelebb helyezkedik el. Ez arra utal, hogy a kvadrátok fajszáma mérsékelten variál (D értéke alacsony), és a fajcsere a domináns jelenség a kvadrátpárok között, noha teljes fajcserére itt sem látunk példát, ami azt jelenti, hogy nincs olyan kvadrátpár, aminek ne lenne legalább egy közös faja.

További érdekes példák láthatók valódi és szimulált adatsorokkal Podani és Schmera cikkében, továbbá fontos speciális eseteket (pl. a nestedness "szigorú" és "nem szigorú" értelmezése) is tárgyalnak a Szerzők - érdemes elolvasni.

A módszerhez írtam egy R kódot, amely a nem rég megjelent cikkünk függelékében érhető el. Kérem, hogy aki használja a szkriptet, hivatkozzon az alábbi cikkre:





2016. október 26., szerda

A sokféleség igazi mértékegysége: az effektív fajszám

Az elmúlt időben kicsit mélyebbre ástam a diverzitási indexek bőséges módszertani irodalmában. Az újabb cikkekben többfelé találkoztam a Hill-számokkal, amelyek a közösségek sokféleségét az elterjedten használt entrópiáknál sokkal érthetőbben fejezik ki. Meglepő, hogy ehhez képest esettanulmányokban ritkán látom, hogy használnák. Ez a bejegyzés azoknak szól, akik diverzitási elemzéseket terveznek, és jobb ötlet híján a Shannon-entrópia vagy a Simpson-index segítségével szeretnék összehasonlítani mintaegységeiket. Az elején röviden ismertetem, a Shannon-, a Simpson- és a Rényi-indexeket, majd rátérek a Hill-számokra, a végén pedig egy roppant egyszerű kódban bemutatom a számolásra alkalmas R-es függvényeket, illetve illusztrálom a mutatók közti összefüggést.

A közösségek diverzitásának kifejezésére számos mutató áll rendelkezésre. A legközismertebbek a fajszám, a Shannon-entrópia (=Shannon-diverzitás, Shannon-Weaver-index, Shannon-Wiener-index) és a Simpson-index - ezekkel bármelyik hazai ökológia tankönyvben találkozhatunk. A fajszám nem szorul bőséges magyarázatra - azoknak a fajoknak a száma, amelyek a közösséget alkotják. A másik két index a jelenlét-hiány adatokon túl a fajok tömegességét is figyelembe veszi. A Shannon-entrópia képlete a következő:

H = -Σi pi × ln(pi)

ahol pi az i-dik faj relatív abundanciája (Σi pi = 1). A Shannon-index azt a bizonytalanságot számszerűsíti, amely egy véletlenszerűen választott egyed faji hovatartozásának megjóslásakor fennáll. Ha a közösséget egyetlen faj alkotja, akkor az értéke nulla, hiszen ilyenkor bármely egyed faji besorolása egyértelmű. Ha egy közösséget egyformán tömeges fajok alkotnak, akkor a Shannon-diverzitás értéke a fajszámtól függ - minél több a faj, annál magasabb. Azonos fajszámú közösségek között pedig annak nagyobb az entrópiája, amelyikben a fajok relatív tömegességei kevésbé szórnak.

A Simpson-index képlete:

λ = Σi pi2

A Simpson-index annak a valószínűségét adja meg, hogy egy közösségből kiválasztott két egyed ugyanahhoz a fajhoz tartozik. Ha a közösséget egyetlen faj alkotja, akkor λ = 1. Minél több, azonos tömegességű faj alkotja a közösséget, λ annál jobban közelíti felülről a nullát. Mivel könnyebben kezelhető egy olyan index, amelynek alacsony értéke kicsi diverzitást, magas értéke nagy diverzitást jelent, az eredeti helyett gyakran használják az inverz Simpson- (1/λ) vagy a Gini-Simpson-indexet (1-λ).

A fenti mutatók a fajok tömegességeit más és más súllyal veszik figyelembe, így ha eltérő abundanciaeloszlású közösségeket akarunk diverzitásuk szerint sorba rendezni, akkor könnyen egymásnak ellentmondó sorrendeket kaphatunk velük. Elegáns és hasznos eszköz lenne egy olyan index, amely magában foglal egy skálaparamétert, amely változtatásával elérhetők a tömegességek szerinti súlyozás különböző módjai, de a kapott számok logikai rendje mégis érthető marad. Ez válik lehetővé a Rényi-entrópiával, amely a Shannon-entrópia általánosítása. Van egy q paramétere, amelyet változtatva olyan entrópiák számolhatók ki, amelyekben a fajok tömegességei különböző súllyal jutnak érvényre:

qH = 1/(1-q) × ln(Σi piq)

q értéke minimum 0. Ha q = 0, akkor a fajok tömegességei nem számítanak, akár csak a fajszám kiszámolásakor. q = 1-nél, qH -nak határértéke van, amely a Shannon-diverzitással egyenlő. q = 2 esetén pedig az inverz Simpson-index logaritmusát kapjuk. Minél nagyobb a q, annál jobban számítanak a fajok tömegességei közti különbségek. Ha q végtelen, akkor a Rényi-entrópia a legtömegesebb faj relatív abundanciáját tükrözi. A Rényi-entrópiát úgy szokás használni, hogy q különböző értékeire (de minimum a nevezetesekre: 0, 1, 2) kiszámoljuk, és ábrázoljuk qH-t q függvényeként. Két közösség közül az a diverzebb, amelyiknek magasabban fut a görbéje. Ha a két görbe metszi egymást, akkor a közösségek nem rendezhetők diverzitásuk szerint.

Ez mind szép és jó, de ha megtudjuk, hogy egy közösségre 3H = 2,1, az intuitíve nem sok információt jelent, kell némi gyakorlat vagy töprengés, hogy tudjuk, igazából milyen diverzitású közösséget kell magunk elé képzelnünk. Sajnos az entrópiák nem lineárisan változnak az intuitív diverzitásfogalmunkkal. Ezt az alábbi példával tehetjük nyilvánvalóvá. Van egy közösségünk, amelyet 3 egyformán tömeges faj alkot. Ilyenkor qH = 1,099 bármely q-ra. Tegyünk hozzá még 3, ugyanilyen tömeges fajt ehhez a közösséghez! (Figyeljük meg, hogy ilyenkor a relatív gyakoriságok a felükre csökkennek, hiszen a fajok abszolút egyedszámai nem változnak, míg az összegyedszám kétszeresére nő!) Az eredmény qH = 1,792 bármely q-ra. Hiába kétszereztük meg a fajszámot, az index értéke nem nőtt a kétszeresére - ez szembemegy a várakozásunkkal.

A megoldást a Hill-számok jelentik, amelyek a Rényi-diverzitás exponensével egyenlők:

qD = (Σi piq)1/(1-q) = exp(qH)

A Hill-számok az összes előnyös tulajdonsággal bírnak, amivel a Rényi-entrópia, csak könnyebb őket értelmezni. A q paraméter használata is megegyezik azzal, amit utóbbinál láttunk. A qD Hill-számú (ún. q-ad rendű diverzitású) közösség annyira diverz, mint egy olyan hipotetikus közösség, amelyet qD egyforma abundanciájú faj alkot. qD ezért effektív fajszámként vagy fajszám-ekvivalensként értelmezhető. Ezt a fenti példa egyszerűen igazolja, hiszen exp(1,099) = 3,00 és exp(1,792) = 6,00. Az ökológusok az ekvivalens fajszámot "igazi diverzitásnak" ('true diversity') is nevezik. Az Ecology folyóirat 91/7 számában, 2010-ben, jelentek meg fórumcikkek a diverzitás alfa, béta és gamma komponensekre történő felosztásáról. A neves szerzők nem mindenben, de abban megegyeztek, hogy ezt érdemes az effektív fajszámok alapján végezni. Én is roppantul előremutatónak tartom, hogy a diverzitási számolásokat a Shannon-, a Simpson- és a Rényi-indexek helyett Hill-számok formájában adjuk meg, és ezzel tekintsük az effektív fajszámot a diverzitás mértékegységének.

Lássuk, hogyan érjük el ezt az R szoftver segítségével! A fajszámot a vegan csomag specnumber(), a Shannon- és (inverz) Simpson-indexeket a diversity(), a Rényi-entrópiát és a Hill-diverzitást a renyi() parancsa számolja ki.

Megnyitjuk a vegan csomagot:
> require(vegan)    

Az adatsorunk egy múlt heti madárgyűrűzésem során fogott fajok egyedeiből áll (EMBSCH = nádi sármány, PHYCOL = csilpcsalpfüzike, PARCAE = kék cinege, PARMAJ = széncinege):
> community<-c(6,3,2,1)
> names(community)<-c("EMBSCH","PHYCOL","PARCAE","PARMAJ")
> community
EMBSCH PHYCOL PARCAE PARMAJ 
     6      3      2      1 

Kiszámoljuk a fajszámot...
> specnumber(community)
[1] 4

majd a Shannon- és az inverz Simpson-indexet:
> diversity(community,index="shannon")
[1] 1.198849
> diversity(community,index="invsimpson")
[1] 2.88

Az 4-es fajszám érthető, a többi elsőre nem sokat mond. Jöjjön a Rényi-entrópia! A q értékét a scales paraméternél kell megadni, a hill paraméterrel pedig beállíthatjuk, hogy Rényi-entrópia vagy Hill-számok formájában kérjük-e az eredményt:
> renyi(community, scales=c(0,1,2), hill=F)
       0        1        2 
1.386294 1.198849 1.057790 
attr(,"class")
[1] "renyi"   "numeric"

Vegyük észre, ahogy a Rényi-entrópia a skálaparaméter 0 értékére nem a fajszámot adta, hanem annak a logaritmusát:
> log(specnumber(community))
[1] 1.386294

A skálaparaméter 1-es értéke a Shannon-indexet adja, a 2-es pedig az inverz Simpson logaritmusát:
> log(diversity(community,index="invsimpson"))
[1] 1.05779

Nézzük meg most az effektív fajszámokat (ezúttal több q értékre)!
> q<-c(0,1,2,3,5,10)
> qD<-renyi(community, scales=q, hill=T); qD
       0        1        2        3        5       10 
4.000000 3.316299 2.880000 2.618615 2.357766 2.159881 
attr(,"class")
[1] "renyi"   "numeric"

A 0-ad rendű effektív fajszám (a skálaparaméter 0) maga a fajszám. q = 1 esetén a Shannon-index exponensét kaptuk:
> exp(diversity(community,index="shannon"))
[1] 3.316299

A fenti szám azt jelenti, hogy a példaközösség annyira diverz az abundanciák q = 1-es súlyozású figyelembevétele esetén, mint egy olyan közösség, amelyet 3,3163 egyformán tömeges faj alkot. Természetesen ilyen a valóságban nincs, hiszen a fajszám csak egész szám lehet, ezért fogjuk fel úgy, hogy diverzebb, mint egy 3 faj alkotta közösség, de nem olyan diverz, mint egy 4 fajos. q = 2-nél az inverz Simpsont kaptuk meg, amely 2,880-fajú, egyenletes abundanciaeloszlású, képzeletbeli közösségével azonos érték.

Tegyük fel, hogy van egy másik közösségünk is, amelyben a fajok egyedszámai közt nincs ekkora különbség, viszont a fajszám kisebb:
> community2<-c(5,4,3)
> names(community2)<-c("EMBSCH","PHYCOL","PARCAE")
> community2
EMBSCH PHYCOL PARCAE 
     5      4      3 

Számoljuk ki az effektív fajszámokat az előzőhöz hasonlóan a második közösségre!
> qD2<-renyi(community2, scales=q, hill=T); qD2
       0        1        2        3        5       10 
3.000000 2.937493 2.880000 2.828427 2.743538 2.613801 
attr(,"class")
[1] "renyi"   "numeric"

Most pedig ábrázoljuk mindkét közösség effektív fajszámait a q függvényében!
> plot(NA, type='b', xlab='q', ylab='qD', xlim=c(0,10), ylim=c(1,4))
> points(qD~q, type='b', col='blue', lwd=2)
> points(qD2~q, type='b', col='red', lwd=2)


Az ábrán az látható, hogy q alacsony értékeinél az első közösség (kék) diverzitása a magasabb, q magasabb értékeinél viszont a másodiké (piros). Ez érthető, hiszen az első közösséget 4 faj alkotta, a másodikat 3, viszont a második közösség fajainak egyedszámai közt kisebb különbségek voltak. Mivel a két közösség görbéjének van metszéspontja (q = 2), sokféleség szempontjából nem rendezhetők, nem mondható meg abszolút értelemben, hogy melyiknek nagyobb a diverzitása.

Az effektív fajszámokon alapuló diverzitásszámolás irodalma bőséges és szövevényes. Az alapcikk Hill (1973), de Jost (2006) cikkéből legalább olyan jól megérthető a lényeg. Lou Jostnak van egy nagyon jó honlapja, amin alapos és érthető bevezető olvasható a diverzitásszámolásokhoz, köztük egy fejezettel az effektív fajszámról. Ebben a blogbejegyzésben van egy R-es példa, amely az entrópia nem-lineáris és a Hill-számok lineáris fajszám-függését mutatja be.

2016. május 12., csütörtök

Osztályozások jóságának mérése, és egy új prediktív módszer

A bejegyzés lényegét adó élményem megosztását egy rövid elméleti bevezetővel kezdem.

Amikor élő közösségeket reprezentáló mintavételi egységeket osztályozunk fajösszetételük vagy a fajok tömegességei alapján, szükségszerűen szembesülünk a kérdéssel, hogy az elkészült osztályozás (elég) "jó"-e? Hűen tükrözi-e a közösségek mintázatát? Élesen elkülönülő, biológiailag azonosítható típusokat különít-e el? Előzetes megfontolások alapján egyformán indokolható és elfogadható, de különböző számításmenetű módszerekkel készített, nem egyező osztályozások közül melyik a "legjobb"? Az osztályozások jóságának megítélésére rengeteg módszer létezik, elég csak belepillantanunk Milligan & Cooper (1985)Aho et al. (2008), Tichý et al. (2010), Vendramin et al. (2010) cikkeibe, vagy a témavezetőm, Botta-Dukát Zoltán akadémiai doktori értekezésébe. A módszereket az alábbi csoportokba sorolhatjuk:

1. "Külső" (external) módszerek: az osztályozás jóságának megítélése olyan változók segítségével történik, amelyek nem vettek részt az osztályozás elkészítésében. Ez olyan esetekben merül fel, amikor van egy előzetes várakozásunk arról, hogy az osztályozásnak milyen mintázatot kellene felfedni. Például ha a növényzeti mintáink különböző talaj pH-jú élőhelyekről származnak, és a mintaegységeket a fajösszetételük alapján osztályoztuk, kíváncsiak lehetünk, hogy a növényzeti adatokból képzett osztályozás mennyire jól tükrözi a talajkémhatás szerinti különbségeket. Mivel a pH nem szerepelt a csoportképzésben, "külső" változóként használjuk. Vagy ha erdőkben vettünk fel mintaegységeket, majd a lombkoronaszint fajai alapján osztályoztuk őket, megvizsgálhatjuk, hogy mennyire esik egybe az osztályozás az aljnövényzet fajai alapján kapott osztályozással. Itt az aljnövényzet szerepel "külső" változóként (már amennyiben azt tekintjük referenciának).

2. "Belső" (internal) módszerek: az osztályozást az elkészítéséhez felhasznált változók segítségével értékeljük. Két altípusa van:

2a. Geometriai módszerek: ezeknél az osztályozást a mintavételi egységek közti távolságot vagy disszimilaritást kifejező mérőszámok bevonásával értékeljük. Például úgy, hogy kiszámoljuk az egy csoportba tartozó felvételpárok közti és a különböző csoportokba tartozó felvételek párjai közti disszimilaritások arányát, hiszen a "jó" osztályozás esetén az egy csoportba tartozó felvételek kevésbé térnek el egymástól, mint a különböző csoportokba tartozók. A "geometriai" szó annyit jelent ebben az esetben, hogy azt vizsgáljuk, hogy a felvételek közti disszimilaritásokat távolságként leképező, sokdimenziós térben a csoportok milyen alakzatokat vesznek fel, mennyire válnak el egymástól. Az osztályozáshoz felhasznált változók (pl. fajok tömegességei) csak közvetve, a mintaegységek közti disszimilaritások kiszámolásakor szerepelnek az elemzésben.

2b. Nem-geometriai módszerek: itt közvetlenül a fajok mintázatai alapján értékelünk. Például azzal a feltételezéssel élünk, hogy akkor jó egy osztályozás, ha a csoportoknak sok karakterfajuk van. Ebben az esetben a magas fidelitásértékű fajok száma lesz a csoportjóság mérőszáma, több osztályozást összehasonlítva azt tekintjük a legjobbnak, amelyiknél a karakterfajok száma a legmagasabb.

Ennyi az elmélet, most jön a lényeg.

A csoportjóság mérésének módjai mindig is érdekeltek, még módszertani fejlesztésekkel is próbálkoztam, de nem sok sikerrel. Még végzős egyetemista koromban, tehát kb. 6 éve, volt egy ötletem, amely úgy szólt, hogy az osztályozást fogjuk fel egy statisztikai modellként, amely a fajok előfordulásainak megjósolására (predikciójára) alkalmas. A modellben maga az osztályozás (a mintaelemek csoporttagságait kódoló vektor) egy faktorjellegű, vagyis nominális típusú magyarázó változó annyi lehetséges állapottal, ahány csoportunk van. A fajok előfordulásai pedig a függő változók mátrixaként szerepelnek. Ezt egy redundanciaanalízisbe (RDA) berakva kiszámolhatjuk, hogy mekkora a modell magyarázó ereje (R-négyzete), s minél nagyobb ez a szám, annál jobb az osztályozás. Néhány hónap számolgatás után azonban a témavezetőmmel be kellett látnunk, hogy bármennyire is elegáns megoldásnak tűnt, az RDA által alkalmazott lineáris modellek (többszörös lineáris regresszió) és az R-négyzet több szempontból sem alkalmas vegetációosztályozások értékelésére. Az ötlet ennyiben maradt, soha nem publikáltam róla semmit, pedig ilyen szép ábrák készültek róla.

Itt azt néztem, hogy különböző jósági indexek hány csoportot mutatnak optimálisnak
 adott csoportszámú, szimulált adatsorok esetén

Idén aztán a Journal of Vegetation Science-ben megjelent egy cikk, ahol ausztrál szerzők gyakorlatilag teljesen ugyanezt csinálják, de RDA* helyett minden egyes fajra általánosított lineáris modellt (GLM) számolnak, a modell jóságát pedig nem R-négyzettel, hanem AIC-vel mérik, amit fajonként összeadnak, s ez adja ki a teljes modell (az összes fajra érvényesen) jóságát. És ez működik. A módszer a fenti csoportosítás 2b. kategóriájába esik, vagyis egy belső, nem-geometriai mutató. Valahol egy picit sajnálom, hogy ez nekem nem jutott eszembe, pedig ennyire közel voltam hozzá, de közben kimondottan örülök, hogy más megcsinálta, és hogy az akkori, egyetemistaként kitalált ötletem veleje nagyon is jó volt. Ezúton is gratulálok a szerzőknek! A cikk hivatkozása:

Lyons, M. B., Keith, D. A., Warton, D. I., Somerville, M., Kingsford, R. T. (2016), Model-based assessment of ecological community classifications. Journal of Vegetation Science. doi: 10.1111/jvs.12400

*Az RDA gyakorlatilag minden egyes fajra csinál egy lineáris regressziót (ami a GLM egy speciális esete), majd ezek R-négyzeteinek súlyozott átlagolásával adja meg a teljes modell R-négyzetét.

2015. szeptember 1., kedd

Ökológiai adatok elemzése R szoftverrel kezdőknek



Az R az utóbbi 5-10 évben a legszélesebb körben alkalmazott statisztikai adatelemző szoftver lett az ökológiában. A konferenciák és cikkek tanúsága szerint egyre többen használják ezt a kutatásaikhoz, több egyetemen pedig már az R az alapvető szoftver a biostatisztika órán. Mindez nem csoda azok után, hogy az R sikeresen ötvözi magában azokat az előnyöket, amiket egészen röviden "olcsó és jó"-ként összegezhetünk:
  • ingyenes, minden kiterjesztésével együtt: letölthető a www.r-project.org oldalról, annak is a CRAN (The Comprehensive R Archive Network) nevű részlegéről;
  • az R tulajdonképpen egy programozási nyelv, amelyen magunk írhatjuk meg a szükségleteinknek megfelelő függvényeket vagy választhatunk a mások által közzétettek közül, ezeket tetszés (és tudásunk) szerint kombinálhatjuk vagy módosíthatjuk. Ez szöges ellentétben áll az adatelemző szoftverek többségével, amelyekben csak a program által felkínált lehetőségek közül választhatunk kattintással;
  • az R alap installációja rengetegféle függvénycsomaggal kiegészíthető. Nem hiszem, hogy van olyan szegmense az ökológiának, amelyhez még ne írt volna valaki egy csomagot, amely tartalmazza a tudományterület korszerű adatelemző módszereit;
  • hatalmas felhasználói bázisa van a neten, rengeteg fórummal, bloggal, honlappal, kurzusanyaggal, így aránylag könnyű segítséget kérni;
  • folyamatosan fejlesztik, frissítik, az új módszerek hamar rendelkezésre állnak.
Van viszont néhány dolog, ami megnehezíti a használatát:
  • ahogy fentebb jeleztem, meg kell tanulni programozni a használatához, nem elég csak a program menüiben kattintgatni a funkciók eléréséhez (szemben olyanokkal, mint a PC-ORD, SYNTAX, SPSS és társaik), de ez csak egy ideig akadály;
  • annak ellenére, hogy a saját fejlesztésű csomagokat csak tüzetes ellenőrzés után engedik megjelentetni az R szerverén, a rengeteg hozzájáruló miatt elő-előfordulnak nem kellően kontrollált tartalmú és működésű funkciók, "bug"-ok. Mielőtt használni kezdünk egy korábban ismeretlen csomagot, érdemes alaposan leellenőrizni, mit írnak róla a fórumok, stb;
  • Noha valamilyen szinten szinte mindenre van megoldás az R-en belül, bizonyos speciális célokra léteznek sokkal könnyebben kezelhető és eredményesebb szoftverek. Pl. bizonyos térinformatikai műveletek megoldhatók R-ben, de azért érdemes mégis inkább ArcGIS-t vagy QGIS-t használni helyette. Jó esetben az ilyen speciálisabb programok és az R kommunikációja megoldott, így ha valami az egyikben nem sikerül, még megpróbálhatjuk a másikban;
  • Az R-ben készített ábrák rendszerint nem igazán esztétikusak, kimondottan döcögősen javítható a vizualizáció, bár kellő utánajárással magas szintre is fejleszthető;
  • Elég lassú. Ezen nincs mit szépíteni.

Az alábbiakban közreadok néhány linket és hivatkozást kimondottan azok részére, akik most kezdenek ismerkedni az R alapjaival, vagy pedig (elsősorban többváltozós) közösségi ökológiai adatok elemzéséhez van szükségük az első útmutatásokra. Lehetetlen próbálkozás lenne minden fontos referenciát megadni, ehelyett azt a néhányat mutatom be, amelyeket én is megelégedéssel forgatok azóta, amióta az első R-es hibaüzenet megjelent a képernyőmön. Ez mennyiségileg a témában megjelent irodalom elhanyagolható töredéke, viszont jó kiindulási pontnak tartom az R-es ökológiai adatelemzés iránt érdeklődőknek. Akik bővebben szeretnének tájékozódni, azoknak ajánlom az R hivatalos honlapján lévő listát, valamint a hazai R honlap (r-projekt.hu) segédanyagait.


Könyvek:

Az alábbi könyvek közül az angol nyelvűek egy egyszerű Google keresés segítségével megtalálhatóak a neten PDF formátumban.

Crawley, M.J. (2007) The R Book. Wiley, UK, 950 pp




Amikor 6-7 éve ismerkedni kezdtem az R-el, ez a könyv nagyon sokat segített. Gyakorlatilag minden benne van, ami a kezdetekhez kell, habár a példái nem szorítkoznak az ökológiára. Nulla programozói ismeretekkel is neki lehet állni olvasni, a legprimitívebb információkkal kezdve vezeti be a szerző az olvasót az R rejtelmeibe. Az adattárolást, adatszerkesztést, ábrázolást és alapvető matematikai műveleteket bemutató részek után az egyváltozós statisztikai módszerek következnek, majd lépésről lépésre megyünk bele a sűrűjébe, a regressziók után a famodellek, a többváltozós adatfeltárás, a térbeli és az időbeli elemzések is sorra kerülnek. Persze, mindenből a legegyszerűbb, de már használható szinten, ahonnan már el lehet indulni. Az egyes módszerekről egy aránylag rövid, de lényegre törő ismertetőt közöl, utána a hangsúly a megvalósításon, alkalmazáson van.
Pár éve megérkezett az új, zöld borítójú kiadása, amiről azt írják, hogy könnyebben használható lett. Eddig csak futólag pillantottam bele, nem észleltem különbséget.





Reiczigel J., Harnos A., Solymosi N. (2007) Biostatisztika nem statisztikusoknak. Pars Kft., Nagykovácsi, 455 pp., valamint újabb, változatlan kiadásai 2010-ben és 2014-ben.



Tudomásom szerint ez jelenleg az egyetlen olyan, magyar nyelvű statisztika tankönyv, amelynek céljai közt szerepel az R megismertetése - s a hangsúlyok valóban ezek, a statisztikát könnyebb belőle megtanulni, mint az R használatát. Összességében egy elég jó, könnyen olvasható könyvről van szó, amit a varianciaanalízis, a regressziószámítás, a modellszelekció és -diagnózis részletes és modern igényeknek megfelelő tárgyalása tesz a legértékesebbé. Tematikájában ennél, vagyis az egyváltozós statisztikai alapvető módszereinél tovább nem is megy, így a közösségi ökológiai problémák megoldásához többnyire máshová kell nyúlnunk. A könyv honlapja itt érhető el. Érdemes még megemlíteni, hogy a Szent István Egyetem Állatorvos-tudományi Karán dolgozó szerzők az R hazai népszerűsítésének élharcosai, és érdemes ellátogatni a honlapjukra, mert gyakran találni rajtuk hasznos segédanyagot vagy meghirdetett kurzust.



Borcard, D., Legendre, P. & Gillet, F. (2011): Numerical Ecology with R. Springer, New York, 319 pp.



A közösségi ökológia terén alkalmazott többváltozós adatfeltáró módszerek (klasszifikáció, ordináció, térbeli elemzések) R-es megvalósításáról szerintem ez a legjobb könyv. Még minimális R ismerettel is érdemes kinyitni (bár ilyen esetben azért legyen kezünk ügyében a fentebbi The R Book a biztonság kedvéért)! A kötet az elemzések gyakorlati kivitelezésének bemutatására törekszik, az egyes módszerekről csak hosszabb-rövidebb leírást kínál. Ugyanakkor bizonyos módszerek elméleti hátterének átadását szerintem mindennél sikeresebbé teszi azzal, hogy kézzel írt kódokat közöl hozzájuk (ld. "The Code It Yourself Corner" cikkelyek), így magunk is végigkövethetjük az algebrai lépéseket. Akinek pedig a hagyományosabb, tankönyvi elmélet hiányzik, a nagy elődöt, a Legendre & Legendre (1998): Numerical Ecology-t ajánlom.
A könyv egyébként része annak a Use R! nevű sorozatnak, melynek célja, hogy az egyes szűkebb tudományterületek R-es alkalmazásait, valamint bizonyos statisztikai problémák R környezetben történő feldolgozását mutassa be.



Különböző online források


Alapos technikai bevezető az R használatához. Statisztika nincs benne, de ha valaki szeretne szisztematikusan hozzáfogni a tanuláshoz, érdemes itt kezdenie.



Talán ezzel kellett volna kezdenem ezt a szekciót, hiszen ez egy igen kimerítő, minden részletre kiterjedő technikai bevezető az R-hez. Néhol szűkszavú, de minden fontos témát érint, ami az R alapvető funkcióival kapcsolatos.



Gyakorlati anyag az R-es vegetációelemzéshez Dave Robertstől. Problémaorientált, lényegre törő, kezdőknek is ajánlom.



Már fentebb említettem, de megérdemli a kiemelést a hazai R használók oldala, amelyen kezdő útmutatásokat, tanfolyamokat, közösségi eseményeket, és még sok mindent találunk, természetesen magyarul. Nagyon hasznos oldal kezdőknek, és haladók is sokat profitálhatnak belőle!




Az említetteken kívül rengeteg blog, fórum, honlap, jegyzet, könyv áll még az R-ül tanulni vágyók rendelkezésére. Már csak el kell kezdeni! :)

2014. április 3., csütörtök

Szeminárium a Szegedi Tudományegyetemen

A Jedlik Ányos Doktorjelölti Ösztöndíjam második negyedéves vállalásaként szemináriumot tartottam a Szegedi Tudományegyetemen mesterszakos és doktorandusz hallgatóknak 2014. március 12-13-án "Sokváltozós adatfeldolgozás problémái" címmel. Az ordinációs módszerek elméletéről és az R statisztikai szoftverrel való kivitelezéséről szóló kurzus anyaga letölthető az alábbi linkekről:
prezentáció
R-script