Translate

A következő címkéjű bejegyzések mutatása: statisztika. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: statisztika. Összes bejegyzés megjelenítése

2023. szeptember 13., szerda

Áttekintés a funkcionális különbözőség mérőszámairól - új cikk az Ecography-ban

Az ökológia és a biogeográfia egyik központi kérdése, hogy a közösségek vagy területek fajösszetétele milyen változatosságot mutat. A probléma vizsgálatához az egyik legalapvetőbb statisztikai eszközt a különbözőségi (disszimilaritási) indexek jelentik. Ezek olyan egyszerű matematikai formulák, amikkel számszerűsíteni lehet, hogy az egyik közösség mennyire különbözik a másiktól. A közösségeket főleg a fajösszetételük alapján hasonlították össze korábban, az utóbbi évtizedekben azonban megnőtt az érdeklődés egyéb szempontok figyelembe vétele felé. Ilyen például a közösségek funkcionális összetétel alapján történő összevetése. A szakirodalomban kb. 40-50 mérőszámot javasoltak az utóbbi években erre a célra. Ezek az indexek azonban mind-mind különböző feltételezésekkel éltek az adatokra nézve, és különböző elméleteket követtek a funkcionális sokféleség számszerűsítése és a különbözőség értelmezése céljából. A funkcionális különbözőség iránt érdeklődő felhasználó így meglehetősen elveszve, útmutatás nélkül érezhette magát, amikor a saját kutatásához próbált megfelelő módszert választani.

Ezen a helyzeten igyekeztünk javítani a kutatócsoport-vezetőmmel. A most megjelent 'review' cikkünkben feldolgoztuk az irodalomban eddig javasolt módszereket, és egy közös elméleti rendszerbe foglalva őket kiemeltük azokat a módszertani döntéseket vagy adottságokat, amelyeket figyelembe kell venni a módszerválasztáskor. Két döntést tartunk alapvetőnek: a különbözőség értelmezésének mikéntjét, valamint azt, hogy a közösségek funkcionális összetételét milyen módon írjuk le. A különbözőségnek két típusát tárgyaljuk: a távolságokat (distance) és az ellentétet (kicsit gyenge a magyar megfelelő, angolul találóbb: disagreement). A kettő között a lényegi különbség, hogy a távolságok felső korlátját az eredeti változók skálája szabja meg, tehát akár a végtelen is lehet, míg az ellentétek standardizáltak, 0 és 1 között változnak. Előbbiek hosszú, utóbbiak rövidebb grádiensek esetén működnek jól. A funkcionális összetétel leírásának három módja van. Az első (typical values), amikor a közösséget egyetlen pont reprezentálja, pl. amikor egyetlen gyepet a teljes biomasszája ír le. A második (discrete sets), amikor minden taxonhoz tartozik egy jellemző, egy trait, amit a taxon tömegességének figyelembe vételével együtt használunk fel egy közösségi szintű trait-eloszlás kiszámolásához. A harmadik (hypervolumes), amikor a traitek mint dimenziók által meghatározott térben egy többdimenziós alakzattal vagy eloszlással írjuk le a közösséget. A cikkben áttekintjük a tárgyalt módszerek kiszámolásához szükséges R-csomagokat is.


A funkcionális különbözési indexekről javasolt elméleti rendszerünk sematikus ábrája

Amit nem tudunk egyelőre megmondani, az az, hogy melyik index mennyire működik "jól", mennyire pontosan adja vissza a két közösség közti tényleges eltérést. Valójában a munkát ez utóbbi kérdés vizsgálatával kezdtük, azonban a bírálatok során világossá vált, hogy az elméleti megalapozás előbbre való, a körültekintő tesztelés pedig a vártnál összetettebb probléma. De ami késik, nem múlik. :)

Az összefoglaló és elérhetőség alább látható:


Lengyel, A. & Botta-Dukát, Z. (2023), A guide to between-community functional dissimilarity measures. Ecography e06718. https://doi.org/10.1111/ecog.06718

Abstract

One of the effective tools to study the variation between communities is the use of pairwise dissimilarity indices. Besides species as variables, the involvement of trait information provides valuable insight into the functioning of ecosystems. In recent years, a variety of indices have been proposed to quantify functional dissimilarity between communities. These indices follow different approaches to account for between-species similarities in calculating community dissimilarity, yet they all have been proposed as straightforward tools. In this paper, we review the trait-based dissimilarity indices available in the literature and identify the most important conceptual and technical properties that differentiate among them, and that must be considered before their application. We identify two primary aspects that need to be considered before choosing a functional dissimilarity index. The first one is the way communities are represented in the trait space. The three main types of representations are the typical values, the discrete sets using the combination of species × sites and species × traits matrices, and the hypervolumes. The second decision is the concept of dissimilarity to follow, including two options: distances and disagreements. We use the above scheme to discuss the available functional dissimilarity indices and evaluate their relations to each other, their capabilities, and accessibility.

2019. december 4., szerda

Egy kutatástervezési jótanács

Egy nagyon találó idézetet olvastam egy statisztikai cikkben (Halsey 2019):

‘To call in a statistician after the experiment is done may be no more than asking him to perform a post-mortem examination: he may be able to say what the experiment died of.’
vagyis:
'Statisztikushoz fordulni a kísérlet elvégzése után nem több, mint boncolást kérni tőle: talán meg tudja mondani, mitől halt meg a kísérlet.'

Az idézet forrása Sir Ronald Fisher, akit a statisztika és a populációgenetika atyjának is szoktak nevezni, és akinek a nevéhez olyan statisztikai alapfogalmak fűződnek, mint a hipotézistesztelés, a p-érték, az ANOVA, a Fisher-féle egzakt teszt, vagy a meta-analízis. 

Ronald Fisher, amikor még nem volt Sir, és talán még nem sejtett semmit...

Néhány éves aktív tudományos pályafutásom alatt nem kevés kutatáshoz járultam már hozzá adatelemzőként (erős eufemizmussal "statisztikusként"), és a személyes tapasztalatom tökéletesen egybehangzik azzal, amire Fisher is utalhatott: egy rosszul megtervezett vagy kivitelezett kutatásból a statisztikában jártas személy sem tud értelmes eredményt elővarázsolni. Legyen bármekkora is a tudása, ezen a ponton gyakran csak annyira elég, hogy megállapítsa, mi a konkluzív vizsgálat akadálya. Folytatva a metaforát: mint halottnak a csók...

Hogyan lehetne ezt elkerülni? Evidens, hogy érdemes a kutatás tervezési fázisában is kérni a statisztikus segítségét. Vele együtt kell tisztázni a célok és a mintavételi terv minden, elsőre mellékesnek tűnő részletét:

  • Mindenek előtt: mi a kutatás pontos, vagy inkább nagyon-nagyon pontos kérdése? Milyen változók érdekelnek minket? Melyek a függő és független változók? Mi a null-hipotézis, mik az alternatív hipotézisek? Mi hat mire? Milyen eredményt sejt a kutató?
  • Mik/Vannak-e random és fix faktorok?
  • Milyen a változók eloszlási típusa?
  • Mik a mintavétel tér- és időbeli kötöttségei?
  • Milyen tesztek illenek ehhez az elrendezéshez?
  • Mekkora legyen a minta? Elég lesz-e a "statisztikai erő" ('statistical power'), vagyis elég nagy-e a minta a tesztek számához és az elvárt hatásnagysághoz képest a konkluzív vizsgálathoz?
Talán nem túlzok, ha azt állítom, az a jól megtervezett kutatás, amelynek adattábláit a kutató az adatgyűjtés megkezdése előtt ki tudja tölteni képzeletbeli, de a változó eloszlástípusának megfelelő értékkel, majd az így készített táblázatokon el tudja végezni a kutatási kérdés megválaszolásához szükséges elemzéseket. Ez feltételezi azt, hogy pontosan tudjuk, mennyi és milyen adat kell, és mit fogunk velük csinálni. Törekedjünk erre! Ne hagyatkozzunk arra, hogy majd az adatok birtokában kitaláljuk, hogy milyen tesztet végezzünk, hanem olyan és annyi adatot gyűjtsünk, amiből fogunk tudni számolni!


Természetesen fontos feltétel, hogy az adatgyűjtéskor se vétsünk (súlyos) hibát. Hiába a jól megtervezett kutatás, ha pl. nem ismerjük fel a fajokat, amelyekkel dolgozunk, nagy mérési hibával dolgozunk, stb. Ráadásul ezeket a statisztikus se szúrja ki feltétlenül, hiszen a számok mögé nem lát.

Mi van, ha közbejön valami, és mégsem úgy végezzük az adatelemzést, ahogyan elterveztük? Semmi, újratervezés, de legalább van honnan elindulnunk: a kutatás egésze ugyanis jó eséllyel nem fog megváltozni, csak kiderül, hogy kisebb lesz a minta, mint gondoltuk, az egyik változót más skálán kellett felvenni, eggyel több random faktor lesz, és kettővel kevesebb lokalitást, stb. Ezek nem nagy változások, az eredeti tervek kis mértékű átírását igénylik csak.

Mi van, ha minden a terv szerint haladt, de nem jött ki semmi? Nem kizárt, hogy a legjobban átgondolt terv is technikailag rossz - ilyen az élet. Ilyenkor egyszerűen jobbat kell csinálni. A másik, tudományosan érdekesebb eset a negatív eredmény jelensége. Ilyenkor elméletek és korábbi vizsgálatok tanulságai alapján feltételeztünk egy kimenetelt, de nem ezt kaptuk. Ez tulajdonképpen jó eredmény, hiszen rávilágít a korábbi tudásunk hiányos voltára. Sajnos a folyóiratok az ilyeneket ritkán közlik le. Ezek visszaszorítására vezették be az "előregisztrált vizsgálatokat". Ilyenkor egy nagyon részletes kutatási tervet kell beküldeni a folyóirathoz, azt elbírálják, és ha úgy látják, hogy a vizsgálat konkluzív lesz, akkor az eredmények pozitív vagy negatív kimenetelétől (pl. a nullhipotézis elutasításától vagy megtartásától) függetlenül leközlik a cikket. Ilyenre van lehetőség pl. a BMC Ecology és az Ecology and Evolution folyóiratokban. 

A kutatás sikerén kívül mikor jön jól még ez a szintű tervezés? Például ha kutatási tervünkre támogatást is szeretnénk nyerni. A bírálókra meggyőzőleg hat ugyanis, ha azt látják, a pályázó nem a levegőbe beszél, mélységében ismeri a témát, van elképzelése a kutatás kivitelezésének mikéntjéről, felkészült az esetleges nehézségekre. Mintegy demonstrálja, hogy képes a kutatási terv megvalósítására. Van is ebben valami.

Zárásul még egy idézet:

'Failing to plan is planning to fail.' 
vagyis: 
'Elbukni a tervezést olyan, mint tervezni a bukást.' (Alan Lakein)

2019. november 15., péntek

REMOS - új módszer a numerikus osztályozásban

A numerikus osztályozás számos tudományterületen az alapvető statisztikai módszerek közé tartozik. A növényzeti típusok reprodukálható, objektív kritériumok alapján történő elkülönítése kapcsán én is rendszeresen írok róla. A legtöbb klasszifikációs módszer jellemzője, hogy akkor is adnak eredményt (vagyis csoportokat), ha a mintának nincs különösebb struktúrája. Emiatt az objektumok (mintavételi egységek, megfigyelések, felvételek, fajlisták... amiket osztályozunk) csoportjainak létrehozása mellett ugyanennyire fontos, hogy teszteljük, tényleg jók-e a csoportok. Ez a "jóság" temérdek kritérium szerint mérhető, Vendramin és társai (2010) például 40 módszert tekintenek át a review cikkükben. Azonban ha tudjuk, hogy a célunk egy olyan osztályozás elérése, amelyre majd egy ilyen, ún. validitási index alapján azt mondjuk, hogy ez egy "jó osztályozás", akkor miért nem keressük célirányosan már az osztályozás létrehozásakor azt a megoldást, amelynek a lehető legmagasabb a validitási indexe? A megközelítés teljesen valid, ahogyan Roberts (2015) cikkében is láthatjuk: két módszert is bemutat, amelyek valamilyen kezdeti (akár random, de inkább valami más klaszterező módszerrel legyártott) osztályozásból kiindulva addig-addig pakolgatják az objektumokat egyik csoportból a másikba, amíg az adott validitási index a lehető legmagasabb értéket el nem éri. Roberts módszerei ezt úgy érik el, hogy megvizsgálnak minden egyes lehetséges áthelyezést, majd végül azt az egyet hajtják végre, amely a legnagyobb növekedést okozza a validitási index értékében. Az egyik módszer neve OPTSIL, és a sziluett nevű indexet optimalizálja. Botta-Dukát Zoltánnal nem rég írtunk egy preprintet a sziluett index általánosításáról, amellyel különféle alakú clusterekre válik érzékennyé a módszer (azóta elfogadták az Ecology and Evolution lapban, hamarosan meg kéne jelennie). A sziluettben az a jó, hogy minden egyes objektumra ad egy értéket, ami kifejezi, hogy mennyire illik abba a csoportba, amelyikbe került, az alapján, hogy milyen átlagos távolságra (a távolságok az objektumok közti különbözőséget fejezik ki) van a csoport többi tagjától, illetve a legközelebbi másik csoport tagjaitól. Az index -1 és +1 közötti értékeket vehet fel. Ha az értéke pozitív, akkor az objektum jó helyen van, mert közelebb van a csoportja többi tagjához, mint a szomszédos csoport tagjaihoz. Ha 0 (vagy ahhoz nagyon közeli), akkor az objektum átmeneti helyzetű, ha negatív, akkor "félreosztályozott", egy másik csoport tagjaira jobban hasonlít, mint azokra, amelyekkel egy csoportba sorolták. Értelemszerűen minél kevesebb a félreosztályozott objektum, annál jobb egy osztályozás. Vegetációosztályozások "szakértői" ellenőrzésekor és értékelésekor is gyakori, hogy viszonylag szubjektív módon kijelentjük, hogy egyik vagy másik felvétel "rossz" helyen van abban a csoportban, ahová a numerikus módszer tette, néha felül is bíráljuk ezt a besorolást. Mivel a sziluett index alkalmas arra, hogy a félreosztályozott objektumokat objektív módon azonosítsa, semmi nem gátol meg minket abban, hogy csináljunk egy olyan módszert, amely egy meglévő osztályozást a félreosztályozott felvételek átsorolgatásával, iteratív módon javít egészen addig, amíg minden objektum a helyére nem kerül.
Ezt csináltuk meg, először csak Botta-Dukát Zoltánnal, amiből írtunk egy preprintet, amit felraktunk a bioRxiv szerverre. Az új módszernek a REMOS (REallocation of Misclassified Objects based on Silhouette width) nevet adtuk. A kéziratot elküldtem Dave Robertsnek, aki fontos elemzésekkel és gondolatokkal egészítette ki a munkákat, így a preprintet (immár hárman) újraírtuk. A javított verzió itt olvasható, a módszer R kódja az elektronikus függelékben, az összefoglalót alább bemásolom. Közben a kézirat bírálat alatt is áll egy folyóiratban.
A REMOS-nak két verziója áll rendelkezésre. A REMOS1 mindig csak a legalacsonyabb sziluett értékű félreosztályozott objektumot rakja át a szomszédos csoportba, míg a REMOS2 az összes félreosztályozottat. Az áthelyezés után újraszámolják az összes objektumra a sziluetteket, és ha vannak félreosztályozott objektumok, akkor jön a következő áthelyezés, majd megint újraszámolás, megint áthelyezés, és így tovább addig, amíg el nem fogynak a negatív sziluett értékek. Fontos látni, hogy a REMOS alapvetően nem ellenőrzi az áthelyezések hatását az osztályozás egészére, szemben az OPTSIL-el. A REMOS csak azt tartja szem előtt, hogy az egyedi felvételek a helyükre kerüljenek, így inkább "lokális" perspektívájú, míg az OPTSIL "globális" kritérium szerint dolgozik. (Tapasztalatom szerint a gyakorlatban jobban szeretjük azokat az osztályozásokat, ahol minden objektum a helyén van, mint azokat, amelyekben átlagosan jó helyen van minden.) Mindkét REMOS verzió képes ciklusokba kerülni. Ez azt jelenti, hogy ismétlődően ide-oda pakolgatják az objektumokat a csoportok között, de mindig marad félreosztályozott, nem érnek soha a dolog végére. Ilyenkor az algoritmus automatikusan megáll és azt a megoldást fogadja el végsőként, amely a legkevesebb félreosztályozottat tartalmazza. Ha ebben egyenlőség van, akkor az lesz a végső, amely esetén a negatív sziluettek abszolút összege (az osztályozás "hibája") a legkisebb.

A félreosztályozott objektumok arányának (Misclassification rate) változása különböző béta-flexibilis osztályozással, különböző béta értékkel készített osztályozásokból indítva optimalizálás nélkül (Initial), illetve REMOS1, REMOS2 és OPTSIL módszerekkel történő optimalizálás után


A preprintben különböző adatsorokon és különböző kiindulási osztályozásokkal hasonlítottuk össze a REMOS-t és az OPTSIL-t. Az összehasonlítás kritériuma a végső osztályozás átlagos sziluett értéke, a negatív sziluettű objektumok aránya, valamint a diagnosztikus fajok száma volt. Emellett megnéztük a két módszer által igényelt futási időt is. Amikor már eleve "jó" osztályozásból indultunk ki, mindkét módszer jól teljesített, hasonlóan magas átlagos sziluettű és kevés félreosztályozott objektumot tartalmazó megoldásokat adott. Nyilván az átlagos sziluett tekintetében az OPTSIL, a félreosztályozottak arányát nézve a REMOS volt kicsivel jobb, de mivel ez a két dolog erősen összefügg, elhanyagolható volt a különbség. Amikor azonban a kiindulási osztályozás elég rossz volt, akár véletlenszerű, akkor a REMOS sokkal jobb volt, mint az OPTSIL, mindkét fenti kritérium tekintetében. Ez annak volt köszönhető, hogy az OPTSIL az iteráció során gyakran hamar "megrekedt" lokális optimumokban. A REMOS1 és a REMOS2 között ha volt különbség, akkor mindig az előbbi javára billent a mérleg. A fenti elemzéseket szimulált adatsorokon végeztük. Valós elemzési helyzeteket eljátszva, amikor "jó" osztályozásokból indultunk ki, a diagnosztikus fajok számában nem láttunk szisztematikus különbséget, hol az egyik, hol a másik módszer tűnt jobbnak. Nagy különbség volt azonban a futási időben. A REMOS nagyságrendekkel gyorsabb volt. Pl. míg egy 300 objektumot tartalmazó adatsoron "jó" osztályozásból indítva a REMOS1 századmásodpercek alatt futott le, az OPTSIL esetén ehhez kb. 10 másodperc kellett. Nyilván 10 másodperce mindenkinek van, de a tesztünk végletesen egyszerű volt. A valóságban ezres-tízezres adatsorok és "rosszabb" osztályozások is szerepelhetnek majd, ott pedig az OPTSIL (Dave tapasztalatai alapján) akár napokig vagy hetekig is futhat, míg a REMOS2 percek, a REMOS1 órák alatt is végezhet.
A javaslatunk szerint az OPTSIL akkor jó megoldás, ha (1) kimondottan az átlagos sziluettet akarjuk optimalizálni; (2) van időnk megvárni a programot. Minden más esetben a REMOS a jobb választás.


Abstract
Aims: To introduce REMOS, a new iterative reallocation method (with two variants) for vegetation classification, and to compare its performance with OPTSIL. We test (1) how effectively REMOS and OPTSIL maximize mean silhouette width and minimize the number of negative silhouette widths when run on classifications with different structure; (2) how these three methods differ in runtime with different sample sizes; and (3) if classifications by the three reallocation methods differ in the number of diagnostic species, a surrogate for interpretability.
Study area: Simulation; example data sets from grasslands in Hungary and forests in Wyoming and Utah, USA.
Methods: We classified random subsets of simulated data with the flexible-beta algorithm for different values of beta.  These classifications were subsequently optimized by REMOS and OPTSIL and compared for mean silhouette widths and proportion of negative silhouette widths. Then, we classified three vegetation data sets of different sizes from two to ten clusters, optimized them with the reallocation methods, and compared their runtimes, mean silhouette widths, numbers of negative silhouette widths, and the number of diagnostic species. 
Results: In terms of mean silhouette width, OPTSIL performed the best when the initial classifications already had high mean silhouette width. REMOS algorithms had slightly lower mean silhouette width than what was maximally achievable with OPTSIL but their efficiency was consistent across different initial classifications; thus REMOS was significantly superior to OPTSIL when the initial classification had low mean silhouette width. REMOS resulted in zero or a negligible number of negative silhouette widths across all classifications. OPTSIL performed similarly when the initial classification was effective but could not reach as low proportion of misclassified objects when the initial classification was inefficient. REMOS algorithms were typically more than an order of magnitude faster to calculate than OPTSIL. There was no clear difference between REMOS and OPTSIL in the number of diagnostic species.
Conclusions: REMOS algorithms may be preferable to OPTSIL when (1) the primary objective is to reduce or eliminate negative silhouette widths in a classification, (2) the initial classification has low mean silhouette width, or (3) when the time efficiency of the algorithm is important because of the size of the data set or the high number of clusters.

2018. október 4., csütörtök

Új preprint kézirat az osztályozások validációjáról

A többváltozós osztályozó módszereket rendkívül elterjedten használják, legyen szó vegetációs felvételek, génexpressziós profilok, pszichológiai karakterek vagy talajminták csoportosításáról, hiszen logikailag minden esetben ugyanaz történik: a több jellemzővel leírt objektumokat csoportokba rendezzük úgy, hogy a hasonló objektumok azonos csoportba kerüljenek. Az osztályozás igen fontos lépése, amelyről szerencsére talán egyre kevesebben feledkeznek el, a validáció, vagyis az osztályozás "jóságának" utólagos megítélése. Rengeteg validációs módszer létezik, mind egy kicsit más kritériumok alapján minősíti az objektumok csoportosítását. Az egyik legelterjedtebb validációs index a sziluett index ('silhouette width'), amely minden egyes objektumra megadja, hogy mennyire jól illik a csoportjába. Az értéke -1 és +1 között változik, minél nagyobb, annál jobban illik a csoportba az adott objektum. A 0-hoz közeli értékek kétes besorolást jelentenek, a pozitív értékek jelölik a megfelelően besorolt objektumokat. Ezzel azonosíthatók a csoportok tipikus, átmeneti és kiugró (félreosztályozott) elemei, továbbá az objektumok értékeit csoportonként vagy az egész osztályozásra átlagolva a csoportok, illetve az osztályozás jóságának mutatóit is megkaphatjuk. A sziluett index a hasonló belső variabilitású és kompakt, szférikus alakú csoportokat tekinti jónak, ami nem mindig előnyös, hiszen valós adatsorok esetén a gyakorlati szempontból jól értelmezhető csoportok más alakokat is felvehetnek a változók többdimenziós terében. Munkánkban a sziluett index egy általánosított formuláját mutatjuk be, amelynek szabályozható a kompaktság iránti érzékenysége, így megfelelő beállításokkal elnyújtott alakú csoportokat is jónak fogadhat el.

A sziluett index "viselkedése" különböző beállításokkal három elnyújott csoport esetén. A p paramétert változtatjuk az általánosított formulánkban, a keresztek az objektumok két változó (vízszintes és függőleges tengely) dimenziójában, a bekarikázottakat az index félreosztályozottnak tekinti. MR a félreosztályozottnak tekintett objektumok aránya, MSW az áltagos sziluett index. A p=1 eset a "hagyományos" sziluett index. Látható, hogy a csoportok szélső objektumait, a pontok 11%-át félreosztályozottnak tekinti, míg alacsonyabb p értékekkel ez nem történik meg.

A cikk jelenleg bírálat alatt áll egy folyóiratban, de a szerzői kéziratot már feltöltöttem a bioRxiv nevű preprint szerverre. A preprint publikálás lényege, hogy a felfedezések gyakorlatilag azonnal, még a folyóiratok szakmai bírálata előtt nyilvánossá és hivatkozhatóvá válnak, így megspóroljuk azt a több hónapot, vagy akár évet, ami egy cikk első beküldése és a nyilvános megjelenés között eltelik. A preprint kéziratok szabadon kommentelhetők, folyamatosan javíthatók, viszont utólag nem törölhetők.

A kézirat elérhetősége és összefoglalója:


Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used measure for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. This index uses two clustering criteria, compactness (average within-cluster distances) and separation (average between-cluster distances), which implies that spherical cluster shapes are preferred over others - a property that can be seen as a disadvantage in the presence of clusters with high internal heterogeneity, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness vs. connectedness. With higher sensitivity to connectedness instead of compactness the preference of silhouette width towards spherical clusters is expected to reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by single linkage, group average, and complete linkage algorithms are evaluated, if p is set to different values. When p was negative, well separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness, hence the preference towards spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average and complete linkage seemed better. The generalized silhouette width is a promising tool for assessing clustering quality. It allows for adjusting the contribution of compactness and connectedness criteria to the index value, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.

2018. március 6., kedd

Különös műtermék ordinációban

A lengyel vegetációs adatbázis funkcionális összetételét elemezgettem főkoordináta analízis (PCoA) nevű ordinációval, így kaptam az alábbi, meghökkentő szórásdiagramot. A disszimilaritási index a Pavoine és Ricotta (2014) által közölt Bray-Curtis volt, a fajok közti távolságokat a Gower index gyökével fejeztem ki. A szerintem esztétikus forma mögött bizonyára valamilyen műtermék rejlik, de fogalmam sincs, hogy pontosan mi. Ha az Olvasónak van ötlete, örömmel venném a hozzászólását!

A 3-4. dimenziók nem ilyen látványosak:


2018. március 1., csütörtök

Funkcionális diverzitás, redundancia és egyediség

Ebben a bejegyzésben a lengyelországi kutatásom néhány kulcsfogalmáról írok röviden. Nincs nehéz dolgom, mert Ricotta és mtsai. (2016) nem rég közöltek egy kiváló elméleti áttekintést, amelyben egymásból kifejezhetően, matematikailag definiálták a címben szereplőket, az ő munkájukra alapozom az írásom. A képletek közül csak a legszükségesebbeket említem, a többi olvasható a cikkben. (A cikk szerzői verziója elérhető a Researchgate-en.)

A közösségek diverzitása sokféleképpen számszerűsíthető

A kiindulási helyzet, hogy van egy közösségünk, amit élőlények egyedei alkotnak. Az egyedek besorolhatók valamilyen kategóriákba, jellemzően fajokba, de technikailag semmilyen nehézséget nem jelentene korcsoportok, ivarok, vagy a fajitól eltérő rendszertani egységek szerint csoportosítani őket. Az egyszerűség kedvéért a továbbiakban mindig fajokról fogok írni. A célunk az, hogy a közösség sokféleségét számszerűsítsük, először egyszerűbben, majd lépésről lépésre felmerülő újabb problémák során egyre jobban koncentrálva apróbb részletekre.

A legegyszerűbb módszer a fajok száma (jelöljük N-el) - ez azonban sajnos nem mond semmit arról, hogy a fajok tömegességei hogyan viszonyulnak egymáshoz. Egy korábbi bejegyzésben erről a problémakörről már írtam, most csak a Simpson diverzitást említem, amely annak a valószínűségét adja meg, hogy a közösségben véletlenszerűen kiválasztott két egyed ugyanahhoz a fajhoz tartozik. Ez az index már figyelembe veszi a tömegesség arányait. Mivel a faji szintű egyezés valószínűsége ellentétes skálázású az intuitív diverzitásfogalmunkkal (a diverzebb közösség alacsonyabb értéket kap, az egyneműbb magasabbat), gyakran 1-D formában alkalmazzák, amelynek neve Gini-Simpson index, és annak az esélyét mutatja, hogy a két random egyed külön fajokhoz tartozik. Figyelem! Ricottáék a cikkükben valójában a Gini-Simpson indexet jelölik D-vel, és a könnyebb érthetőség miatt most én is ezt a gyakorlatot követem. Tehát esetünkben D annak a valószínűsége, hogy két random egyed különböző fajokhoz tartozik.

Fiatal akácos, az aljnövényzetben egyeduralkodó pelyhes selyemperjével (Hierochloe repens) - a közösség diverzitása sok szempontból alacsony

A fentiekben a fajokat egymástól maximálisan különbözőnek tekintettük. Érezhetjük azonban, hogy nem azonos két közösség diverzitása, ha az egyiket pl. csak évelő pázsitfűfajok, a másikat különböző virággal, levélzettel, életformával rendelkező zárvatermők alkotnak, noha a fajok száma és tömegességi eloszlása megegyezik. A fajok "milyenségének" figyelembe vétele jelentős többletinformációhoz juttat minket az ökoszisztémák működésének vizsgálatakor, hiszen az élőlények tulajdonságai (jellegei, traitjei) határozzák meg, hogy hogyan élnek, milyen forrásokat használnak, tápanyagot fogyasztanak, hogyan alakítják át saját környezetüket, milyen melléktermékeket állítanak elő, vagyis milyen funkciót látnak el az ökoszisztémában - ez a funkcionális ökológia alapelve. Jellegadatok vagy filogenetikai rokonság alapján lehetőségünk van arra, hogy a fajpárok különbözőségét finomabb skálán fejezzük ki. Ha a teljesen azonos fajok között a disszimilaritást 0-val, a teljesen különbözők között 1-el, az átmeneteket pedig a köztes értékekkel írjuk le, akkor a Rao-féle kvadratikus entrópia (Q) nagy segítségünkre lehet a diverzitás kvantifikálásában. A Q lényegében két véletlenszerűen választott egyed várható különbözősége, és ha a fajokat maximálisan eltérőnek tekintjük (vagyis a fajok közti disszimilaritás értéke minden fajpárra 1), akkor az értéke megegyezik a Gini-Simpsonéval. A Rao entrópia maximuma tehát a Gini-Simpson index (D), és minél jobban különböznek a fajok egymástól (minél közelebb vannak a disszimilaritások 1-hez), annál jobban közelíti az előbbi az utóbbit. E két mennyiség aránya szintén egy ökológiailag értelmes fogalmat számszerűsít. Q/D azt fejezi ki, hogy mekkora a Rao entrópia a Gini-Simpsonhoz képest, más szavakkal, a fajok közti különbözőség figyelembe vétele mekkora arányban csökkenti a Gini-Simpson diverzitást. Tulajdonképpen ez nem más, mint annak a kifejezése, hogy a fajok átlagosan mennyire "egyediek" a közösségen belül - Ricottáék ezért funkcionális egyediségnek (unikalitás, uniqueness) nevezték ezt a mértéket, és U-val jelölték. Az U értéke 0 és 1 között változik. Ha a fajok azonos tömegességgel vannak jelen, akkor az U=Q/D hányados egyenlő a fajok közti átlagos disszimilaritással. Egy nagy átlagos egyediségű közösségben a fajok nagyon különböznek, míg alacsony egyediségnél a fajok nagyon hasonlóak. A funkcionális redundancia (R) intuitív jelentése pedig, hogy a közösség fajai átfednek funkció (vagyis az azt reprezentáló jellegek) tekintetében. Minél hasonlóbb fajok alkotnak egy közösséget, annál nagyobb a redundancia. A funkcionálisan redundáns közösségek ellenállóbbak, mert a fajok át tudják venni egymás szerepét, hogyha valamelyik állománya meggyengül, vagy akár el is pusztul. A fenti mennyiségeket felhasználva könnyen definiálható: R=1-U, vagyis a redundancia és az egyediség egymást kiegészítő mennyiségek.

A madárfészek-kosbor (Neottia nidus-avis) egy jellegzetes, nem gyakori jellegkombinációt testesít meg:
mikotróf holoparazita kosborféle

Ricottáék a cikkükben foglalkoznak még egy gyakorta feszegetett mennyiséggel, amit funkcionális sérülékenységnek (V) nevezünk. Egy közösség akkor nevezhető funkcionálisan sérülékenynek, ha könnyen elveszíthet olyan fajokat, amelyek funkcionálisan egyediek, tehát nincs a közösségben olyan másik faj, amely hasonló szerepet láthatna el. Ha egy ilyen faj kihal a közösségből, akkor nincs, ami átvegye a szerepét, így a faj által betöltött ökoszisztéma funkció elvész. A (lokális) kihalás esélye a faj relatív gyakoriságával fordítottan arányos, hiszen egyedek véletlenszerű elpusztulását feltételezve a ritka faj előbb fog kihalni, mint a gyakori. Egy faj sérülékenysége tehát két tényező függvénye: a relatív gyakoriságé és a többi fajtól való funkcionális elkülönülésé. Ha a sérülékenységet az összes fajra összegezzük, akkor a Rao entrópiát kapjuk. A Q tehát a közösségi szintű funkcionális sérülékenység mérőszáma is egyben, amelyhez minden faj hozzájárul a rá jellemző V-vel. A funkcionális diverzitás és a sérülékenység algebrai azonossága arra mutat rá, hogy minél sokszínűbb egy közösség, annál könnyebb benne olyan változást előidézni, amely megváltoztathatja a működését. Ez annak is köszönhető, hogy a diverzebb közösségek "multifunkcionálisak": a különböző tulajdonságokkal rendelkező fajok többféle funkció ellátására képesek azonos közösségen belül. A funkcionális sérülékenység/diverzitás és az egyediség között az a különbség, hogy az előbbi egy abszolút skálán értelmezett mennyiség, míg az egyediséget mindig az adott közösség fajabundancia-eloszlásához mérten számoljuk, 0 és 1 közötti standardizált tartományon. Ez azt jelenti, hogy magas Q esetén az egyediség nem lehet nagyon alacsony, míg alacsony Q esetén lehet magas az egyediség. A funkcionális diverzitás/sérülékenység tehát alsó határt szab az unikalitásnak. Hogy mindez a valóságban mit jelent, azt a következő ábra mutatja.

A fajszám, a Gini-Simpson index, a Rao entrópia és a funkcionális egyediség értékeit láthatjuk egymás függvényében egy eredeti adatok alapján randomizált adatsoron. A felvételek a lengyel vegetációs adatbázisból származnak, a jellegadatok a LEDA-ból és a CLOPLA-ból, viszont a fajneveket véletlenszerűen összekevertem, így a jellegadatok nem függenek össze a fajkompozícióval.

A fajszám (N), a Gini-Simpson diverzitás (D), a Rao entrópia (Q) és az unikalitás (U) összefüggése egy adatsoron


N és D összefüggése exponenciális, ebbe a jellegadatok nem "zavarnak" be. Kevésbé szép függvénykép szerint, Q nő a D-vel, D és U között nincs összefüggés. Q és U erősen korrelálnak, s láthatjuk, hogy a pontfelhőből inkább a magasabb U értékek felé szóródnak kiugró pontok, míg az U alacsonyabb értékei irányában "éles" határa van a felhőnek - a határon túlra a fentebb tárgyalt korlátozási okokból nem eshetnek pontok. Érdekes továbbá, hogy a fajszám és a Rao diverzitás, valamint a fajszám és az egyediség legalább részben unimodális összefüggést mutatnak. Alacsony fajszám esetén a Rao diverzitás is alacsony, de ahogy N nő, Q maximuma meredeken növekszik egy értékig, amit további fajok "hozzáadásával" sem lép túl, sőt, enyhén csökkenhet azután. Ez az összefüggés egy ismert "műtermék". Ha túl kevés traitet veszünk figyelembe, akkor bizonyos számú fajnál "tetőzik" a funkcionális diverzitás, és a további fajok hozzáadásakor már csak olyan fajok kerülnek a közösségbe, amelyek a már ott lévőktől nem különböznek jelentősen (a Q maximuma még csökkenhet is). Minél több korrelálatlan traitet veszünk figyelembe, ez a tetőzés annál később következik be, hiszen a korlátozott hasonlóság elve szerint csak olyan fajok tudnak tartósan együtt élni, amelyek eléggé különböző forrásokat használnak, ezzel párhuzamosan eléggé különböző funkciót látnak el, hiszen egyébként a kompetitív kizárás miatt a gyengébbik kihal. Egy meglévő közösségbe tehát csak akkor tud egy újabb faj betelepülni, ha az eléggé különbözik a már ott lévőktől. Adott számú traitet figyelembe véve azonban nem növelhető a végtelenségig az "eléggé különböző" fajok száma, az új fajoknak mindig újabb és újabb jelleg tekintetében kellene eltérniük a kellő fokú különbözőség eléréséhez. Pontosabban, ha a fenti tetőzést tapasztaljuk az adatsorunkon, akkor valószínűleg túl kevés traitet vettünk figyelembe ahhoz, hogy a közösség társulási szabályainak teljességét megértsük. A funkcionális egyediségnek pedig a szórása mutat trendet, hiszen minél nagyobb a fajszám, annál kevésbé szór U. Kis fajszám esetén a közösség átlagos egyedisége változó, hiszen ha a fajokat véletlenszerűen választottuk, néha nagyon különböző, néha nagyon hasonló fajok kerültek a közösségbe. Minél több faj alkotja a közösséget, az U egyre kisebb szórással közelít egy átlagértékhez a véletlen okozta sztochaszticitás csökkenése miatt.

A fenti mutatók R-ben könnyedén kiszámolhatók az eredeti cikkhez mellékelt R kódokkal.

2018. január 22., hétfő

Az adattranszformáció és a csoportszám megválasztásának hatása az osztályozás jóságára - új cikk a Journal of Vegetation Science-ben

A numerikus vegetáció-osztályozás során meghozott módszertani döntések meghatározzák, hogy milyen eredményt kapunk az elemzés végén, és abból milyen következtetéseket vonunk le. Online már elérhető az a cikkünk a Journal of Vegetation Science folyóiratban, amelyben azt mutatjuk be, hogyan változik az osztályozások stabilitása, ha az abundancia-transzformáció módját és a csoportszámot változtatjuk. A jelenség illusztrálására különböző valós és szimulált adatsorokat használtunk. A módszertani döntések és a stabilitás összefüggését kétdimenziós "hőtérképeken" mutatjuk be, ahol az abundancia-transzformáció egy paramétere jelenti az egyik, a csoportszám a másik tengelyt, a kettő metszetében lévő cellák színe pedig a stabilitás mértékét. A legstabilabb osztályozást adó csoportszám változhat az adattranszformáció módjával, és ez elsősorban monodomináns felvételek alkotta vegetációtípusokban (pl. mocsári növényzetben) várható. Ha egyformán indokolható választásnak tartunk többféle adattranszformációs módszert és/vagy csoportszámot, akkor érdemes e két döntés minden értelmes kombinációjában lefuttatni az osztályozást, és valamilyen erre való (validitási) indexszel kiválasztani a legjobbat. Az elemzés R kódja elérhető a cikk mellékleteként, és remélhetőleg hamarosan a Juice szoftverben is helyet kap.

A mocsári adatsorunk esetén minél nagyobb súlyt kaptak a tömegességbeli különbségek, annál magasabb volt az osztályozások stabilitása, és annál magasabb volt a legstabilabb osztályozás csoportszáma


Abstract
Question: Is it possible to determine which combination of cluster number and taxon abundance transformation would produce the most effective classification of vegetation data? What is the effect of changing cluster number and taxon abundance weighting (applied simultaneously) on the stability and biological interpretation of vegetation classifications?
Locality: Europe, Western Australia, simulated data.
Methods: Real data sets representing Hungarian submontane grasslands, European wetlands, and Western Australian kwongan vegetation, as well as simulated data sets were used. The data sets were classified using the partitioning around medoids method. We generated classification solutions by gradually changing the transformation exponent applied to the species projected covers and the number of clusters. The effectiveness of each classification was assessed by a stability index. This index is based on bootstrap resampling of the original data set with subsequent elimination of duplicates. The vegetation types delimited by the most stable classification were compared with other classifications obtained at local maxima of the stability values. The effect of changing the transformation power exponent on the number of clusters, indexed according to their stability, was evaluated.
Results: The optimal number of clusters varied with the power exponent in all cases, both with real and simulated data sets. With the real data sets, optimal cluster numbers obtained with different data transformations recovered interpretable biological patterns. Using the simulated data, the optima of stability values identified the simulated number of clusters correctly in most cases.
Conclusions: With changing the settings of data transformation and the number of clusters, classifications of different stability can be produced. Highly stable classifications can be obtained from different settings for cluster number and data transformation. Despite similarly high stability, such classifications may reveal contrasting biological patterns, thus suggesting different interpretations. We suggest testing a wide range of available combinations to find the parameters resulting in the most effective classifications.


2017. december 19., kedd

"Te hiszel a statisztikában?"

A fenti kérdést egy másik tanszéken dolgozó kolléga szegezte nekem múltkor, az első találkozásunkkor. De vajon igaz, hogy a statisztika hit kérdése? Hogy lehet benne hinni, meg nem hinni, de mintha nem lenne igazán logikus érv mellette? Hogy a statisztika egyfajta vallás, a statisztikusok pedig voltaképpen sámánok, akik különféle csodaszereket kínálgatnak az olyan "jól bevált" eszközök helyett, mint a tapasztalati tudás, az intuíció vagy a híres "józan paraszti ész"?

Erről szó sincs. Valójában minden kutató, aki sokaságokat hasonlít össze, jóslatokba bocsátkozik egy folyamat kimeneteléről, összefüggések erősségéről nyilatkozik, röviden: kvantitatív jellegű kérdéseket feszeget, szükségszerűen statisztikát használ, tulajdonképpen modellez. Csak nem feltétlenül számítógépen, hanem fejben. Sőt, minden ember modellez. Ha megkérdezik, hogy az "A" zöldségesnél nagyobbak a dinnyék, vagy a "B"-nél, akkor a kínálatra ránézve, mérés nélkül is arra gondolunk, hogy mekkora lehet az átlag az egyik és a másik zöldségesnél, és az átlag körül mennyire szórnak az egyes dinnyék (mennyire térnek el az átlagtól az egyes darabok), mekkora az átfedés a kettő között. Ugyanez történik a t-próbánál, több zöldséges esetén az ANOVA-nál. Ha fontos kérdés, hogy "jelentősen" nagyobbak a dinnyék A-nál, mint B-nél, akkor kell egy referenciaérték, amely a "jelentős" és a "nem jelentős" közti különbség határvonala. Ez a referencia sokféleképpen kitűzhető, de a leggyakoribb eset, hogy ha nagyobb (persze, mennyivel?) a különbség két zöldséges között, mint hogyha a dinnyéket véletlenszerűen osztottuk volna szét közöttük, akkor a különbség "jelentős" ("szignifikáns"). De ennél többet is megtudhatunk a zöldségesek dinnyeforgalmazásáról, ha figyelembe vesszük, mondjuk azt, hogy igaz, hogy az "A"-nál kisebbek a dinnyék, viszont az régebb óta van nyitva, tehát lehet, hogy az "A"-ból a vásárlók már elvitték a nagyokat, ez okozza a különbséget. Erre szépen fel lehet írni egy modellt: a vásárlók egységnyi idő alatt n dinnyét vesznek meg, a dinnye megvásárlási valószínűsége a méretével arányos, "A" zöldséges t1 ideje van nyitva, "B" zöldséges t2 ideje, t1>t2, feltételezzük, hogy nyitáskor nem volt köztük semmi más különbség. Amit meg akarunk jósolni vagy magyarázni, az a dinnyék átlagos mérete közötti különbség a zöldségesek között. Ha a modellünk helyes, akkor a modell kimenete (egy jósolt vagy valószínűsített dinnyeméret-eltérés "A" és "B" átlaga között) jól közelíti a valóságot, ha nem helyes, akkor távol áll attól. Vegyük észre, hogy ezt fejben pontosan így csináljuk a faék egyszerűségű, hétköznapi kérdésekben, csak annyira természetes számunkra, hogy nem tudatosul bennünk, hogy modellezünk! A modellezés (és úgy általában, a statisztika) nem más, mint a gondolkodásunk formalizálása, mások számára egyértelművé tétele egy közös nyelv, a matematika segítségével. A modell egy feltételezés egy jelenség hátterében álló mechanizmusról. Egy hipotézis, amit elfogadhatok, ha az adatok alátámasztják, és elvethetek, ha nem támasztják alá eléggé. A modell megalkotásához kulcsfontosságú a vizsgált jelenség (pl. a szóban forgó zöldségesek) beható ismerete. És itt van a tapasztalati tudás szerepe: tudni kell, hogy egyáltalán mely tényezőkkel érdemes számolni. Van-e egyáltalán esély arra, hogy a beszállító kiléte, a nyitvatartási idő vagy a vasárlói preferencia magyarázza meg a két zöldséges közti különbséget, és nem a névválasztásuk, az eladó külleme vagy a szakmai múltja? A tapasztalati tudás és a modellezés tehát kéz a kézben jár. Az előbbi nélkül nem lehet értelmes modelleket gyártani, értelmes modellek azonban szükségesek a jelenségek mechanizmusának megértéséhez és az előrejelzéshez. Az, aki "nem hisz" a statisztikában, valójában nem tudja használni. Természetesen nem kell minden kutatónak statisztika-gurunak lenni, de aki kvantitatív kérdéseket feszeget, az lehetőleg annyira sajátítsa el a statisztika nyelvét, hogy a hipotézisét meg tudja fogalmazni, le tudja írni a vizsgálat változóit és objektumait, majd az elemzést egy hozzáértőre bízva az eredményeket tudja értelmezni. Fontos tudni, hogy a statisztikai módszerek eszközök, amik nem válaszolják meg helyettünk a problémáinkat, ahogy a kalapács sem veri be magától a szöget. Tudni kell jól kérdezni, a kérdéshez megfelelő módszert kell választani, és az eredményeket helyesen kell értelmezni - legalább 1-1 személynek a kutatás résztvevői közül.

A statisztika nem csak azok számára tűnik fel a mágia szerepében, akik szkeptikus tartózkodással viseltetnek iránta, hanem azok számára is, akik hajlamosak az elemzések eredményeit abszolutizálni. Ők nem kívülállóként, hanem követőként viszonyulnak a valláshoz. Ennek a tünete, amikor elfeledkeznek a statisztikai módszerek korlátairól. Egy valós biológiai kérdés megválaszolására gyakran több alternatív módszer kínálkozik, némelyek egyformán indokolható választásnak tűnnek, de mégis eltérő eredményt adnak. A kutató szubjektív döntése, hogy melyik módszert választja, de ennek a döntésnek hatása lesz az eredményre, így a belőle levont következtetésre is. A statisztikai elemzések eredménye tehát módszerfüggő. Ha a kutatási kérdésünket minél több különböző módszerrel próbáljuk megválaszolni, akkor árnyaltabb képet kapunk az adatsorunkról, illetve a vizsgált jelenségről, a téves következtetés esélyét pedig csökkentjük. Különösen hatékonyan járhatunk el, ha a módszerünket kis lépésekben változtatjuk, és figyeljük, hogy ez milyen változást okoz az eredményekben. Ez történik például akkor, amikor egy osztályozási probléma esetén növekvő csoportszámú klasszifikációkat gyártunk, és figyeljük, hogy az egyre finomabb felbontás milyen mintázatokat fed fel az adatsorunkból. Vagy amikor bonyolult kiindulási modellből lépésről lépésre kihagyjuk a jelentéktelen hatású tényezőket, míg el nem jutunk addig, hogy a modellünk már csak a valóban fontos változókat tartalmazza. Gyakran maga a minta is magán hordoz olyan sajátosságokat, amelyek miatt nem tudható pontosan, hogy az eredmények mennyire általánosíthatók. Pl. vajon ugyanazt a jelenséget mérem-e, ha egy kiskunsági homokpusztagyepen és egy mátrai hegyi réten vizsgálom a fajgazdagság és a biomassza összefüggését? A konklúziónk soha nem választható el teljesen sem a mintától, sem az alkalmazott módszerektől.

Ne felejtsük el tehát, hogy a statisztikai módszerek eszközök. Nem lehet velük csodát tenni, nem oldanak meg helyettünk problémákat intelligens módon, nem találják ki a gondolatainkat, de kellő hozzáértés birtokában eredményesen alkalmazhatók hipotézisek formális tesztelésére, kvantitatív mintázatok felfedésére.
A fenti témában ajánlom Juhász-Nagy Páltól a Beszélgetések az ökológiáról című könyvet.

2016. október 26., szerda

A sokféleség igazi mértékegysége: az effektív fajszám

Az elmúlt időben kicsit mélyebbre ástam a diverzitási indexek bőséges módszertani irodalmában. Az újabb cikkekben többfelé találkoztam a Hill-számokkal, amelyek a közösségek sokféleségét az elterjedten használt entrópiáknál sokkal érthetőbben fejezik ki. Meglepő, hogy ehhez képest esettanulmányokban ritkán látom, hogy használnák. Ez a bejegyzés azoknak szól, akik diverzitási elemzéseket terveznek, és jobb ötlet híján a Shannon-entrópia vagy a Simpson-index segítségével szeretnék összehasonlítani mintaegységeiket. Az elején röviden ismertetem, a Shannon-, a Simpson- és a Rényi-indexeket, majd rátérek a Hill-számokra, a végén pedig egy roppant egyszerű kódban bemutatom a számolásra alkalmas R-es függvényeket, illetve illusztrálom a mutatók közti összefüggést.

A közösségek diverzitásának kifejezésére számos mutató áll rendelkezésre. A legközismertebbek a fajszám, a Shannon-entrópia (=Shannon-diverzitás, Shannon-Weaver-index, Shannon-Wiener-index) és a Simpson-index - ezekkel bármelyik hazai ökológia tankönyvben találkozhatunk. A fajszám nem szorul bőséges magyarázatra - azoknak a fajoknak a száma, amelyek a közösséget alkotják. A másik két index a jelenlét-hiány adatokon túl a fajok tömegességét is figyelembe veszi. A Shannon-entrópia képlete a következő:

H = -Σi pi × ln(pi)

ahol pi az i-dik faj relatív abundanciája (Σi pi = 1). A Shannon-index azt a bizonytalanságot számszerűsíti, amely egy véletlenszerűen választott egyed faji hovatartozásának megjóslásakor fennáll. Ha a közösséget egyetlen faj alkotja, akkor az értéke nulla, hiszen ilyenkor bármely egyed faji besorolása egyértelmű. Ha egy közösséget egyformán tömeges fajok alkotnak, akkor a Shannon-diverzitás értéke a fajszámtól függ - minél több a faj, annál magasabb. Azonos fajszámú közösségek között pedig annak nagyobb az entrópiája, amelyikben a fajok relatív tömegességei kevésbé szórnak.

A Simpson-index képlete:

λ = Σi pi2

A Simpson-index annak a valószínűségét adja meg, hogy egy közösségből kiválasztott két egyed ugyanahhoz a fajhoz tartozik. Ha a közösséget egyetlen faj alkotja, akkor λ = 1. Minél több, azonos tömegességű faj alkotja a közösséget, λ annál jobban közelíti felülről a nullát. Mivel könnyebben kezelhető egy olyan index, amelynek alacsony értéke kicsi diverzitást, magas értéke nagy diverzitást jelent, az eredeti helyett gyakran használják az inverz Simpson- (1/λ) vagy a Gini-Simpson-indexet (1-λ).

A fenti mutatók a fajok tömegességeit más és más súllyal veszik figyelembe, így ha eltérő abundanciaeloszlású közösségeket akarunk diverzitásuk szerint sorba rendezni, akkor könnyen egymásnak ellentmondó sorrendeket kaphatunk velük. Elegáns és hasznos eszköz lenne egy olyan index, amely magában foglal egy skálaparamétert, amely változtatásával elérhetők a tömegességek szerinti súlyozás különböző módjai, de a kapott számok logikai rendje mégis érthető marad. Ez válik lehetővé a Rényi-entrópiával, amely a Shannon-entrópia általánosítása. Van egy q paramétere, amelyet változtatva olyan entrópiák számolhatók ki, amelyekben a fajok tömegességei különböző súllyal jutnak érvényre:

qH = 1/(1-q) × ln(Σi piq)

q értéke minimum 0. Ha q = 0, akkor a fajok tömegességei nem számítanak, akár csak a fajszám kiszámolásakor. q = 1-nél, qH -nak határértéke van, amely a Shannon-diverzitással egyenlő. q = 2 esetén pedig az inverz Simpson-index logaritmusát kapjuk. Minél nagyobb a q, annál jobban számítanak a fajok tömegességei közti különbségek. Ha q végtelen, akkor a Rényi-entrópia a legtömegesebb faj relatív abundanciáját tükrözi. A Rényi-entrópiát úgy szokás használni, hogy q különböző értékeire (de minimum a nevezetesekre: 0, 1, 2) kiszámoljuk, és ábrázoljuk qH-t q függvényeként. Két közösség közül az a diverzebb, amelyiknek magasabban fut a görbéje. Ha a két görbe metszi egymást, akkor a közösségek nem rendezhetők diverzitásuk szerint.

Ez mind szép és jó, de ha megtudjuk, hogy egy közösségre 3H = 2,1, az intuitíve nem sok információt jelent, kell némi gyakorlat vagy töprengés, hogy tudjuk, igazából milyen diverzitású közösséget kell magunk elé képzelnünk. Sajnos az entrópiák nem lineárisan változnak az intuitív diverzitásfogalmunkkal. Ezt az alábbi példával tehetjük nyilvánvalóvá. Van egy közösségünk, amelyet 3 egyformán tömeges faj alkot. Ilyenkor qH = 1,099 bármely q-ra. Tegyünk hozzá még 3, ugyanilyen tömeges fajt ehhez a közösséghez! (Figyeljük meg, hogy ilyenkor a relatív gyakoriságok a felükre csökkennek, hiszen a fajok abszolút egyedszámai nem változnak, míg az összegyedszám kétszeresére nő!) Az eredmény qH = 1,792 bármely q-ra. Hiába kétszereztük meg a fajszámot, az index értéke nem nőtt a kétszeresére - ez szembemegy a várakozásunkkal.

A megoldást a Hill-számok jelentik, amelyek a Rényi-diverzitás exponensével egyenlők:

qD = (Σi piq)1/(1-q) = exp(qH)

A Hill-számok az összes előnyös tulajdonsággal bírnak, amivel a Rényi-entrópia, csak könnyebb őket értelmezni. A q paraméter használata is megegyezik azzal, amit utóbbinál láttunk. A qD Hill-számú (ún. q-ad rendű diverzitású) közösség annyira diverz, mint egy olyan hipotetikus közösség, amelyet qD egyforma abundanciájú faj alkot. qD ezért effektív fajszámként vagy fajszám-ekvivalensként értelmezhető. Ezt a fenti példa egyszerűen igazolja, hiszen exp(1,099) = 3,00 és exp(1,792) = 6,00. Az ökológusok az ekvivalens fajszámot "igazi diverzitásnak" ('true diversity') is nevezik. Az Ecology folyóirat 91/7 számában, 2010-ben, jelentek meg fórumcikkek a diverzitás alfa, béta és gamma komponensekre történő felosztásáról. A neves szerzők nem mindenben, de abban megegyeztek, hogy ezt érdemes az effektív fajszámok alapján végezni. Én is roppantul előremutatónak tartom, hogy a diverzitási számolásokat a Shannon-, a Simpson- és a Rényi-indexek helyett Hill-számok formájában adjuk meg, és ezzel tekintsük az effektív fajszámot a diverzitás mértékegységének.

Lássuk, hogyan érjük el ezt az R szoftver segítségével! A fajszámot a vegan csomag specnumber(), a Shannon- és (inverz) Simpson-indexeket a diversity(), a Rényi-entrópiát és a Hill-diverzitást a renyi() parancsa számolja ki.

Megnyitjuk a vegan csomagot:
> require(vegan)    

Az adatsorunk egy múlt heti madárgyűrűzésem során fogott fajok egyedeiből áll (EMBSCH = nádi sármány, PHYCOL = csilpcsalpfüzike, PARCAE = kék cinege, PARMAJ = széncinege):
> community<-c(6,3,2,1)
> names(community)<-c("EMBSCH","PHYCOL","PARCAE","PARMAJ")
> community
EMBSCH PHYCOL PARCAE PARMAJ 
     6      3      2      1 

Kiszámoljuk a fajszámot...
> specnumber(community)
[1] 4

majd a Shannon- és az inverz Simpson-indexet:
> diversity(community,index="shannon")
[1] 1.198849
> diversity(community,index="invsimpson")
[1] 2.88

Az 4-es fajszám érthető, a többi elsőre nem sokat mond. Jöjjön a Rényi-entrópia! A q értékét a scales paraméternél kell megadni, a hill paraméterrel pedig beállíthatjuk, hogy Rényi-entrópia vagy Hill-számok formájában kérjük-e az eredményt:
> renyi(community, scales=c(0,1,2), hill=F)
       0        1        2 
1.386294 1.198849 1.057790 
attr(,"class")
[1] "renyi"   "numeric"

Vegyük észre, ahogy a Rényi-entrópia a skálaparaméter 0 értékére nem a fajszámot adta, hanem annak a logaritmusát:
> log(specnumber(community))
[1] 1.386294

A skálaparaméter 1-es értéke a Shannon-indexet adja, a 2-es pedig az inverz Simpson logaritmusát:
> log(diversity(community,index="invsimpson"))
[1] 1.05779

Nézzük meg most az effektív fajszámokat (ezúttal több q értékre)!
> q<-c(0,1,2,3,5,10)
> qD<-renyi(community, scales=q, hill=T); qD
       0        1        2        3        5       10 
4.000000 3.316299 2.880000 2.618615 2.357766 2.159881 
attr(,"class")
[1] "renyi"   "numeric"

A 0-ad rendű effektív fajszám (a skálaparaméter 0) maga a fajszám. q = 1 esetén a Shannon-index exponensét kaptuk:
> exp(diversity(community,index="shannon"))
[1] 3.316299

A fenti szám azt jelenti, hogy a példaközösség annyira diverz az abundanciák q = 1-es súlyozású figyelembevétele esetén, mint egy olyan közösség, amelyet 3,3163 egyformán tömeges faj alkot. Természetesen ilyen a valóságban nincs, hiszen a fajszám csak egész szám lehet, ezért fogjuk fel úgy, hogy diverzebb, mint egy 3 faj alkotta közösség, de nem olyan diverz, mint egy 4 fajos. q = 2-nél az inverz Simpsont kaptuk meg, amely 2,880-fajú, egyenletes abundanciaeloszlású, képzeletbeli közösségével azonos érték.

Tegyük fel, hogy van egy másik közösségünk is, amelyben a fajok egyedszámai közt nincs ekkora különbség, viszont a fajszám kisebb:
> community2<-c(5,4,3)
> names(community2)<-c("EMBSCH","PHYCOL","PARCAE")
> community2
EMBSCH PHYCOL PARCAE 
     5      4      3 

Számoljuk ki az effektív fajszámokat az előzőhöz hasonlóan a második közösségre!
> qD2<-renyi(community2, scales=q, hill=T); qD2
       0        1        2        3        5       10 
3.000000 2.937493 2.880000 2.828427 2.743538 2.613801 
attr(,"class")
[1] "renyi"   "numeric"

Most pedig ábrázoljuk mindkét közösség effektív fajszámait a q függvényében!
> plot(NA, type='b', xlab='q', ylab='qD', xlim=c(0,10), ylim=c(1,4))
> points(qD~q, type='b', col='blue', lwd=2)
> points(qD2~q, type='b', col='red', lwd=2)


Az ábrán az látható, hogy q alacsony értékeinél az első közösség (kék) diverzitása a magasabb, q magasabb értékeinél viszont a másodiké (piros). Ez érthető, hiszen az első közösséget 4 faj alkotta, a másodikat 3, viszont a második közösség fajainak egyedszámai közt kisebb különbségek voltak. Mivel a két közösség görbéjének van metszéspontja (q = 2), sokféleség szempontjából nem rendezhetők, nem mondható meg abszolút értelemben, hogy melyiknek nagyobb a diverzitása.

Az effektív fajszámokon alapuló diverzitásszámolás irodalma bőséges és szövevényes. Az alapcikk Hill (1973), de Jost (2006) cikkéből legalább olyan jól megérthető a lényeg. Lou Jostnak van egy nagyon jó honlapja, amin alapos és érthető bevezető olvasható a diverzitásszámolásokhoz, köztük egy fejezettel az effektív fajszámról. Ebben a blogbejegyzésben van egy R-es példa, amely az entrópia nem-lineáris és a Hill-számok lineáris fajszám-függését mutatja be.

2016. május 12., csütörtök

Osztályozások jóságának mérése, és egy új prediktív módszer

A bejegyzés lényegét adó élményem megosztását egy rövid elméleti bevezetővel kezdem.

Amikor élő közösségeket reprezentáló mintavételi egységeket osztályozunk fajösszetételük vagy a fajok tömegességei alapján, szükségszerűen szembesülünk a kérdéssel, hogy az elkészült osztályozás (elég) "jó"-e? Hűen tükrözi-e a közösségek mintázatát? Élesen elkülönülő, biológiailag azonosítható típusokat különít-e el? Előzetes megfontolások alapján egyformán indokolható és elfogadható, de különböző számításmenetű módszerekkel készített, nem egyező osztályozások közül melyik a "legjobb"? Az osztályozások jóságának megítélésére rengeteg módszer létezik, elég csak belepillantanunk Milligan & Cooper (1985)Aho et al. (2008), Tichý et al. (2010), Vendramin et al. (2010) cikkeibe, vagy a témavezetőm, Botta-Dukát Zoltán akadémiai doktori értekezésébe. A módszereket az alábbi csoportokba sorolhatjuk:

1. "Külső" (external) módszerek: az osztályozás jóságának megítélése olyan változók segítségével történik, amelyek nem vettek részt az osztályozás elkészítésében. Ez olyan esetekben merül fel, amikor van egy előzetes várakozásunk arról, hogy az osztályozásnak milyen mintázatot kellene felfedni. Például ha a növényzeti mintáink különböző talaj pH-jú élőhelyekről származnak, és a mintaegységeket a fajösszetételük alapján osztályoztuk, kíváncsiak lehetünk, hogy a növényzeti adatokból képzett osztályozás mennyire jól tükrözi a talajkémhatás szerinti különbségeket. Mivel a pH nem szerepelt a csoportképzésben, "külső" változóként használjuk. Vagy ha erdőkben vettünk fel mintaegységeket, majd a lombkoronaszint fajai alapján osztályoztuk őket, megvizsgálhatjuk, hogy mennyire esik egybe az osztályozás az aljnövényzet fajai alapján kapott osztályozással. Itt az aljnövényzet szerepel "külső" változóként (már amennyiben azt tekintjük referenciának).

2. "Belső" (internal) módszerek: az osztályozást az elkészítéséhez felhasznált változók segítségével értékeljük. Két altípusa van:

2a. Geometriai módszerek: ezeknél az osztályozást a mintavételi egységek közti távolságot vagy disszimilaritást kifejező mérőszámok bevonásával értékeljük. Például úgy, hogy kiszámoljuk az egy csoportba tartozó felvételpárok közti és a különböző csoportokba tartozó felvételek párjai közti disszimilaritások arányát, hiszen a "jó" osztályozás esetén az egy csoportba tartozó felvételek kevésbé térnek el egymástól, mint a különböző csoportokba tartozók. A "geometriai" szó annyit jelent ebben az esetben, hogy azt vizsgáljuk, hogy a felvételek közti disszimilaritásokat távolságként leképező, sokdimenziós térben a csoportok milyen alakzatokat vesznek fel, mennyire válnak el egymástól. Az osztályozáshoz felhasznált változók (pl. fajok tömegességei) csak közvetve, a mintaegységek közti disszimilaritások kiszámolásakor szerepelnek az elemzésben.

2b. Nem-geometriai módszerek: itt közvetlenül a fajok mintázatai alapján értékelünk. Például azzal a feltételezéssel élünk, hogy akkor jó egy osztályozás, ha a csoportoknak sok karakterfajuk van. Ebben az esetben a magas fidelitásértékű fajok száma lesz a csoportjóság mérőszáma, több osztályozást összehasonlítva azt tekintjük a legjobbnak, amelyiknél a karakterfajok száma a legmagasabb.

Ennyi az elmélet, most jön a lényeg.

A csoportjóság mérésének módjai mindig is érdekeltek, még módszertani fejlesztésekkel is próbálkoztam, de nem sok sikerrel. Még végzős egyetemista koromban, tehát kb. 6 éve, volt egy ötletem, amely úgy szólt, hogy az osztályozást fogjuk fel egy statisztikai modellként, amely a fajok előfordulásainak megjósolására (predikciójára) alkalmas. A modellben maga az osztályozás (a mintaelemek csoporttagságait kódoló vektor) egy faktorjellegű, vagyis nominális típusú magyarázó változó annyi lehetséges állapottal, ahány csoportunk van. A fajok előfordulásai pedig a függő változók mátrixaként szerepelnek. Ezt egy redundanciaanalízisbe (RDA) berakva kiszámolhatjuk, hogy mekkora a modell magyarázó ereje (R-négyzete), s minél nagyobb ez a szám, annál jobb az osztályozás. Néhány hónap számolgatás után azonban a témavezetőmmel be kellett látnunk, hogy bármennyire is elegáns megoldásnak tűnt, az RDA által alkalmazott lineáris modellek (többszörös lineáris regresszió) és az R-négyzet több szempontból sem alkalmas vegetációosztályozások értékelésére. Az ötlet ennyiben maradt, soha nem publikáltam róla semmit, pedig ilyen szép ábrák készültek róla.

Itt azt néztem, hogy különböző jósági indexek hány csoportot mutatnak optimálisnak
 adott csoportszámú, szimulált adatsorok esetén

Idén aztán a Journal of Vegetation Science-ben megjelent egy cikk, ahol ausztrál szerzők gyakorlatilag teljesen ugyanezt csinálják, de RDA* helyett minden egyes fajra általánosított lineáris modellt (GLM) számolnak, a modell jóságát pedig nem R-négyzettel, hanem AIC-vel mérik, amit fajonként összeadnak, s ez adja ki a teljes modell (az összes fajra érvényesen) jóságát. És ez működik. A módszer a fenti csoportosítás 2b. kategóriájába esik, vagyis egy belső, nem-geometriai mutató. Valahol egy picit sajnálom, hogy ez nekem nem jutott eszembe, pedig ennyire közel voltam hozzá, de közben kimondottan örülök, hogy más megcsinálta, és hogy az akkori, egyetemistaként kitalált ötletem veleje nagyon is jó volt. Ezúton is gratulálok a szerzőknek! A cikk hivatkozása:

Lyons, M. B., Keith, D. A., Warton, D. I., Somerville, M., Kingsford, R. T. (2016), Model-based assessment of ecological community classifications. Journal of Vegetation Science. doi: 10.1111/jvs.12400

*Az RDA gyakorlatilag minden egyes fajra csinál egy lineáris regressziót (ami a GLM egy speciális esete), majd ezek R-négyzeteinek súlyozott átlagolásával adja meg a teljes modell R-négyzetét.