Translate

2020. március 20., péntek

Vegetációosztályozás növényi jellegek alapján - új cikk a JVS-ben, és ami mögötte van

Megjelent a lengyelországi üde és nedves gyepi növényzet jellegalapú osztályozásáról szóló cikkünk a Journal of Vegetation Science-ben. Ez a cikk a Polonez ösztöndíjas időszakom fő terméke, ezért kicsit bővebben mesélek róla.

Mezofil gyepek a Szudétákban (fotó: Zygmunt Kacki)

Az ökológia utóbbi 10 évének slágertémája a jellegalapú megközelítésé (jelleg = 'trait'). Ez abban a felismerésben gyökerezik, hogy az ökoszisztémák alapvető tulajdonságait nem az határozza meg, hogy az őket alkotó élőlények mely fajokhoz tartoznak, hanem az, hogy milyen jellemzőkkel bírnak. Persze, a jellemzők öröklődnek, ezért nem függetlenek a faji hovatartozástól, de nem igényel bővebb magyarázatot, hogy vannak egymáshoz hasonló, és vannak jobban különböző fajok. A fajalapú megközelítés minden fajt maximálisan különbözőnek lát, ezért a fajok közötti graduális változatosságot elhanyagolja. Ezzel akkor van gond, amikor egy elemzés során olyan mintázatot tárunk fel, ami a kelleténél nagyobb jelentőséget tulajdonít a faji hovatartozásnak. A vegetációosztályozás kontextusában a gyakorlat szempontjából gyakran eléggé mindegy, hogy egy magassásréten a Carex acutiformis, C. gracilis és C. riparia (három magas termetű, igen hasonló felépítésű, nedves réteken és mocsarakban élő sásfaj) közül melyik az uralkodó. Ennél sokkal lényegesebb eltérést jelent, ha egy mocsárréten a kétszikűek (pl. Veronica longifolia, Euphorbia palustris) uralkodnak. Amikor fajalapú osztályozásokat szeretnénk a gyakorlatba implementálni, gyakran kimondva-kimondatlanul korrigálunk erre a jelenségre azzal, hogy például ha két típus csak hasonló fajokban tér el, azokat összevontan kezeljük. Ezek a korrekciók azonban ritkán történnek reprodukálható, objektív módon.


Hasonló kinézetű, nagy darab sásból van több faj is - mocsári sás (Carex acutiformis)

A gyakorlat felől "érezzük" általában, hogy a faji szinten jelentkező eltérések sok mindennek köszönhetők, és gyakran olyan háttértényezőkkel állnak összefüggésben, amik adott helyzetben nem relevánsak, hanem inkább a tájtörténet számlájára írhatók. Nyilvánvaló a szükség olyan vegetációs változókra, amelyek a fontos környzeti grádiensekre robosztusabb módon reagálnak, mint a fajok. 2016-ban jött az ötlet, hogy a jellegalapú vizsgálatok eszköztárát a vegetációosztályozás módszertanával házasítva megpróbáljak olyan robosztus osztályozásokat csinálni, amik a fajalapúaknál jobban megfelelnek a legtöbb gyakorlati kívánalomnak, mert szorosabb kapcsolatban vannak az ökoszisztémák főbb tulajdonságaival. Pályáztam rá OTKA (NKFIH) posztdoktori pályázatot, de nem nyertem. Ekkortájt kérdezték a lengyel kollégák, hogy nem mennék-e ki hozzájuk egy hosszabb-rövidebb időre. Konkrétum és forrás híján erre ködös válaszokat adtam eleinte. Nem sokkal később azonban már pályázati lehetőséggel hívtak. Ez a Polonez ösztöndíj volt, ami egy Marie Curie ösztöndíjnak nagyjából mindenben megfelelő, csak a Lengyel Tudományos Központ által odaítélt, Lengyelországban végzendő kutatási program. "Miért ne próbálnám meg?" - gondoltam, és az esélytelenek nyugalmával az OTKA-n sikertelen pályázatomat kis változtatásokkal lengyel körülményekre alkalmazva, a rövidebb megpályázott időszak miatt kicsit megkurtítva beadtam. Pár hetet dolgoztam vele legfeljebb. Nem mertem volna nagy tételben fogadni sikeremre, ezért párhuzamosan adtam be újra hazai pályázatokat is. Teltek a hetek, hónapok, a bírálók dolgoztak. A Polonez értékelése kétkörös. Az írásbeli anyagok elbírálása után az első valamennyit "behívják" egy szóbeli interjúra, persze, ez Skype-on zajlik. Meglepetésemre engem is beválogattak, 15-20 percben kellett elmondanom a pályázatom lényegét, aztán válaszolni a bírálók kérdéseire. Éreztem, hogy aránylag jól ment, de hát tudni lehetett, hogy ez egy erős mezőny, a kincstári optimizmusomon felül nem sok fogódzóm volt. Aztán jött a megdöbbentő értesítés, hogy nyertem. Közben kaptam a nyertes hazai pályázatok híreit is, ezeket részben lemondtam, részben elhalasztottam. 2017 őszén Wroclawban találtam magam a bővülő családunkkal együtt.

Wroclaw impozáns belvárosa - volt ez ennél szebb is, de hol a fotóm róla???

A projekt fő célja a lengyel üde és nedves gyepek jellegalapú osztályozásának elkészítése, valamint a típusok jellemzése volt funkcionális jellemzők (akkor főképp a diverzitás és a redundancia érdekelt) szempontjából. Egy ilyen munkának a legkínzóbb és legkritikusabb része a szükséges adatbázisok összerendezése. Hogy ez megtörténhetett, azt a lengyel együttműködőknek, Zygmunt Kackinak és Grzegorz Swachának köszönhetem. Kétféle adatmátrixszal dolgoztunk: a lengyel vegetációs adatbázisból származó ~20 000 cönológiai felvétellel, illetve a LEDA-ból és a CLO-PLA-ból származó növényijelleg-adatokkal. A kettő összefésülése, a fajlisták egységesítése, a hibák manuális kiszűrése és javítása főképp Grzegorz érdeme volt.
A célfolyóiratnak a Journal of Vegetation Science-et néztem ki. A kézirat első verziója azonban jóval leíróbb volt, mint ami végül megjelent. A típusokról aránylag hosszú ismertetéseket írtunk, és ez nem igazán tetszett sem a bírálóknak, sem a szerkesztőnek. Valójában ez érthető, hiszen a JVS inkább az általánosságokat és a koncepcionális eredményeket szereti az osztályozó cikkekben is. Úgyhogy jelentősen redukáltuk a kéziratban ezeket a részeket, helyette betettünk jobban általánosítható, modellszerűbb elemeket. Így került a cikkbe például a jellegalapú és a fajalapú osztályozás statisztikai összehasonlítása (amely amúgy nem igazán konkluzív, írjuk is a diszkusszióban, de az egyik bíráló kifejezetten kérte, úgyhogy megkapta), valamint az 'influence index', amivel az egyes fajoknak az osztályozásra gyakorolt hatását számszerűsítettük. Utóbbit a témáról szóló korábbi előadásaimban már mutattam, csak a cikkhez nem éreztem fontosnak először. A főszövegből száműzött leírások egy része az appendixben kötött ki. Végül bő egy és negyed év és 3 bírálati kör kellett az elfogadáshoz, ami átlagosnak mondható ennél a folyóiratnál.

Mit ad(hat) a cikk szakmailag? A jellegalapú osztályozás mint ötlet felmerülése nem véletlen és nem váratlan, hiszen osztályozásokat sokféle célra használnak, általános tendencia a növényi jellegek alkalmazása fajok helyett, és igyekszünk minél több mindent formalizálni statisztikai módszerek segítségével. Olyannyira, hogy Hérault és Honnay (2007) csináltak már ilyet, csak sokkal kisebb mintával, sokkal lokálisabb kérdésen dolgoztak. Talán ennek is köszönhető, hogy a cikkük aránylag észrevétlen maradt mind a traites, mind a klasszifikációs kutatói közösség számára - én magam is csak úgy értesültem róla, hogy az egyik szerzőt megkaptam bírálónak, és vállalta a nevét. :)
Az elemzés egy megkerülhetetlen pontja a felvételek közti disszimilaritások számszerűsítése. Erre a célra már számos módszert javasolt a témában aktív néhány szerző, ezeket azonban ekkora mintára rettentő időigényes kiszámolni. Úgy döntöttünk, hogy egyszerűen vesszük minden felvétel súlyozott átlagát (CWM, 'community weighted mean') minden traitre mint változókra, majd ezek között egyszerű euklidészi távolságot számolunk. Egyszerű, de hatékony megoldásnak tűnt, ami a későbbi, jelenleg is folyamatban lévő teszteken is jól teljesít. A CWM-et a traites ökológusok igen változatosan ítélik meg, a bírálatokban is kaptunk kritikát emiatt. A lényeg az, hogy a CWM egy aggregált mérőszám, és a közösségeknek az adott traitgrádiens mentén felvett átlagos pozívióját mutatja meg robosztus módon. Nagy körültekintéssel alkalmas csak hipotézistesztelése a trait-környezet kapcsolatról, nem mutatja ki a diverzitásban jelentkező változást, továbbá nüansznyi különbségeket nem érdemes benne túlértelmezni. Mi e három célra nem használtuk a CWM-et, szerintem korrekten jártunk el.


A közönséges lizinka (Lysimachia vulgaris) uralta típust csúnyán félreosztályozta a Ward-féle módszer, de a REMOS helyre tette

Szintén kardinális kérdés volt az osztályozási algoritmus megválasztása. Euklidészi távolságokkal dolgozván a Ward-féle módszer mellett tettük le a voksunkat, mert ez hasonló méretű és szférikus alakú csoportokat (vagyis két dimenzióban köröket) különít el - ez egy előnyös tulajdonság általában. Ugyanakkor azt tapasztaltuk, hogy a fenti csoportalakot kicsit túlerőlteti a módszer, emiatt a sok, igen jól értelmezhető csoport mellett egy-két egyértelműen heterogén klaszter is adódott. Eleinte ezeket elfogadtam osztályozási hibának, aztán inkább azon voltam, hogy találjak (vagy kitaláljak) valami módszert az osztályozás formalizált, statisztikán alapuló kijavítására. Így született meg a REMOS nevű módszer, amiről gyorsan írtunk egy preprintet a bioRxivra, amit így már tudtunk hivatkozni. (Jelenleg bírálat alatt van.) Így már kimondottan jól értelmezhető és módszertanilag konzisztens lett a klasszifikáció.
A kapott típusok elsősorban a domináns fajok szerint különültek el, főleg úgy, hogy a sajátos jellegkombinációval rendelkező fajok uralta típusok markáns csoportokat alkottak, míg a kiegyenlített tömegességi eloszlású, vagy nem egyedi jellegkombinációjú fajok uralta típusok nagy, fajkompozíció és ökológiai háttér szempontjából heterogén klaszterekként tűntek fel. Lett például saját típusa a franciaperjének (Arrhenatherum elatius), az erdeikákának (Scirpus sylvaticus), a szittyóknak (Juncus spp.) és a fehér tippannak (Agrostis stolonifera). Elég jól elkülönültek az erősen legeltetett és taposott gyepek a magasabb füvűektől, amiket inkább kaszálnak.
Az 'influence index' egy szemléltető eszköznek indult, amivel az osztályozásra nagy hatást gyakoroló fajokat akartam nagyobb betűmérettel feltüntetni egy ábrán. Maga az index a faj funkcionális egyediségének és az abundanciája szórásának a mértani közepe. A funkcionális egyediséget az összes faj átlagos traitértékétől vett távolsággal számszerűsítettem. Mindkét összetevőt 0 és 1 közé standardizáltam. Végül is valóban szépen és egyszerűen mutatja, hogy azoknak a fajoknak lesz nagy hatása az osztályozásra, amelyek abundanciája nagyon változó, és amelyek mindemellett sajátos jellegkombinációval bírnak.

Egy funkcionálisan egyedi faj, a közönséges erdeikáka (Scirpus sylvaticus) uralta mocsárrét (fotó: Grzegorz Swacha)

Hogyan tovább? Nagyon hasonló témán dolgozom, csak lengyel helyett kiskunsági gyepekkel. A lengyel adatbázis földrajzilag nagy területet ölelt fel, de a környezeti változatosság nem volt benne nagyon nagy semelyik grádiens mentén. A Kiskunságban másképp van, itt a nedves rétektől egészen a félsivatagias nyílt homokpusztagyepig terjed a minta lefedettsége, viszont lényegesen szűkebb területet reprezentálnak majd a felvételek. Ez érdekes különbséget jelenthet, kíváncsian várom, mennyi új tapasztalatot nyújt majd. Egyes alapvető lengyel tapasztalatok bizonyára érvényesek lesznek, például a domináns és funkcionálisan egyedi fajok fontossága, de az már kevésbé egyértelmű, hogy a fajkompozíciós mintázattal ez mennyire vág egybe. Nem kérdés a jellegek kiválasztásának kulcsszerepe sem. Nagy érdeklődéssel várom továbbá, hogy jellegalapú osztályozások a gyakorlatibb felhasználási célokat mennyire elégítik ki.

A cikkről írtunk egy könnyen olvasható összefoglalót ('plain language summary'-t) az IAVS blogjára. Az eredeti publikáció hivatkozása, linkje és absztraktja:

Lengyel, A, Swacha, G, Botta‐Dukát, Z, Kącki, Z. Trait‐based numerical classification of mesic and wet grasslands in Poland. J Veg Sci. 2020; 31: 319– 330. https://doi.org/10.1111/jvs.12850



Abstract

Questions: What vegetation types can be distinguished on the basis of plant functional traits using numerical classification? How do they match syntaxonomical units?
Location: Poland.
Methods: Six thousand nine hundred and eighty‐five vegetation plots representing mesic and wet grasslands (Molinio‐Arrhenatheretea, Polygono‐Poetea) were retrieved from the Polish Vegetation Database. Plant functional trait data were assembled from the LEDA and Clo‐Pla databases for most species occurring in the data set. Community‐weighted mean for five traits were calculated for each plot: specific leaf area, canopy height, seed mass, bud bank index and clonality index. Plots were classified using Ward's method and iterative relocation based on silhouette widths. The clusters were interpreted and characterized on the basis of species and trait composition, functional diversity, functional redundancy, Ellenberg indicator values, and geographical distribution. The similarity between the trait‐based classification and the syntaxonomical assignment of plots is evaluated both statistically and by expert knowledge.
Results: Twelve clusters were distinguished. The classification mirrored the main gradients structuring grasslands in Poland, although, some vegetation types with the strong dominance of functionally unique species appeared more distinct than they are treated in syntaxonomy. Clusters did not differ significantly in functional diversity and redundancy. The differences of clusters in species and trait composition and environmental background are discussed.
Conclusion: The application of trait data and numerical methods is a promising approach for obtaining vegetation classifications. Such classifications can be in closer relationship with the most important ecosystem processes than floristic classifications because communities comprising different species but similar functional trait distribution are not separated. Trait‐based classifications match phytosociological units to a variable degree. Functional uniqueness and variation of abundance determines how individual species influence the delimitation of vegetation types using our approach.

2020. február 1., szombat

Tudományra új tyúkhúrfaj Közép-Európában: Stellaria ruderalis

Még a növényvakságos bejegyzések kapcsán emlegettem, hogy a pitypangot "mindenki ismeri", valójában azonban kimondottan problémás jószágról van szó: amit pongyola pitypangként ismerünk, az rengeteg, tudományos állásponttól függően akár több száz kisfajból álló taxoncsoport. Közel sem ennyire drámai, kicsit mégis hasonló a helyzet a tyúkhúrral (Stellaria media agg.). Mindenki látott már tyúkhúrt, ez az egyik első növény, amely még a városi parkok bokrai alatt is zöldül kora tavasszal, nagyanyáink ezzel etetik/etették a baromfit, hobbimadarasok pedig a papagájt.

A tyúkhúrok alacsony növésű, rendszerint tövüktől elágazó, ősszel-télen csírázó egyévesek. A szegfűfélék családjának (Caryophyllaceae) tagjaként viselik a család jellemző bélyegeit, melyek közül a legfeltűnőbb a keresztben átellenes levélállás és az öttagú virág. A levelek tojásdadok vagy elliptikusak, többé-kevésbé hegyes csúcsban végződnek, ép lemezűek és ép szélűek, alul kocsányosak, fentebb ülők. A szirmok szabadok, mélyen kéthasábúak, fehérek, vagy hiányoznak. A toktermésben barnás, kerekded, bibircses magok találhatók. A tyúkhúrok a bolygatott, tápanyagban közepesen gazdag és gazdag termőhelyek növényei. Ezen belül előfordulnak útszéleken, kerti és vetési gyomnövényzetben, erdőkben. A tél elmúltával kezdenek nyílni, a virágzás java áprilisra esik, de gyakorlatilag egész évben lehet velük találkozni.

A jelenlegi taxonómiai feldolgozások három tyúkhúrfajt jeleznek Európából. Tavaly decemberben jelent meg cseh kutatóktól egy cikk, amelyben morfológiai és genetikai vizsgálatokat végeztek közép-európai országokban gyűjtött tyúkhúrokon. A korábban leírt három faj (Stellaria media s.str., S. neglecta, S. pallida) mellett sikerült azonosítaniuk egy negyediket, amely a S. pallida és a S. neglecta közti hibridizációból származik. Stellaria ruderalis néven írták le, és a hazai herbáriumi lapok áttekintése során ki is mutatták Magyarországról. Az adat konkrétan a Kisalföld keleti részéről való, de nincs kétségem afelől, hogy még sok helyről előkerül majd. A négy faj egyszerűsített határozókulcsa eszerint a következő:

Törpe tyúkhúr (Stellaria pallida)

Törpe tyúkhúr (Stellaria pallida)

Törpe tyúkhúr (Stellaria pallida) magja

(1a) A szirmok hiányoznak vagy legfeljebb 1/3 olyan hosszúak, mint a csészelevelek. A magok legfeljebb 1 mm hosszúak... Törpe tyúkhúr (Stellaria pallida)
<35 cm magas, rendszerint tömött virágzatú, sárgászöld növény, rendszerint 2-3 porzóval, a magok (világos-)barnák, a magok felszínén rövid bibircsekkel.

(1b) A szirmok általában megvannak, a hosszuk legalább a csésze hosszának 2/3-a, a magok általában 1 mm-nél hosszabbak... (2)

Kövér tyúkhúr (Stellaria neglecta)

(2a) A porzók száma (8-)10, a szirmok olyan hosszúak, vagy kicsit hosszabbak, mint a csészelevelek, a virágkocsányok elég vékonyak, 0.16-0.24 mm vastagok.... Kövér tyúkhúr (Stellaria neglecta)
<80 cm magas, zöld növény. A virágzat laza, a virágzat ágainak első internódiumai hasonló hosszúságúak, a mag sötétbarna, a felszínén hosszúkás, hengeres bibircsekkel.

(2b) A porzók száma általában <8, a szirmok olyan hosszúak, vagy rövidebbek, mint a csészék, a virágkocsányok nem olyan vékonyak (0.16-)0.24-0.40(-0.48) mm... (3)

(3a) A mag bibircsei hengeresek, hosszabbak a szélességüknél, a felső részük felszínén kevés papillával, vagy papillák nélkül... Stellaria ruderalis
<80 cm magas, többé-kevésbé sárgászöld növény, a virágzat eleinte tömött, a virágzat ágainak első internódiumai nem feltűnően különböző hosszúságúak.

(3b) A mag bibircsei rövidek, lapos vagy lekerekített tetejűek, néha kissé hengeresek, általában olyan magasak, mint szélesek, a felső részükön elszórtan vagy sűrűn papillásak... Közönséges tyúkhúr (Stellaria media)
<50 cm magas, de gyakran alacsony és elfekvő, (sötét-)zöld növény, a virágzat nem tömött, a virágzat ágainak első internódiumai jelentősen eltérő hosszúak.

Közönséges tyúkhúr (Stellaria media)

Amint látható, egy erősebb nagyító, vagy inkább egy mikroszkóp jól fog jönni a határozáshoz. Emellett érdemes több példányt megnézni egy állományból, mert a tyúkhúrok morfológiai plaszticitása nem elhanyagolható. Ugyanakkor a szerzők is figyelmeztetnek, hogy a négy faj közül több is előfordulhat ugyanazon a bolygatott élőhelyen.


Jobbról S. pallida, balról akár S. ruderalis is lehetne, de ez már titok marad
Csekély tapasztalatom szerint a S. pallida egy aránylag karakteres, elég jól felismerhető növény. A tömött virágzatról és a sárgászöld színéről már messziről gyanút foghatunk, amit a szirmok gyakori hiánya és a 2-3 porzó igazolhat közelebbi szemrevételezés esetén. A többiek egy fokkal nehezebbek, persze, biztosan azokra is rá tud állni az ember szeme.

Az időjárás most még nem sok jót ígér, de a tyúkhúrok izgalmas kora tavaszi témát nyújtanak a hosszú tél során "kiéhezett" botanikusnak. A fagyok felengedése után nem sokkal már virágoznak, és ha kitart a jó idő, nem sokára termést is érlelnek. Megérdemlik a figyelmet!



Forrás:

Lepší M., Lepší P., Koutecký P., Lučanová M., Koutecká E. & Kaplan Z. (2019) Stellaria ruderalis, a new species in the Stellaria media group from central Europe. – Preslia 91: 391–420.

Abstract

A new allotetraploid species in the Stellaria media group, S. ruderalis M. Lepší, P. Lepší, Z. Kaplan & P. Koutecký, which is possibly of hybridogenous origin between S. pallida and S. neglecta, is distinguished and described based on a biosystematic revision of the S. media group. A suite of biosystematic techniques, including molecular (internal transcribed spacer sequencing), karyological (chromosome counting, flow cytometry), multivariate morphometrics and phenological observations, was used to assess the variation in this species group and determine the taxonomic status of the species. All the methods employed produced similar results and supported the delimitation of four species within the Stellaria media group in central Europe: Stellaria ruderalis (2n = 4x = 44), S. pallida (2n = 2x = 22), S. neglecta (2n = 2x = 22) and S. media s. str. (2n = 4x = 40). Stellaria ruderalis is a winter annual growing mainly in disturbed ruderal open or semi-open communities. This species’ broad ecological amplitude allows it to commonly co-occur with its three related species. It is probably a widespread species in southern and central Europe. It is currently spreading in the northern part of central Europe. Photographs of the type specimen and individuals of the new species in situ are presented. Scanning electron micrographs of seeds, microphotographs of seeds and mitotic chromosome spreads and a key for the identification of all four species are provided.

Keywords: Caryophyllaceae, flow cytometry, internal transcribed spacer (ITS) sequencing, karyology, multivariate morphometrics, Stellaria media agg., taxonomy

2020. január 24., péntek

7. Kvantitatív Ökológiai Szimpózium - ELMARAD!!!

Frissítés: az új koronavírus-járvány miatt elmarad, későbbi időpontban kerül megrendezésre.

A Kvantitatív Ökológiai Szimpózium (KÖSzi) a Magyar Ökológusok Tudományos Egyesületének a három évente megrendezett találkozója, amelynek fő témája a statisztikai módszerek ökológiai alkalmazása, az ökológiai modellezés és az ezekhez kapcsolódó mintavételi problémák. Kiváló alkalom a témában érdekelt fiatal kutatók számára első (vagy nemsokadik) konferenciaszereplésük teljesítésére. A szimpózium helye: Ökológiai Kutatóközpont, Ökológiai és Botanikai Intézet, Karbonház (Vácrátót, Alkotmány u. 2-4.); ideje: 2020. április 3. (péntek) 9.30-17.00. Az előző napon, április 2-án lesz egy kurzus a jellegadatok statisztikai elemzéséről, amit Botta-Dukát Zoltán tart - ezt is tudom ajánlani. Bővebb információ a szimpóziumról elérhető itt.

2020. január 9., csütörtök

XIII. Aktuális Flóra- és Vegetációkutatás a Kárpát-medencében konferencia felhívás

Idén is lesz Flórakonferencia, hivatalos nevén Aktuális Flóra- és Vegetációkutatás a Kárpát-medencében konferencia, amely a kárpát-medencei botanikusok 3 évente ismétlődő seregszemléje. Az eseménnyel kapcsolatosan minden fontos információ elérhető itt, a konferencia jelképéről pedig Molnár V. Attila ír egy bejegyzésében.


2019. december 23., hétfő

Mit (nem) tudunk a növényvilág sokféleségéről?

Az Ecography egy idei számában jelent meg egy cikk, amelyben három nagy (a három legnagyobb?) botanikai adatbázis, az előfordulási helyeket felsoroló GBIF (Global Biodiversity Information Facility), a traitadatokat tartalmazó TRY és a genetikai GenBank átböngészése alapján adtak egy becslést arra, hogy melyek a világon a legjobban ismert, és melyek a leginkább adathiányos szárazföldi növénycsaládok (Embryophyta), illetve földrajzi régiók. A taxonómiai keretet a The Plant List nyújtotta, ami abban nem volt elfogadott név, az nem szerepelhetett az elemzésben - nyilván ha egy növénycsoport taxonómiája a nevek szintjén is feldolgozatlan, az nem jelent meg az elemzésben. Adathiányosnak az a faj minősült, amely a többi háromban egyáltalán nem fordult elő. Tehát ha egy fajnak volt egyetlen mért trait értéke (akár csak magassága, életformája, életciklusa) a TRY-ban, ha volt egyetlen előfordulási helye a GBIF-ben, és ha volt egy genetikai mintája a GenBankban, akkor már 'broadly-covered' minősítést kapott, amit "nagyrészt ismert"-ként fordíthatnánk. Ez egy elég laza, gyakorlati szempontból nem túl hasznos kritérium, de aki tud jobbat, írjon a szerzőknek, biztos örülnek majd. A földrajzi régiókat pedig a szélességi körök szintjén elemezték. A kapott számokat tehát ennek megfelelően kell értelmezni.

A teljes elemzésben 350 699 elfogadott fajnév szerepelt. Összehasonlításképpen, az edényes növények összfajszámát 2016-ban 360 000 körülire becsülték a Kew Garden kutatói (ebben nincsenek benne a mohák, amelyek viszont a fenti elemzésben szerepeltek). A fajnevek 17,7%-a (majdnem 62 000 faj) fordult elő mindhárom adatbázisban (vagyis ennyi lett 'broadly-covered'), és több mint fele szerepelt legalább egyikben. A nevek 26,7%-áról viszont semmiféle információ nincs.

A pázsitfüvek családja (Poaceae) a legjobban ismertek közé tartozik (puha rozsnok - Bromus hordeaceus)

A legjobban ismert családok között olyanokat találunk, amelyek széles földrajzi elterjedésűek és gazdasági haszonnal bírnak. Ilyenek a pázsitfűfélék (Poaceae), fenyőfélék (Pinaceae), burgonyafélék (Solanaceae), eperfafélék (Moraceae), kutyatejfélék (Euphorbiaceae), próteafélék (Proteaceae), nősziromfélék (Iridaceae), csatavirágfélék (Polemoniaceae). Hozzájuk csatlakoztak még olyanok, amelyek egyszerűen érdekesek voltak a kutatók számára: cikászfélék (Zamiaceae), vajvirágfélék (Orobanchaceae); illetve néhány egészen kicsi család, mint a ginkgófélék (Ginkgoaceae), a Trochodendraceae, és a kálmosfélék (Acoraceae). A legtöbb adat a 45-ös északi szélességi kör környékéről (a 45-ös kör közelében fekszik Krasznodar, Belgrád, Torinó, Bordeaux, Ottawa, Minneapolis) származott, és az északi féltekéről több volt az adat, mint a déliről.


A trópusokon még bőven van adathiányos, sőt, leíratlan faj (Kamerun, Nyong folyó)

Az érvényes nevek számához képest leghiányosabban ismert családok a mohák és májmohák családjai, a kosborfélék (Orchidaceae), fészkesek (Asteraceae), begóniafélék (Begoniaceae), Acanthaceae, Piperaceae. Különösen szembeötlő volt a hiány egyes tájak endemikus fajai közt, így pl. a Rubiaceae ázsiai, ausztráliai, új-zélandi, óceániai és dél-amerikai endemikusai igen hiányosan ismertek, csak úgy, mint a fészkesek európai, ázsiai és afrikai bennszülött képviselői, az európai és ausztráliai bennszülött ajakosok (Lamiaceae), valamint az endemikus kontyvirágfélék (Araceae) Ausztráliában és Dél-Amerikában.

Herbáriumi lap egy azonosítatlan orchideáról, Kamerunból

Egy ilyen léptékű vizsgálat nyilván sok-sok elhanyagolás árán vihető véghez, itt sem volt ez másképp. A módszertan "nagyvonalúságai" (amelyek, ugyanakkor, lehetővé tették, hogy egyáltalán bármiféle konkrétum megfogalmazása lehetségessé váljon) miatt a cikk talán a tudásszintünk kelleténél optimistább megítélésére csábít. Ne tévesszük meg magunkat, globális szinten inkább ritkaságnak számítanak azok a növények, amelyeket előfordulási terület, traitek és a genom tekintetében is használható mértékben ismerünk. És egyre több van, amit soha nem is fogunk már megismerni.

A cikk hivatkozása: Cornwell, W.K., Pearse, W.D., Dalrymple, R.L. and Zanne, A.E. (2019), What we (don't) know about global plant diversity. Ecography, 42: 1819-1831. doi:10.1111/ecog.04481

2019. december 16., hétfő

Általánosított sziluett index - új cikk az Ecology and Evolution folyóiratban

FRISSÍTÉS: A bejegyzés közzétételének másnapján kaptam az értesítést arról, hogy a cikk a decemberi számban jelent meg (előtte 'early view' volt), amelynek ez a tüneményes borz virít a címlapján. Ideteszem a bejegyzés elejére, mert jól mutat indexképként. :)



A sziluett indexről más többször írtam mostanában, pl. itt és itt, és van neki Wiki oldala is. Röviden a lényeg, hogy ez egy osztályozások jóságát értékelő index, amely minden objektumra megmondja, hogy mennyire illik abba a csoportba, amelyikben van. Negatív érték esetén rossz, pozitív esetén jó helyen van, 0 esetén átmeneti. Fontos tudni, hogy a sziluett ezt úgy éri el, hogy az adott objektumnak az azonos csoportban lévő többi objektumtól vett átlagos távolságát összehasonlítja a legközelebbi egyéb csoport (tehát amelyiknek ő maga nem tagja) objektumaitól vett távolságok átlagával. Mivel átlagos távolságokkal dolgozik, előnyben részesíti a szférikus (3D-ben gömb alakú), hasonló átmérőjű csoportokat, hiszen ilyenkor nincsenek nagy távolságok a saját csoportokon belül, minden csoporton belüli távolság hasonlóan kicsi. Ebben a preprintünkben beharangoztunk egy újítást, amellyel a sziluett indexnek a csoport alakja iránti érzékenységét lehet szabályozni. A kézirat nem rég megjelent az Ecology and Evolution nevű folyóiratban, ezért most már itt is lerántom a leplet a "trükkről".

A megoldást az általánosított átlag (generalized mean, power mean, Holder mean) szolgáltatja. Az alábbi képletben a p változtatásával különböző átlagokat és határértékeket lehet előállítani:
Ennek a speciális esetei:

M-∞ : minimum;
M-1 : harmónikus közép;
M0 : mértani közép;
M1 : számtani közép, vagyis a hagyományos átlag;
M2 : kvadratikus közép
M: maximum

Az általánosított átlaggal lehetővé válik, hogy a csoporttagoktól vett távolságoknak ne a számtani közepével számoljunk, hanem akár a minimumával, vagy valami minimumhoz közeli, nem nevesített "középpel". Ennek az a következménye, hogy a saját és a szomszéd csoporttól vett távolságba csak a közeli objektumok számítanak bele, szélsőséges esetben (a minimum esetén) csak a legközelebbi szomszéd. Ilyenkor a csoport egészének alakja irrelevánssá válik, csak az számít a vizsgált objektum helyzetének megítélében, hogy a közeli szomszédjai melyik csoportba tartoznak és milyen messze vannak pontosan. Ha általánosított átlaggal és negatív p-vel számoljuk a sziluettet, akkor változatos alakú és méretű csoportok is jóknak tűnnek, hogy ha az elválásuk más csoportoktól egyértelmű. Ez gyakorlati szempontból hasznos lehet, mert a természetben, ha vannak is éles határú csoportok, típusok, akkor azok gyakran nem szférikus formát öltenek a változók sokdimenziós terében. A cikkben felhívjuk a figyelmet a negatív p paraméter veszélyére is, miszerint ha csak a nagyon közeli szomszédságok számítanak, akkor a "jó" csoportok egésze akár át is fedhet annak ellenére, hogy minden egyes objektumnak van egy közeli szomszédja azonos csoportból. Az ingyen letölthető tanulmány linkje, hivatkozása, absztraktja alább látható:

Lengyel, A, Botta‐Dukát, Z. Silhouette width using generalized mean—A flexible method for assessing clustering efficiency. Ecology and Evolution 2019; 9: 13231–13243. https://doi.org/10.1002/ece3.5774

Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used index for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. Silhouette combines two clustering criteria, compactness and separation, which imply that spherical cluster shapes are preferred over others—a property that can be seen as a disadvantage in the presence of complex, nonspherical clusters, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness versus connectedness. With higher sensitivity to connectedness, the preference of silhouette width toward spherical clusters should reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by different algorithms are evaluated, if p is set to different values. When p was negative, well‐separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness; hence, the preference toward spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average, complete linkage, and beta flexible with beta = −0.25 seemed better. The generalized silhouette allows for adjusting the contribution of compactness and connectedness criteria, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.

2019. december 4., szerda

Egy kutatástervezési jótanács

Egy nagyon találó idézetet olvastam egy statisztikai cikkben (Halsey 2019):

‘To call in a statistician after the experiment is done may be no more than asking him to perform a post-mortem examination: he may be able to say what the experiment died of.’
vagyis:
'Statisztikushoz fordulni a kísérlet elvégzése után nem több, mint boncolást kérni tőle: talán meg tudja mondani, mitől halt meg a kísérlet.'

Az idézet forrása Sir Ronald Fisher, akit a statisztika és a populációgenetika atyjának is szoktak nevezni, és akinek a nevéhez olyan statisztikai alapfogalmak fűződnek, mint a hipotézistesztelés, a p-érték, az ANOVA, a Fisher-féle egzakt teszt, vagy a meta-analízis. 

Ronald Fisher, amikor még nem volt Sir, és talán még nem sejtett semmit...

Néhány éves aktív tudományos pályafutásom alatt nem kevés kutatáshoz járultam már hozzá adatelemzőként (erős eufemizmussal "statisztikusként"), és a személyes tapasztalatom tökéletesen egybehangzik azzal, amire Fisher is utalhatott: egy rosszul megtervezett vagy kivitelezett kutatásból a statisztikában jártas személy sem tud értelmes eredményt elővarázsolni. Legyen bármekkora is a tudása, ezen a ponton gyakran csak annyira elég, hogy megállapítsa, mi a konkluzív vizsgálat akadálya. Folytatva a metaforát: mint halottnak a csók...

Hogyan lehetne ezt elkerülni? Evidens, hogy érdemes a kutatás tervezési fázisában is kérni a statisztikus segítségét. Vele együtt kell tisztázni a célok és a mintavételi terv minden, elsőre mellékesnek tűnő részletét:

  • Mindenek előtt: mi a kutatás pontos, vagy inkább nagyon-nagyon pontos kérdése? Milyen változók érdekelnek minket? Melyek a függő és független változók? Mi a null-hipotézis, mik az alternatív hipotézisek? Mi hat mire? Milyen eredményt sejt a kutató?
  • Mik/Vannak-e random és fix faktorok?
  • Milyen a változók eloszlási típusa?
  • Mik a mintavétel tér- és időbeli kötöttségei?
  • Milyen tesztek illenek ehhez az elrendezéshez?
  • Mekkora legyen a minta? Elég lesz-e a "statisztikai erő" ('statistical power'), vagyis elég nagy-e a minta a tesztek számához és az elvárt hatásnagysághoz képest a konkluzív vizsgálathoz?
Talán nem túlzok, ha azt állítom, az a jól megtervezett kutatás, amelynek adattábláit a kutató az adatgyűjtés megkezdése előtt ki tudja tölteni képzeletbeli, de a változó eloszlástípusának megfelelő értékkel, majd az így készített táblázatokon el tudja végezni a kutatási kérdés megválaszolásához szükséges elemzéseket. Ez feltételezi azt, hogy pontosan tudjuk, mennyi és milyen adat kell, és mit fogunk velük csinálni. Törekedjünk erre! Ne hagyatkozzunk arra, hogy majd az adatok birtokában kitaláljuk, hogy milyen tesztet végezzünk, hanem olyan és annyi adatot gyűjtsünk, amiből fogunk tudni számolni!


Természetesen fontos feltétel, hogy az adatgyűjtéskor se vétsünk (súlyos) hibát. Hiába a jól megtervezett kutatás, ha pl. nem ismerjük fel a fajokat, amelyekkel dolgozunk, nagy mérési hibával dolgozunk, stb. Ráadásul ezeket a statisztikus se szúrja ki feltétlenül, hiszen a számok mögé nem lát.

Mi van, ha közbejön valami, és mégsem úgy végezzük az adatelemzést, ahogyan elterveztük? Semmi, újratervezés, de legalább van honnan elindulnunk: a kutatás egésze ugyanis jó eséllyel nem fog megváltozni, csak kiderül, hogy kisebb lesz a minta, mint gondoltuk, az egyik változót más skálán kellett felvenni, eggyel több random faktor lesz, és kettővel kevesebb lokalitást, stb. Ezek nem nagy változások, az eredeti tervek kis mértékű átírását igénylik csak.

Mi van, ha minden a terv szerint haladt, de nem jött ki semmi? Nem kizárt, hogy a legjobban átgondolt terv is technikailag rossz - ilyen az élet. Ilyenkor egyszerűen jobbat kell csinálni. A másik, tudományosan érdekesebb eset a negatív eredmény jelensége. Ilyenkor elméletek és korábbi vizsgálatok tanulságai alapján feltételeztünk egy kimenetelt, de nem ezt kaptuk. Ez tulajdonképpen jó eredmény, hiszen rávilágít a korábbi tudásunk hiányos voltára. Sajnos a folyóiratok az ilyeneket ritkán közlik le. Ezek visszaszorítására vezették be az "előregisztrált vizsgálatokat". Ilyenkor egy nagyon részletes kutatási tervet kell beküldeni a folyóirathoz, azt elbírálják, és ha úgy látják, hogy a vizsgálat konkluzív lesz, akkor az eredmények pozitív vagy negatív kimenetelétől (pl. a nullhipotézis elutasításától vagy megtartásától) függetlenül leközlik a cikket. Ilyenre van lehetőség pl. a BMC Ecology és az Ecology and Evolution folyóiratokban. 

A kutatás sikerén kívül mikor jön jól még ez a szintű tervezés? Például ha kutatási tervünkre támogatást is szeretnénk nyerni. A bírálókra meggyőzőleg hat ugyanis, ha azt látják, a pályázó nem a levegőbe beszél, mélységében ismeri a témát, van elképzelése a kutatás kivitelezésének mikéntjéről, felkészült az esetleges nehézségekre. Mintegy demonstrálja, hogy képes a kutatási terv megvalósítására. Van is ebben valami.

Zárásul még egy idézet:

'Failing to plan is planning to fail.' 
vagyis: 
'Elbukni a tervezést olyan, mint tervezni a bukást.' (Alan Lakein)