Translate

2019. december 23., hétfő

Mit (nem) tudunk a növényvilág sokféleségéről?

Az Ecography egy idei számában jelent meg egy cikk, amelyben három nagy (a három legnagyobb?) botanikai adatbázis, az előfordulási helyeket felsoroló GBIF (Global Biodiversity Information Facility), a traitadatokat tartalmazó TRY és a genetikai GenBank átböngészése alapján adtak egy becslést arra, hogy melyek a világon a legjobban ismert, és melyek a leginkább adathiányos szárazföldi növénycsaládok (Embryophyta), illetve földrajzi régiók. A taxonómiai keretet a The Plant List nyújtotta, ami abban nem volt elfogadott név, az nem szerepelhetett az elemzésben - nyilván ha egy növénycsoport taxonómiája a nevek szintjén is feldolgozatlan, az nem jelent meg az elemzésben. Adathiányosnak az a faj minősült, amely a többi háromban egyáltalán nem fordult elő. Tehát ha egy fajnak volt egyetlen mért trait értéke (akár csak magassága, életformája, életciklusa) a TRY-ban, ha volt egyetlen előfordulási helye a GBIF-ben, és ha volt egy genetikai mintája a GenBankban, akkor már 'broadly-covered' minősítést kapott, amit "nagyrészt ismert"-ként fordíthatnánk. Ez egy elég laza, gyakorlati szempontból nem túl hasznos kritérium, de aki tud jobbat, írjon a szerzőknek, biztos örülnek majd. A földrajzi régiókat pedig a szélességi körök szintjén elemezték. A kapott számokat tehát ennek megfelelően kell értelmezni.

A teljes elemzésben 350 699 elfogadott fajnév szerepelt. Összehasonlításképpen, az edényes növények összfajszámát 2016-ban 360 000 körülire becsülték a Kew Garden kutatói (ebben nincsenek benne a mohák, amelyek viszont a fenti elemzésben szerepeltek). A fajnevek 17,7%-a (majdnem 62 000 faj) fordult elő mindhárom adatbázisban (vagyis ennyi lett 'broadly-covered'), és több mint fele szerepelt legalább egyikben. A nevek 26,7%-áról viszont semmiféle információ nincs.

A pázsitfüvek családja (Poaceae) a legjobban ismertek közé tartozik (puha rozsnok - Bromus hordeaceus)

A legjobban ismert családok között olyanokat találunk, amelyek széles földrajzi elterjedésűek és gazdasági haszonnal bírnak. Ilyenek a pázsitfűfélék (Poaceae), fenyőfélék (Pinaceae), burgonyafélék (Solanaceae), eperfafélék (Moraceae), kutyatejfélék (Euphorbiaceae), próteafélék (Proteaceae), nősziromfélék (Iridaceae), csatavirágfélék (Polemoniaceae). Hozzájuk csatlakoztak még olyanok, amelyek egyszerűen érdekesek voltak a kutatók számára: cikászfélék (Zamiaceae), vajvirágfélék (Orobanchaceae); illetve néhány egészen kicsi család, mint a ginkgófélék (Ginkgoaceae), a Trochodendraceae, és a kálmosfélék (Acoraceae). A legtöbb adat a 45-ös északi szélességi kör környékéről (a 45-ös kör közelében fekszik Krasznodar, Belgrád, Torinó, Bordeaux, Ottawa, Minneapolis) származott, és az északi féltekéről több volt az adat, mint a déliről.


A trópusokon még bőven van adathiányos, sőt, leíratlan faj (Kamerun, Nyong folyó)

Az érvényes nevek számához képest leghiányosabban ismert családok a mohák és májmohák családjai, a kosborfélék (Orchidaceae), fészkesek (Asteraceae), begóniafélék (Begoniaceae), Acanthaceae, Piperaceae. Különösen szembeötlő volt a hiány egyes tájak endemikus fajai közt, így pl. a Rubiaceae ázsiai, ausztráliai, új-zélandi, óceániai és dél-amerikai endemikusai igen hiányosan ismertek, csak úgy, mint a fészkesek európai, ázsiai és afrikai bennszülött képviselői, az európai és ausztráliai bennszülött ajakosok (Lamiaceae), valamint az endemikus kontyvirágfélék (Araceae) Ausztráliában és Dél-Amerikában.

Herbáriumi lap egy azonosítatlan orchideáról, Kamerunból

Egy ilyen léptékű vizsgálat nyilván sok-sok elhanyagolás árán vihető véghez, itt sem volt ez másképp. A módszertan "nagyvonalúságai" (amelyek, ugyanakkor, lehetővé tették, hogy egyáltalán bármiféle konkrétum megfogalmazása lehetségessé váljon) miatt a cikk talán a tudásszintünk kelleténél optimistább megítélésére csábít. Ne tévesszük meg magunkat, globális szinten inkább ritkaságnak számítanak azok a növények, amelyeket előfordulási terület, traitek és a genom tekintetében is használható mértékben ismerünk. És egyre több van, amit soha nem is fogunk már megismerni.

A cikk hivatkozása: Cornwell, W.K., Pearse, W.D., Dalrymple, R.L. and Zanne, A.E. (2019), What we (don't) know about global plant diversity. Ecography, 42: 1819-1831. doi:10.1111/ecog.04481

2019. december 16., hétfő

Általánosított sziluett index - új cikk az Ecology and Evolution folyóiratban

FRISSÍTÉS: A bejegyzés közzétételének másnapján kaptam az értesítést arról, hogy a cikk a decemberi számban jelent meg (előtte 'early view' volt), amelynek ez a tüneményes borz virít a címlapján. Ideteszem a bejegyzés elejére, mert jól mutat indexképként. :)



A sziluett indexről más többször írtam mostanában, pl. itt és itt, és van neki Wiki oldala is. Röviden a lényeg, hogy ez egy osztályozások jóságát értékelő index, amely minden objektumra megmondja, hogy mennyire illik abba a csoportba, amelyikben van. Negatív érték esetén rossz, pozitív esetén jó helyen van, 0 esetén átmeneti. Fontos tudni, hogy a sziluett ezt úgy éri el, hogy az adott objektumnak az azonos csoportban lévő többi objektumtól vett átlagos távolságát összehasonlítja a legközelebbi egyéb csoport (tehát amelyiknek ő maga nem tagja) objektumaitól vett távolságok átlagával. Mivel átlagos távolságokkal dolgozik, előnyben részesíti a szférikus (3D-ben gömb alakú), hasonló átmérőjű csoportokat, hiszen ilyenkor nincsenek nagy távolságok a saját csoportokon belül, minden csoporton belüli távolság hasonlóan kicsi. Ebben a preprintünkben beharangoztunk egy újítást, amellyel a sziluett indexnek a csoport alakja iránti érzékenységét lehet szabályozni. A kézirat nem rég megjelent az Ecology and Evolution nevű folyóiratban, ezért most már itt is lerántom a leplet a "trükkről".

A megoldást az általánosított átlag (generalized mean, power mean, Holder mean) szolgáltatja. Az alábbi képletben a p változtatásával különböző átlagokat és határértékeket lehet előállítani:
Ennek a speciális esetei:

M-∞ : minimum;
M-1 : harmónikus közép;
M0 : mértani közép;
M1 : számtani közép, vagyis a hagyományos átlag;
M2 : kvadratikus közép
M: maximum

Az általánosított átlaggal lehetővé válik, hogy a csoporttagoktól vett távolságoknak ne a számtani közepével számoljunk, hanem akár a minimumával, vagy valami minimumhoz közeli, nem nevesített "középpel". Ennek az a következménye, hogy a saját és a szomszéd csoporttól vett távolságba csak a közeli objektumok számítanak bele, szélsőséges esetben (a minimum esetén) csak a legközelebbi szomszéd. Ilyenkor a csoport egészének alakja irrelevánssá válik, csak az számít a vizsgált objektum helyzetének megítélében, hogy a közeli szomszédjai melyik csoportba tartoznak és milyen messze vannak pontosan. Ha általánosított átlaggal és negatív p-vel számoljuk a sziluettet, akkor változatos alakú és méretű csoportok is jóknak tűnnek, hogy ha az elválásuk más csoportoktól egyértelmű. Ez gyakorlati szempontból hasznos lehet, mert a természetben, ha vannak is éles határú csoportok, típusok, akkor azok gyakran nem szférikus formát öltenek a változók sokdimenziós terében. A cikkben felhívjuk a figyelmet a negatív p paraméter veszélyére is, miszerint ha csak a nagyon közeli szomszédságok számítanak, akkor a "jó" csoportok egésze akár át is fedhet annak ellenére, hogy minden egyes objektumnak van egy közeli szomszédja azonos csoportból. Az ingyen letölthető tanulmány linkje, hivatkozása, absztraktja alább látható:

Lengyel, A, Botta‐Dukát, Z. Silhouette width using generalized mean—A flexible method for assessing clustering efficiency. Ecology and Evolution 2019; 9: 13231–13243. https://doi.org/10.1002/ece3.5774

Abstract
Cluster analysis plays vital role in pattern recognition in several fields of science. Silhouette width is a widely used index for assessing the fit of individual objects in the classification, as well as the quality of clusters and the entire classification. Silhouette combines two clustering criteria, compactness and separation, which imply that spherical cluster shapes are preferred over others—a property that can be seen as a disadvantage in the presence of complex, nonspherical clusters, which is common in real situations. We suggest a generalization of the silhouette width using the generalized mean. By changing the p parameter of the generalized mean between −∞ and +∞, several specific summary statistics, including the minimum, maximum, the arithmetic, harmonic, and geometric means, can be reproduced. Implementing the generalized mean in the calculation of silhouette width allows for changing the sensitivity of the index to compactness versus connectedness. With higher sensitivity to connectedness, the preference of silhouette width toward spherical clusters should reduce. We test the performance of the generalized silhouette width on artificial data sets and on the Iris data set. We examine how classifications with different numbers of clusters prepared by different algorithms are evaluated, if p is set to different values. When p was negative, well‐separated clusters achieved high silhouette widths despite their elongated or circular shapes. Positive values of p increased the importance of compactness; hence, the preference toward spherical clusters became even more detectable. With low p, single linkage clustering was deemed the most efficient clustering method, while with higher parameter values the performance of group average, complete linkage, and beta flexible with beta = −0.25 seemed better. The generalized silhouette allows for adjusting the contribution of compactness and connectedness criteria, thus avoiding underestimation of clustering efficiency in the presence of clusters with high internal heterogeneity.

2019. december 4., szerda

Egy kutatástervezési jótanács

Egy nagyon találó idézetet olvastam egy statisztikai cikkben (Halsey 2019):

‘To call in a statistician after the experiment is done may be no more than asking him to perform a post-mortem examination: he may be able to say what the experiment died of.’
vagyis:
'Statisztikushoz fordulni a kísérlet elvégzése után nem több, mint boncolást kérni tőle: talán meg tudja mondani, mitől halt meg a kísérlet.'

Az idézet forrása Sir Ronald Fisher, akit a statisztika és a populációgenetika atyjának is szoktak nevezni, és akinek a nevéhez olyan statisztikai alapfogalmak fűződnek, mint a hipotézistesztelés, a p-érték, az ANOVA, a Fisher-féle egzakt teszt, vagy a meta-analízis. 

Ronald Fisher, amikor még nem volt Sir, és talán még nem sejtett semmit...

Néhány éves aktív tudományos pályafutásom alatt nem kevés kutatáshoz járultam már hozzá adatelemzőként (erős eufemizmussal "statisztikusként"), és a személyes tapasztalatom tökéletesen egybehangzik azzal, amire Fisher is utalhatott: egy rosszul megtervezett vagy kivitelezett kutatásból a statisztikában jártas személy sem tud értelmes eredményt elővarázsolni. Legyen bármekkora is a tudása, ezen a ponton gyakran csak annyira elég, hogy megállapítsa, mi a konkluzív vizsgálat akadálya. Folytatva a metaforát: mint halottnak a csók...

Hogyan lehetne ezt elkerülni? Evidens, hogy érdemes a kutatás tervezési fázisában is kérni a statisztikus segítségét. Vele együtt kell tisztázni a célok és a mintavételi terv minden, elsőre mellékesnek tűnő részletét:

  • Mindenek előtt: mi a kutatás pontos, vagy inkább nagyon-nagyon pontos kérdése? Milyen változók érdekelnek minket? Melyek a függő és független változók? Mi a null-hipotézis, mik az alternatív hipotézisek? Mi hat mire? Milyen eredményt sejt a kutató?
  • Mik/Vannak-e random és fix faktorok?
  • Milyen a változók eloszlási típusa?
  • Mik a mintavétel tér- és időbeli kötöttségei?
  • Milyen tesztek illenek ehhez az elrendezéshez?
  • Mekkora legyen a minta? Elég lesz-e a "statisztikai erő" ('statistical power'), vagyis elég nagy-e a minta a tesztek számához és az elvárt hatásnagysághoz képest a konkluzív vizsgálathoz?
Talán nem túlzok, ha azt állítom, az a jól megtervezett kutatás, amelynek adattábláit a kutató az adatgyűjtés megkezdése előtt ki tudja tölteni képzeletbeli, de a változó eloszlástípusának megfelelő értékkel, majd az így készített táblázatokon el tudja végezni a kutatási kérdés megválaszolásához szükséges elemzéseket. Ez feltételezi azt, hogy pontosan tudjuk, mennyi és milyen adat kell, és mit fogunk velük csinálni. Törekedjünk erre! Ne hagyatkozzunk arra, hogy majd az adatok birtokában kitaláljuk, hogy milyen tesztet végezzünk, hanem olyan és annyi adatot gyűjtsünk, amiből fogunk tudni számolni!


Természetesen fontos feltétel, hogy az adatgyűjtéskor se vétsünk (súlyos) hibát. Hiába a jól megtervezett kutatás, ha pl. nem ismerjük fel a fajokat, amelyekkel dolgozunk, nagy mérési hibával dolgozunk, stb. Ráadásul ezeket a statisztikus se szúrja ki feltétlenül, hiszen a számok mögé nem lát.

Mi van, ha közbejön valami, és mégsem úgy végezzük az adatelemzést, ahogyan elterveztük? Semmi, újratervezés, de legalább van honnan elindulnunk: a kutatás egésze ugyanis jó eséllyel nem fog megváltozni, csak kiderül, hogy kisebb lesz a minta, mint gondoltuk, az egyik változót más skálán kellett felvenni, eggyel több random faktor lesz, és kettővel kevesebb lokalitást, stb. Ezek nem nagy változások, az eredeti tervek kis mértékű átírását igénylik csak.

Mi van, ha minden a terv szerint haladt, de nem jött ki semmi? Nem kizárt, hogy a legjobban átgondolt terv is technikailag rossz - ilyen az élet. Ilyenkor egyszerűen jobbat kell csinálni. A másik, tudományosan érdekesebb eset a negatív eredmény jelensége. Ilyenkor elméletek és korábbi vizsgálatok tanulságai alapján feltételeztünk egy kimenetelt, de nem ezt kaptuk. Ez tulajdonképpen jó eredmény, hiszen rávilágít a korábbi tudásunk hiányos voltára. Sajnos a folyóiratok az ilyeneket ritkán közlik le. Ezek visszaszorítására vezették be az "előregisztrált vizsgálatokat". Ilyenkor egy nagyon részletes kutatási tervet kell beküldeni a folyóirathoz, azt elbírálják, és ha úgy látják, hogy a vizsgálat konkluzív lesz, akkor az eredmények pozitív vagy negatív kimenetelétől (pl. a nullhipotézis elutasításától vagy megtartásától) függetlenül leközlik a cikket. Ilyenre van lehetőség pl. a BMC Ecology és az Ecology and Evolution folyóiratokban. 

A kutatás sikerén kívül mikor jön jól még ez a szintű tervezés? Például ha kutatási tervünkre támogatást is szeretnénk nyerni. A bírálókra meggyőzőleg hat ugyanis, ha azt látják, a pályázó nem a levegőbe beszél, mélységében ismeri a témát, van elképzelése a kutatás kivitelezésének mikéntjéről, felkészült az esetleges nehézségekre. Mintegy demonstrálja, hogy képes a kutatási terv megvalósítására. Van is ebben valami.

Zárásul még egy idézet:

'Failing to plan is planning to fail.' 
vagyis: 
'Elbukni a tervezést olyan, mint tervezni a bukást.' (Alan Lakein)