Lengyel Attila kutatói blogja: november 2019

2019. november 17., vasárnap

Veresegyház madárfaunája

Gyerekkorom óta fennálló szenvedélyemnek köszönhetően mindig is aktívan figyeltem a madarakat a lakóhelyem közelében. Nincs ez másképp Veresegyházon sem, az azonban csak az elmúlt napokban tudatosodott bennem, hogy még egyszer sem számoltam össze, hány madárfaj fordul itt elő. A hiányt pótlandó, sorra vettem a saját megfigyeléseimet, a mások által a birding.hu oldalra feltett adatokat, valamint más hiteles madarászok megfigyeléseit, amelyekről valamilyen formában értesültem (és amelyekre emlékeztem...). Néhány faj esetén bizonytalan voltam. Ezek főleg olyan fajok, amelyek nem annyira ritkák, hogy a megfigyeléseiket pontosan feljegyezzem, de mégsem találtam bizonyító erejű emléket a községhatáron belüli előfordulásukról. Mérlegelve a kérdőjeles fajokat, az erdei pacsirtát felvettem a listára, mert a Ligetek városrészhez közeli, őrbottyáni határban több pár is fészkel, ezek éneke gyakran a veresi oldalról is hallható, biztosan át is jönnek néha. Ugyanezzel a logikával felvettem a berki tücsökmadarat, amelynek az őrbottyáni és a mogyoródi határból van adata, és Medveotthon környékén, a Nádasligetnél és a Sződrákosi-patak mentén legalább vonulóként minden bizonnyal megfordul. A sirályokat, a kék galambot, a hegyi fakuszt és a csókát nem vettem fel, mert a közvetlen közelben aligha költenek, bár őszi-téli kóborlásaik során könnyen eljuthatnak a területre. Lehet, hogy csak kis odafigyelés kérdése, és meglesznek. A taxonómiai felfogás tekintetében a birding.hu Magyarország madarai listáját vettem alapnak, ez 430 fajt tartalmaz.

A függőcinege ritka fészkelő Veresegyházon

Jöjjön végre a lényeg, hogy "mennyi az annyi". Nos, 171. A teljes lista megtekinthető itt, és folyamatosan frissíteni fogom. De mi van a szám és a lista hátterében? Vajon ez "sok" vagy "kevés"? Veresegyház egy gyorsan fejlődő, urbanizálódó, agglomerációs kisváros a Pesti-síkság és a Gödöllői-dombság találkozásánál. Falusias, üdülőjellegű, kertvárosias, lakóparkos és ipari részekkel rendelkezik. Bár az emberi hatás erős, a település terjeszkedése és az iparosodás rendkívül gyors, mégis viszonylag sokféle természetközeli élőhelytípust fellelhetünk. A városon keresztül folyik több kisebb ér, melyek közül a Sződrákosi-patak a legjelentősebb, három tavat is felduzzasztottak rajta, ezek ma rekreációs célokat szolgálnak (horgászat, időlegesen strand). A tavak és patakok környékén (városi léptékkel mérve) jelentős természetközeli növényzet található: öreg, őshonos fák alkotta erdőfoltok, fasorok, rekettyefüzes cserjések, nádasok, láprétek. Külön említést érdemel az Álomhegyi-tó, amelyet (ha jól tudom) 2012-ben kezdtek ásni a város külterületén. Az eredetileg víztározónak induló beruházás szerencsére azóta csak lassan halad, a tavat gyakorlatilag a vízi élővilág meghódította, a partját nád, gyékényfajok és más mocsári egyszikűek, füzek és nyárak uralják. A tó körüli munkálatok nyomán változatos homokformációk jöttek létre, részben ezeken is megindult a növényzet térhódítása, másutt partifecske- és gyurgyalag-költőhelyek alakultak ki. A város külterülete mozaikos, aránylag nyílt kultúrtáj, amelyet kis- és nagytáblás szántók, felhagyott gyümölcsösök, homokpusztagyepek és lápi-mocsári élőhelyek maradványai, parlagok, jellegtelen gyepek, idegenhonos fafajok (akác, ostorfa, fekete- és erdeifenyő) uralta fasorok és erdőfoltok, ültetvények, állattartó telepek (lovarda, hodályok, legelők, állatkert) alkotnak. Tartozik a városhoz egy nagyobb erdőterület is a Gödöllői-dombságba nyúlóan, de ezt intenzíven művelik. A terület fészkelő madárfaunája nem különösebben gazdag. Az erdei fajok aránylag ritkák, talán a fekete harkály, a füleskuvik és a léprigó érdemel említést. A nyílt és mozaikos élőhelyek fajai, valamint a lakott területek, kertek madarai már sokkal jellemzőbbek, pl. a vadgerle, parlagi pityer, erdei pacsirta, hantmadár, rozsdás csuk a jobbak közülük. Az Álomhegyi-tónál néhány egész jó faj is rendre előkerül költési időben, pl. bölömbika, függőcinege, kis vízicsibe, kendermagos réce.

Az Álomhegyi-tó a legfontosabb vízimadár-élőhely a környéken

Mindezzel együtt a fajok döntő része vonulása során bukkant fel Veresegyházon. Különösen meglepő, hogy az Álomhegyi-tónak nem túl nagy kiterjedése ellenére mennyi vizes élőhelyekhez kötődő madarat köszönhetünk. Csak a legérdekesebbek: vörösnyakú vöcsök, feketenyakú vöcsök, kis kárókatona, nagy bukó, számos récefaj, apró, Temminck-, sarlós és havasi partfutó, erdei, réti, füstös, szürke, billegető- és pajzsoscankó, gólyatöcs, "normál" és kis sárszalonka, havasi és rozsdástorkú pityer. Itt került elő a térség legnagyobb ritkasága, 2 példány citrombillegető 2019 tavaszán. Vonuló énekesekhez (pl. poszáták, füzikék, királykák, légykapók) bárhol lehet szerencsénk, de ezekre is a tavakhoz közeli erdőfoltok és cserjések a legjobbak. A költési időn kívül a patakokon rendszeres a hegyi billegető, ritkábban átrepülőként pedig a keresztcsőrű. Ragadozókból egerészölyv, karvaly, vörös vércse, kabasólyom, néha barna rétihéja fészkel a területen, a közelben darázsölyv és héja is, de vonulóként vagy kóborlóként egész jó fajok előkerültek már: parlagi sas, békászó sas, halászsas, rétisas, vörös kánya, barna kánya, vándorsólyom, kék vércse, kékes rétihéja. Rendszeres átvonuló a fekete gólya, a daru, a nagy lilik és a nyári lúd is.

Gólyatöcsök az Álomhegyi-tó kotrásán

Az összegzés előtt megérzésemre hagyatkozva még úgy sem néztem ki 171 fajt a területből, hogy a fajlistát átböngészve kiderült, 10 alatti azoknak a fajoknak a száma, amelyeket én nem láttam. Kis szerencsével és odafigyeléssel még 6-7 faj simán bejöhet a gyakoribbak közül, afelett viszont már csak ritkaságokkal bővülhet a lista. A 171 faj mindenképpen elég magas ahhoz, hogy akit érdekelnek a madarak, az ne legyen rest a távcsövet magánál tartani, hátha előbb-utóbb a 200-as álomhatárt is elérjük.

2019. november 15., péntek

REMOS - új módszer a numerikus osztályozásban

A numerikus osztályozás számos tudományterületen az alapvető statisztikai módszerek közé tartozik. A növényzeti típusok reprodukálható, objektív kritériumok alapján történő elkülönítése kapcsán én is rendszeresen írok róla. A legtöbb klasszifikációs módszer jellemzője, hogy akkor is adnak eredményt (vagyis csoportokat), ha a mintának nincs különösebb struktúrája. Emiatt az objektumok (mintavételi egységek, megfigyelések, felvételek, fajlisták... amiket osztályozunk) csoportjainak létrehozása mellett ugyanennyire fontos, hogy teszteljük, tényleg jók-e a csoportok. Ez a "jóság" temérdek kritérium szerint mérhető, Vendramin és társai (2010) például 40 módszert tekintenek át a review cikkükben. Azonban ha tudjuk, hogy a célunk egy olyan osztályozás elérése, amelyre majd egy ilyen, ún. validitási index alapján azt mondjuk, hogy ez egy "jó osztályozás", akkor miért nem keressük célirányosan már az osztályozás létrehozásakor azt a megoldást, amelynek a lehető legmagasabb a validitási indexe? A megközelítés teljesen valid, ahogyan Roberts (2015) cikkében is láthatjuk: két módszert is bemutat, amelyek valamilyen kezdeti (akár random, de inkább valami más klaszterező módszerrel legyártott) osztályozásból kiindulva addig-addig pakolgatják az objektumokat egyik csoportból a másikba, amíg az adott validitási index a lehető legmagasabb értéket el nem éri. Roberts módszerei ezt úgy érik el, hogy megvizsgálnak minden egyes lehetséges áthelyezést, majd végül azt az egyet hajtják végre, amely a legnagyobb növekedést okozza a validitási index értékében. Az egyik módszer neve OPTSIL, és a sziluett nevű indexet optimalizálja. Botta-Dukát Zoltánnal nem rég írtunk egy preprintet a sziluett index általánosításáról, amellyel különféle alakú clusterekre válik érzékennyé a módszer (azóta elfogadták az Ecology and Evolution lapban, hamarosan meg kéne jelennie). A sziluettben az a jó, hogy minden egyes objektumra ad egy értéket, ami kifejezi, hogy mennyire illik abba a csoportba, amelyikbe került, az alapján, hogy milyen átlagos távolságra (a távolságok az objektumok közti különbözőséget fejezik ki) van a csoport többi tagjától, illetve a legközelebbi másik csoport tagjaitól. Az index -1 és +1 közötti értékeket vehet fel. Ha az értéke pozitív, akkor az objektum jó helyen van, mert közelebb van a csoportja többi tagjához, mint a szomszédos csoport tagjaihoz. Ha 0 (vagy ahhoz nagyon közeli), akkor az objektum átmeneti helyzetű, ha negatív, akkor "félreosztályozott", egy másik csoport tagjaira jobban hasonlít, mint azokra, amelyekkel egy csoportba sorolták. Értelemszerűen minél kevesebb a félreosztályozott objektum, annál jobb egy osztályozás. Vegetációosztályozások "szakértői" ellenőrzésekor és értékelésekor is gyakori, hogy viszonylag szubjektív módon kijelentjük, hogy egyik vagy másik felvétel "rossz" helyen van abban a csoportban, ahová a numerikus módszer tette, néha felül is bíráljuk ezt a besorolást. Mivel a sziluett index alkalmas arra, hogy a félreosztályozott objektumokat objektív módon azonosítsa, semmi nem gátol meg minket abban, hogy csináljunk egy olyan módszert, amely egy meglévő osztályozást a félreosztályozott felvételek átsorolgatásával, iteratív módon javít egészen addig, amíg minden objektum a helyére nem kerül.

Ezt csináltuk meg, először csak Botta-Dukát Zoltánnal, amiből írtunk egy preprintet, amit felraktunk a bioRxiv szerverre. Az új módszernek a REMOS (REallocation of Misclassified Objects based on Silhouette width) nevet adtuk. A kéziratot elküldtem Dave Robertsnek, aki fontos elemzésekkel és gondolatokkal egészítette ki a munkákat, így a preprintet (immár hárman) újraírtuk. A javított verzió itt olvasható, a módszer R kódja az elektronikus függelékben, az összefoglalót alább bemásolom. Közben a kézirat bírálat alatt is áll egy folyóiratban.

A REMOS-nak két verziója áll rendelkezésre. A REMOS1 mindig csak a legalacsonyabb sziluett értékű félreosztályozott objektumot rakja át a szomszédos csoportba, míg a REMOS2 az összes félreosztályozottat. Az áthelyezés után újraszámolják az összes objektumra a sziluetteket, és ha vannak félreosztályozott objektumok, akkor jön a következő áthelyezés, majd megint újraszámolás, megint áthelyezés, és így tovább addig, amíg el nem fogynak a negatív sziluett értékek. Fontos látni, hogy a REMOS alapvetően nem ellenőrzi az áthelyezések hatását az osztályozás egészére, szemben az OPTSIL-el. A REMOS csak azt tartja szem előtt, hogy az egyedi felvételek a helyükre kerüljenek, így inkább "lokális" perspektívájú, míg az OPTSIL "globális" kritérium szerint dolgozik. (Tapasztalatom szerint a gyakorlatban jobban szeretjük azokat az osztályozásokat, ahol minden objektum a helyén van, mint azokat, amelyekben átlagosan jó helyen van minden.) Mindkét REMOS verzió képes ciklusokba kerülni. Ez azt jelenti, hogy ismétlődően ide-oda pakolgatják az objektumokat a csoportok között, de mindig marad félreosztályozott, nem érnek soha a dolog végére. Ilyenkor az algoritmus automatikusan megáll és azt a megoldást fogadja el végsőként, amely a legkevesebb félreosztályozottat tartalmazza. Ha ebben egyenlőség van, akkor az lesz a végső, amely esetén a negatív sziluettek abszolút összege (az osztályozás "hibája") a legkisebb.

A félreosztályozott objektumok arányának (Misclassification rate) változása különböző béta-flexibilis osztályozással, különböző béta értékkel készített osztályozásokból indítva optimalizálás nélkül (Initial), illetve REMOS1, REMOS2 és OPTSIL módszerekkel történő optimalizálás után

A preprintben különböző adatsorokon és különböző kiindulási osztályozásokkal hasonlítottuk össze a REMOS-t és az OPTSIL-t. Az összehasonlítás kritériuma a végső osztályozás átlagos sziluett értéke, a negatív sziluettű objektumok aránya, valamint a diagnosztikus fajok száma volt. Emellett megnéztük a két módszer által igényelt futási időt is. Amikor már eleve "jó" osztályozásból indultunk ki, mindkét módszer jól teljesített, hasonlóan magas átlagos sziluettű és kevés félreosztályozott objektumot tartalmazó megoldásokat adott. Nyilván az átlagos sziluett tekintetében az OPTSIL, a félreosztályozottak arányát nézve a REMOS volt kicsivel jobb, de mivel ez a két dolog erősen összefügg, elhanyagolható volt a különbség. Amikor azonban a kiindulási osztályozás elég rossz volt, akár véletlenszerű, akkor a REMOS sokkal jobb volt, mint az OPTSIL, mindkét fenti kritérium tekintetében. Ez annak volt köszönhető, hogy az OPTSIL az iteráció során gyakran hamar "megrekedt" lokális optimumokban. A REMOS1 és a REMOS2 között ha volt különbség, akkor mindig az előbbi javára billent a mérleg. A fenti elemzéseket szimulált adatsorokon végeztük. Valós elemzési helyzeteket eljátszva, amikor "jó" osztályozásokból indultunk ki, a diagnosztikus fajok számában nem láttunk szisztematikus különbséget, hol az egyik, hol a másik módszer tűnt jobbnak. Nagy különbség volt azonban a futási időben. A REMOS nagyságrendekkel gyorsabb volt. Pl. míg egy 300 objektumot tartalmazó adatsoron "jó" osztályozásból indítva a REMOS1 századmásodpercek alatt futott le, az OPTSIL esetén ehhez kb. 10 másodperc kellett. Nyilván 10 másodperce mindenkinek van, de a tesztünk végletesen egyszerű volt. A valóságban ezres-tízezres adatsorok és "rosszabb" osztályozások is szerepelhetnek majd, ott pedig az OPTSIL (Dave tapasztalatai alapján) akár napokig vagy hetekig is futhat, míg a REMOS2 percek, a REMOS1 órák alatt is végezhet.

A javaslatunk szerint az OPTSIL akkor jó megoldás, ha (1) kimondottan az átlagos sziluettet akarjuk optimalizálni; (2) van időnk megvárni a programot. Minden más esetben a REMOS a jobb választás.

Lengyel, A., Roberts, D.W. & Botta-Dukát, Z.: Comparison of silhouette-based reallocation methods for vegetation classification. bioRxiv, https://doi.org/10.1101/630384

Abstract

Aims: To introduce REMOS, a new iterative reallocation method (with two variants) for vegetation classification, and to compare its performance with OPTSIL. We test (1) how effectively REMOS and OPTSIL maximize mean silhouette width and minimize the number of negative silhouette widths when run on classifications with different structure; (2) how these three methods differ in runtime with different sample sizes; and (3) if classifications by the three reallocation methods differ in the number of diagnostic species, a surrogate for interpretability.

Study area: Simulation; example data sets from grasslands in Hungary and forests in Wyoming and Utah, USA.

Methods: We classified random subsets of simulated data with the flexible-beta algorithm for different values of beta. These classifications were subsequently optimized by REMOS and OPTSIL and compared for mean silhouette widths and proportion of negative silhouette widths. Then, we classified three vegetation data sets of different sizes from two to ten clusters, optimized them with the reallocation methods, and compared their runtimes, mean silhouette widths, numbers of negative silhouette widths, and the number of diagnostic species.

Results: In terms of mean silhouette width, OPTSIL performed the best when the initial classifications already had high mean silhouette width. REMOS algorithms had slightly lower mean silhouette width than what was maximally achievable with OPTSIL but their efficiency was consistent across different initial classifications; thus REMOS was significantly superior to OPTSIL when the initial classification had low mean silhouette width. REMOS resulted in zero or a negligible number of negative silhouette widths across all classifications. OPTSIL performed similarly when the initial classification was effective but could not reach as low proportion of misclassified objects when the initial classification was inefficient. REMOS algorithms were typically more than an order of magnitude faster to calculate than OPTSIL. There was no clear difference between REMOS and OPTSIL in the number of diagnostic species.

Conclusions: REMOS algorithms may be preferable to OPTSIL when (1) the primary objective is to reduce or eliminate negative silhouette widths in a classification, (2) the initial classification has low mean silhouette width, or (3) when the time efficiency of the algorithm is important because of the size of the data set or the high number of clusters.

Lengyel Attila kutatói blogja

Translate

2019. november 17., vasárnap

Veresegyház madárfaunája

2019. november 15., péntek

REMOS - új módszer a numerikus osztályozásban

Statcounter