Translate

2015. szeptember 1., kedd

Ökológiai adatok elemzése R szoftverrel kezdőknek



Az R az utóbbi 5-10 évben a legszélesebb körben alkalmazott statisztikai adatelemző szoftver lett az ökológiában. A konferenciák és cikkek tanúsága szerint egyre többen használják ezt a kutatásaikhoz, több egyetemen pedig már az R az alapvető szoftver a biostatisztika órán. Mindez nem csoda azok után, hogy az R sikeresen ötvözi magában azokat az előnyöket, amiket egészen röviden "olcsó és jó"-ként összegezhetünk:
  • ingyenes, minden kiterjesztésével együtt: letölthető a www.r-project.org oldalról, annak is a CRAN (The Comprehensive R Archive Network) nevű részlegéről;
  • az R tulajdonképpen egy programozási nyelv, amelyen magunk írhatjuk meg a szükségleteinknek megfelelő függvényeket vagy választhatunk a mások által közzétettek közül, ezeket tetszés (és tudásunk) szerint kombinálhatjuk vagy módosíthatjuk. Ez szöges ellentétben áll az adatelemző szoftverek többségével, amelyekben csak a program által felkínált lehetőségek közül választhatunk kattintással;
  • az R alap installációja rengetegféle függvénycsomaggal kiegészíthető. Nem hiszem, hogy van olyan szegmense az ökológiának, amelyhez még ne írt volna valaki egy csomagot, amely tartalmazza a tudományterület korszerű adatelemző módszereit;
  • hatalmas felhasználói bázisa van a neten, rengeteg fórummal, bloggal, honlappal, kurzusanyaggal, így aránylag könnyű segítséget kérni;
  • folyamatosan fejlesztik, frissítik, az új módszerek hamar rendelkezésre állnak.
Van viszont néhány dolog, ami megnehezíti a használatát:
  • ahogy fentebb jeleztem, meg kell tanulni programozni a használatához, nem elég csak a program menüiben kattintgatni a funkciók eléréséhez (szemben olyanokkal, mint a PC-ORD, SYNTAX, SPSS és társaik), de ez csak egy ideig akadály;
  • annak ellenére, hogy a saját fejlesztésű csomagokat csak tüzetes ellenőrzés után engedik megjelentetni az R szerverén, a rengeteg hozzájáruló miatt elő-előfordulnak nem kellően kontrollált tartalmú és működésű funkciók, "bug"-ok. Mielőtt használni kezdünk egy korábban ismeretlen csomagot, érdemes alaposan leellenőrizni, mit írnak róla a fórumok, stb;
  • Noha valamilyen szinten szinte mindenre van megoldás az R-en belül, bizonyos speciális célokra léteznek sokkal könnyebben kezelhető és eredményesebb szoftverek. Pl. bizonyos térinformatikai műveletek megoldhatók R-ben, de azért érdemes mégis inkább ArcGIS-t vagy QGIS-t használni helyette. Jó esetben az ilyen speciálisabb programok és az R kommunikációja megoldott, így ha valami az egyikben nem sikerül, még megpróbálhatjuk a másikban;
  • Az R-ben készített ábrák rendszerint nem igazán esztétikusak, kimondottan döcögősen javítható a vizualizáció, bár kellő utánajárással magas szintre is fejleszthető;
  • Elég lassú. Ezen nincs mit szépíteni.

Az alábbiakban közreadok néhány linket és hivatkozást kimondottan azok részére, akik most kezdenek ismerkedni az R alapjaival, vagy pedig (elsősorban többváltozós) közösségi ökológiai adatok elemzéséhez van szükségük az első útmutatásokra. Lehetetlen próbálkozás lenne minden fontos referenciát megadni, ehelyett azt a néhányat mutatom be, amelyeket én is megelégedéssel forgatok azóta, amióta az első R-es hibaüzenet megjelent a képernyőmön. Ez mennyiségileg a témában megjelent irodalom elhanyagolható töredéke, viszont jó kiindulási pontnak tartom az R-es ökológiai adatelemzés iránt érdeklődőknek. Akik bővebben szeretnének tájékozódni, azoknak ajánlom az R hivatalos honlapján lévő listát, valamint a hazai R honlap (r-projekt.hu) segédanyagait.


Könyvek:

Az alábbi könyvek közül az angol nyelvűek egy egyszerű Google keresés segítségével megtalálhatóak a neten PDF formátumban.

Crawley, M.J. (2007) The R Book. Wiley, UK, 950 pp




Amikor 6-7 éve ismerkedni kezdtem az R-el, ez a könyv nagyon sokat segített. Gyakorlatilag minden benne van, ami a kezdetekhez kell, habár a példái nem szorítkoznak az ökológiára. Nulla programozói ismeretekkel is neki lehet állni olvasni, a legprimitívebb információkkal kezdve vezeti be a szerző az olvasót az R rejtelmeibe. Az adattárolást, adatszerkesztést, ábrázolást és alapvető matematikai műveleteket bemutató részek után az egyváltozós statisztikai módszerek következnek, majd lépésről lépésre megyünk bele a sűrűjébe, a regressziók után a famodellek, a többváltozós adatfeltárás, a térbeli és az időbeli elemzések is sorra kerülnek. Persze, mindenből a legegyszerűbb, de már használható szinten, ahonnan már el lehet indulni. Az egyes módszerekről egy aránylag rövid, de lényegre törő ismertetőt közöl, utána a hangsúly a megvalósításon, alkalmazáson van.
Pár éve megérkezett az új, zöld borítójú kiadása, amiről azt írják, hogy könnyebben használható lett. Eddig csak futólag pillantottam bele, nem észleltem különbséget.





Reiczigel J., Harnos A., Solymosi N. (2007) Biostatisztika nem statisztikusoknak. Pars Kft., Nagykovácsi, 455 pp., valamint újabb, változatlan kiadásai 2010-ben és 2014-ben.



Tudomásom szerint ez jelenleg az egyetlen olyan, magyar nyelvű statisztika tankönyv, amelynek céljai közt szerepel az R megismertetése - s a hangsúlyok valóban ezek, a statisztikát könnyebb belőle megtanulni, mint az R használatát. Összességében egy elég jó, könnyen olvasható könyvről van szó, amit a varianciaanalízis, a regressziószámítás, a modellszelekció és -diagnózis részletes és modern igényeknek megfelelő tárgyalása tesz a legértékesebbé. Tematikájában ennél, vagyis az egyváltozós statisztikai alapvető módszereinél tovább nem is megy, így a közösségi ökológiai problémák megoldásához többnyire máshová kell nyúlnunk. A könyv honlapja itt érhető el. Érdemes még megemlíteni, hogy a Szent István Egyetem Állatorvos-tudományi Karán dolgozó szerzők az R hazai népszerűsítésének élharcosai, és érdemes ellátogatni a honlapjukra, mert gyakran találni rajtuk hasznos segédanyagot vagy meghirdetett kurzust.



Borcard, D., Legendre, P. & Gillet, F. (2011): Numerical Ecology with R. Springer, New York, 319 pp.



A közösségi ökológia terén alkalmazott többváltozós adatfeltáró módszerek (klasszifikáció, ordináció, térbeli elemzések) R-es megvalósításáról szerintem ez a legjobb könyv. Még minimális R ismerettel is érdemes kinyitni (bár ilyen esetben azért legyen kezünk ügyében a fentebbi The R Book a biztonság kedvéért)! A kötet az elemzések gyakorlati kivitelezésének bemutatására törekszik, az egyes módszerekről csak hosszabb-rövidebb leírást kínál. Ugyanakkor bizonyos módszerek elméleti hátterének átadását szerintem mindennél sikeresebbé teszi azzal, hogy kézzel írt kódokat közöl hozzájuk (ld. "The Code It Yourself Corner" cikkelyek), így magunk is végigkövethetjük az algebrai lépéseket. Akinek pedig a hagyományosabb, tankönyvi elmélet hiányzik, a nagy elődöt, a Legendre & Legendre (1998): Numerical Ecology-t ajánlom.
A könyv egyébként része annak a Use R! nevű sorozatnak, melynek célja, hogy az egyes szűkebb tudományterületek R-es alkalmazásait, valamint bizonyos statisztikai problémák R környezetben történő feldolgozását mutassa be.



Különböző online források


Alapos technikai bevezető az R használatához. Statisztika nincs benne, de ha valaki szeretne szisztematikusan hozzáfogni a tanuláshoz, érdemes itt kezdenie.



Talán ezzel kellett volna kezdenem ezt a szekciót, hiszen ez egy igen kimerítő, minden részletre kiterjedő technikai bevezető az R-hez. Néhol szűkszavú, de minden fontos témát érint, ami az R alapvető funkcióival kapcsolatos.



Gyakorlati anyag az R-es vegetációelemzéshez Dave Robertstől. Problémaorientált, lényegre törő, kezdőknek is ajánlom.



Már fentebb említettem, de megérdemli a kiemelést a hazai R használók oldala, amelyen kezdő útmutatásokat, tanfolyamokat, közösségi eseményeket, és még sok mindent találunk, természetesen magyarul. Nagyon hasznos oldal kezdőknek, és haladók is sokat profitálhatnak belőle!




Az említetteken kívül rengeteg blog, fórum, honlap, jegyzet, könyv áll még az R-ül tanulni vágyók rendelkezésére. Már csak el kell kezdeni! :)

Nincsenek megjegyzések:

Megjegyzés küldése