A fenti kérdést egy másik tanszéken dolgozó kolléga szegezte nekem múltkor, az első találkozásunkkor. De vajon igaz, hogy a statisztika hit kérdése? Hogy lehet benne hinni, meg nem hinni, de mintha nem lenne igazán logikus érv mellette? Hogy a statisztika egyfajta vallás, a statisztikusok pedig voltaképpen sámánok, akik különféle csodaszereket kínálgatnak az olyan "jól bevált" eszközök helyett, mint a tapasztalati tudás, az intuíció vagy a híres "józan paraszti ész"?
Erről szó sincs. Valójában minden kutató, aki sokaságokat hasonlít össze, jóslatokba bocsátkozik egy folyamat kimeneteléről, összefüggések erősségéről nyilatkozik, röviden: kvantitatív jellegű kérdéseket feszeget, szükségszerűen statisztikát használ, tulajdonképpen modellez. Csak nem feltétlenül számítógépen, hanem fejben. Sőt, minden ember modellez. Ha megkérdezik, hogy az "A" zöldségesnél nagyobbak a dinnyék, vagy a "B"-nél, akkor a kínálatra ránézve, mérés nélkül is arra gondolunk, hogy mekkora lehet az átlag az egyik és a másik zöldségesnél, és az átlag körül mennyire szórnak az egyes dinnyék (mennyire térnek el az átlagtól az egyes darabok), mekkora az átfedés a kettő között. Ugyanez történik a t-próbánál, több zöldséges esetén az ANOVA-nál. Ha fontos kérdés, hogy "jelentősen" nagyobbak a dinnyék A-nál, mint B-nél, akkor kell egy referenciaérték, amely a "jelentős" és a "nem jelentős" közti különbség határvonala. Ez a referencia sokféleképpen kitűzhető, de a leggyakoribb eset, hogy ha nagyobb (persze, mennyivel?) a különbség két zöldséges között, mint hogyha a dinnyéket véletlenszerűen osztottuk volna szét közöttük, akkor a különbség "jelentős" ("szignifikáns"). De ennél többet is megtudhatunk a zöldségesek dinnyeforgalmazásáról, ha figyelembe vesszük, mondjuk azt, hogy igaz, hogy az "A"-nál kisebbek a dinnyék, viszont az régebb óta van nyitva, tehát lehet, hogy az "A"-ból a vásárlók már elvitték a nagyokat, ez okozza a különbséget. Erre szépen fel lehet írni egy modellt: a vásárlók egységnyi idő alatt n dinnyét vesznek meg, a dinnye megvásárlási valószínűsége a méretével arányos, "A" zöldséges t1 ideje van nyitva, "B" zöldséges t2 ideje, t1>t2, feltételezzük, hogy nyitáskor nem volt köztük semmi más különbség. Amit meg akarunk jósolni vagy magyarázni, az a dinnyék átlagos mérete közötti különbség a zöldségesek között. Ha a modellünk helyes, akkor a modell kimenete (egy jósolt vagy valószínűsített dinnyeméret-eltérés "A" és "B" átlaga között) jól közelíti a valóságot, ha nem helyes, akkor távol áll attól. Vegyük észre, hogy ezt fejben pontosan így csináljuk a faék egyszerűségű, hétköznapi kérdésekben, csak annyira természetes számunkra, hogy nem tudatosul bennünk, hogy modellezünk! A modellezés (és úgy általában, a statisztika) nem más, mint a gondolkodásunk formalizálása, mások számára egyértelművé tétele egy közös nyelv, a matematika segítségével. A modell egy feltételezés egy jelenség hátterében álló mechanizmusról. Egy hipotézis, amit elfogadhatok, ha az adatok alátámasztják, és elvethetek, ha nem támasztják alá eléggé. A modell megalkotásához kulcsfontosságú a vizsgált jelenség (pl. a szóban forgó zöldségesek) beható ismerete. És itt van a tapasztalati tudás szerepe: tudni kell, hogy egyáltalán mely tényezőkkel érdemes számolni. Van-e egyáltalán esély arra, hogy a beszállító kiléte, a nyitvatartási idő vagy a vasárlói preferencia magyarázza meg a két zöldséges közti különbséget, és nem a névválasztásuk, az eladó külleme vagy a szakmai múltja? A tapasztalati tudás és a modellezés tehát kéz a kézben jár. Az előbbi nélkül nem lehet értelmes modelleket gyártani, értelmes modellek azonban szükségesek a jelenségek mechanizmusának megértéséhez és az előrejelzéshez. Az, aki "nem hisz" a statisztikában, valójában nem tudja használni. Természetesen nem kell minden kutatónak statisztika-gurunak lenni, de aki kvantitatív kérdéseket feszeget, az lehetőleg annyira sajátítsa el a statisztika nyelvét, hogy a hipotézisét meg tudja fogalmazni, le tudja írni a vizsgálat változóit és objektumait, majd az elemzést egy hozzáértőre bízva az eredményeket tudja értelmezni. Fontos tudni, hogy a statisztikai módszerek eszközök, amik nem válaszolják meg helyettünk a problémáinkat, ahogy a kalapács sem veri be magától a szöget. Tudni kell jól kérdezni, a kérdéshez megfelelő módszert kell választani, és az eredményeket helyesen kell értelmezni - legalább 1-1 személynek a kutatás résztvevői közül.
A statisztika nem csak azok számára tűnik fel a mágia szerepében, akik szkeptikus tartózkodással viseltetnek iránta, hanem azok számára is, akik hajlamosak az elemzések eredményeit abszolutizálni. Ők nem kívülállóként, hanem követőként viszonyulnak a valláshoz. Ennek a tünete, amikor elfeledkeznek a statisztikai módszerek korlátairól. Egy valós biológiai kérdés megválaszolására gyakran több alternatív módszer kínálkozik, némelyek egyformán indokolható választásnak tűnnek, de mégis eltérő eredményt adnak. A kutató szubjektív döntése, hogy melyik módszert választja, de ennek a döntésnek hatása lesz az eredményre, így a belőle levont következtetésre is. A statisztikai elemzések eredménye tehát módszerfüggő. Ha a kutatási kérdésünket minél több különböző módszerrel próbáljuk megválaszolni, akkor árnyaltabb képet kapunk az adatsorunkról, illetve a vizsgált jelenségről, a téves következtetés esélyét pedig csökkentjük. Különösen hatékonyan járhatunk el, ha a módszerünket kis lépésekben változtatjuk, és figyeljük, hogy ez milyen változást okoz az eredményekben. Ez történik például akkor, amikor egy osztályozási probléma esetén növekvő csoportszámú klasszifikációkat gyártunk, és figyeljük, hogy az egyre finomabb felbontás milyen mintázatokat fed fel az adatsorunkból. Vagy amikor bonyolult kiindulási modellből lépésről lépésre kihagyjuk a jelentéktelen hatású tényezőket, míg el nem jutunk addig, hogy a modellünk már csak a valóban fontos változókat tartalmazza. Gyakran maga a minta is magán hordoz olyan sajátosságokat, amelyek miatt nem tudható pontosan, hogy az eredmények mennyire általánosíthatók. Pl. vajon ugyanazt a jelenséget mérem-e, ha egy kiskunsági homokpusztagyepen és egy mátrai hegyi réten vizsgálom a fajgazdagság és a biomassza összefüggését? A konklúziónk soha nem választható el teljesen sem a mintától, sem az alkalmazott módszerektől.
Ne felejtsük el tehát, hogy a statisztikai módszerek eszközök. Nem lehet velük csodát tenni, nem oldanak meg helyettünk problémákat intelligens módon, nem találják ki a gondolatainkat, de kellő hozzáértés birtokában eredményesen alkalmazhatók hipotézisek formális tesztelésére, kvantitatív mintázatok felfedésére.
A fenti témában ajánlom Juhász-Nagy Páltól a Beszélgetések az ökológiáról című könyvet.
A fenti témában ajánlom Juhász-Nagy Páltól a Beszélgetések az ökológiáról című könyvet.