Statistika kvantitatiivsed aspektid

Tõenäosuste interpreteerimine

Statistilistes testides enamkasutatud parameeter on p-väärtus (statistilise olulisuse tõenäosus), mis mõõdab järelduste kaalu. On oluline aru saada, mida see väärtus tähendab. Kujutage ette, et me oleme huvitatud teadmisest, kas kahjurputuka suvine suur arvukus on seotud kõrgete kevadiste õhutemperatuuridega. Andmetena on kasutada kahjurite suvised arvukusenumbrid ja mitmete aastate keskmised kevadised temperatuurid. Meil on põhjust loota, et olemasolevate andmete statistiline analüüs lubab üht-teist teatud usaldusväärsusega järeldada (vt. näidet joonisel 5).

Statistilise testi läbiviimiseks on vaja nullhüpoteesi, mis antud juhul tähendab, et seost muutujate vahel ei ole. Statistiline test genereerib seega meie andmete saamise tõenäosuse (p-väärtuse) tingimuses, kus nullhüpotees oleks tõene. Oletame, et meie andmed on sarnased joonis 5 toodud variandiga A (p=0,5 ehk 50%). See tähendab, et kui me oma uuringut kordaksime, siis 50% juhtudest annaksid juhusliku tulemuse. Järelikult ei ole piisavalt kaalu väitel, et muutujate vaheline seos on olemas. Nullhüpoteesi juurde jäämine ei tähenda nullhüpoteesi tõestamist. Nullhüpoteesi juurde tuleb jääda, kui sisuka hüpoteesi poolt ei ole piisavalt tõendeid.

Joonisel 5 B varianti iseloomustavad andmed annavad p väärtuseks 0,001 (0,1%). See omakorda tähendab, et ainult 0,1% sarnaseid uuringuid võib anda tulemuseks, et muutujate vahel seost ei ole ja järeldused arvukuse ja temperatuuri vahelistest seostest on igati asjakohased. Kokkuleppeliselt võib sisuka ehk nullhüpoteesist erineva oletuse tõestatuks lugeda ja vastu võtta siis, kui p ≤ 0,05. Kui p-väärtus on nimetatud piirist suurem, siis see võib tähendada kahte asja: 1. andmetes ei olegi seoseid või 2. andmed ei ole piisavalt head, et olemasolevaid seoseid toetada (näiteks seos on nõrk ja andmeid ei ole piisavalt, et seda tõestada).

Joonis 5. Hüpoteetilise uuringu tulemused. Seoseid otsitakse kahjurputuka arvukuse (joonisel abundance) ja eelnenud kevade keskmise õhutemperatuuri (mean spring temperature) vahel. Kõik joonise punktid tähistavad kogutud andmete väärtusi. Horisontaalne joon märgib nullhüpoteesi - s.t., et seos temperatuuri ja arvukuse vahel puudub. Punktiirjoonega on märgitud parima võimalik seos muutujate vahel, kusjuures kõikidel juhtudel tõuseb arvukus siis, kui temperatuur tõuseb. Millal me saame aga olla kindlad, et selline üldistus on piisavalt usaldusväärne? A) Seos on nõrk (p=0,5), s.t. ei ole head tõestust olemasoleva seose kohta ja see ei erine nullhüpoteesist. B) Seos on tugev (p=0,001) ja me võime olla kindlad, et arvukus sõltub temperatuurist. C) Tulemused vihjavad mõningasele seosele (p=0,1), kuid ühest järeldust ei saa teha. D) Andmed on eelmisega sarnased, kuid piisavalt kaalukad, et järeldada tunnuste omavahelist seost (p=0,04). Allikas: Begon et al. 2006.

Tulemustele usaldusväärsuse andmine

Tulemuste usaldusväärsust saab tõestada ka näiteks standardvea abil. Standardviga iseloomustab meie teadmiste täpsust uuritava üldkogumi keskmisest (näiteks toodetavast seemnete arvust) ja mida väiksem see on, seda täpsem on meie teadmine (uuri näidet joonisel 6).

Joonis 6. Kahe hüpoteetilise uuringu tulemused. Uuringus võrreldakse kahe erineva koosluse (Site A, B) taimede seemneproduktsiooni (Mean number of seeds...). Kõikidel juhtudel näitab tulba kõrgus keskmise väärtust ja jooned, mis keskmisi läbivad, iseloomustavad standardviga. A) Keskmised on küll erinevad, kuid standardviga suur. Seega ei ole kindel järeldada, et taimede seemneproduktsioon alade vahel erineb (p=0,4). B) Keskmiste vahe on eelmisega väga sarnane, kuid standardviga nende keskmiste ümber suhteliselt väike. Sellisel juhul saab väita, et alade vahel on taimede seemnete produtseerimises erinevused olemas (p<0,05). Allikas: Begon et al. 2006.

Andmete usaldusväärsus on oluliselt seotud ka prooviala valiku ja proovivõtuga.

Kui õpiobjektist jäi väheseks, siis

Uuri veel statistika kohta

Tulemuste esinduslikkus

Statistika sõnaraamat