Štatistické testovanie hypotéz. Porovnanie dvoch výberov

Štatistické testovanie hypotéz. Porovnanie dvoch výberov
Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

Materiál nájdete na: bio-med-stat.webnode.sk naše adresy:

Populácia (základný súbor) - konečný rozsah - nekonečný rozsah
Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma. Populácia je zadaná presným stanovením všetkých jej prvkov (ich vymenovaním, alebo vymenovaním niektorých ich spoločných vlastností) napr.: demografické štúdie – ľudia žijúci na príslušnom území, deti mladšie ako 10 rokov, pacienti s DM atď. (nekonečné – hladina cholesterolu vo vzorke, môžeme ju zmerať nekonečne veľa krát...)

Epidemiologické štúdie
Príčina/faktor Rizikový faktor Diagnostický test Nový liek Prognostický faktor Preventívny faktor Následok Choroba Rozlíšenie Zlepšenie Prežívanie -Zabránenie vzniku -Skoré zachytenie -Zabránenie komplikáciám Najčastejšie výskumné zámery – prepojenie by malo byť adresované vo výskumnej HYPOTÉZE.

Premenné – základné definície
všeobecnejšie ju možno definovať ako veličinu, ktorá môže nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení. Typy premenných: Číselné premenné – (možno zmerať) spojité (koncentrácia onkomarkera) a intervalové (vek) Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu) Kategorické premenné (možno zaradiť) Nominálne – klasifikujú nejakú vlastnosť (genotyp) Ordinálne – určujú stupeň vlastnosti (cancer staging). Charakterizujú sa početnosťami (%) v jednotlivých kategóriách

Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti. závery induktívnej štatistiky - sú objektívne pretože sú založené na poznatkoch teórie pravdepodobnosti a nezávisia na subjektívnom názore hodnotiteľa!!!!!

Formát dát (simulovaná databáza) Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom vstup: chirurgická intervencia výstup: úmrtie Pacient Pohlavie (F=1) Vek (roky) Objem (čas 0) (cm3) Perioperačné komplikácie (A=1) GRADE (kumulovane skore) Závažnosť diagnozy (čas 0) Time to event-death (mes) Censor data 2 1 32 5,520 6 63 8 37 3,117 4 49 9 24 5,661 7 10 38 7,218 52 20 31 7,122 74 21 43 2,319 3 26 23 6,510 41 33 4,382 5 66 25 40 8,816 29 34 6,918 13 30 7,058 55 Kódovanie v programe StatsDirect: Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)

Histogram morfometrický údaj z USG štítnej žľazy

Všetky dáta získané meraním danej charakteristiky v skupinách (pacientov, zvierat,
v skupinách laboratórnych experimentov za definovaných podmienok...) ZASTUPUJEME skupinovými reprezentatívnymi hodnotami (priemery) a príslušnými mierami rozptylu (SD) – z ktorých sa dajú odhadnúť Intervaly spoľahlivosti pre populačné priemery (95%CI) Dáta zastupujeme PARAMETRAMI (normálneho rozdelenia) parametrické testy

Ak nesprávne vyberieme parametrický test záver testovania bude nespoľahlivý!

S2 – rozptyl SD – smerodajná odchýlka Smerodajná odchýlka má rovnaké jednotky ako meraná veličina!

Odhad populačnej σ

Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti. závery induktívnej štatistiky - sú objektívne pretože sú založené na poznatkoch teórie pravdepodobnosti a nezávisia na subjektívnom názore hodnotiteľa!!!!!

„Nemusíte zjesť celého vola na to, aby ste poznali, že mäso je tuhé
„Nemusíte zjesť celého vola na to, aby ste poznali, že mäso je tuhé.“ S.Johnson

Všeobecný postup pri testovaní hypotéz

Nemusíte sníst celého vola na to, abyste poznali, že maso je tuhé.
S. Johnson (Zvárová, J.: I. Základy statistiky pro biomedicínske odbory. Karolinum, Praha, 2004.)

Všeobecný postup pri testovaní hypotéz
(formulovaný vedecký problém) (formulovaná pracovná hypotéza) Voľba hladiny významnosti alfa, ktorá udáva pravdepodobnosť, s ktorou bude splnené testovacie kritérium Formulácia nulovej a alternatívnej hypotézy (obvykle tvrdenie, ktoré chceme vyvrátiť) Voľba testovacieho kritéria (podľa povahy problému a typu úlohy) Interpretácia výsledkov (pokiaľ nulovú hypotézu zamietame, riskujeme chybu, ktorej pravdepodobnosť je nanajvýš rovná zvolenej hladine alfa. Pokiaľ ju nezamietame, nevieme, aká je pravdepodobnosť chybného rozhodnutia. Preto nikdy nesmieme tvrdiť, že sme nulovú hypotézu preukázali.) V zátvorke na pripomenutie, pretože hladina významnosti (naše riziko, že sa mýlime atď) z nej vychádza.

Pripomenutie zásad vedeckej práce
Detailný plán projektu

Čo všetko môžeme testovať
Štatistika nám poskytuje nástroj (kritérium) na rozhodovanie. Hypotézy zhody Hypotézy o testovaní rozdielov (v stredných hodnotách) medzi skupinami Hypotézy o testovaní nezávislosti (vzťahov - asociácie, korelácie) 1. Hypotézy zhody: do akej miery je náš výber reprezentatívny pre populáciu, z ktorej pochádza (funkcia hustoty modelového rozloženia vs. rozloženie experimentálnych dát) 2. Hypotézy významnosti rozdielov: porovnávame niekoľko náhodných výberov a skúmame, či pochádzajú z tej istej populácie, alebo z niekoľkých rôznych (typ grafu: rozloženie početností jednej premennej) 3. Hypotézy nezávislosti: skúmame, či a aké sú závislosti medzi niekoľkými rôznymi premennými (znakmi) (typ grafu: závislá premenná od nezávislej)

Predtým, než vyberieme vlastný test, musí byť jasne formulovaná vedecká hypotéza a spôsob jej overovania. Následne formulujeme pracovnú hypotézu

Štatistické hypotézy:
Efekt („effect size“) Nulová hypotéza (H0) – tvrdenie, že efekt je nulový Alternatívna hypotéza (HA) – tvrdenie opačné ako nulová hypotéza (obvykle „obsahujúce“ všetky ostatné možnosti, ktoré môžu nastať) t.j. efekt nie je nulový. H0: x1 = x2 - dvojstranná alternatíva HA: x1  x2 - jednostranná alternatíva HA: x1x2 alebo x1x2 Väčšinou porovnávame rôzne skupiny/spôsoby liečby... Číselná hodnota odpovedajúca tomuto tvrdeniu sa nazýva „efekt“

sú formulované párovo nulová hypotéza (H0) sa kombinuje s alternatívnou hypotézou (HA) H0: x1 = x2 HA: x1  x2

Formulácia hypotéz nie je arbitrárna vyplýva to z faktu, že nulovú hypotézu môžeme len zamietnuť, ale nikdy nie dokázať (odôvodniť) jej pravdivosť

Testová štatistika (napr.: T-test)
→ nazbierame dáta a použijeme rozhodovacie kritérium = testovú štatistiku Má presne známu distribúciu (známe rozdelenie pravdepodobnosti) T-test (studentovo t rozdelenie (pravdepodobnosti)) Zo zistenej testovej štatistiky vieme určiť pravdepodobnosť P-value

P-value T.j. spočítame pravdepodobnosť, že by sme mohli pozorovať nami zistený výsledok (alebo ešte „extrémnejší“ – menej pravdepodobný), ak by nulová hypotéza platila. t.j. p-value – dosiahnutá hladina významnosti Má presne známu distribúciu – podľa toho boli navrhnuté a zostrojené  inak by nedokázali nič merať...

P-value P-value je pravdepodobnosť, s akou by sme mohli získať pozorované dáta rovnako alebo ešte viacej odporujúce nulovej hypotéze za predpokladu, že nulová hypotéza platí. Je to pravdepodobnosť chyby, ktorej by sme sa dopustili, ak by sme prehlásili, že medzi skupinami je rozdiel a on v skutočnosti nie je (platí nulová hypotéza) Interpretácia príklad: keď napríklad porovnávame dve liečby a dostaneme vysokú hodnotu p, povedzme 0,1 (10%), potom môžeme tvrdiť, že také dáta ako naše môžeme získať (pri opakovaní experimentu, štúdie) celkom často i v prípade, že nulová hypotéza platí. Nemôžeme preto vylúčiť možnosť, že nulová hypotéza je pravdivá, t.j. že obe liečby sú rovnako efektívne. Naopak ak je p veľmi malé (napr. 0,001 = 0,1%), potom sa nulová hypotéza zdá byť takmer nemožnou, pretože naše dáta by mohli sotva kedy vzniknúť len náhodou ak by platila nulová hypotéza. Môžeme potom so značnou istotou tvrdiť, že nulová hypotéza nie je pravdivá a jedna liečba je dokázateľne lepšia ako druhá.

Hladina významnosti „alfa”
Test nulovej hypotézy – porovnanie hodnoty p-value s hladinou významnosti alfa (obvykle 0,05 = 5%) Ak zamietneme H0 prijímame HA t.j. tvrdíme, že výsledok je štatisticky významný (signifikantný) 5% - to znamená, že výsledok by sme mohli dostať za platnosti nulovej hypotézy menej než jeden krát z dvadsiatich opakovaní

Dvojstranná alternatíva

Jednostranná alternatíva

Rozdelenie pravdepodobnosti pozorovaných diferencií
β α

Štatistická vs. klinická významnosť
Príklad: tlak krvi meraný na oboch rukách u toho istého pacienta – rozdiel 1mmHg Δ – klinicky významný rozdiel 0 – nulový rozdiel medzi dvoma porovnávanými skupinami Δ – klinicky významný rozdiel 0 – nulový rozdiel medzi dvoma porovnávanými skupinami Zvárová et. al. Základy statistiky pro biomedicínské obory. Praha, Karolinum, 2004.

Testovanie hypotéz– 5 krokov
Formuluj nulovú a alternatívnu hypotézu Vypočítaj testovú štatistiku Nájdi zodpovedajúcu „p-value“ Dva možné závery: test ZAMIETA (Reject) alebo NEMÔŽE ZAMIETNUŤ “fail to reject” nulovú hypotézu Formuluj vecný záver červená = štatistika, modrá = logika, čierna = teória

Štatistický záver Hypotéza môže byť zamietnutá jedine s určitou pravdepodobnosťou a nikdy nie s úplnou istotou. Pri testovaní štatistickej hypotézy nikdy nemôžeme dokázať pravdivosť nulovej hypotézy. Môžeme ju len zamietnuť. Nesignifikantný výsledok (nezamietnutie)  pravdivosť nulovej hypotézy. Znamená len to, že ju nemôžeme v danej situácii zamietnuť.

„Je málo spôsobov ako správne uskutočniť výskumnú štúdiu, ale sú ich tisíce ako ju uskutočniť nesprávne.“ D.L.Sackett

Štatistické chyby a sila testu
Súdny prípad – v roli obvineného si želáme, aby sudcovia mali „testovacie kritérium“ s nízkou hladinou alfa. Lekár a pacient suspektný z HIV séropozitivity – lekár volí diagnostický test s nízkou chybou beta (vyššia alfa) Štatistická chyba I. druhu – riziko odsúdenia nevinného človeka (nepoznáme, že platí nulová hypotéza) Štatistická chyba II. druhu – riziko prepustenia zločinca (nepoznáme, že neplatí nulová hypotéza)

Rozdelenie pravdepodobnosti pozorovaných diferencií
β α

Verifikácia štatistických hypotéz pomocou štatistických testov
Štatistické testy (signifikantnosti): parametrické alebo neparametrické

Štatistické metódy Parametrické metódy (PM)
sa zaoberajú parametrami základného súboru (ZS), t.j. odhadmi a testami. Ich použitie si vyžaduje splnenie prísnych predpokladov o rozdeleniach pravdepodobností výberových štatistík a premennej v ZS (predpoklad normality skúmaného znaku v ZS, resp. v populácii) Neparametrické metódy (NPM) nevyžadujú také prísne predpoklady o rozdeleniach a nezaoberajú sa len parametrami ZS. Využívajú menej informácií z dát výberového súboru (VS) a tým je ich sila nižšia ako PM. NPM sú metódy s „voľnými“ rozdeleniami. Advantages of nonparametric methods Nonparametric methods require no or very limited assumptions to be made about the format of the data, and they may therefore be preferable when the assumptions required for parametric methods are not valid. Nonparametric methods can be useful for dealing with unexpected, outlying observations that might be problematic with a parametric approach. Nonparametric methods are intuitive and are simple to carry out by hand, for small samples at least. Nonparametric methods are often useful in the analysis of ordered categorical data in which assignation of scores to individual categories may be inappropriate. For example, nonparametric methods can be used to analyse alcohol consumption directly using the categories never, a few times per year, monthly, weekly, a few times per week, daily and a few times per day. In contrast, parametric methods require scores (i.e. 1–7) to be assigned to each category, with the implicit assumption that the effect of moving from one category to the next is fixed. Disadvantages of nonparametric methods Nonparametric methods may lack power as compared with more traditional approaches [3]. This is a particular concern if the sample size is small or if the assumptions for the corresponding parametric method (e.g. Normality of the data) hold. Nonparametric methods are geared toward hypothesis testing rather than estimation of effects. It is often possible to obtain nonparametric estimates and associated confidence intervals, but this is not generally straightforward. Tied values can be problematic when these are common, and adjustments to the test statistic may be necessary. Appropriate computer software for nonparametric methods can be limited, although the situation is improving. In addition, how a software package deals with tied values or how it obtains appropriate P values may not always be obvious.

Najpoužívanejšie parametrické testy
Nepárový t-test Párový t-test Fischerov F-test Jednofaktorová analýza rozptylu (ANOVA) Jednofaktorová ANOVA s opakovanými meraniami ANOVA pre dva nezávislé faktory ANOVA pre dva faktory, „mixed design“ Dvojfaktorová ANOVA s opakovanými meraniami Pearsonov korelačný koeficient „r“ a koeficient determinácie R2 Koeficient mnohonásobnej korelácie „r“ Koeficient parciálnej a semiparciálnej korelácie

Najpoužívanejšie neparametrické metódy
Kolmogorovov – Smirnovov test - porovnanie dvoch rozdelení (empirických distribučných funkcií) 2 - test dobrej zhody porovnanie dvoch rozdelení (empirického a teoretického) Znamienkový test (jednovýberový Wilcoxonov test) - analógia párového t-testu Mann – Whitneyov U test a dvojvýberový Wilcoxonov test – analógia nepárového t-testu Friedmanov test - analógia jednofaktorovej analýzy variancie s opakovanými meraniami Kruskal – Wallisov test - analógia jednofaktorovej analýzy variancie Spearmanov korelačný koeficient – neparametrická obdoba Pearsonovho korelačného koeficienta Kolmogorovov – Smirnovov test-je citlivý na akúkoľvek nezhodu empirických distribučných funkcií, nielen na posunutie (priemery)

Výber štatistického testu

Predpoklady použitia parametrických testov
Náhodný výber z populácie (organizácia experimentu) Dáta pochádzajú z normálneho rozdelenia Rozdelenie je spojité Rovnaké rozptyly (t-test, ANOVA, OLS) Výbery sú nezávislé– pre párové dáta sa vyhodnocujú normálne rozdelené diferencie) Bivariačné analýzy (t-test, regresie, one-way ANOVA – rozdiely medzi sledovanými skupinami/sledovaný parameter v daných skupinách) Randomizácia – ostatné parametre sú rovnako rozdelené v sledovaných skupinách a nevytvárajú systematický odklon (rozdiel je spôsobený len daným jedným sledovaným faktorom) -> umožňuje sledovať vplyv len na začiatku zvoleného/ých zaujímavého/ých faktora/faktorov bez toho, aby sme museli uvažovať vplyv ostatných (tie sú náhodne, rovnomerne rozdelené medzi sledovanými skupinami vďaka randomizovanému výberu). Preto parametre ktoré počas experimentu môžeme sledovať/ovplyvňovať, držíme na takej úrovni, aby nám meranie neovplyvňovali a tie ktoré nemôžeme ako experimentátori ovplyvniť, sa snažíme náhodne rovnomerne rozdeliť do sledovaných skupín, aby sme ich vplyv nemuseli pri vyhodnocovaní uvažovať... Tj. Dôležitosť organizácie a dizajnu experimentu. Ak spravíme v dizajne, organizácii experimentu chybu, nemôžeme sa opierať o výsledky bivariačnej analýzy ako o vierohodné... Je nutné použiť multivariačnú analýzu, ktorá zohľadní aj vplyv ostatných parametrov a „očistí“ výsledky od ich vplyvu, aby odhalila a ukázala „čistý“ vplyv pre nás zaujímavých parametrov a dala relevantné/unbiased výsledky. Avšak za cenu zníženia možnosti odhalenia štatisticky významných a experimentálne zaujímavých rozdielov medzi skupinami. => svojou nevedomosťou a „neschopnosťou“ zhoršujeme šancu vedecky exaktne odhaliť efekt (ak reálne existuje), ktorý predpokladáme, že by sme mohli a mali experimentom zistiť (bez nutnosti použitia duncanovho post hoc testu :). Nezávislosť pozorovaní – (správanie potkanov) -> organizácia experimentu! Randomization is one of the most common basic assumptions used to enable any further generalization of our findings. Any conclusions derived from studies devoid of appropriate randomization protocol may refer exclusively to the group of elements under study and cannot be any more universal or extrapolated towards larger groups. In other cases, our reasoning and conclusions may very likely be false. By random sampling we guarantee that the observed characteristics closely reflect the characteristics of a whole population; we say that our group is statistically representative to a general population. We probably profit most from using randomization by minimizing two fundamental threats that are known to weaken the credibility of our research: • bias, and • confounding variables. The bias is a kind of a systematic error leading to an incorrect estimate (underestimate or overestimate) of the investigated effect or association.

Normalita, transformácia dát, odľahlé hodnoty

Miery polohy a typy rozdelení
medián=priemer=modus modus priemer modus medián modus medián priemer priemer medián modus

(štandardizované) Normálne rozdelenie
68,28% 95,45% -3 -2 +1 +3 +3 -1 99,73%

Normalita Mnoho štatistických metód vyžaduje aby premenné s ktorými pracujeme mali približne normálne rozdelenie. Napríklad: t-test(y), F-test, regresná analýza. Všetky vyžadujú v určitom zmysle normalitu rozdelenia dát.

Nástroje na ohodnotenie normality
Normálny graf (Normal plot; Q-Q plot, P-P plot) Krabicový graf (Box and whiskers plot) Histogram Štatistické testy normality Shapiro-Wilkov W test D'Agostino-Pearson omnibus test (Kolmogorov-Smirnov Test)

Normálny graf (normal plot)
(normal) Q-Q plot, P-P plot Dáta sú približne normálne rozdelené ak ležia blízko okolo naznačenej priamky normálne rozdelenie

Skew Populations Heavy Tailed (Leptokurtic)

Krabicový graf (box and whiskers plot)
„fúzy“ – siahajú po min. a max. avšak maximálne do 1,5 násobku IQR od Q1 resp. Q3 Údaje, ktoré sú ďalej ako 1,5 x IQR od horného (resp. dolného) mediánu sa zobrazujú samostatne. Predstavujú potenciálne odľahlé pozorovania 1,5 x IQR medián Q1 Q3 IQR (inter quartile range) – medzikvartilové rozpätie = Q3 – Q1

Histogram do veľkej miery závisí na voľbe intervalov
Užitočný hlavne pri zisťovaní multimodality rozdelenia Surgesovo pravidlo: Histogram rozdeľuje celkový rozsah dát na intervaly (bins) a zobrazuje stĺpce odpovedajúce každému intervalu, pričom výška stĺpca odráža počet dáta spadajúcich do daného intervalu. Ak sa zvolí príliš malá šírka intervalu, výška stĺpcov bude výrazne ovplyvnená štatistickými fluktuáciami počtu pozorovaní spadajúcimi do daných intervalov. Na druhej strane ak sa zvolia príliš široké intervaly tak histogram nedokáže reprezentovať tvar rozdelenia z ktorého dáta pochádzajú, pretože „rozlíšenie“ nie je dostatočne dobré. Freedman a Diakonis h – počet intervalov n – počet pozorovaní 55

20 40 60 80 100 200 300 400 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76

Testy (ne)normality Existuje niekoľko rozdielnych testov. Testujú nasledovné hypotézy Ho: rozdelenie dát je normálne HA: rozdelenie dát nie je normálne Pár testov normality: Shapiro-Wilk, D'Agostino-Pearson omnibus test; (Kolmogorov-Smirnov, Anderson-Darling, Martinez-Iglewicz test) Poznámka: (výsledky testov nemusia vždy súhlasiť!!!)

Príklad: normalita.xls
5 10 15 20 25 16 24 28 32 36 40 Mid-points for BMI Príklad: normalita.xls BMI 50 pacientov Descriptive statistics Mean 25,3376 Standard deviation 4,923441 Skewness 0,740591 Kurtosis 3,410216 Maximum 39,87 Upper quartile 28,72 Median 24,515 Lower quartile 22,13 Minimum 16,07

Príklad a interpretácia
Shapiro-Wilk W test for non-normality Sample name: BMI Uncensored data = 50 Censored data = 0 Mean = 25,3376 Standard deviation = 4,923441 Squares about mean = 1187,773312 W = 0,958052 P = 0,0737 Test not quite significant but do NOT assume normality D'Agostino & Pearson omnibus normality test K2 5,890 P value 0,0526 Záver: dáta nie sú normálne rozdelené. Pred použitím parameterických testov je potrebné dáta transformovať alebo použiť neparametrické testy

Shapiro-Wilk test online: http://dittami.gmxhome.de/shapiro/
Ďalšie užitočné free online štatistické testy:

Transformácia dát Normalizovanie dát
stabilizovanie variancií (zabezpečiť aby konštantnosť rozptylu či už pri analýze variancie alebo regresii) symetrizovať rozdelenie linearizovanie vzťahu medzi premennými

Tukey’s Ladder of Powers
Doľava zošikmené zväčšujúci sa vplyv x (mocnina) 3 2 1 – žiadna zmena 0,5 zväčšujúci sa vplyv -0,5 -1 Doprava zošikmené -2

Nie všetky dáta môžu byť úspešne transformované !
symetrické dáta s “ťažkými chvostmi” ako normálne rozdelenie (väčšie množstvo dát na oboch koncoch rozdelenia v porovnaní s normálnym rozdelením). Bimodálne (multimodálne) rozdelenia Keď je prítomné väčšie množstvo identických pozorovaní

Príklad: BMI Dáta sú zošikmené doprava (kladná šikmosť) → vyskúšame mocniny menšie ako 1 a logaritmus Najlepší normalizujúci účinok majú log a reciprocal square root (mínus odmocnina) 65

Odľahlé hodnoty (outliers)

Univariate outliers Na základe smerodajnej odchýlky
je extrémne nepravdepodobné (p<0,00005) nájsť hodnotu vzdialenú viac ako 4SD od priemeru normálneho rozdelenia. (priemer a smerodajná odchýlka sa v tomto prípade počíta z dát bez danej podozrivej hodnoty) Na základe medzikvartilového rozpätia (interquartile range) Box and whiskers plot (1,5 x IQR od Q1 resp. Q3)

Testy na odľahlé hodnoty
Väčšinou sú dizajnované na zisťovanie prítomnosti len jedného odľahlého pozorovania Najznámejšie sú: Grubbsov test (predpokladá, že dáta pochádzajú z normálne rozdelenej populácie) Dixonov test Grubbsov test online:

Testy významnosti pre jeden alebo dva výbery

Parametrické testy Studentov T-test Jednovýberový Dvojvýberový
– nepárový – s rovnosťou rozptylov - s nerovnosťou rozptylov - párový - porovnanie malých súborov

Dvojvýberový t test Porovnanie priemerov

Testová štatistika Predpoklady použitia: Normálne rozdelenie
Náhodné výbery Nezávislosť výberov Zhodné rozptyly v skupinách Robustnosť t testu Nezhodnosť rozptylov – musí sa korigovať testová štatistika (počet stupňov voľnosti, ktorý nemusí dokonca byť celočíselný) Robustnosť – pri dostatočne veľkých výberoch (centrálna lim. Veta – nesplnenie normality má len mierny vplyv) - nerovnaký rozpyl (pomerne robustný hlavne v prípade vyváženého dizajnu (n1 = n2)

Párový studentov t test
Závislosť výberov vo vnútri dvojíc → párové dáta Predpoklady použitia Normalita rozdielov párových pozorovaní Náhodný výber

„Žiadne štatistické techniky nevytvoria „dobré“ výsledky z dát pochybnej kvality.“ M.Buyse

Neparametrické testy

testy, ktoré nevyžadujú splnenie takých silných predpokladov ako parametrické testy
sú nezávislé na tvaru rozdelenia ZS (t.j. nepredpokladajú konkrétne rozdelenie) netýkajú sa teda parametrov rozdelení (stredných hodnôt, rozptylov) v testovacích charakteristikách, nefigurujú parametre rozdelení (sú tu iné charakteristiky, popisujúce dané štatistické súbory). vychádzajú z velmi všeobecných predpokladov o rozdeleniach

Výhody neparametrických testov
nezávislosť na tvaru rozdelení, Analýza kvantitatívnych aj kvalitatívnych znakov výpočet je jednoduchší a rýchlejší nedostatky - menšia sila (tj. menšia schopnosť zamietnutia nesprávnej nulovej hypotézy) v porovnaní s parametrickými testami Kvalitatívne – čísla (intervalová, podielová) poradové testy - podtrieda neparametrických testov miesto s pôvodnými hodnotami v náhodnom výbere pracujú s poradovými číslami týchto hodnôt.

Poradové (rankové) testy
namiesto hodnôt používame ich poradové čísla po usporiadaní podľa veľkosti (poradová štatistika) Je možné ich použiť aj pre ordinálne znaky (slovné) parametrické testy - numerické hodnoty znakov Uvažujú aj, o koľko sú tieto hodnoty vzájomne väčšie či menšie. poradové testy - poradie hodnôt znakov Prejaví sa len, že sú rôzne veľké, ale nie o koľko (šikmosť sa neprejaví)

Nahradenie poradím Rovnaké hodnoty – „ties“ tzv. zhody. Týmto sa priraďuje ich priemerné poradie. parametrické metódy majú svoje neparametrické alternatívy

Mann-Whitney (dvojvýberový Wilcoxonov test, Wilcoxon rank-sum test)
predstavuje neparametrickú obdobu dvojvýberového t-testu pro nezávislé súbory (nepárového) H0 – rozdelenie obidvoch skupín je rovnaké H1 – rozdelenie obidvoch skupín sa líši Skombinujeme výbery (vytvoríme tzv. združený výber), usporiadame ich a hodnotám priradíme poradie

Testuje sa hodnota menšieho U
Pokiaľ je táto hodnota U  U (n1 n2), zamietame nulovú hypotézu na hladine významnosti  a prijímame alternatívnu hypotézu Nemôžeme hovoriť o rozdieloch priemerov nezávislých súborov, pretože tie nie sú neparametrickým testom hodnotené! Pri velkých rozsahoch súborov, pre ktoré nie sú uvedené kritické hodnoty, je možné využiť skutočnosti, že rozdelenie náhodnej veličiny U sa blíži normálnemu rozdeleniu t.j. použijeme aproximáciu normálnym rozdelením. Pokiaľ máme presné p, je táto hodnota nezaujímavá.

Predpoklady: Buď je testom nulovej hypotézy, že se jedná o výbery z rovnakého základného súboru Pokiaľ je formulovaný ako test o polohe, potom je predpokladom, že se jedná o súbory s rovnakým tvarom rozdelení

Štatistické testovanie hypotéz. Porovnanie dvoch výberov

Similar presentations

Presentation on theme: "Štatistické testovanie hypotéz. Porovnanie dvoch výberov"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Štatistické testovanie hypotéz. Porovnanie dvoch výberov

Similar presentations

Presentation on theme: "Štatistické testovanie hypotéz. Porovnanie dvoch výberov"— Presentation transcript:

Similar presentations

About project

Feedback