Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter på session: Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala Influerende faktorer: Gener Miljø under opvækst: Energi Proteiner vitaminer Sygdomme Stress P(X) M6, slide M6, slide 4 (normalfordelingen) Gængse matematiske sandsynlighedsfordelinger: M6, slide Diskrete data: Den positive binomialfordeling Poisson-fordelingen Den negative binomialfordeling Kontinuerte data: Normalfordelingen/-fordelingen t-fordelingerne χ -fordelingerne, F-fordelingerne p( Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Kropsvægte af duehøge-hunner: Influerende faktorer: Gener Miljø: Energi Proteiner vitaminer Sygdomme Stress I realiteten er biologiske fordelinger kun tilnærmelsesvist normalfordelte, da nogle faktorer er vigtigere end andre. M6, slide 5 (normalfordelingen) Normalfordelingen Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. P(X) -Derfor tilnærmes binomialfordelingen og Poisson-fordelingen sig også normalfordelingen, når >9. Kontinuert sandsynlighedsfordeling 0. 0.5 Opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. P( 0. 0.05 0 0 3 6 9 5 8 M6, slide 3 (normalfordelingen) M6, slide 6 (normalfordelingen)

Normalfordelingens parametre: P( e π µ Enhver normalfordeling kan beskrives ud fra parametrene µ og µ: Fordelingens middelværdi : Fordelingens standardafvigelse M6, slide 7 (normalfordelingen) P(X) Tabel af de kumulerede værdier af den standardiserede normalfordeling, -fordelingen Σ P() -3,0 0,003 -,5 0,006 -,0 0,08 -,9 0,088 -,8 0,0360 -,7 0,0447 -,6 0,0549 -,5 0,0669 -,4 0,0809 -,3 0,0970 -, 0,5 -, 0,358 -,0 0,588-0,9 0,84-0,8 0,0-0,7 0,4-0,6 0,744-0,5 0,3087-0,4 0,3447-0,3 0,38-0, 0,408-0, 0,460 0,0 0,5000 M6, slide 0 (-fordelingen) Σ P() 0, 0,5398 0, 0,579 0,3 0,678 0,4 0,6553 0,5 0,693 0,6 0,756 0,7 0,7578 0,8 0,7879 0,9 0,857 0,84, 0,864, 0,8847,3 0,9030,4 0,990,5 0,9330,6 0,9450,7 0,9553,8 0,9639,9 0,97 0,977,5 0,9937 3 0,9986 Kummuleret P(). 0 9 8 7 6 5 4 3-3 - - 0 3 (-µ)/ P(. -4-3 - - 0 3 4 ( - µ)/ P(. -4-3 - - 0 3 4 ( - µ)/ Kummuleret P(). 0 9 8 7 6 5 4 3 Gælder altid for normalfordelinger: 68.6% af arealet ligger i intervallet µ± 95.44% af arealet ligger i intervallet µ± 99.74% af arealet ligger i intervallet µ±3 95.0 af arealet ligger i intervallet µ±.96 M6, slide 8 (normalfordelingen) -3 - - 0 3 (-µ)/ Fra ΣP() kan man estimere sandsynligheden for at et stokastisk udfald afviger fra en normalfordeling med en kendt middelværdi og standardafvigelse: -tailed: hvad er sandsynligheden for at et udfald vil antage en værdi afvigende fra µ i én bestemt retning? -tailed : Hvad er sandsynligheden for at et udfald vil antage en værdi afvigende fra µ i den ene eller anden retning? M6, slide (-fordelingen) Kummuleret P(). 0 9 8 7 6 5 4 3-4 -3 - - 0 3 4 (-µ)/ P(. -4-3 - - 0 3 4 ( - µ)/ Den standardiserede normalfordeling, -fordelingen Eksempel: µ P(). -4-3 - - 0 3 4 ( - µ)/ P( e π µ Da sandsynlighedsfunktionen af en enhver normalfordeling er den samme for ( - µ)/, re-skaleres normalfordelte data til denne størrelse,. Længden af -årige sild følger en normalfordeling med parametrene: µ.5 cm,.3 cm Hvor sandsynligt vil det være at én - årig sild vil være mindst 5. cm lang? (5..5)/.3.0 M6, slide 9 (-fordelingen) M6, slide (-fordelingen)

Z (5..5)/.3.0 Kummuleret P(). 0 9 8 7 6 5 4 3 M6, slide 3 (-fordelingen) -3 - - 0 3 (-µ)/ P(.0) 0.977 0.03 Σ P(......,8 0,964,9 0,97 0,977, 0,98, 0,986,3 0,989,4 0,99...... µ Sikkerhedsinterval for enkeltobservationer af normalfordelte data: Nu isolerer vi i ligningen: µ ± α µ ± α µ α < < µ + α P ( < < µ + ) α µ α α α signifikansniveauet α angiver sandsynligheden for at (værdien af en ny observation) afviger fra populationens middelværdi med mere end gange populationens standardafvigelse M6, slide 6 (-fordelingen) Z (5..5)/.3.0 Kummuleret P(). 0 9 8 7 6 5 4 3 0.04 0.03 0.0 0.0 0-3 - - 0 3-4 -3 - - 0 3 4 (-µ)/ ( - µ)/ P(.0) 0.977 0.03 -der er.3% chance for at en -årig sild vil være 5. cm lang eller længere M6, slide 4 (-fordelingen) P(. µ Sikkerhedsinterval for enkeltobservationer af normalfordelte data: P( < < µ + ) α µ α α Sikkerhedsintervallet omkring µ angiver det interval, hvori værdien af den stokastiske variabel kan forventes at befinde sig med en given sandsynlighed: 0.045 0.04 0.035 0.03 0.05 P(. 0.0 0.05 0.0 0.005 0-4 -3 - - 0 3 4 ( - µ)/ 95% sikkerhedsintervallet angiver det interval, som indeholder 95% af alle enkelt-observationer. 95% sikkerhedsintervallet angiver det interval, som en ny observation med 95% sikkerhed vil befinde sig inden for. M6, slide 7 (-fordelingen) Z (5..5)/.3.0 Kummuleret P(). 0 9 8 7 6 5 4 3-3 - - 0 3 (-µ)/ 0.04 0.03 P(. 0.0 0.0 P(.0 -.0 ) ( 0.977) 0.046 - der er 4.6% chance for at en -årig sild afviger.6 cm eller mere fra populationens M6, slide 5 (-fordelingen) middelværd (two-tailed) µ 0-4 -3 - - 0 3 4 ( - µ)/ Eksempel : µ.5cm,.3cm Hvilke maksimum- og minimumværdier for kropslængde vil 95% og 99% af populationen befinder sig inden for? 0.04 0.0 P(.960) 95%; P(ll.576) 99% 0 95%-grænser: ± (.5cm)/.3 cm ±.960.5 ±.96.3 cm.5 ±.55 cm {9.95 cm; 5.05 cm} 95% af observationerne vil være længere end 9.95 cm, men kortere end 5.05 cm 99%-grænser: ± (.5)/.3 ±.576.5 ±.59.3 cm.5 ± 3.35 cm {9.5 cm; 5.85 cm} 99% af observationerne vil være længere end 9.5 cm, men kortere end 5.85 cm M6, slide 8 (-fordelingen) P(. -4-3 - - 0 3 4 ( - µ)/ µ ± c µ ±

Hvordan kan vi vide om en fordeling er normalfordelt? Se på data: Ser fordelingen nogenlunde normalfordelt ud? Ligger ca. 7 af observationerne inden for ±s? Div. grafiske metoder (qq-plot, nf-papir) Goodness-of-fit test: Uanvendelig ved små stikprøvestørrelser straffer meget store stikprøvestørrelser. M6, slide 9 Vi skal om lidt se at det sjældent er så vigtigt at en fordeling af observationer er normalfordelt, blot gennemsnittet er normalfordelt mere herom senere.. t-fordelingen Der eksisterer en t-fordeling for hver værdi af ν. (ν df. {,,3... }) -fordelingen er et særtilfælde af t- fordelingen, hvor ν I praksis er der minimal forskel på de to fordelinger når ν > 00. Signifikansniveauer af t ν er tabellagt i Appendi i F, C& J M6, slide (t-fordelingen) t-fordelingen Hvis vores middelværdi og standardafvigelse er estimeret fra en stikprøve, erstattes -fordelingen med t-fordelingen: µ t ν µ s Sikkerhedsgrænser omkring en middelværdi t for n (i praksis for n > 00) M6, slide 0 (t-fordelingen) M6, slide 3 (sikkerhedsgrænser omkring en middelværdi) t-fordelingerne er fladere end -fordelingen. Et gennemsnit af en stikprøve er også en stokastisk variabel Udfaldsrummet vil være det samme som for populationen som helhed Men hvad med spredningen på gennemsnittet (usikkerheden på estimatet af µ)? M6, slide (t-fordelingen) M6, slide 4 (sikkerhedsgrænser omkring en middelværdi)

Eksempel: Kropsvægte af 37 duehøgehunner dræbt i kollisioner: Fordeling af enkeltobservationer: Eksempel: 00 tilfældige tal 0-00: Fordeling af enkeltobservationer: M6, slide 5 (sikkerhedsgrænser omkring en middelværdi) M6, slide 8 (sikkerhedsgrænser omkring en middelværdi) Eksempel: Kropsvægt af 37 duehøgehunner dræbt i kolisioner: Fordeling af 00 gennemsnitsværdier, baseret på hver 5 enkeltobservationer: Eksempel: tilfældige tal 0-00: Fordeling af gennemsnitsværdier (n5) M6, slide 6 (sikkerhedsgrænser omkring en middelværdi) M6, slide 9 (sikkerhedsgrænser omkring en middelværdi) Gennemsnittene er normalfordelte! Eksempel: tilfældige tal 0-00: Fordeling af gennemsnitsværdier (n0) Fordeling af enkeltobservationer: Fordeling af 00 gennemsnit, hver baseret på 5 enkeltobservationer: M6, slide 7 (sikkerhedsgrænser omkring en middelværdi) M6, slide 30 (sikkerhedsgrænser omkring en middelværdi)

Eksempel: tilfældige tal 0-00: Fordeling af gennemsnitsværdier (n30) Spredningen på et gennemsnit: s ( s ( n s ( s( s( n n s ( variansen af enkeltobservationer s ( variansen af gennemsnittene n antal observationer, som indgår i beregning af M6, slide 3 (sikkerhedsgrænser omkring en middelværdi) M6, slide 34 (sikkerhedsgrænser omkring en middelværdi) Eksempel: tilfældige tal 0-00: Fordeling af gennemsnitsværdier (n30) Spredningen af enkeltobservationer omkring middelværdien (µ) standard deviation of the observations,standard deviation s( SD( SD s ( n M6, slide 3 (sikkerhedsgrænser omkring en middelværdi) Udsnit af -akse forstørret Spredningen af gennemsnittene omkring middelværdien (µ) Standard deviation of the means, standard error of the mean s( SD s ( SD( SE( SE n n M6, slide 35 (sikkerhedsgrænser omkring en middelværdi) Den centrale grænseværdisætning! Gennemsnittene af et stort antal stikprøver vil være normalfordelt med den samme µ som den oprindelige population. Dette gælder uanset hvilken type fordeling enkeltobservationerne følger! Spredningen på gennemsnittet bliver mindre, når antallet af observationer øger! Duehøges vægt Tal 0-00 n s( s( 086 93 5 9 5 089 3 5 4 0 085 89 5 9 0 089 6 5 6 30 088 48 50 5 086 0 50 0 s( s( n M6, slide 33 (sikkerhedsgrænser omkring en middelværdi) M6, slide 36 (sikkerhedsgrænser omkring en middelværdi)

Konventionelle forkortelser SD ( standard deviation ) standardafvigelsen af enkeltobservationer SE ( standard error ) standardafvigelsen af et parameterestimat (her: gennemsnittet) M6, slide 37 (sikkerhedsgrænser omkring en middelværdi) Eksempel: Kropsvægte af 37 duehøge-hunner. 087g SD 93g n 37 Hvad er 95%-sikkerhedsintervallet omkring den sande middelværdi (µ) af duehøge-hunners vægt? M6, slide 40 (sikkerhedsgrænser omkring en middelværdi) Sikkerhedsgrænser for den sande middelværdi: Spredning af enkeltobservationer: µ tν s Spredning af gennemsnitsværdierne: M6, slide 38 (sikkerhedsgrænser omkring en middelværdi) t ν µ µ s SE( n 087g, SD 93g, n 37 95%-sikkerhedsintervallet omkring den sande middelværdi (µ): P t SE( < < + t SE( )) α ( µ SE( SD/(n) ½ 93/(37) ½ 5.0g t (37-)0.05 α0.05.960 P(087-.96 5.0 g< µ< 087+.96 5.0 g) 0.95 Den sande middelværdi for kropsvægten af duehøgehunner P(038 ligger g< med µ<36 95% sandsynlighed g) 0.95 mellem 038 og 36 g! M6, slide 4 (sikkerhedsgrænser omkring en middelværdi) Sikkerhedsgrænser for den sande middelværdi: t ν µ µ s SE( n ( µ P tν < < tν α ) α SE(, P t SE( < < + t SE( )) α ( µ M6, slide 39 (sikkerhedsgrænser omkring en middelværdi) 087g, SD 93g, n 37, SE( 5.0g 99% og 99.9%-sikkerhedsintervallet omkring den sande middelværdi (µ)? P t SE( < < + t SE( )) α ( µ t (37-) 0.0 α0.0.576 t (37-) 0.00 α0.00 3.9 M6, slide 4 (sikkerhedsgrænser omkring en middelværdi) P(087-.576 5.0< µ< 087+.576 5.0) 0.99 P(03<µ<5) 0.99

Sikkerhedsgrænser omkring den sande middelværdi for vægten af duehøge-hunner: -α α P(038 g< µ<36 g) 0.95 0.05 P(03 g <µ<5g ) 0.99 0.0 P(005 g<µ<69 g) 0.999 0.00 P(990 g<µ<84 g) 0.9999 0.000 Sikkerhedsgrænser for en difference mellem to middelværdier: Eksempel: Skinnebenslængde målt i to græshoppe-populationer: 7.43 mm, s 0.055, n 7.64 mm, s 0.005, n 8 Hvor meget afviger de to populationers middelværdi: Kan de betragtes som forskellige? Difference: - 7.64-7.43 mm 0. mm Hvad er usikkerheden på dette estimat? M6, slide 43 (sikkerhedsgrænser omkring en middelværdi) M6, slide 46 (sikkerhedsgrænser for en difference mellem to middelværdier) Hvordan får vi sikkerhedsgrænserne om µ så smalle som muligt? P( t SE( < µ < + t SE( ) α s s P tν < µ < + tν α n n Sænke konfidensniveauet (-α) Sikkerhedsgrænser for en difference mellem to middelværdier: Hvis, er sikkerhedsgrænserne omkring den sande difference givet ved: P([ ] tν SE[ ] < µ µ < [ ] + tν SE[ ]) α Mindske spredningen på enkeltobservationerne (s, SD) -Hvor: S. E.( ) ( n ) s + ( n ) s n + n n + n nn Øge stikprøvestørrelsen (n) M6, slide 44 (sikkerhedsgrænser omkring en middelværdi) M6, slide 47 (sikkerhedsgrænser for en difference mellem to middelværdier) Sikkerhedsgrænser for en difference mellem to middelværdier: S.E. for differencen ml. middelværdier: S. E.( ) s hvor : s + n n s ( n ) s + ( n ) s n + n n + n n n S. E.( ) ( n ) s + ( n ) s n + n n + n nn M6, slide 45 (sikkerhedsgrænser for en difference mellem to middelværdier) M6, slide 48 (sikkerhedsgrænser for en difference mellem to middelværdier)

Græshopper: 95% sikkerhedsgrænser omkring forskel i middelværdi µ µ : 7.43 mm, s 0.055, n 7.64 mm, s 0.005, n 8 ( - 0.) ( n ) s + ( n ) s S. E.( n + n n + n nn 0.05 + 7 0.005 + 8 S.E. ( 0.0544 + 8 8 Sikkerhedsgrænser omkring en hyppighed P([ ] tν SE[ ] < µ µ < [ ] + tν SE[ ]) α df. +8-8, t 80.05.048 P(0.-0.048 0.0544< µ -µ < 0.+0.048 0.0544)0.95 P(0.0mm< µ -µ < 0.35) 0.95 M6, slide 49 (sikkerhedsgrænser for en difference mellem to middelværdier) M6, slide 5 (sikkerhedsgrænser for en hyppighed) Test for varianshomogenitet F-test Det er en forudsætning for pålidelig beregning af forskel i µ, at de forskellige stikprøver har ens varians H 0 : De to stikprøver har ens varians ( ). H : De to stikprøver har forskellig varians ( ). S F ma νν Smin ν antal frihedsgrader for S ma og ν antal frihedsgrader for S min. (Appendi 8 i F,C & J 998) (NB! Der er flere forskellige slags F-tests. Mere herom senere. M6, slide 50 (sikkerhedsgrænser for en difference mellem to middelværdier) Sikkerhedsgrænser omkring en hyppighed Standard error for usikkerhed omkring estimatet af en hyppighed: pˆ qˆ pˆ ( pˆ) S. E.( pˆ) n n -hvor ^p, er et estimat af den sande hyppighed, p. Sikkerhedsgrænser omkring en hyppighed: P pˆ t SE[ pˆ] < p < pˆ + t SE[ ˆ]) α ( p -hvor ν df. n - (NB! Kun pålidelig hvis s [ n ^p ^q] > 9) M6, slide 53 (sikkerhedsgrænser for en hyppighed) Græshopper: Tjek for varianshomogenitet 7.43 mm, s 0.055, n 7.64 mm, s 0.005, n 8 H 0 : De to stikprøver har ens varians ( ). H : De to stikprøver har forskellig varians ( ). S F ma νν Smin F, 7 0.055/0.005.44 Appendi 8: p > 0.05 (kritisk værdi.87) H 0 : accepteres: og kan betragtes som ens: Vi kan stole på de beregnede sikkerhedsgrænser omkring differencen i middelværdier Eksempel: Byttedyr i 38 maveprøver af Europæisk los (Lyn lyn: f( P(Hyppighed Rådyr: 57.9% Småvildt: 6 4.% I alt: n38 0 Hvad er 95%-sikkerhedsgrænserne omkring den sande hyppighed af rådyr i diæten? ^p 0.579, n k 38 M6, slide 5 (sikkerhedsgrænser for en difference mellem to middelværdier) M6, slide 54 (sikkerhedsgrænser for en hyppighed)

95%-sikkerhedsgrænserne omkring den sande hyppighed af rådyr i diæten:^p0.579, nk38 P pˆ t SE( pˆ) < p < pˆ + t SE( ˆ)) α ( p S n ^p ^q 38 0.579 0.4 9.3 OK! S.E.(^p) (0.579 0.4/[38-]) ½ 0.08 t 37,0.05.06 P(0.579.06 0.08<p< 0.579+.06 0.08) 0.95 P(0.45<p<0.743)0.95 Konklusion: Rådyr udgør med 95% sikkerhed mellem 4% og 74% af de nedlagte byttedyr M6, slide 55 (sikkerhedsgrænser for en hyppighed) Rådyr udgør med 95% sikkerhed mellem 4% og 74% af de nedlagte byttedyr Diætandel 8 7 6 5 4 3 rådyr småvildt Småvildt udgør med 95% sikkerhed mellem 6% (-0.743) og 59% (-0.45) af de nedlagte byttedyr. M6, slide 56 (sikkerhedsgrænser for en hyppighed) Tjekliste, Modul 6 (uge 49): * normalfordeling, µ, * -, t-fordeling * Tjek for normalfordeling af data * SD, SE * Den centrale grænseværdisætning * Sikkerhedsinterval omkring middelværdi * Sikkerhedsinterval omkring difference ml. middelværdier *F-fordeling, Varianshomogenitets-test * Sikkerhedsinterval omkring hyppighed (Læs også gerne på transformation af data) M6, slide 57 (tjekliste)