Lær nemt! Statistik - Kompendium

Størrelse: px
Starte visningen fra side:

Download "Lær nemt! Statistik - Kompendium"

Transkript

1

2 David Brink Lær nemt! Statistik - Kompendium Ventus wwwventusdk

3 Lær nemt! Statistik - Kompendium 005 David Brink Nielsen og Ventus Download kompendiet gratis på wwwventusdk ISBN Ventus Falkoner Allé Frederiksberg Tlf wwwventusdk ventus@ventusdk

4 Indholdsfortegnelse Indholdsfortegnelse 1 Forord Sandsynlighedsregningens grundbegreber 1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse Betinget sandsynlighed 3 Uafhængige hændelser 4 Inklusion-eksklusionsformel 5 Binomialkoefficienter 6 Multinomialkoefficienter 3 Stokastiske variable 31 Stokastiske variable, definition 3 Fordelingsfunktion 33 Diskret stokastisk variabel, punktsandsynligheder 34 Kontinuert stokastiske variabel, tæthedsfunktion 35 Kontinuert stokastiske variabel, fordelingsfunktion 36 Uafhængige stokastiske variable 37 Stokastisk vektor, simultan tæthed og fordelingsfunktion 4 Middelværdi og varians 41 Middelværdi og stokastisk variabel 4 Varians og spredning af stokastisk variabel 43 Eksempel (udregning af middelværdi, varians og spredning) 44 Vurdering af middelværdi μ og spredning σ på øjemål 45 Additions- og multiplikationsformler for middelværdi og varians 46 Covarians og korrelationskoefficient 5 De store tals lov 51 Chebyshev s ulighed 5 De store tals lov 53 Den centrale grænseværdisætning 54 Eksempel (punktsandsynligheder konvergerer mod φ 6 Beskrivende statistik 61 Median og kvartiler 6 Gennemsnit 63 Empirisk varians og empirisk spredning 64 Empirisk covarians og empirisk korrelationskoefficient 7 Statistisk testteori 71 Nulhypotese og alternativ hypotese 7 Signifikanssandsynlighed og signifikansniveau 73 Fejl af type I og II 74 Eksempel 8 Binomialfordelingen Bin(n, p) 81 Parametre 8 Beskrivelse 83 Punktsandsynligheder 84 Middelværdi og varians 85 Signifikanssandsynligheden for test i binomialfordelingen 86 Normalapproksimationen til binomialfordelingen 87 Estimatorer 88 Konfidensintervaller wwwventusdk

5 Indholdsfortegnelse 9 Poissonfordelingen Pois(λ) 91 Parametre 9 Beskrivelse 93 Punktsandsynligheder 94 Middelværdi og varians 95 Additionsformel 96 Signifikanssandsynligheder for test i Poissonfordelingen 97 Eksempel (signifikant stigning af salg af Skodaer) 98 Binomialapproksimationen til Poissonfordelingen 99 Normalapproksimationen til Poissonfordelingen 910 Eksempel (signifikant fald i antal klager) 911 Estimatorer 91 Konfidensintervaller 10 Den geometriske fordeling Geo(p) 101 Parametre 10 Beskrivelse 103 Punktsandsynligheder og halesandsynligheder 104 Middelværdi og varians 11 Den hypergeometriske fordeling HG(n, r, N) 111 Parametre 11 Beskrivelse 113 Punktsandsynligheder og halesandsynligheder 114 Middelværdi og varians 115 Binomialapproksimationen til den hypergeometriske fordeling 116 Normalapproksimationen til den hypergeometriske fordeling 1 Multinomialfordelingen Mult(n, p 1,, p r ) 11 Parametre 1 Beskrivelse 13 Punktsandsynligheder 14 Estimatorer 13 Den negative binomialfordeling NB(n, p) 131 Parametre 13 Beskrivelse 133 Punktsandsynligheder 134 Middelværdi og varians 135 Estimatorer 14 Eksponentialfordelingen Eks(λ) 141 Parametre 14 Beskrivelse 143 Tæthed og fordelingsfunktion 144 Middelværdi og varians 15 Normalfordelingen 151 Parametre 15 Beskrivelse 153 Tæthed og fordelingsfunktion 154 Standardnormalfordelingen 155 Regneregler for Φ 156 Estimation af middelværdien μ 157 Estimation af variansen σ 158 Konfidensinterval for middelværdien μ 159 Konfidensinterval for variansen σ og spredningen σ 1510 Additionsformlen wwwventusdk

6 Indholdsfortegnelse 16 Fordelinger knyttet til normalfordelingen 161 X -fordelingen 16 Student s t-fordeling 163 Fisher s F-fordeling 17 Test i normalfordelingen 171 En stikprøve, kendt varians, H 0 : μ = μ 0 17 En stikprøve, ukendt varians, H 0 : μ = μ 0 (Student s t-test) 173 En stikprøve, ukendt middelværdi, H 0 : σ = σ Eksempel 175 To stikprøver, kendte varianser, H 0 : μ 1 = μ 176 To stikprøver, ukendte varianser, H 0 : μ 1 = μ (Fisher-Behrens) 177 To stikprøver, ukendte middelværdier, H 0 : σ 1 = σ 178 To stikprøver, ukendt fælles varians, H 0 : μ 1 = μ 179 Eksempel (sammenligning af to middelværdier) 18 Variansanalyse 181 Formål 18 k stikprøver, ukendt fælles varians, H 0 : μ 1 = = μ k 183 To eksempler (sammenligning af middelværdier i 3 stikprøver) 19 Chi-kvadrat χ 191 χ -test for fordelingslighed 19 Normalfordelingsantagelse 193 Standardiserede residualer 194 Eksempel (kvinder med 5 børn) 195 Eksempel (folketingsvalg) 196 Eksempel (dødsfald i det preussiske kavaleri) 0 Kontingenstabeller 01 Definition, metode 0 Standardiserede residualer 03 Eksempel (studieretning og politisk orientering) 04 χ -test for -tabeller 05 Fisher s eksakte test for -tabeller 06 Eksempel (Fisher s eksakte test) 1 Fordelingsfri test 11 Wilcoxons test for ét sæt observationer 1 Eksempel 13 Normalapproksimation til Wilcoxons test for ét sæt observationer 14 Wilcoxons test for to sæt observationer 15 Normalapproksimation til Wilcoxons test for to sæt observationer Lineær regression 1 Modellen Estimering af parametrene β 0 og β 1 3 Estimatorernes fordeling 4 Forudsagte y i værdier e i og residualer 5 Estimering af variansen σ 6 Konfidensinterval for parametrene β 0 og β 1 7 Determinationskoefficienten R 8 Forudsigelser og prediktionsinterval 9 Oversigt over formler 10 Eksempel wwwventusdk

7 Indholdsfortegnelse A Engelsk-dansk ordliste B Oversigt over diskrete fordelinger C Tabeller C1 Sådan forstås tabellerne C Standardnormalfordeligen C3 χ -fordelingen C4 Student s t-fordeling C5 Fishers f-fordeling, α = 10% C6 Fishers f-fordeling, α = 5% C7 Fishers f-fordeling, α = 1% C8 Wilcoxons test for ét sæt observationer C9 Wilcoxons test for sæt observationer, α = 5% D Symbolforklaring E Index wwwventusdk

8 Forord 1 Forord Det her foreliggende kompendium i statistik har som målgruppe studerende på de økonomiske og samfundsvidenskabelige studier For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskuelig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk Lær nemt statistik - kort og præcist er en venlig gennemgang af statistikkens centrale områder, der lægger vægten på overblikket De mange eksempler giver desuden læseren en kogebogsopskrift på, hvordan de almindeligste opgavetyper besvares 8 wwwventusdk

9 Sandsynlighedsregningens grundbegreber Sandsynlighedsregningens grundbegreber 1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse Et sandsynlighedsfelt er et par (Ω, P) bestående af en mængde og en funktion P, der til hver delmængde A af knytter et reelt tal P(A) i intervallet [0, 1] Desuden forlanges følgende aksiomer opfyldt: 1 P(Ω) = 1, n= 1 n =Σn= 1 n P( A ) P(A ) hvis A 1,A, er en følge af parvis disjunkte delmængder af Ω Mængden Ω kaldes et udfaldsrum Elementerne ω Ω kaldes udfald, og delmængderne A Ù kaldes hændelser Funktionen P kaldes en sandsynlighedsfunktion For en hændelse A kaldes P(A) sandsynligheden for A Af de aksiomer kan udledes følgende konsekvenser: 3 P(Ø) = 0, 4 P(A\B) = P(A) P(B) hvis B A, 5 P(CA) = 1 P(A), 6 PA ( ) PB ( ) hvis B A, 7 PA ( 1 An) = PA ( 1) + + PA ( n) hvis A 1,,A n er parvis disjunkte hændelser, 8 PA ( B) = PA ( ) + PB ( ) PA ( B) for vilkårlige hændelser A og B Eksempel Betragt mængden Ω = {1,, 3, 4, 5, 6} Definér for hver delmængde A af Ω # PA ( ) = A 6 hvor #A er antallet af elementer i A Så er parret (Ω, P) et sandsynlighedsfelt Man kan se dette sandsynlighedsfelt som model for situationen kast med en terning Eksempel Betragt nu mængden Ω = {1,, 3, 4, 5, 6} {1,, 3, 4, 5, 6} Definér for hver delmængde A af Ω # PA ( ) = A 36 Sandsynlighedsfeltet (Ω, P) er nu model for situationen kast med terninger Delmængden A = {(1, 1), (, ), (3, 3), (4, 4), (5, 5), (6, 6)} er hændelsen to ens Betinget sandsynlighed For to hændelser A og B defineres den betingede sandsynlighed for A givet B som PA ( B) PAB ( ): = PA ( ) 9 wwwventusdk

10 Sandsynlighedsregningens grundbegreber Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige årsager: Antag A 1,,A n er parvis disjunkte hændelser med A1 A n =Ω Da er for enhver hændelse B: PB ( ) = PA ( ) P(B A) + PA ( ) P(B A) 1 1 n n Eksempel I finalen i French Open 005 skal Puerta møde vinderen af semifinalen mellem Federer og Nadal En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til 60% Sandsynligheden for, at Puerta kan slå Federer i finalen, vurderes til 0%, mens sandsynligheden for, at Puerta kan slå Nadal i semifinalen, vurderes til 30% Bookmakeren beregner derfor ved opsplitning i muligeårsager sandsynligheden for, at Puerta vinde French Open, til P(Puerta vinder finalen) = P(Federer vinder semifinalen) P(Puerta vinder finalen Federer vinder semifinalen)+ P(Nadal vinder semifinalen) P(Puerta vinder finalen Nadal vinder semifinalen) = 0,6 0, + 0,4 0,3 = 4% 3 Uafhængige hændelser To hændelser A og B kaldes uafhængige, hvis PA ( B) = PA ( ) PB ( ) Ækvivalent hermed er betingelsen P(A B) = P(A), altså at sandsynligheden for A er den samme som den betingede sandsynlighed for A givet B 10 wwwventusdk

11 Sandsynlighedsregningens grundbegreber Huskeregel: To hændelser er uafhængige, hvis sandsynligheden for den ene ikke påvirkes af kendskab til, om den anden har fundet sted Eksempel Der kastes en rød og en sort terning Betragt hændelserne A: rød terning viser 6, B: sort terning viser 6 Da PA ( B) = = = PA ( ) PB ( ), er A og B uafhængige Sandsynligheden for, at rød terning viser 6, påvirkes ikke af kendskab til, hvad sort terning viser Eksempel Der kastes en rød og en sort terning Betragt hændelserne Da A: rød terning og sort terning viser det samme, B: rød terning og sort terning viser tilsammen PA ( ) =, men PAB ( ) =, 6 3 er A og B ikke uafhængige Sandsynligheden for at få to ens slag stiger, hvis man ved, at summen af slagene er 10 4 Inklusions-eksklusionsformlen Formel 8 på side 9 har følgende generalisering til 3 hændelser A,B,C: PA ( B C) = PA ( ) + PB ( ) + PC ( ) PA ( B) PA ( C) PB ( C) + PA ( B C) Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser Eksempel Hvad er sandsynligheden for at få mindst én sekser i tre kast med en terning Lad A 1 være hændelsen, at vi får en sekser i første kast, og definér A og A 3 tilsvarende Den søgte sandsynlighed beregnes da ved inklusion-eksklusion: P = P( A1 A A3) = PA ( 1) + PA ( ) + PA ( 3) PA ( 1 A) PA ( 1 A3) PA ( A3) = +P( A1 A A3) = % 11 wwwventusdk

12 Sandsynlighedsregningens grundbegreber Der gælder følgende generalisering for n hændelser A 1,A,,A n med foreningsmængde A= A1 A n: PA ( ) = PA ( ) PA ( A) + PA ( A A) ± PA ( A ) i i j i j k 1 n i i<j i<j<k Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser Eksempel Der trækkes 5 tilfældige kort fra et almindeligt spil bestående af 5 kort Vi vil bestemme sandsynligheden P(B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtrukne kort Lad til dette formål A1 være den hændelse, at ingen af de udtrukne kort er spar Definer A, A 3 og A 4 tilsvarende for henholdsvis hjerter, ruder, klør Så er B=A A A A Inklusions-eksklusionsformlen giver nu P( B ) = P( A ) P( A A ) + P( A A A ) P( A A A A ), i i j i j k i i<j i<j<k altså P( B ) = ,6% Dermed fås PB ( ) = 1 P( B= ) 6,4% Eksempel I en skoleklasse sidder n børn Læreren beder alle børnene rejse sig op og sætte sig igen på en tilfældig plads Lad os bestemme sandsynligheden P(B) for den hændelse B, at hvert barn får en ny plads Vi starter med at nummerere børnene fra 1 til n For hvert i defineres hændelsen A i : barn nummer i sætter sig på sin gamle plads Så er B=A1 A n Nu kan P( B) beregnes ved hjælp af inklusions eksklusionsformlen for n hændelser: P( B ) = P( A ) P( A A ) + P( A A A ) P( A A ), i i j i j k 1 n i i<j i<j<k 1 wwwventusdk

13 Sandsynlighedsregningens grundbegreber altså n n n 1 n 1 P( B ) = + ± 1 1 nn ( 1) n n! 1 1 = 1 + ±! n! Ergo er PB ( ) = 1 P( B= ) + ±! 3! 4! n! Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P(B) er meget tæt på 37% for alle n 4 5 Binomialkoecienter Binomialkoecienten n (læses n over k ) er defineret som k n n! 1 3 n = = k k!( n-k)! 1 k 1 ( n-k) for hele tal n og k med 0 k n Der mindes om konventionen 0! = 1 Årsagen til, at binomialkoecienterne optræder igen og igen i sandsynlighedsregningen, er følgende sætning: n Antallet af delmængder med k elementer af en mængde med n elementer er k 13 wwwventusdk

14 Sandsynlighedsregningens grundbegreber Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 5 elementer (et spil kort) lig 5 = En god måde at huske binomialkoecienterne på er ved at stille dem op i Pascals trekant, hvor hvert tal er lig summen af de to ovenstående tal: Man bemærker, at der gælder regnereglen n n =, fx = n-k k Multinomialkoecienter Multinomialkoecienterne er defineret som n n! = k 1 k r k 1! k r! for hele tal n og k 1,, k r med n = k 1 + +k r Multinomialkoecienter kaldes også generaliserede binomialkoecienter, idet binomialkoecienten n k er lig multinomialkoecienten n k med l = n k 14 wwwventusdk

15 Stokastiske variable 3 Stokastiske variable 31 Stokastiske variable, definition Betragt et sandsynlighedsfelt (Ω, P) En stokastisk variabel er en afbildning X fra Ω ind i mængden af reelle tal R Ω X R Figur 1 Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke på følgende huskeregel: Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager forskellige værdier Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives på følgende måde: P(X = x): sandsynligheden for, at X tager værdien x R, P(X < x): sandsynligheden for, at X tager en ærdi mindre end x, P(X > x): sandsynligheden for, at X tager en værdi større end x, etc Der gælder regnereglerne PX ( x) = PX ( < x) + PX ( = x) PX ( x) = PX ( > x) + PX ( = x) 1 = PX ( < x) + PX ( = x) + PX ( > x) 3 Fordelingsfunktionen Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R R givet ved F( x) = P( X x) F(x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F(x) 1 for x og F(x) 0 for x 15 wwwventusdk

16 Stokastiske variable Ved hjælp af F(x) kan alle X s sandsynligheder regnes ud: P(X < x) = lim F(x ε) ε 0 P(X = x) = F(x) lim F(x ε) ε 0 P(X x) = 1 lim F(x ε) ε 0 P(X > x) = 1 F(x) 33 Diskret stokastisk variabel, punktsandsynligheder En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange værdier I praksis tager diskrete stokastisk variable værdier i mængden {0, 1,, } Punktsandsynlighederne P(X = k) fastlægger X s fordeling Om alle A {0, 1,, } gælder nemlig PX ( A) = PX ( = k) k A Specielt haves regnereglerne PX ( k) = PX ( = i) i= 0 PX ( k) = PX ( = i) k i= k 16 wwwventusdk

17 Stokastiske variable Punktsandsynligheder illustreres grafisk i et pindediagram: P(X=k) 0, 0, k Figur 34 Kontinuert stokastisk variabel, tæthedsfunktion En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f(x) Tæthedsfunktionen, som normalt blot kaldes tætheden, opfylder PX ( A ) ftdt ( ) = t A for alle A R Hvis A er et interval [a, b], gælder altså b Pa ( X b) = f( tdt ) a 35 Kontinuert stokastisk variabel, fordelingsfunktion For en kontinuert stokastisk variabel X med tæthed f(x) er fordelingsfunktionen F(x) givet ved x F( x) = f( t) dt Fordelingsfunktionen opfylder følgende regneregler: PX ( x) = Fx ( ) PX ( x) = 1 Fx ( ) P( X x) = F( x) F( x) P( X x) = F( x) + 1 F( x) 36 Uafhængige stokastiske variable To stokastiske variable X og Y kaldes uafhængige, hvis der for alle AB, R gælder, at hændelserne X A og Y B er uafhængige På tilsvarende vis defineres uafhængighed af tre eller flere stokastiske variable Huskeregel: X og Y er uafhængige, hvis man ikke kan slutte noget om Y s værdi ved at kende X s værdi 17 wwwventusdk

18 Stokastiske variable Eksempel Kast en rød terning og en sort terning og betragt de stokastiske variable X: antal øjne af rød terning, Y : antal øjne af sort terning Z: antal øjne af rød og sort terning lagt sammen X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y X og Z er derimod ikke uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, må X have en af værdierne 4, 5 og 6) 37 Stokastisk vektor, simultan tæthed og fordelingsfunktion Hvis X 1,,X n er stokastiske variable defineret på samme sandsynlighedsfelt (Ω, P), kaldes X = (X 1,,X n ) en (n-dimensional) stokastisk vektor Det er en afbildning X n :Ω R n Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : R [0, 1] givet ved F( x,, x ) = P( X x X x ) 1 n 1 1 n n n Antag nu at X i erne er kontinuerte Så har X en simultan (n-dimensional) tæthed f : R [0, [, som opfylder P( X A) f( x) dx = x A n for alle A R X i ernes individuelle tætheder f i kaldes marginale tætheder, og de fås fra den simultane ved formlen f ( x ) = f ( x,, x ) dx dx 1 1 Rn 1 1 n n her givet for f 1 (x 1 ), de øvrige fås på helt tilsvarende vis Huskeregel: De marginale tætheder fås fra den simultane tæthed ved at integrere de overflødige variabler bort 18 wwwventusdk

19 Middelværdi og varians 4 Middelværdi og varians 41 Middelværdi af stokastisk variabel Middelværdien af en diskret stokastisk variabel X er defineret som EX ( ) = PX ( = k) k k = 1 Middelværdien for en kontinuert stokastisk variabel X med tæthed f(x) defineres som E( X) = f( x) xdx Ofte bruger man bogstavet μ ( my ) om middelværdien 4 Varians og spredning af stokastisk variabel Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som var(x) = E((X μ) ) Hvis X er diskret, kan variansen udregnes således: var ( X) = P( X = k) ( k μ) Hvis X er kontinuert med tæthed f(x), kan variansen udregnes således: k = 0 var ( X) = f( x)( x μ) dx Spredningen σ ( sigma ) af en stokastisk variabel er kvadratroden af variansen 43 Eksempel (udregning af middelværdi, varians og spredning) Eksempel 1 Definér den diskrete stokastiske variabel X som antallet af øjne ved kast med en terning Punktsandsynlighederne er P(X = k) = 1/6 for k = 1,, 3, 4, 5, 6 Middelværdien er derfor E( X) = k = = 35, 6 6 k = 1 Variansen er Spredningen bliver så 6 1 (1 35), + ( 35), + + (6 35), var ( X) = ( k 35), = = 917, 6 6 k = 1 σ = 917, = 1708, 19 wwwventusdk

20 Middelværdi og varians Eksempel Definér den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet [0, 1] X har så tætheden f(x) = 1 på [0, 1] Middelværdien er Variansen er Spredningen er 1 var( X) = ( x 0, 5) dx= 0, σ 1 0 E( X) = xdx= 05, = 0083, = 089, 44 Vurdering af middelværdi μ og spredning på øjemål Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for en stokastisk variabel, kan man på øjemål vurdere μ og σ Middelværdien μ er cirka massemidtpunktet for fordelingen, og spredning σ er sådan, at cirka /3 af sandsynlighedsmassen ligger i intervallet μ ± σ f(x) 0, 0,1 μ-r μ μ+r X Figur 3 0 wwwventusdk

21 Middelværdi og varians 45 Additions- og multiplikationsformler for middelværdi og varians Lad X og Y være stokastiske variable Da gælder E( X + Y) = E( X) + E( Y) EaX ( ) = aex ( ) var( X) = E( X ) E( X) ax = a X var( ) var( ) var( X + a) = var( X) for ethvert a R Hvis X og Y er uafhængige, gælder desuden EXY ( ) = EX ( ) EY ( ) var( X + Y) = var( X) + var( Y) Huskeregel: Middelværdien er additiv For uafhængige stokastiske variable er middelværdien multiplikativ og variansen additiv 46 Covarians og korrelationskoefficient Covariansen for to stokastiske variable X og Y er tallet Cov( XY, ) = E(( X EX)( Y EY)) Der gælder Cov( X, X) = var( X) Cov( XY, ) = EX ( Y) EX EY var( X + Y) = var( X) + var( Y) + Cov( X, Y) Korrelationskoefficienten for X og Y er tallet Cov( XY, ) ρ= var( X) var( Y) Korrelationskoefficienten er et tal i intervallet [ 1, 1] Hvis X og Y er uafhængige, er både covariansen og ρ lig 0 Huskeregel: En positiv korrelationskoefficient betyder, at X normalt er stor, når Y er stor, og omvendt En negativ korrelationskoefficient betyder, at X normalt er lille, når Y er stor, og omvendt Eksempel Der kastes en rød og en sort terning Betragt de stokastiske variable X: antal øjne af rød terning, Y : antal øjne af rød og sort terning lagt sammen 1 wwwventusdk

22 Middelværdi og varians Hvis X er stor, vil Y normalt også være stor, og omvendt Vi forventer derfor en positiv korrelationskoefficient Mere præcist udregnes EX ( ) = 35, EY ( ) = 7 E( X Y) = 7, 4 var( X ) =, 9 var( Y) = 583, Covariansen er derfor Cov(X, Y ) = E(X Y ) E(X) E(Y ) = 7,4 3,5 7 =,9 Korrelationskoefficienten bliver som forventet et positivt tal: Cov( XY, ) 9, ρ = = = 017, var( X) var( Y), 9 583, wwwventusdk

23 De store tals lov 5 De store tals lov 51 Chebyshev s ulighed For en stokastisk variabel X med middelværdi μ og varians σ gælder Chebyshev s ulighed for ethvert a > 0 σ P( X μ a) a 5 De store tals lov Betragt en følge X 1,X,X 3, af uafhængige stokastiske variable med samme fordeling, og lad μ være den fælles middelværdi Indfør betegnelsen S n for summerne S n = X X n De store tals lov siger da P S n μ > ε 0 for n n for ethvert ε > 0 Sagt i ord: Huskeregel: Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi, når stikprøvens størrelse n går mod 53 Den centrale grænseværdisætning Betragt en følge X 1, X, X 3, af uafhængige stokastiske variable med samme fordeling Lad μ være den fælles middelværdi og σ den fælles varians Det antages, at σ er positiv Indfør betegnelsen S n for de normerede summer S n X Xn nμ = σ n Ved normeret forstås, at S n erne har middelværdi 0 og varians 1 Den centrale grænseværdisætning siger da P( S n x) Φ( x) for n for alle x R, hvor er fordelingsfunktionen for standardnormalfordelingen (se afsnit 154) x 1 1 t Φ ( x) = e dt π Fordelingsfunktionen for de normerede summer S n konvergerer altså mod Ф, når n går mod 3 wwwventusdk

24 De store tals lov Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det overraskende er, at de normerede summers grænsefordeling er uafhængig af X i ernes fordeling 54 Eksempel (punktsandsynligheder konvergerer mod φ) Betragt en følge af uafhængige stokastiske variable X 1, X,, der alle har punktsandsynlighederne 1 PX ( i = 1) = = PX ( i = 1) Man kan tænke på summerne X 1 ++ X n som antal krone minus antal plat i n kast med en mønt X i erne har middelværdi μ = 0 og varians σ = 1 De normerede summer bliver dermed S X + + X 1 n n = Fordelingen af S n erne er givet ved punktsandsynlighederne, som her vises for n = 1,, 3, 10 sammen med standardnormalfordelingens tæthed φ(x) Det er fascinerende at se, hvordan de normerede summers punktsandsynligheder falder til føje og nærmer sig φ(x) n n=1 n= n=3 n= Figur 4 4 wwwventusdk

25 Beskrivende statistik 6 Beskrivende statistik 61 Median og kvartiler Antag der foreligger n observationer x 1,,x n Man definerer da observationernes median x(0,5) som den midterste observation Mere præcist er x( n+ 1)/ hvis n ulige x(0,5) = xn/ + xn/+ 1) / hvis n lige idet man ordner observationer efter størrelse således: x 1 x x n På tilsvarende vis defineres observationernes nedre kvartil x(0,5) således, at 5% af observationerne ligger under x(0,5), og observationernes øvre kvartil x(0,75) således, at 75% af observationerne ligger under x(0,75) Kvartilafstanden er afstanden mellem x(0,5) og x(0,75), altså x(0,75-0,5) 6 Gennemsnit Antag der foreligger n observationer x 1,,x n Man definerer da observationernes gennemsnit som n x = x = n i 1 i 63 Empirisk varians og empirisk spredning Antag der foreligger n observationer x 1,,x n Man definerer da observationernes empiriske varians som n ( x ) i 1 i x = s = n 1 Den empiriske spredning er kvadratroden af den empiriske varians n ( x ) i 1 i x = s = n 1 Jo større den empiriske spredning s er, des mere spredt ligger observationerne omkring gennemsnittet x 64 Empirisk covarians og empirisk korrelationskoefficient Antag der foreligger n observationspar (x 1,y 1 ),, (x n,y n ) Man definerer da observationernes empiriske covarians som Cov emp n ( x )( ) 1 i x y i i y = = n 1 5 wwwventusdk

26 Beskrivende statistik En alternativ måde at udregne Cov emp er ved Cov n x y nxy i= 1 i i emp = n 1 Den empiriske korrelationskoefficient er Cov emp empirisk covarians r = = ( x'ernes empiriske spredning)( y'ernes empiriske spredning s xs y Den empiriske korrelationskoeffecient r ligger altid i intervallet [-1, 1] Fortolkning af den empiriske korrelationskoefficient: Hvis x-observationerne er uafhængige af y-observationerne, ligger r tæt på 0 Hvis x-observationerne og y-observationerne afhænger på den måde, at store x'er oftest svarer til store y'er og omvendt, ligger r tæt på 1 Hvis x'erne og y'erne afhænger af hinanden på den måde, at store x'er oftest svarer til små y'er og omvendt, ligger r tæt på -1 Cheminovas mission er at bekæmpe uønskede insekter, planter og svampe for at sikre den globale forsyning af fødevarer og plantefibre samt forbedre menneskers livsbetingelser generelt wwwcheminovadk - wwwbusiness-traineedk - wwwkarrierestartdk 6 wwwventusdk

27 Statistisk testteori 7 Statistisk testteori 71 Nulhypotese og alternativ hypotese Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en på forhånd givet nulhypotese H 0 Nogle gange testes H 0 mod en eksplicit alternativ hypotese H 1 Til grund for testet ligger en eller flere observationer Nulhypotesen (og den eventuelle alternative hypotese) drejer sig om, hvilken fordeling observationerne stammer fra 7 Signifikanssandsynlighed og signifikansniveau Man udregner nu signifikanssandsynligheden P, som er sandsynligheden givet at H 0 er sand for at få lige så ekstreme eller mere ekstreme observationer, end de foreliggende Jo mindre P er, des mindre plausibel er H 0 Ofte vælger man på forhånd et signifikansniveau α, typisk α = 5% Man forkaster så H 0, hvis P er mindre end α (man siger H 0 forkastes på signifikansniveau α ) Hvis P er større end α, accepteres H 0 (man siger H 0 accepteres eller opretholdes på signifikansniveau α eller H 0 kan ikke forkastes på signifikansniveau α ) 73 Fejl af type I og II Man taler om fejl af type I, hvis man forkaster en sand nulhypotese Hvis signifikansniveauet er α, er risikoen for en fejl af type I højst α Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese Testets styrke er sandsynligheden for at forkaste H 0, hvis H 1 er sand Jo større styrken er, des mindre er risikoen for en fejl af type II 74 Eksempel Antag at vi vil undersøge, om en bestemt terning er ægte Ved ægte forstås, at sandsynligheden p for at få en sekser er 1/6 Vi tester nulhypotesen 1 H 0: p = (terningen er ægte) 6 mod den alternative hypotese 1 H 1: p > (terningen er falsk) 6 7 wwwventusdk

28 Statistisk testteori Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen:, 6, 3, 6, 5,, 6, 6, 4, 6 Lad os på forhånd lægge os fast på signifikansniveauet α = 5% Nu beregnes signifikanssandsynligheden P Ved ekstreme observationer skal forstås, at der er mange seksere P er altså sandsynligheden for at få mindst 5 seksere i 10 slag med en ærlig terning Vi udregner 10 (1 6) k (5 6) 10 k P = / / =, k = 5 k (se afsnit 8 om binomialfordelingen) Da P = 1,5% er mindre end α = 5%, forkaster vi H 0 Hvis terningen i virkeligheden var ægte, ville sandsynligheden for at begå en fejl af type I være 1,5% 8 wwwventusdk

29 Binomialfordelingen Bin(n, p) 8 Binomialfordelingen Bin(n, p) 81 Parametre n: antalsparameter (antal forsøg) p: sandsynlighedsparameter (successandsynlighed) I formlerne bruger vi også fiaskosandsynligheden q = 1 - p 8 Beskrivelse Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko I hvert forsøg er successandsynligheden den samme, nemlig p Det totale antal succeser X er da binomialfordelt, og man skriver X ~ Bin(n, p) X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, n} 83 Punktsandsynligheder For k {0, 1,, n} er punktsandsynlighederne i en (n, p)-fordeling n k n k PX ( = k) = p q k Se afsnit 5 vedrørende binomialkoefficienterne n k 9 wwwventusdk

30 Binomialfordelingen Bin(n, p) Eksempel Hvis man kaster en terning 0 gange, vil det samlede antal 6 ere X være binomialfordelt med antalsparameter 0 og sandsynlighedsparameter 1/6 Vi kan opskrive punktsandsynlighederne P(X = k) og de kumulerede sandsynligheder P(X k) i et skema (i procent) k P(X = k),6 10,4 19,8 3,8 0, 1,9 6,5,6 0,8 0, P(X k) ,4 87,0 67,1 43,3 3,1 10, 3,7 1,1 0,3 84 Middelværdi og varians Middelværdi: E(X) = np Varians: var(x) = npq 85 Signifikanssandsynligheden for test i binomialfordelingen Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser tælles Vi vil teste nulhypotesen H 0 : p = p 0 mod en alternativ hypotese H 1 H0 H1 Signifikanssandsynlighed p = p0 p > p0 P(X k) p = p0 p = p0 p < p0 P(X k) p p0 P(X = l) l hvor der i sidste linje summeres over alle de l, for hvilke P(X = l) P(X = k) Eksempel Et firma køber en maskine, der kan fremstille mikrochips Producenten af maskinen hævder, at højst 1/6 af de fremstillede chips vil være defekte Den første dag fremstiller maskinen 0 chips, af hvilke 6 er defekte Kan firmaet på denne baggrund forkaste producentens påstand? Svar: Vi tester nulhypotesen H 0 : p = 1/6 mod den alternative hypotese H 1 : p > 1/6 Signifikanssandsynlighe den beregnes til P(X 6) = 10,% (se se fx tabellen i afsnit 83) Firmaet kan altså ikke forkaste producentens påstand på 5-procentsniveau 86 Normalapproksimationen til binomialfordelingen Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X cirka være normalfordelt med middelværdi μ = np og spredning σ= npq Punktsandsynlighederne er derfor k np 1 1 k np PX ( = k) ϕ = exp, npq npq π 30 wwwventusdk

31 Binomialfordelingen Bin(n, p) hvor φ er tætheden for standardnormalfordelingen, og halesandsynlighederne er 1 k+ np PX ( k) Φ npq 1 k np PX ( k) 1 Φ npq hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) Tommelfingerregel: Man kan bruge approksimationen, hvis np og nq begge er større end 5 Eksempel (fortsættelse af eksemplet i afsnit 85) Efter uger har maskinen fremstillet 00 chips, af hvilke 46 er defekte Kan firmaet nu forkaste producentens påstand, om at sandsynligheden for defekt er højst 1/6? Svar: Vi tester atter nulhypotesen H 0 : p - 1/6 mod den alternative hypotese H 1 : p > 1/6 Da nu np 33 og nq 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde signifikanssandsynligheden: , PX ( 46) 1 Φ 1 Φ (, 3) 11, % 78, Firmaet kan altså nu forkaste producentens påstand på 5-procentsniveau 87 Estimatorer Antag k er en observation fra en stokastisk variabel X ~ (n, p) med kendt n og ukendt p Maksimum likelihoodestimatet (ML-estimatet) på p er k pˆ = n Denne estimator er middelret (dvs estimatorens middelværdi er p) og har variansen pq ( pˆ ) = n Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte) sandsynlighedsparameter p Hvis man imidlertid indsætter den estimerede værdi ˆp på p s plads, får man den estimerede varians pˆ(1 pˆ) n Eksempel Vi betragter atter eksemplet med maskinen, der har fremstillet 0 mikrochips, af hvilke de 6 er defekte Hvad er maksimum likelihood-estimatet på sandsynlighedsparameteren? Hvad er dennes estimerede varians? 31 wwwventusdk

32 Binomialfordelingen Bin(n, p) Svar: Maksimum likelihood-estimatet er variansen på ˆp estimeres til 6 p ˆ = = 30% 0 03, (1 03), = 0, Spredningen estimeres dermed til 0, , Hvis vi går ud fra, at ˆp ligger inden for spredninger fra p, vil p altså ligge mellem 10% og 50% 88 Konfidensintervaller Antag k er en observation fra en binomialfordelt stokastisk variabel X ~ Bin(n, p) med kendt n og ukendt p Konfidensintervallet med konfidensgrad 1 - α omkring punktestimatet ˆp = k/n er ˆ ˆ ˆ ˆ p(1 p) p(1 p) pˆ u ˆ 1 a/, p+ u1 a/ n n Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 - α Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 BRUG DIN VIDEN BLIV TRAINEE I POST DANMARK I Post Danmark kan du kick-starte din karriere! Hvert år ansætter vi 10-0 nyuddannede akademikere i traineestillinger Som trainee får du i løbet af 1 måneder både ansvar og udfordringer Du får ny viden, og du får lov til at vise, hvad du kan! Vi har brug for kompetente akademikere inden for både økonomi, teknologisk udvikling, HR, logistik, IT, salg og markedsføring Læs mere om Post Danmark og vores traineestillinger på wwwpostdanmarkdk/postjobsdk 3 wwwventusdk

33 Binomialfordelingen Bin(n, p) Opgave I en Gallup-undersøgelse i år 01 svarer 6 ud af 100 adspurgte, at de vil stemme på Enhedslisten ved næste valg Bestem konfidensintervallet med konfidensgrad 95% om den sande procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal Svar: Punktestimatet er ˆp = 6/100 = 0,6 Da konfidensgraden skal være 95%, skal α = 0,05 Tabelopslag giver u 0,975 = 1,96 Man får 06, 038, 196, = 0, Konfidensintervallet bliver dermed [0,55, 0,715] Vi kan altså sige med 95 procents sikkerhed, at mellem 5,5% og 71,5% vil stemme på Enhedslisten, hvilket vil give mellem 94 og 18 af folketingets 179 mandater 33 wwwventusdk

34 Poissonfordelingen Pois(λ) 9 Poissonfordelingen Pois(λ) 91 Parametre λ: Intensiteten 9 Beskrivelse Visse begivenheder siges at forekomme spontant, dvs de finder sted på tilfældige tidspunkter, men med en vis konstant intensitet λ Intensiteten λ er det gennemsnitlige antal spontane begivenheder pr tidsinterval Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt, og man skriver X ~ Pois(λ) X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, 3,} 93 Punktsandsynligheder For k {0, 1,, 3 } er punktsandsynlighederne i en Pois(λ)-fordeling k λ PX ( = k) = exp( λ ) k! Der mindes om konventionen 0! = 1 Eksempel I en vis butik kommer der i gennemsnit 3 kunder pr minut Antallet af kunder X, der kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3 Punktsandsynlighederne kan opskrives i procent i et skema: k P(X = k) 5,0 14,9,4,4 16,8 10,1 5,0, 0,8 0,3 0,1 94 Middelværdi og varians Middelværdi: E(X) = λ Varians: var(x) = λ 95 Additionsformel Antag at X 1,,X n er uafhængige Poissonfordelte stokastiske variable Lad λ i være intensiteten af X i, altså X i ~ Pois (λ i ) Så er summen X = X X n 34 wwwventusdk

35 Poissonfordelingen Pois(λ) Poissonfordelt med intensitet λ = λ λ n altså X ~ Pois (λ), 96 Signifikanssandsynligheder for test i Poissonfordelingen Antag at k er en observatione fra en Pois (λ)-fordeling med ukendt intensitet λ Vi vil teste nul-hypotesen H 0 : λ = λ 0 mod en alternativ hypotese H 1 H0 H1 Signifikanssandsynlighed λ=λ 0 λ>λ 0 P(X k) λ=λ 0 λ<λ 0 P(X k) λ=λ 0 λ λ 0 l = P(X = l) hvor der i sidste linje summeres over alle l, for hvilke P(X = l) P(X = k) Hvis man har givet n uafhængige observationer k 1,,k n fra en Pois (λ)-fordeling, kan man udnytte, at summen k = k k n er en observation fra en Pois (n λ)-fordeling Vil du spare penge og have råd til at leve livet? Basisbank er kåret til Danmarks billigste bank 3 år i træk af Penge & Privatøkonomi og kåret til banken med den bedste kundeservice 3 år i træk af Teleperformance A/S Få råd til livet Ring eller skriv til os og få en snak om, hvad vi kan gøre for dig Basisbank er udelukkende en internetbank Det er nemt og enkelt at blive kunde Du skal blot klikke dig ind på vores hjemmeside wwwbasisbankdk og tilmelde dig som kunde, så klarer vi det praktiske 35 wwwventusdk

36 Poissonfordelingen Pois(λ) 97 Eksempel (signifikant stigning af salg af Skodaer) Opgave En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om måneden Måneden efter et reklamefremstød for Skoda sælges 7 biler Er dette en signifikant stigning? Svar: Salget af biler den givne måned kan med rimelighed antages at være Poissonfordelt med en vis intensitet λ Vi tester nulhypotesen H 0 : λ = 3,5 mod den alternative hypotese H 1 : λ > 3,5 Signifikanssandsynligheden, altså sandsynligheden for at sælge mindst 7 biler givet H 0, er (35), = k P exp( 35), = 0, , , , 00 + = 0, 065 k! k = 7 Da P er større end 5%, kan vi ikke forkaste H 0 Der er altså ikke tale om en signifikant stigning 98 Binomialapproksimationen til Poissonfordelingen Poissonfordelingen med intensitet λ er grænseværdi for binomialfordelingen med antalsparameter n og sandsynlighedsparameter λ/n, når n går mod Der gælder altså om punktsandsynlighederne P(X n = k) P(X = k) for n for X ~ Pois (λ) og X n ~ Bin(n, λ/n) I praksis vil man dog altid bruge normalapproksimationen i stedet (se næste afsnit) 99 Normalapproksimationen til Poissonfordelingen Hvis intensiteten λ er stor, vil en Poissonfordelt stokastisk variabel X cirka være normalfordelt med middelværdi μ = λ og spredning σ = λ Punktsandsynlighederne er derfor k λ PX ( = k) ϕ, λ hvor φ er tætheden for standardnormalfordelingen, og halesandsynlighederne er 1 k + λ PX ( k) Φ λ 1 k λ PX ( k) 1 Φ λ hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) 36 wwwventusdk

37 Poissonfordelingen Pois(λ) Tommelfingerregel: Man kan bruge approksimationen til Poissonfordelingen, hvis λ er større end Eksempel (signifikant fald i antal klager) Opgave: DSB-færgen Prinsesse Benedikte modtager gennemsnitligt 180 klager om ugen Ugen efter lukningen af færgens cafeteria modtages kun 11 klager Er dette et signifikant fald? Svar: Antallet af klager den givne uge kan med rimelighed antages at være Poissonfordelt med en vis intensitet λ Vi tester nulhypotesen H 0 : λ = 180 mod den alternative hypotese H 1 : λ < 180 Signifikanssandsynligheden, altså sandsynligheden for at få højst 11 klager givet H 0, kan approksimeres med normalfordelingen: P =Φ =Φ( 5, 03) < 0, Da P er meget lille, kan vi klart forkaste H 0 Der er altså sket et klart signifikant fald 911 Estimatorer Antag k 1,,k n er uafhængige observationer fra en stokastisk variabel X ~ Pois (λ) med ukendt intensitet λ Maksimum likelihood-estimatet (ML-estimatet) på λ er λ= ˆ ( k + + k ) / n 1 n Denne estimator er middelret (dvs estimatorens middelværdi er λ) og har variansen ˆ λ var( λ ) = n Mere præcist gælder nλˆ ( nλ ) Hvis man indsætter den estimerede værdi ˆλ på λ s plads, får man den estimerede varians ˆ var( ^ ˆ λ λ ) = n 37 wwwventusdk

38 Poissonfordelingen Pois(λ) 91 Konfidensintervaller Antag k 1,,k n er uafhængige observationer fra en Poissonfordelt stokastisk variabel X ~ Pois (λ) med ukendt intensitet λ Konfidensintervallet med konfidensgrad 1 - α omkring punktestimatet ˆλ = (k k n )/n er ˆ ˆ ˆ λ ˆ λ λ u1 á/,λ+ u1 á/ n n Løst sagt ligger den sande værdi λ i konfidensintervallet med sandsynligheden 1 - α Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 Eksempel (fortsættelse af eksemplet i afsnit 910) Den første uge efter lukningen af færgens cafeteria modtages altså 11 klager Vi betragter k = 11 som en observation fra en Pois(λ)-fordeling og vil finde konfidensintervallet med konfidensgrad 95% omkring estimatet ˆλ = 11 Tabelopslag giver u 0,975 = 1,96 Konfidensintervallet bliver dermed 11, , 11 +, [91, 133] 38 wwwventusdk

39 Den geometriske gordeling Geo(p) 10 Den geometriske fordeling Geo(p) 101 Parametre p: successandsynligheden (sandsynlighedsparameteren) I formlerne bruger vi også fiaskosandsynligheden q = 1 - p 10 Beskrivelse Der udføres en række af uafhængige forsøg, der hver resulterer i enten succes eller fiasko Successandsynligheden p er den samme i hvert forsøg Antallet W af fiaskoer før succes er da geometrisk fordelt, og man skriver W ~ Geo(p) W er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, } Ventetiden til succes er V = W Punktsandsynligheder og halesandsynligheder For k {0, 1,,} er punktsandsynlighederne i en Geo(p)-fordeling P(X = k) = q k p I modsætning til de fleste andre fordelinger kan vi let beregne den geometriske fordelings halesandsynligheder P(X k) = q k Eksempel Pindediagram for punktsandsynlighederne i en geometrisk fordeling med successandsynlighed p = 0,5: Figur 5 39 wwwventusdk

40 Den geometriske gordeling Geo(p) 104 Middelværdi og varians Middelværdi: E(W) = q/p Varians: var(w) = q/p Om ventetiden til succes V = W + 1 har vi den nyttige huskeregel Huskeregel: Middelventetiden til succes er den reciprokke successandsynlighed Eksempel En lotto-spiller indleverer hver uge en enkelt lotto-kupon Sandsynligheden for at få 7 rigtige er 1 36 p = 0, Middelventetiden til succes bliver dermed 1 36 EV ( ) = p = uger = 16053år 7 40 wwwventusdk

41 Den hypergeometriske fordeling HG(n, r, N) 11 Den hypergeometriske fordeling HG(n, r, N) 111 Parametre r: antal røde kugler s: antal sorte kugler N: antal kugler ialt (N = r + s) n: antal udtagne kugler (n N) 11 Beskrivelse I en urne ligger r røde kugler og s sorte kugler, altså i alt N = r + s kugler Der udtages nu tilfældigt og uden tilbagelægning n kugler fra urnen Nødvendigvis er n N Antallet af røde kugler S blandt de udtagne er da hypergeometrisk fordelt, og vi skriver S ~ HG(n, r, N) S er en diskret stokastisk variabel med værdier i mængden {0, 1,, min{n, r}} 113 Punktsandsynligheder og halesandsynligheder For k {0, 1,, min{ n, r}} er punktsandsynlighederne i en (n, r, N)-fordeling r s ( ) k = = n k PS k N n Eksempel Frederiksberg byråd har 5 medlemmer, heraf 13 konservative Et udvalg nedsættes bestående af 5 tilfældigt udvalgte byrådsmedlemmer Hvor stor er sandsynligheden, for at de konservative får flertal i udvalget? Svar: Vi har at gøre med en hypergeometrisk fordelt stokastisk variabel S HG (5, 13, 5) og skal bestemme P(S 3) Lad os først udregne alle punktsandsynligheder (i procent): k P(S = k) 1,5 1,1 3,3 35,5 16,1,4 Den ønskede sandsynlighed bliver dermed P(S 3) = 35,5% + 16,1% +,4% = 54,0% 41 wwwventusdk

42 Den hypergeometriske fordeling HG(n, r, N) 114 Middelværdi og varians Middelværdi: E(S) = nr/n Varians: var(s) = nrs(n - n)/(n (N - 1)) 115 Binomialapproksimationen til den hypergeometriske fordeling Hvis det udtrukne antal kugler n er småt i sammenligning både med antallet af røde kugler r og antallet af sorte kugler s, er det irrelevant, om udtrækningen foretages med eller uden tilbagelægning Dermed kan vi approksimere den hypergeometriske fordeling med binomialfordelingen: P(S = k) P(X = k) for S ~ HG(n, r, N) og X ~ Bin(n, r/n) I praksis er spiller denne approksimation dog ingen rolle, da det er lige så svært at udregne P(X = k) som P(S = k) 116 Normalapproksimationen til den hypergeometriske fordeling Hvis n er lille i forhold til både r og s, kan den hypergeometriske fordeling approksimeres med en normalfordeling med samme middelværdi og varians Punktsandsynlighederne bliver så k nr/n PS ( = k) ϕ, ( ) ( ( 1)) nrs N-n / N N hvor φ er tætheden for standardnormalfordelingen Halesandsynlighederne bliver k+ ½ nr/ N PS ( k) Φ, ( ) ( ( 1)) nrs N n / N N k ½ nr/ N PS ( k) 1 Φ, ( ) ( ( 1)) nrs N n / N N hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) 4 wwwventusdk

43 Multinomialfordelingen Mult(n, p 1, p r ) 1 Multinomialfordelingen Mult(n, p 1, p r ) 11 Parametre n: antalsparameter (antal forsøg) p 1 : p r : den 1 sandsynlighedsparameter den r te sandsynlighedsparameter Der skal gælde p p r = 1 1 Beskrivelse Der udføres n uafhængige forsøg, der hver resulterer i et ud af r mulige udfald I hvert forsøg er sandsynligheden for et udfald af type i den samme, nemlig p i Lad S i betegne det samlede antal udfald af type i Den stokastiske vektor S = (S 1,,S r ) er da multinomialfordelt, og man skriver S ~ (n, p 1, p r ) S er diskret og tager værdier i mængden {( k1,, kr) Z r ki 0, k1 + + kr = n } 13 Punktsandsynligheder For k k r = n er punktsandsynlighederne i en (n, p 1,, p r )-fordeling n ( = ( 1,, )) = r ki PS k kr pi k1 kr i= 1 Eksempel Kast en terning 6 gange og lad, for hvert i, S i være det samlede antal i ere Så er S = (S 1,,S 6 ) en multinomialfordelt stokastisk vektor: S ~ Mult(6, 1/6,, 1/6) Sandsynligheden for at få netop 1 etter, toere og 3 seksere er PS ( = (1,, 0, 0, 0, 3)) = (1/ 6) (1/ 6) (1/ 6) 013, % Her er multinomialkoefficienten (se også afsnit 6) udregnet således: 6 6! 70 = = = !!!!!! 1 14 Estimatorer Antag k 1,, k r er en observation fra en stokastisk variabel S ~ Mult(n, p 1,, p r ) med kendt n og ukendte p i Maksimum likelihood-estimatet (ML-estimatet) på p i er ki pˆ i = n Denne estimator er middelret (dvs estimatorens middelværdi er p i ) og har variansen pi(1 pi) ( pˆ ) = i n 43 wwwventusdk

44 Den negative binomialfordeling NB(n, p) 13 Den negative binomialfordeling NB(n, p) 131 Parametre n: antalsparameter p: sandsynlighedsparameter I formlerne bruger vi også q = 1 - p 13 Beskrivelse Der udføres en række af uafhængige forsøg, der hver resulterer i enten succes eller fiasko Successandsynligheden p er den samme i hvert forsøg Antallet X af fiaskoer før den n te succes er da negativt binomialfordelt, og man skriver X ~ NB(n, p) Den stokastisk variabel X er diskret og kan tage værdier i mængden {0, 1,, } Den geometriske fordeling er specialtilfældet n = 1 af den negative binomialfordeling 133 Punktsandsynligheder For k {0, 1,,} er punktsandsynlighederne i en (k, p)-fordeling n+ k 1 n k PX ( = k) = p q n 1 44 wwwventusdk

45 Den negative binomialfordeling NB(n, p) 134 Middelværdi og varians Middelværdi: E(X) = nq/p Varians: var(x) = nq/p 135 Estimatorer Den negative binomialfordeling bruges af og til som alternativ til Poissonfordelingen i situationer, hvor man vil beskrive en stokastisk variabel, der tager værdier i mængden {0, 1,, } Antag k 1,, k m er uafhængige observationer fra en NB(n, p)-fordeling med ukendte parametre n og p Vi har da følgende estimatorer: k nˆ = k, pˆ = s k s hvor k og s er observationernes gennemsnit og empirisk varians 45 wwwventusdk

46 Eksponentialfordelingen Eks(λ) 14 Eksponentialfordelingen Eks(λ) 141 Parametre λ: Intensiteten 14 Beskrivelse I en situation, hvor begivenheder forekommer spontant med intensiteten λ, (og hvor altså antallet af spontane begivenheder i et tidsinterval er Pois(λ)-fordelt), er ventetiden T mellem spontane begivenheder eksponentialfordelt, og man skriver T ~ Eks(λ) T er en kontinuert stokastisk variabel, der kan tage værdier i [0, [ 143 Tæthed og fordelingsfunktion Eksponentialfordelingens tæthed er f(x) = λ ekp(-λx) Fordelingsfunktionen er F(x) = 1 - ekp(-λx) 144 Middelværdi og varians Middelværdi: E(T) = 1/λ Varians: var(t) = 1/λ Born to Businness? Ingen anden avis ruster dig bedre til din karriere end Børsen Et studieabonnement holder dig opdateret og giver dig viden, der hjælper dig under din uddannelse Du får også et personligt password til det nye borsendk, hvor du har fuld adgang til en række onlineværktøjer, som letter din studietid Få Børsen i 3 mdr for 75 kr og bliv klædt på til din kommende karriere* Meld dig ind i Børsen Executive StudentClub nu og vær med i lodtrækningen om en luksusrejse for personer med Singapore Airlines Ring eller gå ind på borsendk/studie * Er du studerende, kan du få Børsen med en rabat på 50% = 347,50 for 3 mdr Er du medlem af YC, DJØF StudSamf eller IDA Junior er prisen 75 kr for 3 mdr Tilbuddet gælder kun for husstande, der ikke har haft abonnement på Børsen de sidste 6 mdr Der beregnes porto til udlandet Midlertidig afmelding i abonnementsperioden refunderes ikke, men Børsen kan altid flyttes til en alternativ adresse Børsen tager forbehold for evt prisændringer 46 wwwventusdk

47 Normalfordelingen 15 Normalfordelingen 151 Parametre μ: middelværdi σ : varians Husk at spredningen σ er kvadratroden af variansen 15 Beskrivelse Normalfordelingen er en kontinuert fordeling Hvis en stokastisk variabel X er normalfordelt, kan X tage værdier i hele R, og man skriver X ~ N(μ, σ ) Normalfordelingen er den vigtigste fordeling i statistikken Utallige naturligt forekommende fænomener kan beskrives (eller approksimeres) med en normalfordeling 153 Tæthed og fordelingsfunktion Normalfordelingens tæthed er 1 (x μ) f(x) = exp σ πσ Den er symmetrisk, dvs der gælder f(-x) = f(x) Normalfordelingens fordelingsfunktion x 1 (t μ) F(x) = exp dt σ πσ er svær at beregne I stedet for benytter man formlen x μ F(x) =Φ σ hvor Φ er fordelingsfunktionen for standardnormalfordelingen, som kan slås op i Tabel C Af tabellen aflæses fx: Huskeregel: I en normalfordeling ligger 68% af sandsynlighedsmassen inden for 1 spredning omkring middelværdien, mens 95% af sandsynlighedsmassen ligger inden for spredninger omkring middelværdien 47 wwwventusdk

48 Normalfordelingen 154 Standardnormalfordelingen En normalfordeling med middelværdi μ = 0 og varians σ = 1 kaldes en standardnormalfordeling Spredningen i en standardnormalfordeling er tydeligvis σ = 1 Tætheden φ(t) for en standardnormalfordeling er 1 1 ϕ (t) = exp t π Fordelingsfunktionen Φ for en standardnormalfordeling er 1 1 ϕ = π x (t) exp t dt Man kan slå Φ op i Tabel C 155 Regneregler for Φ Fordelingsfunktionen Φ for en standardnormalfordelt stokastisk variabel X ~ N(0, 1) opfylder PX ( x) = Φ( x) PX ( x) = Φ( x) P( X x) = Φ( x) Φ( x) P( X x) = Φ( x) Φ ( x) = 1 Φ( x) 156 Estimation af middelværdien μ Antag X 1,,X n er uafhængige observationer fra en stokastisk variabel X ~ N(μ, σ ) Maksimum likelihoodestimatet (ML-estimatet) på μ er x μ= ˆ + + x n 1 n Dette kaldes også blot gennemsnittet og skrives x Gennemsnittet er en middelret estimator på μ (dvs at estimatorens middelværdi er μ) Variansen på gennemsnittet er var (x) σ = n Mere præcist gælder, at x selv er normalfordelt: σ x N( μ, ) n 48 wwwventusdk

49 Normalfordelingen 157 Estimation af variansen σ Antag X 1,,X n er uafhængige observationer fra en stokastisk variabel X ~ N(μ, σ ) Normalt estimerer man variansen σ vha den empiriske varians ( xi x) s = n 1 Den empiriske varians s er en middelret estimator på den sande varians σ Advarsel: Den empiriske varians er ikke maksimum likelihood-estimatet på σ Maksimum likelihood-estimatet på σ er men man bruger den sjældent, da den ikke er middelret og oftest estimerer for lavt ( xi x) n 158 Konfidensinterval for middelværdien μ Antag X 1,,X n er uafhængige observationer fra en normalfordelt stokastisk variabel X ~ N(μ, σ ), og at vi vil estimere middelværdien μ Hvis σ er kendt, er konfidensintervallet for μ med konfidensgrad 1 - α: σ x u, x+ u n 1 α/ 1 α/ σ n Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 Hvis variansen σ er ukendt, er konfidensintervallet for μ med konfidensgrad 1 - α: s s 1 α/ 1 α/ n n x t (n 1), x+ t (n 1) hvor s er den empiriske varians (afsnit 63) Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - 1 frihedsgrader Det fremgår fx af Tabel C, at for konfidensgrad 95% haves n t1- α/ 1,7 4,30 3,18,78,57,45,36,31,6,3,0 159 Konfidensinterval for variansen σ og spredningen σ Antag X 1,,X n er uafhængige observationer fra en normalfordelt stokastisk variabel X ~ N(μ, σ ) Konfidensintervallet for variansen σ med konfidensgrad 1 - α er: (n 1)s (n 1)s, X α/ X 1 α/ 49 wwwventusdk

50 Normalfordelingen hvor s er den empiriske varians (afsnit 63) Tallene X og α/ X er fastlagt ved 1-α/ F(X ) = α/ og α/ F(X ) = 1-α/ 1 - α/, hvor F er fordelingsfunktionen for X -fordelingen med n - 1 frihedsgrader (Tabel C3) Konfidensintervallet for spredningen σ med konfidensgrad 1 - α fås ganske enkelt ved at tage kvadratroden af grænserne i konfidensintervallet for variansen: (n 1)s (n 1)s, X α/ X 1 α/ 1510 Additionsformlen En lineær funktion af en normalfordelt stokastisk variabel er selv normalfordelt Hvis med andre ord X ~ N(μ, σ ) og ab, R ( a 0), så er ax + b ~ N(aμ + b, a σ ) Summen af uafhængige normalfordelte stokastiske variable er selv normalfordelt Hvis med andre ord X 1,,X n er uafhængige med X i ~ N(μ i, σ ), i X X n ~ N(μ μ n, σ σ n ) Tag skridtet! Find jobbet hos StepStone StepStone s Jobagent Du opretter din Jobagent ved at indtaste oplysninger som branche, geografisk område, stillingstype mv Med StepStone s Jobagent har du mulighed for automatisk at få tilsendt stillinger, som kan være interessante for dig CV Opret dit CV på wwwstepstonedk og brug det hvis du skal søge en stilling online Mange virksomheder scanner ofte vores CV database for spændende kandidater Klik ind på wwwstepstonedk og se de mange muligheder 50 wwwventusdk

51 Fordelinger knyttet til normalfordelingen 16 Fordelinger knyttet til normalfordelingen 161 X -fordelingen Lad X 1,,X n ~ N(0, 1) være uafhængige standardnormalfordelte stokastiske variable Fordelingen af kvadratsummen Q = X X n kaldes X -fordelingen med n frihedsgrader Antallet af frihedsgrader skrives normalt df (degrees of freedom) En X -fordelt stokastik variabel Q med df frihedsgrader har middelværdi E(Q) = df og varians var(q) = df X -fordelingens tæthed f(x) er df 1 x f( x) = K x e hvor df er antallet af frihedsgrader, og K er en konstant I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C3 Nedenstående graf viser tæthedsfunktionen med df = 1, 4, 10, 0 frihedsgrader df=1 df=4 df=10 df=0 Figur 6 51 wwwventusdk

52 Fordelinger knyttet til normalfordelingen 16 Student s t-fordeling Lad X være en normalfordelt stokastisk variabel med middelværdi μ og varians σ Lad de stokastiske variable x og S være henholdsvis gennemsnit og empirisk varians for en stikprøve bestående af n observationer fra X Fordelingen af X μ T = S /n er da uafhængig af både μ og σ og kaldes Student s t-fordeling med n - 1 frihedsgrader En t-fordelt stokastik variabel T med df frihedsgrader har middelværdi E(T) = 0 for df og varians df ( T ) = df for df 3 t-fordelingens tæthed f(x) er x f( x) = K 1+ df ( df + 1) / 5 wwwventusdk

53 Fordelinger knyttet til normalfordelingen hvor df er antallet af frihedsgrader, og K er en konstant I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C4 Nedenstående graf viser tætheden for t-fordelingen med df = 1,, 3 frihedsgrader samt tætheden φ(x) for standardnormalfordelingen Som man kan se, nærmer t-fordelingen sig standardnormalfordelingen, når df ϕ(x) df=3 df= df=1 Figur Fisher s F-fordeling Lad X 1 og X være uafhængige normalfordelte stokastiske variable med samme varians Lad for i = 1, den stokastiske variabel S være den empiriske varians af en stikprøve af størrelse n fra X Fordelingen af i i i kvotienten S V = S kaldes Fisher s F-fordeling med n - 1 frihedsgrader i tælleren og n - 1 frihedsgrader i nævneren 1 F-fordelingens tæthed f(x) er df1/ x 1 f( x) = K ( df + df x ) 1 hvor K er en konstant, df 1 er antal frihedsgrader i tæller, df er antal frihedsgrader i nævner og df = df 1 + df I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C5 df / 53 wwwventusdk

54 Test i normalfordelingen 17 Test i normalfordelingen 171 En stikprøve, kendt varians, H 0 : μ = μ 0 Lad der være givet en stikprøve X 1,,X n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og kendt varians σ Vi vil teste nulhypotesen H 0 : μ = μ 0 Hertil beregnes teststørrelsen n(x μ ) μ= = σ n 0 i= 1 x nμ i 0 nσ Signifikanssandsynligheden ses nu af følgende skema, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) Alternativ hypotese H1 : μ > μ0 Signifikanssandsynlighed Φ(-u) H1 : μ < μ0 Φ(u) H1 : μ μ0 Φ(- u ) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% 17 En stikprøve, ukendt varians, H 0 : μ = μ 0 (Student s t-test) Lad der være givet en stikprøve X 1,,X n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Vi vil teste nulhypotesen H 0 : μ = μ 0 Hertil beregnes teststørrelsen t n(x μ ) s n x nμ 0 i= 1 i 0 = =, ns hvor s er den empiriske varians (se afsnit 63) Signifikanssandsynligheden ses nu af følgende skema, hvor F Student er fordelingsfunktionen for Student s -fordeling med df = n - 1 frihedsgrader (Tabel C4) 54 wwwventusdk

55 Test i normalfordelingen Alternativ hypotese Signifikanssandsynlighed H1 : μ > μ0 1-FStudent(t) H1 : μ < μ0 1-FStudent(t) H1 : μ μ0 (1 F ( t)) Student Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Eksempel Rektor ved Rysensteen Gymnasium ønsker at bekræfte statistisk, at hans elever ved studentereksamen 005 har klaret sig signifikant miserabelt Til dette formål udvælges n = 10 studenter tilfældigt Deres gennemsnit er x1 x x3 x4 x5 x6 x7 x8 x9 x10 7,6 7,7 7,5 5,8 5,7 7,9 5,4 6,7 7,9 9,4 Landsgennemsnittet for 005 er 8,7 Man kan med rimelighed antage, at gennemsnittene er normalfordelte Variansen er imidlertid ukendt Vi benytter derfor Student s t-test og vil teste nul-hypotesen H 0 : μ = 8,7 mod den alternative hypotese H 1 : μ < 8,7 Det får du kun i CA! cadk Dagpenge med til udlandet i 3 måneder Op til 3 ugers betalt ferie Personlig rådgivning og coaching C Branding af dine kompetencer Business netværk med andre unge Balance i karrieren Læs mere på cadk ca@cadk 55 wwwventusdk

56 Test i normalfordelingen Vi beregner observationernes gennemsnit x = 7,17 og empiriske spredning s = 1,6 og finder teststørrelsen 10(7, 17 8, 7) t = = 76, 16, Et opslag i Tabel C4 under df = n - 1 = 9 frihedsgrader giver en signifikanssandsynlighed 1 - F Student (-t) = 1 - F Student (,76) mellem 1% og,5% Vi kan altså forkaste H 0 til fordel for Rektors formodning, om at hans elever har klaret sig signifikant ringere end resten af landet 173 En stikprøve, ukendt middelværdi, H 0 : σ = σ 0 SÆTNING Lad der være givet n (uafhængige) observationer x 1,,x n fra en normalfordeling med varians σ Da er teststørrelsen ( n 1) s n x i= 1 i q = = σ ( x) σ X -fordelt med df = n - 1 frihedsgrader (her er s den empiriske varians) Lad der være givet en stikprøve x 1,,x n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Vi vil teste nulhypotesen H 0 : σ = σ 0 Hertil beregnes teststørrelsen hvor s er den empiriske varians ( n 1) s n x i= 1 i σ0 σ0 ( x) q = =, Signifikanssandsynligheden ses nu af følgende skema, hvor F x er fordelingsfunktionen for X -fordelingen med df = n - 1 frihedsgrader (Tabel C3) Alternativ hypotese H1 : σ > σ0 Signifikanssandsynlighed 1-FX(q) H1 : σ < σ0 FX(q) H1 : σ σ0 min{fx(q), 1-FX(q)} Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Bemærk: I praksis testes altid mod den alternative hypotese H 0 : σ > σ 0 56 wwwventusdk

57 Test i normalfordelingen 174 Eksempel Betragt følgende 0 observationer stammende fra en normalfordeling med ukendt middelværdi og varians: Vi vil teste nulhypotesen H 0 : spredningen er højst 5 (dvs variansen er højst 5) mod den alternative hypotese H 0 : spredningen er større end 5 (dvs variansen er større end 5) Den empiriske varians beregnes til s = 45,47, og dermed finder vi teststørrelsen (0 1) 4547, q = = 34, 56 5 Opslag i tabel C3 under df = 19 frihedsgrader viser, signifikanssandsynlighed omkring er % Vi kan hermed afvise H 0 (Rent faktisk stammer observationer fra en normalfordeling med middelværdi μ = 100 og spredning σ = 6 Testet er altså bemærkelsesværdigt følsomt) 175 To stikprøver, kendte varianser, H 0 : μ 1 = μ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og kendt varians σ Lad der desuden være givet en stikprøve y,,y fra en normalfordeling med ukendt middelværdi μ 1 1 m og kendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : μ 1 = μ Hertil beregnes teststørrelsen u = x y σ/ n+σ/ m 1 Signifikanssandsynligheden ses nu af følgende skema, hvor Φ er fordelingsfunktionen for standardnormalfor delingen (Tabel C3) 57 wwwventusdk

58 Test i normalfordelingen Alternativ hypotese Signifikanssandsynlighed H1 : μ1 > μ 1 - Φ (- u) H1 : μ1 < μ Φ (u) H1 : μ1? μ Φ (- u ) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Bemærk: I praksis er forudsætningerne for dette test sjældent til stede 176 To stikprøver, ukendte varianser, H 0 : μ 1 = μ (Fisher-Behrens) Lad situationen være som i afsnit 175, men antag, at varianserne σ og 1 σ er ukendte Problemet, at finde en passende teststørrelse til afprøvning af nulhypotesen H 0 : μ 1 = μ, kaldes Fisher-Behrens-problemet og har ikke nogen tilfredsstillende løsning Hvis n, m > 30, kan man dog kopiere testet i afsnit 175 med den alternative teststørrelse u = x y, s / n+ s / m 1 hvor s og 1 s er de empiriske varianser for x erne henholdsvis y erne Viden Vil du vide, hvad der sker i dansk erhvervsliv? Og går du rundt med en iværksætter i maven? Så følg med i Danmarks største erhvervsavis Læs om de små og mellemstore virksomheder, der udgør 98% af dansk erhvervsliv Og som står for 75% af al omsætning i Danmark Læs om deres succeser og udfordringer Få viden og værktøjer til virksomhedsdrift ErhvervsBladet udkommer i eksemplarer Hver dag Over hele landet Tegn et abonnement allerede i dag Studerende får 50% rabat Ring til os på , og få din daglige dosis erhvervsnyheder 58 wwwventusdk

59 Test i normalfordelingen 177 To stikprøver, ukendte middelværdier, H 0 : σ 1 = σ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og ukendt varians σ Lad der desuden være givet en stikprøve y 1,,y m fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : σ 1 = σ, Hertil beregnes teststørrelsen s x ernes empiriske varians v = = s y ernes empiriske varians Desuden sættes 1 v = max v, v 1 Signifikanssandsynligheden ses nu af følgende skema, hvor F Fisher er fordelingsfunktionen for Fishers F- fordeling med n - 1 frihedsgrader i tælleren og m - 1 frihedsgrader i nævneren (Tabel C5) Alternativ hypotese H1 : μ1 σ > σμ 1 Signifikanssandsynlighed 1 - FFisher(v) H1 : μ1 σ < > σμ FFisher(1/v) H1 : μ1 σ? μ σ 1 (1 - FFisher(v*)) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Hvis H 0 accepteres, estimeres den fælles varians σ og 1 σ af den poolede varians n m ( x ) ( ) = 1 i x + y = 1 i y i i ( n 1) s1 + ( m 1) s pool s = = n+ m n+ m 178 To stikprøver, ukendt fælles varians, H 0 : μ 1 = μ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og ukendt varians σ Lad der desuden være givet en stikprøve y 1,,y m fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : μ 1 = μ 59 wwwventusdk

60 Test i normalfordelingen Hertil beregnes teststørrelsen t = x y (1/ n+ 1 / m) s pool hvor s er den poolede varians som givet i afsnit 177 pool Signifikanssandsynligheden ses nu af følgende skema, hvor F Student er fordelingsfunktionen for Student s t- fordeling med n + m - frihedsgrader (Tabel C4) Alternativ hypotese H1 : μ1 > μ Signifikanssandsynlighed 1 - FStudent(t) H1 : μ1 < μ 1 - FStudent(-t) H1 : μ1? μ (1 - FStudent( t )) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% 179 Eksempel (sammenligning af to middelværdier) Antag vi har givet 7 uafhængige observationer fra en normalfordelt stokastisk variabel X: x = 6, x = 1, x = 15, x = 7, x = 15, x = 8, x = samt 4 uafhængige observationer fra en normaltfordelt stokastisk variabel Y: Vi vil teste hypotesen y = 9, y = 31, y = 17, y = H 0 : E(X) = E(Y) For at kunne dette, må vi først teste, om X og Y har samme varians Vi tester altså hjælpehypotesen H 0 *: var(x) = var(y) mod alternativet H 1 *: var(x) var(y) Hertil beregnes som i afsnit 177 teststørrelsen samt s 5, 3 v = = = 16, s 416, 1 1 v = max v, = 16, v 60 wwwventusdk

61 Test i normalfordelingen Et opslag i Tabel C5 med 7-1 = 6 frihedsgrader i tælleren og 4-1 = 3 frihedsgrader i nævneren viser, at signifikanssandsynligheden er klart større end 0%, og vi kan derfor acceptere hjælpehypotesen H 0 * Vi vender nu tilbage til testet af H 0 mod den alternative hypotese H 0 : E(X) E(Y) Den poolede varians findes til 6s + 3s = = 488, 9 1 pool Teststørrelsen bliver dermed x y 19 48, t = = = 131, (1/ 7 + 1/ 4) s (1/ 7 + 1/ 4)48, 8 s pool Signifikanssandsynligheden fås derfor til (1 F ( t )) = (1 F (131)), (1 090), = 0% Student Student idet vi slår Student s t-fordeling med = 9 frihedsgrader op i Tabel C4 Vi kan dermed ikke forkaste H 0 Krifa Light - gratis fagforening for unge Hvad skal du have i løn på dit fritidsjob? Hvor mange timer må du arbejde? Hvad står der med småt i din ansættelseskontrakt? Hvordan skriver du en ansøgning, der rykker? Hvad er Krifa Light? Krifa Light er en gratis fagforening for unge under 3 år, som er elever, lærlinge eller under uddannelse på mindst 0 timer om ugen Krifa Light er en del af Kristelig Fagbevægelse, som er politisk uafhængig Danmarks længste åbningstid Meld dig ind på wwwkrifa-lightdk eller ring alle hverdage kl 8- på tlf Er du over 3 år, har vi også et godt tilbud til dig Læs mere på wwwkrifadk 61 wwwventusdk

62 Variansanalyse 18 Variansanalyse 181 Formål Variansanalyse, også kaldet ANOVA (analysis őf variance), er en metode til sammenligning af gennemsnittene af flere end stikprøver Variansanalyse er en naturlig forlængelse af testene i forrige kapitel 18 k stikprøver, ukendt fælles varians, H 0 : μ 1 = = μ k Lad X 1,,X k være k uafhængige, normalfordelte stokastiske variable med middelværdier μ 1 = = μ k og fælles varians σ Lad der fra hver X i være givet en stikprøve bestående af n i observationer Lad x j og s j være gennemsnit og empirisk varians af stikprøven fra X j Vi vil teste nulhypotesen H 0 : μ 1 = = μ k mod alle andre hypoteser Til dette formål estimeres den fælles varians σ på to forskellige måder Variansestimatet inden for stikprøverne er Variansestimatet mellem stikprøverne er s 1 = ( n 1) s I k j j n k j= 1 1 s = n ( x) M 1 k j x j k j = 1 s estimerer I σ, uanset om H 0 er sand eller ej s estimerer kun M σ, hvis H 0 er sand Hvis H 0 er falsk, estimerer s for højt M Betragt nu teststørrelsen s v = s M I Signifikanssandsynligheden er 1 - F Fisher (v) hvor F Fisher er fordelingsfunktionen for Fishers F-fordeling med k - 1 frihedsgrader i tælleren og n - k frihedsgrader i nævneren (Tabel C5) 6 wwwventusdk

63 Variansanalyse 183 To eksempler (sammenligning af middelværdier i 3 stikprøver) Lad der være givet 3 stikprøver 1 stikprøve: 9, 8, 9, 1, 8,,, 9, 6, 6 stikprøve:, 1, 18, 8, 3, 5, 5, 8, 3, 6 3 stikprøve: 4, 3, 6, 0, 33, 3, 6, 4, 7, Det antages, at stikprøverne stammer fra uafhængige normalfordelinger med fælles varians Lad μ i være middelværdien af den i te normalfordeling Vi vil teste nulhypotesen H 0 : μ 1 = μ = μ 3 (Rent faktisk stammer alle observationerne fra en normalfordeling med middelværdi 5 og varians 10, så testet bør ikke føre til forkastelse af H 0 ) Vi har altså k = 3 stikprøver med hver n i = 10 observationer, i alt n = 30 observationer En udregning giver følgende variansestimat inden for stikprøverne: S I = 10,91 og følgende variansestimat mellem stikprøverne: S M = 11,10 63 wwwventusdk

64 Variansanalyse (Da vi ved, at H 0 er sand, bør både S og I S estimere M σ = 10, hvilket også passer ganske godt) Nu beregnes teststørrelsen: s 1110, v = = = 10, s 1091, M I Opslag i Tabel C5 under k - 1 = frihedsgrader i tælleren og n - k = 7 frihedsgrader i nævneren viser, at signifikanssandsynligheden er over 10% Nulhypotesen H 0 må altså opretholdes Lidt mere udførligt kan udregningerne opsummeres i et skema som følger: Stikprøve nummer Gennemsnit x j 6,0 3,9 4,8 Empirisk varians s j 10, 9,88 1,6 x = 4,9 (samlet gennemsnit) S I = +(S 1 + S + S 3 )/3 = 10,91 (varians inden for stikprøverne) S M = 5 ( x x) = 11,10 (varians mellem stikprøverne) j V = S M / S I = 1,0 (teststørrelsen) 64 wwwventusdk

65 Variansanalyse Hvis vi lægger 5 til alle observationerne i stikprøve nummer 3, får vi i stedet følgende skema: Stikprøve nummer Gennemsnit x j 6,0 3,9 9,8 Empirisk varians s j 10, 9,88 1,6 x = 6,6 (samlet gennemsnit) S I = +(S 1 + S + S 3 )/3 = 10,91 (varians inden for stikprøverne) S M = 5 ( x x) = 89,43 (varians mellem stikprøverne) j V = S M / S I = 8,0 (teststørrelsen) Bemærk hvordan variansen inden for stikprøverne ikke ændrer sig, hvorimod variansen mellem stikprøverne nu er alt for stor Dermed bliver teststørrelsen v = 8,0 også stor, og signifikanssandsynligheden ses i Tabel C5 at være mindre end 1% Dermed forkastes nulhypotesen H 0 om ens middelværdier (hvilket var at forvente, da H 0 rent faktisk er falsk) 65 wwwventusdk

66 Chi-kvadrat χ 19 Chi-kvadrat χ 191 χ -test for fordelingslighed Grunden til, at χ -fordelingen er så vigtig, er, at den kan bruges til at teste, om et forelagt sæt af observationer kan tænkes at stamme fra en bestemt fordeling I de næste afsnit skal vi se eksempler på dette Testet, som også kaldes Pearson s χ -test eller χ -test for goodness of fi t, udføres således: 1 Først inddeles observationerne i kategorier Lad os kalde antallet af kategorier for k, og antallet af observationer i den i te kategori for O i Det samlede antal observationer er altså n = O O k Opstil en nul-hypotese H 0 Nul-hypotesen skal fortælle, hvad sandsynligheden p i er, for at en observation havner i den i te kategori 3 Udregn teststørrelsen χ k ( Oi E ) = E i= 1 i i O i er som sagt det observerede antal i den i te kategori E i er det (under nul-hypotesen) forventede ( expected ) antal i den i te kategori: E i = np i Teststørrelsen χ kaldes i øvrigt nogle gange diskrepansen 4 H 0 forkastes nu, hvis χ er større end den kritiske værdi C for χ -fordelingen med df frihedsgrader (slås op i Tabel C3) Antallet af frihedsgrader er normalt df = k - 1, altså 1 mindre end antallet af kategorier Hvis man bruger observationerne til at estimere nul-hypotesens sandsynlighedsparametre p i, bliver df dog mindre Huskeregel: Hver parameter, der estimeres, koster én frihedsgrad Bemærk: det er logisk at forkaste H 0, hvis X er stor, thi det betyder jo, at forskellen mellem de observerede og de forventede antal er stor 19 Normalfordelingsantagelse Da χ -testet hviler på en normalapproksimation, kan man kun bruge det, hvis der ikke er alt for få observationer Huskeregel: χ -testet kan bruges, hvis det forventede antal Ei er mindst 5 i hver kategori Hvis der er flere end 5 kategorier, kan man dog nøjes med mindst 3 forventede antal i hver kategori 193 Standardiserede residualer Hvis nulhypotesen om fordelingslighed forkastes ved et χ -test, skyldes det, at nogle af de observerede antal afviger ekstremt fra de forventede antal Det er da interessant at undersøge, præcis hvilke observerede antal der er ekstreme Til dette formål beregnes de standardiserede residualer 66 wwwventusdk

67 Chi-kvadrat χ r = i O np i np (1 p ) i i i for hver kategori Hvis nulhypotesen var sand, ville hver r i være normalfordelt med middelværdi μ = 0 og spredning σ = 1 Derfor: Huskeregel: Standardiserede residualer numerisk større end er tegn på ekstremt observeret antal Det kan meget vel tænkes, at der forekommer standardiserede residualer numerisk større end, selvom χ -testet ikke fører til forkastelse af nulhypotesen Dette betyder imidlertid ikke, at nulhypotesen alligevel skal forkastes Særligt hvis man har et stort antal kategorier, vil det ikke være unormalt med enkelte store residualer Formaning: Regn kun de standardiserede residualer ud, hvis nulhypotesen er blevet forkastet ved et χ -test 194 Eksempel (kvinder med 5 børn) Opgave Ved en optælling på Rigshospitalet registreredes børnenes køn for 1045 kvinder, som havde 5 børn i alt Resultat: A worldwide education in the heart of London One of the largest Universities in the UK Located in central London Over 150 years providing education Over 150 subject areas including Art and Design, Architecture, Business, Management and Marketing, Social Sciences, Leisure and Tourism, Sport, Computing and Information Sciences Visit our website or contact us on: europe@londonmetacuk wwwlondonmetacuk/europe From Foundation to MBA Top Government rating for business and management teaching Guaranteed accommodation Postgraduate scholarships available Well-equipped IT, language and library facilities The world looks different from here 67 wwwventusdk

68 Chi-kvadrat χ Oi 5 piger 58 4 piger + 1 dreng piger + drenge 305 piger + 3 drenge pige + 4 drenge 16 5 drenge 45 Test den hypotese H 0, at der ved hver barnefødsel er lige stor sandsynlighed for en dreng som en pige Svar: Hvis H 0 holder, består ovenstående tabel af 1045 observationer fra en Bin(5, 1/)-fordeling Punktsandsynlighederne i en Bin(5, 1/)-fordeling er pi 5 piger 0, piger + 1 dreng 0, piger + drenge 0,315 piger + 3 drenge 0,315 1 pige + 4 drenge 0, drenge 0,0313 De forventede antal E i = 1045 p i bliver da Ei 5 piger 3,7 4 piger + 1 dreng 163,3 3 piger + drenge 36,6 piger + 3 drenge 36,6 1 pige + 4 drenge 163,3 5 drenge 3,7 Teststørrelsen udregnes = (58 3, 7) ( ), (305 36, 6) 3, , 36, = 8, 6 (303 36, 6) ( ), (45 3, 7) 36, , 3, 7 Da observationerne er inddelt i 6 kategorier, sammenligner vi teststørrelsen med χ -fordelingen med df = 6-1 = 5 frihedsgrader Opslag i Tabel C3 viser, at signifikanssandsynligheden er klart under 0,5% Vi kan altså med stor sikkerhed forkaste hypotesen, at dreng-pige-forholdet er Bin(5, 1/)-fordelt 68 wwwventusdk

69 Chi-kvadrat χ Lad os endelig udregne de standardiserede residualer: ri 5 piger 4,5 4 piger + 1 dreng -1, 3 piger + drenge -1,4 piger + 3 drenge -1,6 1 pige + 4 drenge -0,1 5 drenge, Det konstateres, at det er antallene af kvinder med 5 børn af samme køn, som er ekstreme og gør teststørrelsen stor 195 Eksempel (folketingsvalg) Opgave Ved folketingsvalget i februar 005 fordelte stemmeprocenterne sig således på partierne: A B C D O V Ø Andre 5,8 9, 10,3 6,0 13,3 9,0 3,4 3,0 I august 005 foretoges en Gallup-undersøgelse, hvor 1000 tilfældigt udvalgte personer blev spurgt, hvem de nu ville stemme på Resultatet blev: A B C D O V Ø Andre Nu kan teststørrelsen χ udregnes: ( O E ) (4 58) (5 30) = = + + =, 8 i i 615 i= 1 Ei Opslag i Tabel C3 under χ -fordelingen med df = 8-1 = 7 frihedsgrader viser, at signifikanssandsynligheden er under 50% Der er dermed ikke belæg for at konkludere, at partiernes vælgertilslutning har ændret sig Vi vil forbryde os mod formaningen i afsnit 193 og regne de standardiserede residualer ud For kategori A finder vi fx , 58 r = = 116, , 58 0, wwwventusdk

70 Chi-kvadrat χ Samlet fås A B C D O V Ø Andre -1,16-0,33-0,5 1,06 0,74 0,8 1,57-0, Eksempel (dødsfald i det preussiske kavaleri) I perioden registreredes antallet af dødsfald forårsaget af hestespark i 10 af det preussiske kavaleris dragonregimenter Af de i alt 00 regimentsår var der 109 år uden dødsfald, 65 år med 1 dødsfald, år med dødsfald, 3 år med 3 dødsfald, og 1 år med 4 dødsfald Vi vil undersøge, om disse tal kan stamme fra en Poissonfordeling Pois(λ) For at få forventede antal (næsten) større end 5, slår vi årene med 3 og 4 dødsfald sammen til én kategori og har dermed følgende observerede antal O i af år med i dødsfald: i Oi = 3 4 Intensiteten λ estimeres til ë = 1/00 = 0,61, da der i alt er 1 dødsfald i de 00 regimentsår Punktsandsynlighederne i en Pois(0,61)-fordeling er Tror du på et liv efter studierne? Det vil vi gerne give dig en god grund til Bliv telekonsulent hos Codan i Århus eller København, så undgår du at blive begravet af bøgerne For vi tilbyder dig mere end bare et studiejob Med -3 aftener om ugen kan du rent faktisk bygge bro mellem dit studieliv og dine fremtidige jobmuligheder hvad enten du sigter efter et fremtidigt job i Codans egen organisation, eller du er interesseret i de stærke kompetencer, som jobbet giver dig Dine arbejdsopgaver: Opfølgning på salgskampagner Gennemgang af forsikringerne hos vores nuværende kunder, så de er sikret lige præcis den dækning, der passer til deres behov Dine kvalifikationer: Du er udadvendt og kontaktskabende, og du sætter en ære i at give kunden den optimale service hver gang Du har en veludviklet analytisk evne til at sætte dig hurtigt ind i policer og andet forsikringsstof Du motiveres af at yde topresultater i et konkurrenceorienteret miljø Vi tilbyder dig: En god, fast timeløn suppleret med en god individuel bonus Et udviklingsprogram, der styrker både dine faglige og personlige kvalifikationer En mulighed for fastansættelse og karriere i Codan Sådan søger du: Send din ansøgning til job@codandk, mærket Telekonsulent Århus eller Telekonsulent København Vi glæder os til at høre fra dig Hos Codan skal kunderne være bedre sikret Codan er mere end et normalt forsikringsselskab Gennem vores dækning, vores skadebehandling og vores service tilbyder vi mere end de andre Derfor kan vores kunder altid vide sig bedre sikret med Codan Vores løfte til kunderne stiller store krav til kvaliteten af den rådgivning, den service, den hjælp og de løsninger, som vi tilbyder kunderne Derfor har vi behov for de bedste medarbejdere inden for de områder, som vi beskæftiger os med 70 wwwventusdk

71 Chi-kvadrat χ i pi 0 0, ,331 0,101 = 3 0,04 Det forventede antal bliver dermed i Ei 0 108,7 1 66,3 0, = 3 4,8 Læseren bør lade sig imponere af den slående lighed mellem forventede og observerede antal! Det er i grunden overflødigt at regne videre, men lad os alligevel bestemme teststørrelsen ( , 7) (65 66, 3) ( 0, ) (4 4, 8) 108, 7 66, 3 0, 4, 8 03 = =, Da der er 4 kategorier, og vi har estimeret et parameter ud fra data, skal teststørrelsen sammenlignes med χ - fordelingen med df = = frihedsgrader Opslag i Tabel C3 viser som ventet en signifikanssandsynlighed klart over 50% Eksemplet stammer i øvrigt fra Ladislaus von Bortkiewicz bog Das Gesetz der kleinen Zahlen fra wwwventusdk

72 Kontigenstabeller 0 Kontingenstabeller 01 Definition, metode Antag der foreligger et antal observationer, og observationerne er inddelt i kategorier efter to forskellige kriterier Man kan så opstille antallet af observationer i hver kategori i en kontingenstabel Formålet med det test, der her behandles, er at teste, om der er uafhængighed mellem de to kriterier, efter hvilke observationerne er inddelt Metode: Lad der være givet en r s-tabel med r rækker og s søjler: a11 a1 a1s a1 a as ar1 ar ars med rækkesummer R = s i a j= 1 ij og søjlesummer S = r j a i= 1 ij og samlet sum observerede antal O Rækkesandsynlighederne estimeres som N = a Dette er de ij i, j Ri pˆ i =, N og søjlesandsynlighederne estimeres som S j pˆ = j N Hvis der er uafhængighed mellem rækker og søjler, kan cellesandsynlighederne estimeres som Vi kan dermed beregne de forventede antal E: pˆ RS i j = pˆ ˆ p = N ij i j R, S N 1 1 R, S N 1 R, 1 S s N R, S N 1 R, S N R, S s N Rr, S N 1 Rr, S N Rr, S N s 7 wwwventusdk

73 Kontigenstabeller idet det forventede antal i den (i, j) te celle er E = N pˆ = RS / N ij i j Nu beregnes teststørrelsen ( ) ( O E) a RS / N ij i j = = E RS / N i j hvor der summeres over hver celle i tabellen Hvis uafhængighedshypotesen holder, og det forventede antal er mindst 5 i hver celle, er teststørrelsen χ -fordelt med df =(r - 1) (s - 1) frihedsgrader Vigtigt! Hvis data er givet som procenttal, skal de regnes om til absolutte tal, inden de skrives ind i kontingenstabellen 0 Standardiserede residualer Hvis uafhængighedshypotesen forkastes ved et χ -test, vil man, lige som i afsnit 193, være interesseret i at se, i hvilke celler det observerede antal afviger ekstremt fra det forventede antal De standardiserede residualer beregnes nu som r ij = O RS / n ij i j ( RS / n)(1 R/ n)(1 S / n) i j i j 73 wwwventusdk

74 Kontigenstabeller Hvis uafhængighedshypotesen var sand, ville hver r ij være normalfordelt med middelværdi μ = 0 og spredning σ = 1 Standardiserede residualer numerisk større end er derfor tegn på et ekstremt observeret antal 03 Eksempel (studieretning og politisk orientering) Opgave Med en undersøgelse på 3 danske universiteter blev 488 studerende spurgt, hvilket parti de ville stemme på, hvis der var valg i morgen Resultatet var (i forenklet form): Soc dem Rad V Kons SF DF Venstre Enhlist Ri Humaniora Natvidenskab Samfundsfag Sj Undersøg om der er uafhængighed mellem de studerendes studieretning og deres politiske orientering Svar: Vi har med at gøre med en 3 7-tabel og foretager et χ -test for uafhængighed Først regnes de forventede antal ud og opstilles i en tabel: RS E = i j 488 Soc dem Rad V Kons SF DF Venstre Enhlist Humaniora 3,5 35,4 15,8 16,4 7,4 44,1 5,5 Natvidenskab 34,6 37,6 16,8 17,5 7,9 46,9 5,8 Samfundsfag 33,9 37,0 16,5 17,1 7,7 46,0 5,7 Nu kan teststørrelsen = O E ( ) E regnes ud, idet de observerede antal O er tallene i den første tabel: (37 3, 5) (5 5, 7) 3, 5 5, = + + =, Teststørrelsen skal sammenlignes med χ -fordelingen med df = (3-1) (7-1) = 1 frihedsgrader Et opslag i Tabel C3 viser, at signifikanssandsynligheden er klart under 0,1%, og vi kan derfor klart forkaste uafhængighedshypotesen 74 wwwventusdk

75 Kontigenstabeller Lad os nu beregne de standardiserede residualer for at se, i hvilke celler de observerede antal er ekstreme Vi bruger formlen for r ij i afsnit 0 og får Soc dem Rad V Kons SF DF Venstre Enhlist Humaniora 1,1,9-0, 3,0-1,6-5,8,4 Natvidenskab -0,6 0,1 0,7 0, -0,4 0,9 -,0 Samfundsfag -0,5-3,0-0,5-3, -1,9 4,9-0,4 Der er altså ekstreme observationer i mange af cellerne 04 χ -test for -tabeller En kontingenstabel med rækker og søjler kaldes en -tabel Lad os skrive de observerede antal op således: a b c d Teststørrelsen bliver så ad bc = + + +, N E E E E hvor N = a + b + c + d er det totale antal observationer, og E ij er det forventede antal i den ij te celle Teststørrelsen χ skal sammenholdes med χ -fordelingen med df = ( - 1) ( - 1) = 1 frihedsgrad Ønskes det at foretage et ensidet test af uafhængighedshypotesen, kan teststørrelsen ad bc u = N E E E E beregnes Under uafhængighedshypotesen vil u være standardnormalfordelt 05 Fisher s eksakte test for -tabeller Der er intet i vejen for at bruge χ -testet på -tabeller, men der findes et bedre test, kaldet Fisher s eksakte test Fisher s eksakte test gør ikke brug af nogen normalapproksimation, så det kan altså også anvendes, når antallet af forventede observationer i en eller flere af cellerne er mindre end 5 Metode Lad der være givet en -tabel: a b c d 75 wwwventusdk

76 Kontigenstabeller med rækkesummer R 1 = a + b og R = c + d og søjlesummer S 1 = a + c og S 1 = b + d og samlet sum N = R 1 + R = S 1 + S = a + b + c + d Vi tester uafhængighedshypotesen H 0 mod den alternative hypotese H 1, at dia gonalsandsynlighederne p 11 og p er større, end hvis der havde været uafhængighed (Dette kan altid opnås ved evt at bytte om på rækkerne) Den betingede sandsynlighed for at få netop ovenstående -tabel givet at rækkesummerne er R 1 og R, og søjlesummerne er S 1 og S, er P R! R! S! S! Nabcd!!!!! 1 1 betinget = Signifikanssandsynligheden i Fisher s eksakte test er nu summen af P betinget taget på alle -tabeller med samme række- og søjlesummer som den givne, og som er ligeså ekstreme eller mere ekstreme end den givne: P R! R! S! S! min{, } 1 1 Fisher = bc i= N! a+ i! b i! c i! d + i! 0 ( ) ( ) ( ) ( ) Uafhængighedshypotesen H 0 forkastes, hvis P Fisher er mindre end 5% (eller hvad man nu vælger som signifikansniveau) Tilføjelse: Hvis man tester ensidet, altså ikke mod en specifik alternativ hypotese, bliver signifikanssandsynl igheden P Fisher Det forlanges dog samtidig, at -tabellen er skrevet sådan op, at de observerede antal i diagonalen er større end de forventede antal (kan altid opnås ved at bytte om på rækkerne om nødvendigt) 76 wwwventusdk

77 Kontigenstabeller 06 Eksempel (Fisher s eksakte test) I et medicinsk forsøg med alternativ behandling medvirker 10 patienter, som inddeles tilfældigt i grupper med 5 i hver Patienterne i den ene gruppe behandles med akupunktur, mens patienterne i den anden gruppe ingen behandling får Ved forsøgets ophør konstateres, om hver patient er syg eller rask Resultatet kan opstilles i en -tabel: raske syge akupunktur 4 1 ingen behandling 3 Signifikanssandsynligheden i Fisher s eksakte test beregnes nu: !!!! Fisher i= 0 10!(4 + i)!(1 i)!( i)!(3 + i)! P = = 6% Med en så stor signifikanssandsynlighed kan der ikke påvises nogen effekt af akupunkturbehandling 77 wwwventusdk

78 Fordelingsfri test 1 Fordelingsfri test I alle de test, vi hidtil har set på, har vi vidst noget om den fordeling, de givne observationer stammede fra Vi har fx vidst, at fordelingen var en normalfordeling, selvom vi ikke kendte middelværdien eller spredningen I visse tilfælde kommer man imidlertid ud for, at man intet ved om den bagvedliggende fordeling Man må da bruge en fordelingsfri test(også kaldet ikke-parametrisk test) 11 Wilcoxons test for ét sæt observationer Lad der være givet n uafhængige observationer d 1,d n fra en ukendt fordeling Vi tester nul-hypotesen H 0 : Den ukendte fordeling er symmetrisk omkring 0 Hver observation d i tildeles et rangtal, som er et af tallene 1,,, n Denne tildeling sker således, at observationen med den laveste numeriske værdi får rangtallet 1, observationen med den næstlaveste numeriske værdi får rangtallet, osv Definér nu teststørrelserne t t + = = (rangtal svarende til positive d ) (rangtal svarende til negative d ) (På dette tidspunkt kan man checke, at der gælder t + + t - = n(n + 1)/; hvis ikke, har man regnet galt) Hvis H 0 holder, vil t + og t - være cirka lige store Hvornår H 0 forkastes, afhænger af, om man foretager et eneller tosidet test i i Hvis H 0 ikke testes mod nogen særlig alternativ hypotese, forkastes nulhypotesen, hvis t + er ekstremt stor eller ekstremt lille Testet er med andre ord tosidet Sæt t := min{t +, t - } Vælg et signifikansniveau α, og slå op i Tabel C8 under n og α (bemærk at signifikansniveauet bliver det dobbelte af det i tabellen anførte) Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Hvis man derimod tester H 0 mod den alternative hypotese H 1 : Den ukendte fordeling giver overvejende positive (hhv negative) observationer, så forkastes H 0 kun, hvis t + er ekstremt stor (hhv ekstremt lille) Testet er altså ensidet Sæt t := t - (hhv t := t + ) Vælg et signifikansniveau α, og slå op i Tabel C8 under n og α Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Ovenstående test finder primært anvendelse, når der foreligger to sæt af observationer x 1,x n og y 1,y n, og d i er differensen mellem før-værdien x i og efter-værdien y i, altså d i = x i - y Hvis der kun er tilfældige, i usystematiske forskelle mellem før- og efter-værdierne, følger, at d i erne er fordelt symmetrisk omkring 0 78 wwwventusdk

79 Fordelingsfri test 1 Eksempel Et forsøg med 10 personer skal vise, om motion virker blodtrykssænkende Ved forsøgets start måles de 10 forsøgspersoners blodtryk Disse observationer kaldes x 1,,x 10 Efter en måneds motion måles blodtrykkene atter Disse observationer kaldes y 1,,y 10 Vi vil nu teste nul-hypotesen H 0 : Motion spiller ingen rolle for blodtrykket De 10 differenser d i = x i - y i vil derfor være fordelt symmetrisk omkring 0, mod den alternative hypotese H 1 : Motion virker blodtrykssænkende De 10 differenser d i vil derfor være overvejende positive Vi beregner rangtallene og t + og t - : Person Førværdi xi Efterværdi yi Differens di Rangtal t + = = 46, t + = = 9 79 wwwventusdk

80 Fordelingsfri test Vi sætter altså t := 9 og forkaster H 0, hvis t er ekstremt lille Et opslag i Tabel C8 med signifikansniveau α = 5% viser, at ekstremt lille betyder 10 Konklusion: testet viser, at nul-hypotesen H 0 ikke kan opretholdes mod den alternative hypotese H 0 på signifi kansniveau 5% 13 Normalapproksimation til Wilcoxons test for ét sæt observationer Tabel C8 går op til n = 50 Hvis antallet af observationer er større, kan man benytte en normalfordelingsap proksimation Der gælder nemlig under forudsætning af nul-hypotesen, at teststørrelsen t + er approksimativt normalfordelt med middelværdi ( 1) ì = nn+ 4 og spredning nn ( + 1)(n+ 1) ó = 4 Signifikanssandsynligheden findes derfor ved at sammenholde teststørrelsen ì = t + z ó med Tabel C over standardnormalfordelingen Eksempel Lad os bruge normalapproksimationen til at finde signifikanssandsynligheden i forrige eksempel (selvom n her er mindre end 50, og approksimationen derfor ikke bliver helt præcis) Vi får μ = 7,5 og σ = 9,81 Teststørrelsen bliver derfor z = 1,89, hviket giver signifikanssandsynligheden,9% Konklusionen er altså den samme, nemlig at H 0 forkastes på signifikansniveau 5% 14 Wilcoxons test for to sæt observationer Lad der være givet to sæt x 1,,x n og y 1,,y n af uafhængige observationer, og antag n m Vi tester nul-hypotesen H 0 : Observationerne stammer fra samme fordeling Hver af de n + m observationer tildeles et rangtal, som er et af tallene 1,,, n + m Denne tildeling sker således, at observationen med den laveste numeriske værdi får rangtallet 1, observationen med den næstlaveste numeriske værdi får rangtallet, osv Definér teststørrelsen t = ( x i ernes rangtal) Om H 0 forkastes, afhænger af, om man foretager et en- eller tosidet test 80 wwwventusdk

81 Fordelingsfri test Hvis H 0 ikke testes mod nogen særlig alternativ hypotese, forkastes nulhypotesen, hvis t er ekstremt stor eller ekstremt lille Testet er med andre ord tosidet Sæt t := min{t +, t - } Vælg et signifikansniveau α, og slå op i Tabel C9 under n og α (bemærk at signifikansniveauet bliver det dobbelte af det i tabellen anførte) Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Hvis man derimod tester H 0 mod den alternative hypotese H 1 : x i erne er overvejende større (hhv mindre) end y i erne, så forkastes H 0 kun, hvis t er ekstremt stor (hhv ekstremt lille) Testet er altså ensidet Vælg et signifikansniveau α, og slå op i Tabel C9 under n og α Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes 15 Normalapproksimation til Wilcoxons test for to sæt observationer Tabel C9 kan benyttes for moderate værdier af n og m Hvis antallet af observationer er større, kan man benytte en normalfordelingsapproksimation Der gælder nemlig under forudsætning af nul-hypotesen, at teststørrelsen t er approksimativt normalfordelt med middelværdi ( + + 1) ì = nn m og spredning nm( n + m + 1) ó = 1 Signifikanssandsynligheden findes derfor ved at sammenholde teststørrelsen ì z = t ó med Tabel C over standardnormalfordelingen 81 wwwventusdk

82 Lineær regression Lineær regression 1 Modellen Lad der være givet en stikprøve bestående af n observationspar (x 1, y 1 ), (x, y ), (x n, y n ) Vi opstiller den model, at hvert y i er en observation fra en stokastisk variabel Y i = β 0 + β 1 x i + E i hvor E i erne er uafhængige normalfordelte stokastiske variable med middelværdi 0 og fælles varians σ Vi kan altså skrive hvert y i som y i = β 0 + β 1 x i + e i hvor e i er en observation fra E i Man kalder y i responsvariablen, x i den forklarende variabel og e i restleddet Estimering af parametrene β 0 og β 1 Lad x være gennemsnittet af x i erne og y gennemsnittet af y i erne Definér summen af afvigelsernes produkter 8 wwwventusdk

83 Lineær regression n xy i i i= 1 SAP = ( x x)( y y) samt summen af afvigelsernes kvadrater n i= 1 SAK = ( x x) x i Parametrene β 0 og β 1 i regressionsligningen estimeres da som SAPxy ˆâ 1= SAK x ∠ˆ 0= y â1x 3 Estimatorernes fordeling Hvis modellens forudsætningerne er opfyldt, er estimatoren ˆâ 0 normalfordelt med middelværdi β 0 (estimatoren er altså middelret) og varians ó (1/ n+ x / SAKx ) Der gælder med andre ord ∠â ó 1 ˆ x 0 N 0, + n SAK x Endvidere er estimatoren ˆâ 1 normalfordelt med middelværdi β 1 (denne estimator er altså også middelret) og varians σ /SAK x Der gælder med andre ord ∠ˆ ó N â, SAK x Forudsagte værdier y ˆi og residualer eˆi Ud fra estimaterne ˆâ 0 og ˆâ 1 kan for hvert i den forudsagte værdi af y i beregnes som ˆ = ∠+ ∠y i 0 1x i Det i te residual e ˆi er forskellen mellem den faktiske værdi y i og den forudsagte værdi y ˆ i : eˆ = y yˆ i i i Residualet e ˆi er et estimat for restleddet e i 5 Estimering af variansen σ Man indfører summen af residualernes kavdrater SRK = n eˆ i i= 1 Restleddenes varians σ estimeres nu som 83 wwwventusdk

84 Lineær regression SRK s = n Denne estimator er middelret (men ikke lig ML-estimatoren) 6 Konfidensinterval for parametrene β 0 og β 1 Når man har estimeret parametrene β 0 og β 1, kan man beregne konfidensintervallet med konfidensgrad 1 - α omkring estimaterne ˆâ 0 og ˆâ 1 Disse er 1 x ˆâ ± t 0 1 á / s + n SAKx s ˆâ 1 ± t1 á / SAK x Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - 1 frihedsgrader, se også afsnit Determinationskoefficienten R For at undersøge, hvor godt modellen med de estimerede parametre kan beskrive de faktiske observationer, beregnes determinationskoefficienten R SAK y = SAK SRK y R ligger i intervallet [0, 1] og angiver den andel af y i ernes variation, der af modellen beskrives som en lineær funktion af x i erne Huskeregel: Jo større determinationskoefficenten R er, des bedre beskriver modellen observationerne 8 Forudsigelser og prediktionsinterval Lad der være givet et reelt tal x 0 Funktionsværdien y 0 = β 0 + β 0 x 0 estimeres eller forudsiges da som yˆ = ∠+ ∠x Konfidensintervallet eller prediktionsintervallet med konfidensgrad 1 - α omkring estimatet ŷ 0 er da 1 ( x x) 0 0 ± t1 a / s + + n SAKx yˆ 1 84 wwwventusdk

85 Lineær regression Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - frihedsgrader, se også afsnit Oversigt over formler Sx = x = S / n SK n x i= 1 i x n x = x i= 1 i n x = ( ) = / i= 1 i x x x = x/ ( 1) n xy = x = 1 i y i i n xy ( )( ) i= 1 i i xy x y SAK x x SK S n s SAK n SP SAP = x x y y = SP S S / n ˆâ 1= SAPxy/ SAK x ∠ˆ 0= y â1x yˆ i = be0 + ˆ1xi eˆ i = yi yˆ i n SRK = ˆ = / i= 1 ei SAK y SAPxy SAK x s = SRK/ ( n ) R = 1 SRK/ SAK y Summen af x i erne Gennemsnittet af x i erne Summen af kvadraterne af x i erne Summen af afvigelsernes kvadrater empirisk varians af x i erne Summen af produkterne Summen af afvigelsernes produkter Estimatet på β 1 Estimatet på β 0 Forudsagt værdi af y i Det i te residual Summen af residualernes kvadrater Estimatet på σ Determinationskoefficienten 10 Eksempel Opgave Det hævdes, at temperaturen i Andesbjergene falder med 6 grader pr 1000 meter Ved en samtidig måling på 10 forskellige lokaliteter inden for et afgrænset område fandtes følgende temperaturer: ALM BRAND - beskæftiger sig med forsikring, bank, liv og pension, bilfinansiering, leasing samt børsmæglervirksomhed Begrebet»Alm sund fornuft«afspejler den holdning, vi står for i vores betjening af kunderne Vi er en af Danmarks større finanskoncerner med en omsætning på knap 7 miakr Vi lægger vægt på at være lokale, og over halvdelen af koncernens 1500 medarbejdere arbejder tæt på kunden på vores forsikringskontorer og bankfilialer over hele landet Vores forsikringsprodukter dækker såvel private som erhvervsvirksomheder og landbrug Banken er blandt Danmarks 10 største banker og tilbyder et bredt sortiment af indlåns-, udlåns- og investeringsprodukter til attraktive priser ALM BRAND UDFORDRINGER FOR STUDERENDE OG NYUDDANNEDE KANDIDATER! Alm Brand Bank er blandt de større pengeinstitutter i Danmark Banken tilbyder en bred palette af bankprodukter, som vi løbende udvikler, så de dækker en typisk families behov Vi tilbyder samtidigt højt kvalificeret rådgivning om investering, pension og bolig for privatkunder Banken henvender sig også til udvalgte kundesegmenter indenfor det professionelle investeringsmarked, landbrug og bilfinansiering Banken varetager derudover Alm Brand Koncernens aktiviteter inden for kapitalforvaltning, valuta samt handel med og analyse af obligationer, aktier og pantebreve Alm Brand Bank Koncernens forretningsaktiviteter er fordelt på følgende områder: Detailbanken Engrosbanken Bilkredit og Leasing VI TILBYDER Alm Brand Bank er en moderne virksomhed, der løbende søger dygtige studentermedhjælpere og nyuddannede kandidater Alm Brand prioriterer medarbejdertilfredshed højt, og er du villig til at tage et medansvar, kan vi tilbyde et spændende job med indflydelse, udfordringer og mulighed for at præge din egen hverdag ANSØGNING Har du lyst til at arbejde i Alm Brand, er du meget velkommen til at sende en uopfordret ansøgning med oplysninger om ønsket beskæftigelse, kvalifikationer og CV Send din ansøgning pr til: job@almbranddk eller med post til: Alm Brand Personaleudvikling Midtermolen København Ø WWWALMBRANDDK ALMSUND FORNUFT 85 wwwventusdk

86 Lineær regression Højde xi (meter) Temperatur yi (grader) Vi antager en lineær regressionsmodel: y 0 = β 0 + β 0 x 0 hvor restleddene e i er uafhængige normalfordelte med middelværdi 0 og samme varians σ 1) Estimer parametrene β 0 og β 1 ) Bestem konfidensintervallet med konfidengrad 95% for β 1 3) Kan hypotesen H 0 : β 1 = -0,006 opretholdes? 4) Hvor stor en del af temperaturforskellene kan forklares som en lineær funktion af højden? Svar: Vi foretager først de relevante beregninger: x 10 x = S / 10 = x i= 1 i x = x x/ = 10 xy i= 1 i i 1 x S = x = 7500 x i= 1 i SK = = SAK SK S SP = x y = ˆâ = SAP / SAK = 00061, xy SRK SAK SAP SAK x = y xy/ x =, R = 1 SRK/ SAK = 0948, y 41 y 10 S = y = 1 i= 1 i y = S / 10 = 1, y y 10 y i= 1 i SK = = 859 SAK SK S y = y y/ =, SAP = SP S S / 10 = 1650 xy xy x y ∠= y ∠x = 189, s = SRK/ 8= 56, 1) Det aflæses direkte af beregningerne, at estimaterne på β 0 og β 1 er ˆâ 0 = 18,9, ˆâ 1 = - 0, wwwventusdk

87 Lineær regression ) Tallet t 0,975 findes i Tabel C4 under df = 10-1 = 9 frihedsgrader at være t 0,975 =,31 (se også afsnit 158) Konfidensintervallet omkring ˆâ 1 bliver dermed 56, 56,, , 31,, , 31 =, [ ,, ] ) Hypotesen H 0 : β 1 = -0,006 opretholdes, da denne værdi ligger i konfidensintervallet 4) Den del af temperaturforskellene, som kan beskrives ved hjælp af en lineær funktion af højden, er netop determinationskoefficienten R = 94,8% At R er høj, viser, at de faktiske temperaturer ligger ganske tæt på de forudsagte Dette fremgår også af nedenstående figur, som viser, at de faktiske temperaturer kun afviger lidt fra regressionslinjen: Figur 8 87 wwwventusdk

88 Engelsk-dansk ordliste A Engelsk-dansk ordliste Alternative hypothesis Analysis of variance (ANOVA) Arithmetic mean Biased estimator Binomial coefficient Binomial distribution Central limit theorem Centralised sum Chi-square distribution Chi-square test Conditional probability Confidence interval Contingency table Continuity, correction for Correction for continuity Correlation Correlation coefficient Covariance Critical value Cumulative probability Degrees of freedom Density Alternativ hypotese Variansanalyse (ANOVA) Aritmetisk gennemsnit Skæv (modsat middelret) estimator Binomialkoefficient Binomialfordeling Den centrale grænseværdisætning Centraliseret sum Chi-kvadrat-fordeling, χ -fordeling Chi-kvadrat-test, χ -test Betinget sandsynlighed Konfidensinterval Kontingenstabel Korrektion for kontinuitet Korrektion for kontinuitet Korrelation Korrelationskoefficient Covarians Kritisk værdi Kumuleret sandsynlighed Frihedsgrader Tæthed 88 wwwventusdk

89 Engelsk-dansk ordliste Density function Tæthedsfunktion Density, marginal Marginal tæthed Density, simultaneous Simultan tæthed Disjoint Disjunkte (fx hændelser) Discrete (distribution) Diskret (fordeling) Distribution Fordeling Distribution function Fordelingsfunktion Empirical (variance) Empirisk (varians) Error (of type I or II) Fejl (af type I eller II) Estimate Estimat Estimation Estimering Event Hændelse Expectation value Middelværdi Expected number/frequency Forventet antal Exponential distribution Eksponentialfordeling F-distribution F-fordeling F-test F-test Freedom, degrees of Frihedsgrader Geometric distribution Geometrisk fordeling Goodness of fit Fordelingslighed Grand mean Samlet gennemsnit Hypothesis Hypotese Independent (events, stoch vars) Uafhængige (hændelser, stok var) Inter block variance Varians mellem stikprøverne Intra block variance Varians inden for stikprøverne Inter quartile range Afstand mellem 1 og 3 kvartil Intersection Fællesmængde Law of large numbers Store tals lov Least squares method Mindste kvadraters metode Level of significance Signifikansniveau Likelihood (function) Likelihood (-funktion) Linear regresssion Lineær regression Map Afbildning, funktion Marginal (density, distribution) Marginal (tæthed, fordeling) Maximum likelihood estimator Maksimum likelihood-estimator (ML-estimator) Mean Gennemsnit Mean square Gennemsnitlig kvadratafvigelse ( i ) / x x n Median Median ML-estimator Maksimum likelihood-estimator (ML-estimator) Moments Momenter Multinomial distribution Multinomialfordeling Multiple regression Multipel (lineær) regression 89 wwwventusdk

90 Engelsk-dansk ordliste Non-parametric test Ikke-parametrisk test Normal distribution Normalfordeling Normed normal distribution Standardnormalfordeling Normed sum Normeret sum Null hypothesis Nulhypotese Observed number/frequency Observeret antal One-sided test Ensidet test Outlier Outlier (ekstrem observation) Point estimation Punktestimering Poisson distribution Poisson fordeling Pooled variance Pooled varians Probability Sandsynlighed Probability function Sandsynlighedsfunktion Probability space Sandsynlighedsfelt Quartile Kvartil Random variable Stokastisk variable Rank Rang, rangtal Rank sum Sum af rangtal Reject Forkaste Root mean square Kvadratroden af den gennemsnitlige kvadratafvigelse Sample Stikprøve; udfald Sample correlation coefficient Empirisk korrelationskoefficient Sample mean Gennemsnit Sample size Stikprøvestørrelse Sample space Udfaldsrum Sample variance Empirisk varians Sampling distribution Fordeling af teststørrelse Set Mængde Significance level Signifikansniveau Slope Hældning, hældningskoefficient Standard deviation Spredning Statistic Teststørrelse Stochastic variable stokastisk variabel Student s t Student s t (test, fordeling) Tail probability (left/right) Halesandsynlighed (højre/venstre) Test Test Two-sided test Tosidet test Type I or II error Fejl af type I eller Unbiased estimator Middelret (modsat skæv) estimator Uniform distribution Ligefordeling Union Foreningsmængde Variance Varians 90 wwwventusdk

91 Oversigt over diskrete fordelinger B Oversigt over diskrete fordelinger Fordeling Beskrivelse Værdier Punktsandsynligheder Middelværdi Varians Binomialfordelingen Bin(n, p) Poissonfordelingen Pois( λ ) Antal succeser i n forsøg Antal spontane begivenheder i et tidsinterval k = 0, 1,, n n np npq pq k n k k k k = 0, 1, λ λ k! λ λ Den geometriske fordeling Geo(p) Antal fiaskoer før succes k = 0, 1, q k p q / p q / p Den hypergeometriske fordeling HG(n, r, N) Antal røde kugler blandt n udtrukne k = 0,, min{n, r} r s k n k N n nr / N nrs( N n) N ( N 1) Den negative binomialfor -deling NB(n, p) Miltinomialf ordelingen Mult(n, p1,, pr) Antal fiaskoer før n te succes Antal udfald af hver type k = 0, 1, n + k 1 nq / p nq / p n k p q n 1 (k1,, kr) hvor k i = n n k1 kr p k i i wwwventusdk

92 Tabeller C Tabeller C1 Sådan forstås tabellerne Tabel C angiver værdier af fordelingsfunktionen 1 1 Φ ( u) = u exp t dt ð for standardnormalfordelingen Tabel C3 angiver værdier af x, for hvilke fordelingsfunktionen F for χ -fordelingen med df frihedsgrader tager værdierne F(x) = 0,500, F(x) = 0,600 etc Tabel C4 angiver værdier af x, for hvilke fordelingsfunktionen F for Student s t-fordeling med df frihedsgrader tager værdierne F(x) = 0,600, F(x) = 0,700 etc Tabel C5, Tabel C6 og Tabel C7 angiver værdier af x, for hvilke fordelingsfunktionen F for Fisher s F- fordeling med n frihedsgrader i tælleren (øverste linje) og m frihedsgrader i nævneren (venstre søjle) tager værdierne F(x) = 0,10, F(x) = 0,05 og F(x) = 0,01 Tabel C8 angiver for 4 værdier af α det største tal T, så der om teststørrelsen t + fra Wilcoxons test for et sæt observationer gælder P(t + T) < α Tabel C9 angiver det største tal T, så der om teststørrelsen t fra Wilcoxons test for to sæt observationer gælder P(t T) < α Startguidendk samler al information for iværksættere Her kan nystartede virksomheder - og personer, der overvejer at blive selvstændige - få information om fx skatteforhold, forsikringer, markedsføring, ansættelse af medarbejdere og finansiering Målet er at Startguidendk skal være en interaktiv markedsplads, hvor iværksættere finder og sparer med hinanden, får redskaber stillet til rådighed og hurtigt får svar på de spørgsmål, som altid melder sig ved start af virksomhed 9 wwwventusdk

93 Tabeller C Standardnormalfordeligen u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u) 0,00 0,5000 0,5000 0,36 0,6406 0,3594 0,7 0,764 0,358 0,01 0,5040 0,4960 0,37 0,6443 0,3557 0,73 0,7673 0,37 0,0 0,5080 0,490 0,38 0,6480 0,350 0,74 0,7704 0,96 0,03 0,510 0,4880 0,39 0,6517 0,3483 0,75 0,7734 0,66 0,04 0,5160 0,4840 0,40 0,6554 0,3446 0,76 0,7764 0,36 0,05 0,5199 0,4801 0,41 0,6591 0,3409 0,77 0,7794 0,06 0,06 0,539 0,4761 0,4 0,668 0,337 0,78 0,783 0,177 0,07 0,579 0,471 0,43 0,6664 0,3336 0,79 0,785 0,148 0,08 0,5319 0,4681 0,44 0,6700 0,3300 0,80 0,7881 0,119 0,09 0,5359 0,4641 0,45 0,6736 0,364 0,81 0,7910 0,090 0,10 0,5398 0,460 0,46 0,677 0,38 0,8 0,7939 0,061 0,11 0,5438 0,456 0,47 0,6808 0,319 0,83 0,7967 0,033 0,1 0,5478 0,45 0,48 0,6844 0,3156 0,84 0,7995 0,005 0,13 0,5517 0,4483 0,49 0,6879 0,311 0,85 0,803 0,1977 0,14 0,5557 0,4443 0,50 0,6915 0,3085 0,86 0,8051 0,1949 0,15 0,5596 0,4404 0,51 0,6950 0,3050 0,87 0,8078 0,19 0,16 0,5636 0,4364 0,5 0,6985 0,3015 0,88 0,8106 0,1894 0,17 0,5675 0,435 0,53 0,7019 0,981 0,89 0,8133 0,1867 0,18 0,5714 0,486 0,54 0,7054 0,946 0,90 0,8159 0,1841 0,19 0,5753 0,447 0,55 0,7088 0,91 0,91 0,8186 0,1814 0,0 0,5793 0,407 0,56 0,713 0,877 0,9 0,81 0,1788 0,1 0,583 0,4168 0,57 0,7157 0,843 0,93 0,838 0,176 0, 0,5871 0,419 0,58 0,7190 0,810 0,94 0,864 0,1736 0,3 0,5910 0,4090 0,59 0,74 0,776 0,95 0,889 0,1711 0,4 0,5948 0,405 0,60 0,757 0,743 0,96 0,8315 0,1685 0,5 0,5987 0,4013 0,61 0,791 0,709 0,97 0,8340 0,1660 0,6 0,606 0,3974 0,6 0,734 0,676 0,98 0,8365 0,1635 0,7 0,6064 0,3936 0,63 0,7357 0,643 0,99 0,8359 0,1641 0,8 0,6103 0,3897 0,64 0,7389 0,611 1,00 0,8413 0,1587 0,9 0,6141 0,3859 0,65 0,74 0,578 1,01 0,8438 0,156 0,30 0,6179 0,381 0,66 0,7454 0,546 1,0 0,8461 0,1539 0,31 0,617 0,3783 0,67 0,7485 0,515 1,03 0,8485 0,1515 0,3 0,655 0,3745 0,68 0,7517 0,483 1,04 0,8508 0,149 0,33 0,693 0,3707 0,69 0,7549 0,451 1,05 0,8531 0,1469 0,34 0,6331 0,3669 0,70 0,7580 0,40 1,06 0,5540 0,4460 0,35 0,6368 0,363 0,71 0,7611 0,389 1,07 0,8577 0, wwwventusdk

94 Tabeller u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u) 1,08 0,8599 0,1401 1,45 0,965 0,0735 1,8 0,9656 0,0344 1,09 0,861 0,1379 1,46 0,979 0,071 1,83 0,9664 0,0336 1,10 0,8643 0,1357 1,47 0,99 0,0708 1,84 0,9671 0,039 1,11 0,8665 0,1335 1,48 0,9306 0,0694 1,85 0,9678 0,03 1,1 0,8686 0,1314 1,49 0,9319 0,0681 1,86 0,9686 0,0314 1,13 0,8708 0,19 1,50 0,933 0,0668 1,87 0,9693 0,0307 1,14 0,879 0,171 1,51 0,9345 0,0655 1,88 0,9699 0,0301 1,15 0,8749 0,151 1,5 0,9357 0,0643 1,89 0,9706 0,094 1,16 0,8770 0,130 1,53 0,9370 0,0630 1,90 0,9713 0,087 1,17 0,8790 0,110 1,54 0,938 0,0618 1,91 0,9719 0,081 1,18 0,8810 0,1190 1,55 0,9394 0,0606 1,9 0,976 0,074 1,19 0,8830 0,1170 1,56 0,9406 0,0594 1,93 0,973 0,068 1,0 0,8849 0,1151 1,57 0,9418 0,058 1,94 0,9738 0,06 1,1 0,8869 0,1131 1,58 0,949 0,0571 1,95 0,9744 0,056 1, 0,8888 0,111 1,59 0,9441 0,0559 1,96 0,9750 0,050 1,3 0,8907 0,1093 1,60 0,945 0,0548 1,97 0,9756 0,044 1,4 0,895 0,1075 1,61 0,9463 0,0537 1,98 0,9761 0,039 1,5 0,8944 0,1056 1,6 0,9474 0,056 1,99 0,9767 0,033 1,6 0,896 0,1038 1,63 0,9484 0,0516,00 0,977 0,08 1,7 0,8980 0,100 1,64 0,9495 0,0505,01 0,9778 0,0 1,8 0,8997 0,1003 1,65 0,9505 0,0495,0 0,9783 0,017 1,9 0,9015 0,0985 1,66 0,9515 0,0485,03 0,9788 0,01 1,30 0,903 0,0968 1,67 0,955 0,0475,04 0,9793 0,007 1,31 0,9049 0,0951 1,68 0,9535 0,0465,05 0,9798 0,00 1,3 0,9066 0,0934 1,69 0,9545 0,0455,06 0,9803 0,0197 1,33 0,908 0,0918 1,70 0,9554 0,0446,07 0,9808 0,019 1,34 0,9099 0,0901 1,71 0,9564 0,0436,08 0,981 0,0188 1,35 0,9115 0,0885 1,7 0,9573 0,047,09 0,9817 0,0183 1,36 0,9131 0,0869 1,73 0,958 0,0418,10 0,981 0,0179 1,37 0,9147 0,0853 1,74 0,9591 0,0409,11 0,986 0,0174 1,38 0,916 0,0838 1,75 0,9599 0,0401,1 0,9830 0,0170 1,39 0,9177 0,083 1,76 0,9608 0,039,13 0,9834 0,0166 1,40 0,919 0,0808 1,77 0,9616 0,0384,14 0,9838 0,016 1,41 0,907 0,0793 1,78 0,965 0,0375,15 0,984 0,0158 1,4 0,9 0,0778 1,79 0,9633 0,0367,16 0,9846 0,0154 1,43 0,936 0,0764 1,80 0,9641 0,0359,17 0,9850 0,0150 1,44 0,951 0,0749 1,81 0,9649 0,0351,18 0,9854 0, wwwventusdk

95 Tabeller u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u),19 0,9857 0,0143,4 0,99 0,0078,65 0,9960 0,0040,0 0,9861 0,0139,43 0,995 0,0075,66 0,9961 0,0039,1 0,9864 0,0136,44 0,997 0,0073,67 0,996 0,0038, 0,9868 0,013,45 0,999 0,0071,68 0,9963 0,0037,3 0,9871 0,019,46 0,9931 0,0069,69 0,9964 0,0036,4 0,9875 0,015,47 0,993 0,0068,70 0,9965 0,0035,5 0,9878 0,01,48 0,9934 0,0066,71 0,9966 0,0034,6 0,9881 0,0119,49 0,9936 0,0064,7 0,9967 0,0033,7 0,9884 0,0116,50 0,9938 0,006,73 0,9968 0,003,8 0,9887 0,0113,51 0,9940 0,0060,74 0,9969 0,0031,9 0,9890 0,0110,5 0,9941 0,0059,75 0,9970 0,0030,30 0,9893 0,0107,53 0,9943 0,0057,76 0,9971 0,009,31 0,9896 0,0104,54 0,9945 0,0055,77 0,997 0,008,3 0,9898 0,010,55 0,9946 0,0054,78 0,9973 0,007,33 0,9901 0,0099,56 0,9948 0,005,79 0,9974 0,006,34 0,9904 0,0096,57 0,9949 0,0051,80 0,9974 0,006,35 0,9906 0,0094,58 0,9951 0,0049,81 0,9975 0,005,36 0,9909 0,0091,59 0,995 0,0048,8 0,9976 0,004,37 0,9911 0,0089,60 0,9953 0,0047,83 0,9977 0,003,38 0,9913 0,0087,61 0,9955 0,0045,84 0,9977 0,003,39 0,9916 0,0084,6 0,9956 0,0044,85 0,9978 0,00,40 0,9918 0,008,63 0,9957 0,0043,86 0,9979 0,001,41 0,990 0,0080,64 0,9959 0,0041,87 0,9979 0, wwwventusdk

96 Tabeller u Φ Φ(-u),88 0,9980 0,000,89 0,9981 0,0019,90 0,9981 0,0019,91 0,998 0,0018,9 0,998 0,0018,93 0,9983 0,0017,94 0,9984 0,0016,95 0,9984 0,0016,96 0,9985 0,0015,97 0,9985 0,0015,98 0,9986 0,0014,99 0,9986 0,0014 3,00 0,9987 0,0013 3,10 0,9990 0,0010 3,0 0,9993 0,0007 3,30 0,9995 0,0005 3,40 0,9997 0,0003 3,50 0,9998 0,000 3,60 0,9998 0,000 3,70 0,9999 0,0001 3,80 0,9999 0,0001 3,90 1,0000 0,0000 4,00 1,0000 0, wwwventusdk

97 Tabeller C3 χ -fordelingen df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,45 0,71 1,07 1,64,71 3,84 5,0 6,63 7,88 10,83 1,39 1,83,41 3, 4,61 5,99 7,38 9,1 10,60 13,8 3,37,95 3,66 4,64 6,5 7,81 9,35 11,34 1,84 16,7 4 3,36 4,04 4,88 5,99 7,78 9,49 11,14 13,8 14,86 18,47 5 4,35 5,13 6,06 7,9 9,4 11,07 1,83 15,10 16,75 0,5 6 5,35 6,1 7,3 8,56 10,64 1,59 14,45 16,81 18,55,46 7 6,35 7,8 8,38 9,80 1,0 14,07 16,01 18,48 0,8 4,3 8 7,34 8,35 9,5 11,03 13,36 15,51 17,53 0,09 1,95 6,1 9 8,34 9,41 10,66 1,4 14,68 16,9 19,0 1,67 3,59 7, ,34 10,47 11,78 13,44 15,99 18,31 0,48 3,1 5,19 9, ,34 11,53 1,90 14,63 17,8 19,68 1,9 4,7 6,76 31,6 1 11,34 1,58 14,01 15,81 18,55 1,03 3,34 6, 8,30 3, ,34 13,64 15,1 16,98 19,81,36 4,74 7,69 9,8 34, ,34 14,69 16, 18,15 1,06 3,68 6,1 9,14 31,3 36, ,34 15,73 17,3 19,31,31 5,00 7,49 30,58 3,80 37, ,34 16,78 18,4 0,47 3,54 6,30 8,85 3,00 34,7 39, ,34 17,8 19,51 1,61 4,77 7,59 30,19 33,41 35,7 40, ,34 18,87 0,60,76 5,99 8,87 31,53 34,81 37,16 4, ,34 19,91 1,69 3,90 7,0 30,14 3,85 36,19 38,58 43,8 0 19,34 0,95,77 5,04 8,41 31,41 34,17 37,57 40,00 45,31 1 0,34 1,99 3,86 6,17 9,6 3,67 35,48 38,93 41,40 46,80 97 wwwventusdk

98 Tabeller df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0,999 1,34 3,03 4,94 7,30 30,81 33,9 36,78 40,9 4,80 48,7 3,34 4,07 6,0 8,43 3,01 35,17 38,08 41,64 44,18 49,73 4 3,34 5,11 7,10 9,55 33,0 36,4 39,36 4,98 45,56 51,18 5 4,34 6,14 8,17 30,68 34,38 37,65 40,65 44,31 46,93 5,6 6 5,34 7,18 9,5 31,79 35,56 38,89 41,9 45,64 48,9 54,05 7 6,34 8,1 30,3 3,91 36,74 40,11 43,19 46,96 49,64 55,48 8 7,34 9,5 31,39 34,03 37,9 41,34 44,46 48,8 50,99 56,89 9 8,34 30,8 3,46 35,14 39,09 4,56 45,7 49,59 5,34 58, ,34 31,3 33,53 36,5 40,6 43,77 46,98 50,89 53,67 59, ,34 3,35 34,60 37,36 41,4 44,99 48,3 5,19 55,00 61, ,34 33,38 35,66 38,47 4,58 46,17 49,48 53,49 56,33 6, ,34 34,41 36,73 39,57 43,75 47,40 50,73 54,78 57,65 63, ,34 35,44 37,80 40,68 44,90 48,60 51,97 56,06 58,96 65, ,34 36,47 38,86 41,78 46,06 49,80 53,0 57,34 60,7 66, ,34 37,50 39,9 4,88 47,1 51,00 54,44 58,6 61,58 67, ,34 38,53 40,98 43,98 48,36 5,19 55,67 59,89 6,88 69, ,34 39,56 4,05 45,08 49,51 53,38 56,90 61,16 64,18 70, ,34 40,59 43,11 46,17 50,66 54,57 58,1 6,43 65,48 7, ,34 41,6 44,16 47,7 51,81 55,76 59,34 63,69 66,77 73, ,34 4,65 45, 48,36 5,95 56,94 60,56 64,95 68,05 74, ,34 43,68 46,8 49,46 54,09 58,1 61,78 66,1 69,34 76, ,34 44,71 47,34 50,55 55,3 59,30 6,99 67,46 70,6 77, ,34 45,73 48,40 51,64 56,37 60,48 64,0 68,71 71,89 78, ,34 46,76 49,45 5,73 57,51 61,66 65,41 69,96 73,17 80, ,34 47,79 50,51 53,8 58,61 6,83 66,6 71,0 74,44 81, ,34 48,81 51,56 54,91 59,77 64,00 67,8 7,44 75,70 8, ,34 49,84 5,6 55,99 60,91 65,17 69,0 73,68 76,97 84, ,33 50,87 53,67 57,08 6,04 66,34 70, 74,9 78,3 85, ,33 51,89 54,7 58,16 63,17 67,50 71,4 76,15 79,49 86, ,33 5,9 55,78 59,5 64,30 68,67 7,6 77,39 80,75 87, ,33 53,94 56,83 60,33 65,4 69,83 73,81 78,6 8,00 89,7 53 5,33 54,97 57,88 61,41 66,55 70,99 75,00 79,84 83,5 90, ,33 55,99 58,93 6,50 67,67 7,15 76,19 81,07 84,50 91, ,33 57,0 59,98 63,58 68,80 73,31 77,38 8,9 85,75 93, ,33 58,04 61,03 64,66 69,9 74,47 78,57 83,51 86,99 94, ,33 59,06 6,08 65,74 71,04 75,6 79,75 84,73 88,4 95, ,33 60,09 63,13 66,8 7,16 76,78 80,94 85,95 89,48 97, ,33 61,11 64,18 67,89 73,8 77,93 8,1 87,17 90,7 98, ,33 6,13 65,3 68,97 74,40 79,08 83,30 88,38 91,95 99, ,33 63,16 66,7 70,05 75,51 80,3 84,48 89,59 93,19 100, ,33 64,18 67,3 71,13 76,63 81,38 85,65 90,80 94,4 10,17 98 wwwventusdk

99 Tabeller df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,33 65,0 68,37 7,0 77,75 8,53 86,83 9,01 95,65 103, ,33 66,3 69,4 73,8 78,86 83,68 88,00 93, 96,88 104, ,33 67,5 70,46 74,35 79,97 84,8 89,18 94,4 98,11 105, ,33 68,7 71,51 75,4 81,09 85,96 90,35 95,63 99,33 107, ,33 69,9 7,55 76,50 8,0 87,11 91,5 96,83 100,55 108, ,33 70,0 73,60 77,57 83,31 88,5 9,69 98,03 101,78 109, ,33 71,34 74,64 78,64 84,4 89,39 93,86 99,3 103,00 111, ,33 7,36 75,69 79,71 85,53 90,53 95,0 100,43 104,1 11,3 99 wwwventusdk

100 Tabeller C4 Student s t-fordeling df 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,3 0,73 1,38 3,08 6,31 1,71 31,8 63,66 318,31 0,9 0,6 1,06 1,89,9 4,30 6,96 9,9,33 3 0,8 0,58 0,98 1,64,35 3,18 4,54 5,84 10,0 4 0,7 0,57 0,94 1,53,13,78 3,75 4,60 7,17 5 0,7 0,56 0,9 1,48,0,57 3,36 4,03 5,89 6 0,6 0,55 0,91 1,44 1,94,45 3,14 3,71 5,1 7 0,6 0,55 0,90 1,41 1,89,36 3,00 3,50 4,79 8 0,6 0,55 0,89 1,40 1,86,31,90 3,36 4,50 9 0,6 0,54 0,88 1,38 1,83,6,8 3,5 4, ,6 0,54 0,88 1,37 1,81,3,76 3,17 4, ,6 0,54 0,88 1,36 1,80,0,7 3,11 4,0 1 0,6 0,54 0,87 1,36 1,78,18,68 3,05 3, ,6 0,54 0,87 1,35 1,77,16,65 3,01 3, ,6 0,54 0,87 1,35 1,76,14,6,98 3, ,6 0,54 0,86 1,34 1,75,13,60,95 3, ,6 0,54 0,86 1,34 1,75,1,58,9 3, ,6 0,53 0,86 1,33 1,74,11,57,90 3, ,6 0,53 0,86 1,33 1,73,10,55,88 3, ,6 0,53 0,86 1,33 1,73,09,54,86 3,58 0 0,6 0,53 0,86 1,33 1,7,09,53,85 3,55 1 0,6 0,53 0,86 1,3 1,7,08,5,83 3, wwwventusdk

101 Tabeller df 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0,999 0,6 0,53 0,86 1,3 1,7,07,51,8 3,50 3 0,6 0,53 0,86 1,3 1,71,07,50,81 3,48 4 0,6 0,53 0,86 1,3 1,71,06,49,80 3,47 5 0,6 0,53 0,86 1,3 1,71,06,49,79 3,45 6 0,6 0,53 0,86 1,31 1,71,06,48,78 3,43 7 0,6 0,53 0,86 1,31 1,70,05,47,77 3,4 8 0,6 0,53 0,85 1,31 1,70,05,47,76 3,41 9 0,6 0,53 0,85 1,31 1,70,05,46,76 3, ,6 0,53 0,85 1,31 1,70,04,46,75 3, ,6 0,53 0,85 1,31 1,69,03,44,7 3, ,6 0,53 0,85 1,30 1,68,0,4,70 3, ,5 0,53 0,85 1,30 1,68,01,40,68 3, ,5 0,53 0,85 1,9 1,66 1,98,36,63 3,17 0,5 0,5 0,84 1,8 1,64 1,96,33,58 3, wwwventusdk

102 Tabeller C5 Fishers f-fordeling, α = 10% ,86 49,50 53,59 55,83 57,4 58,0 58,91 59,44 59,86 60,19 8,53 9,00 9,16 9,4 9,9 9,33 9,35 9,37 9,38 9,39 3 5,54 5,46 5,39 5,34 5,31 5,8 5,7 5,5 5,4 5,3 4 4,54 4,3 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,9 5 4,06 3,78 3,6 3,5 3,45 3,40 3,37 3,34 3,3 3,30 6 3,78 3,46 3,9 3,18 3,11 3,05 3,01,98,96,94 7 3,59 3,6 3,07,96,88,83,78,75,7,70 8 3,46 3,11,9,81,73,67,6,59,56,54 9 3,36 3,01,81,69,61,55,51,47,44,4 10 3,9,9,71,61,5,46,41,38,35,3 11 3,3,86,66,54,45,39,34,30,7,5 1 3,18,81,61,48,39,33,8,4,1, ,14,76,56,43,35,8,3,0,16, ,10,73,5,39,31,4,19,15,1, ,07,70,49,36,7,1,16,1,09, ,05,67,46,33,4,18,13,09,06, ,03,64,44,31,,15,10,06,03, ,0,6,4,9,0,13,08,04,00 1, ,01,61,40,7,18,11,06,0 1,98 1,96 0 3,00,59,38,5,16,09,04,00 1,96 1,94 1,98,57,36,3,14,08,0 1,98 1,95 1,9,97,56,35,,13,06,01 1,97 1,93 1,90 3,96,55,34,1,11,05 1,99 1,95 1,9 1,89 4,95,54,33,19,10,04 1,98 1,94 1,91 1,88 5,94,53,3,18,09,0 1,97 1,93 1,89 1,87 6,93,5,31,17,08,01 1,96 1,9 1,88 1,86 7,9,51,30,17,07,00 1,95 1,91 1,87 1,85 8,9,50,9,16,06,00 1,94 1,90 1,87 1,84 9,91,50,8,15,06 1,99 1,93 1,89 1,86 1,83 30,90,49,8,14,05 1,98 1,93 1,88 1,85 1,8 31,90,48,7,14,04 1,97 1,9 1,88 1,84 1,81 3,89,48,6,13,04 1,97 1,91 1,87 0,84 1,81 33,89,47,6,1,03 1,96 1,91 1,86 1,83 1,80 34,88,47,5,1,0 1,96 1,90 1,86 1,8 1,79 35,88,46,5 11,00,0 1,95 1,90 1,85 1,8 1,79 10 wwwventusdk

103 Tabeller C6 Fishers f-fordeling, α = 5% ,45 199,50 15,71 4,58 30,16 33,99 36,77 38,88 4,54 41,88 18,51 19,00 19,16 19,5 19,30 19,33 19,35 19,37 19,38 19, ,13 9,55 9,8 9,1 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,6 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,8 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,8 4,1 4,15 4,10 4,06 7 5,59 4,74 4,35 4,1 3,97 3,87 3,79 3,73 3,68 3,64 8 5,3 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,1 4,6 3,86 3,63 3,48 3,37 3,9 3,3 3,18 3, ,96 4,10 3,71 3,48 3,33 3, 3,14 3,07 3,0, ,84 3,98 3,59 3,36 3,0 3,09 3,01,95,90,85 1 4,75 3,89 3,49 3,6 3,11 3,00,91,85,80, ,67 3,81 3,41 3,18 3,03,9,83,77,71, ,60 3,74 3,34 3,11,96,85,76,70,65, ,54 3,68 3,9 3,06,90,79,71,64,59, ,49 3,63 3,4 3,01,85,74,66,59,54, ,45 3,59 3,0,96,81,70,61,55,49, ,43 3,55 3,16,93,77,66,58,51,46, ,41 3,5 3,13,90,74,63,54,48,4,38 0 4,38 3,49 3,10,87,71,60,51,45,39,35 1 4,35 3,47 3,07,84,68,57,49,4,37,3 103 wwwventusdk

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 4: Diskrete fordelinger Hypergeometrisk fordeling, Afsnit 4.3 Multinomial fordeling, Afsnit 4.8 Geometrisk fordeling og Negativ binomialfordeling (Inverse Sampling), Afsnit 4.4 Approksimation

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomialfordelingen. X ~ bin(n,p): X = antal succeser i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes. Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen Statistik og Sandsynlighedsregning 1 MS kapitel 3 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Definition 3.2.1 Lad X 1, X 2,..., X n være uafhængige

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 11, 2016 1/22 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

INSTITUT FOR MATEMATISKE FAG c

INSTITUT FOR MATEMATISKE FAG c INSTITUT FOR MATEMATISKE FAG c AALBORG UNIVERSITET FREDRIK BAJERS VEJ 7 G 9220 AALBORG ØST Tlf.: 96 35 89 27 URL: www.math.aau.dk Fax: 98 15 81 29 E-mail: bjh@math.aau.dk Dataanalyse Sandsynlighed og stokastiske

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Ventetider i en Poissonproces Beskrivelse af kontinuerte fordelinger: - Median og kvartiler - Middelværdi - Varians Simultane fordelinger 1 Ventetider i en Poissonproces

Læs mere

Oversigt over nyttige fordelinger

Oversigt over nyttige fordelinger Oversigt over nyttige fordelinger Helene Regitze Lund Wandsøe November 14, 2011 1 Bernoulli-fordelingen 1 Når et eksperiment har to mulige udfald: succes eller fiasko. X er en stokastisk variabel med følgende

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Lad os som eksempel se på samtidigt kast med en terning og en mønt: SANDSYNLIGHEDSREGNING Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet Til gengæld kan vi prøve

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Vejledende løsninger til opgaver i kapitel 6

Vejledende løsninger til opgaver i kapitel 6 Vejledende løsninger til opgaver i kapitel Opgave 1: a) Den stokastiske variabel, X, der angiver, om en elev består, X = 1, eller dumper, X =, sin eksamen i statistik. b) En binomialfordelt variabel fremkommer

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable 2.1 Sandsynlighedsbegrebet............................... 1 2.1.1

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Sandsynlighedsregning

Sandsynlighedsregning Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007 Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer

Læs mere

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistisk Model Indhold Binomialfordeling Sandsynlighedsfunktion Middelværdi og spredning 1 Aalen: Innføring i statistik med medisinske eksempler

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 4: Diskrete fordelinger Afsnit 4.1-4.2, 4.7: Bernoulli fordeling Binomial fordeling Store Tals Lov (Laws of Averages, Laws of Large Numbers) 1 Bernoulli fordeling Kvantitative Metoder

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Løsning til prøveeksamen 1

Løsning til prøveeksamen 1 IMM - DTU 020 Probability 2006-2-8 BFN/bfn Løsning til prøveeksamen Spørgsmål ) For en indikatorvariabel I A for hændelsen A gælder E(I A ) = P(A) (se for eksemepl side 68). Således er E(X) = P(N ) = =

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag     susanne Statistik og Sandsynlighedsregning 1 Repetition MS kapitel 1 3 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Hvad er sandsynlighed? - beskriver systemer

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte fordelinger, Afsnit 5.1-5.2: - Fordelingsfunktion - Tæthedsfunktion - Eksempel:

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni 2007 4 timers prøve med hjælpemidler Opgaven består af re delopgaver, som alle skal besvares. De re opgaver indgår med samme vægt. Opgaverne

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Fordelinger. En oversigt over de vigtigste sandsynlighedsteoretiske fordelinger Anden udgave. Udvidet version. Ulrich Fahrenberg uli@math.auc.

Fordelinger. En oversigt over de vigtigste sandsynlighedsteoretiske fordelinger Anden udgave. Udvidet version. Ulrich Fahrenberg uli@math.auc. Fordelinger En oversigt over de vigtigste sandsynlighedsteoretiske fordelinger Anden udgave Udvidet version Ulrich Fahrenberg uli@math.auc.dk Da denne fordelingsoversigt's første udgave så verdens lys

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr)

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr) CIVILINGENIØREKSAMEN Side?? af?? sider Skriftlig prøve, den: 6. december 2004 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Tilladte hjælpemidler: Alle Dette sæt er besvaret af: (navn) (underskrift)

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Sandsynlighedsregning: endeligt udfaldsrum (repetition) Program: 1. Repetition: sandsynlighedsregning 2. Sandsynlighedsregning fortsat: stokastisk variabel, sandsynlighedsfunktion/tæthed, fordelingsfunktion. 1/16 Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Læs mere

Betingede sandsynligheder Aase D. Madsen

Betingede sandsynligheder Aase D. Madsen 1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Opgaver i sandsynlighedsregning

Opgaver i sandsynlighedsregning Afdeling for Teoretisk Statistik STATISTIK Institut for Matematiske Fag Preben Blæsild Aarhus Universitet 9. januar 005 Opgaver i sandsynlighedsregning Opgave Lad A og B være hændelser således at P(A)

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Løsninger til kapitel 5

Løsninger til kapitel 5 1 Løsninger til kapitel 5 Opgave 51 Det nemmeste er her at omskrive alle sandsynlighederne til differenser mellem kumulerede sandsynligheder, dvs af sandsynligheder af formen, og derefter beregne disse

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg. Noter til Biomat, 005. Kombinatorik. - eller kunsten at tælle. Alle tal i kombinatorik-afsnittet er hele og ikke-negative. Additionsprincippet enten - eller : Antag vi enten skal lave et valg med m muligheder

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

Nanostatistik: Stokastisk variabel

Nanostatistik: Stokastisk variabel Nanostatistik: Stokastisk variabel JLJ Nanostatistik: Stokastisk variabel p. 1/29 Repetition Ω: udfaldsrummet: alle de mulige udfald af et experiment P(A): ss for hændelsen A = frekvens i uafhængige gentagelser

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema: Der er hjælp til opgaver med # og facit på side 6 1. Et eksperiment kan beskrives med følgende skema: u 1 2 3 4 5 P(u) 0,3 0,2 0,1 0,2 x Bestem x og sandsynligheden for at udfaldet er et lige tal.. 2.

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 6 sider Skriftlig prøve, den: 8. maj 04 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret af:

Læs mere

Nanostatistik: Stokastisk variabel

Nanostatistik: Stokastisk variabel Nanostatistik: Stokastisk variabel JLJ Nanostatistik: Stokastisk variabel p. 1/34 Repetition Ω: udfaldsrummet: alle de mulige udfald af et experiment P(A): ss for hændelsen A = frekvens i uafhængige gentagelser

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere