Lær nemt! Statistik - Kompendium

Størrelse: px
Starte visningen fra side:

Download "Lær nemt! Statistik - Kompendium"

Transkript

1

2 David Brink Lær nemt! Statistik - Kompendium Ventus wwwventusdk

3 Lær nemt! Statistik - Kompendium 005 David Brink Nielsen og Ventus Download kompendiet gratis på wwwventusdk ISBN Ventus Falkoner Allé Frederiksberg Tlf wwwventusdk

4 Indholdsfortegnelse Indholdsfortegnelse 1 Forord Sandsynlighedsregningens grundbegreber 1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse Betinget sandsynlighed 3 Uafhængige hændelser 4 Inklusion-eksklusionsformel 5 Binomialkoefficienter 6 Multinomialkoefficienter 3 Stokastiske variable 31 Stokastiske variable, definition 3 Fordelingsfunktion 33 Diskret stokastisk variabel, punktsandsynligheder 34 Kontinuert stokastiske variabel, tæthedsfunktion 35 Kontinuert stokastiske variabel, fordelingsfunktion 36 Uafhængige stokastiske variable 37 Stokastisk vektor, simultan tæthed og fordelingsfunktion 4 Middelværdi og varians 41 Middelværdi og stokastisk variabel 4 Varians og spredning af stokastisk variabel 43 Eksempel (udregning af middelværdi, varians og spredning) 44 Vurdering af middelværdi μ og spredning σ på øjemål 45 Additions- og multiplikationsformler for middelværdi og varians 46 Covarians og korrelationskoefficient 5 De store tals lov 51 Chebyshev s ulighed 5 De store tals lov 53 Den centrale grænseværdisætning 54 Eksempel (punktsandsynligheder konvergerer mod φ 6 Beskrivende statistik 61 Median og kvartiler 6 Gennemsnit 63 Empirisk varians og empirisk spredning 64 Empirisk covarians og empirisk korrelationskoefficient 7 Statistisk testteori 71 Nulhypotese og alternativ hypotese 7 Signifikanssandsynlighed og signifikansniveau 73 Fejl af type I og II 74 Eksempel 8 Binomialfordelingen Bin(n, p) 81 Parametre 8 Beskrivelse 83 Punktsandsynligheder 84 Middelværdi og varians 85 Signifikanssandsynligheden for test i binomialfordelingen 86 Normalapproksimationen til binomialfordelingen 87 Estimatorer 88 Konfidensintervaller wwwventusdk

5 Indholdsfortegnelse 9 Poissonfordelingen Pois(λ) 91 Parametre 9 Beskrivelse 93 Punktsandsynligheder 94 Middelværdi og varians 95 Additionsformel 96 Signifikanssandsynligheder for test i Poissonfordelingen 97 Eksempel (signifikant stigning af salg af Skodaer) 98 Binomialapproksimationen til Poissonfordelingen 99 Normalapproksimationen til Poissonfordelingen 910 Eksempel (signifikant fald i antal klager) 911 Estimatorer 91 Konfidensintervaller 10 Den geometriske fordeling Geo(p) 101 Parametre 10 Beskrivelse 103 Punktsandsynligheder og halesandsynligheder 104 Middelværdi og varians 11 Den hypergeometriske fordeling HG(n, r, N) 111 Parametre 11 Beskrivelse 113 Punktsandsynligheder og halesandsynligheder 114 Middelværdi og varians 115 Binomialapproksimationen til den hypergeometriske fordeling 116 Normalapproksimationen til den hypergeometriske fordeling 1 Multinomialfordelingen Mult(n, p 1,, p r ) 11 Parametre 1 Beskrivelse 13 Punktsandsynligheder 14 Estimatorer 13 Den negative binomialfordeling NB(n, p) 131 Parametre 13 Beskrivelse 133 Punktsandsynligheder 134 Middelværdi og varians 135 Estimatorer 14 Eksponentialfordelingen Eks(λ) 141 Parametre 14 Beskrivelse 143 Tæthed og fordelingsfunktion 144 Middelværdi og varians 15 Normalfordelingen 151 Parametre 15 Beskrivelse 153 Tæthed og fordelingsfunktion 154 Standardnormalfordelingen 155 Regneregler for Φ 156 Estimation af middelværdien μ 157 Estimation af variansen σ 158 Konfidensinterval for middelværdien μ 159 Konfidensinterval for variansen σ og spredningen σ 1510 Additionsformlen wwwventusdk

6 Indholdsfortegnelse 16 Fordelinger knyttet til normalfordelingen 161 X -fordelingen 16 Student s t-fordeling 163 Fisher s F-fordeling 17 Test i normalfordelingen 171 En stikprøve, kendt varians, H 0 : μ = μ 0 17 En stikprøve, ukendt varians, H 0 : μ = μ 0 (Student s t-test) 173 En stikprøve, ukendt middelværdi, H 0 : σ = σ Eksempel 175 To stikprøver, kendte varianser, H 0 : μ 1 = μ 176 To stikprøver, ukendte varianser, H 0 : μ 1 = μ (Fisher-Behrens) 177 To stikprøver, ukendte middelværdier, H 0 : σ 1 = σ 178 To stikprøver, ukendt fælles varians, H 0 : μ 1 = μ 179 Eksempel (sammenligning af to middelværdier) 18 Variansanalyse 181 Formål 18 k stikprøver, ukendt fælles varians, H 0 : μ 1 = = μ k 183 To eksempler (sammenligning af middelværdier i 3 stikprøver) 19 Chi-kvadrat χ 191 χ -test for fordelingslighed 19 Normalfordelingsantagelse 193 Standardiserede residualer 194 Eksempel (kvinder med 5 børn) 195 Eksempel (folketingsvalg) 196 Eksempel (dødsfald i det preussiske kavaleri) 0 Kontingenstabeller 01 Definition, metode 0 Standardiserede residualer 03 Eksempel (studieretning og politisk orientering) 04 χ -test for -tabeller 05 Fisher s eksakte test for -tabeller 06 Eksempel (Fisher s eksakte test) 1 Fordelingsfri test 11 Wilcoxons test for ét sæt observationer 1 Eksempel 13 Normalapproksimation til Wilcoxons test for ét sæt observationer 14 Wilcoxons test for to sæt observationer 15 Normalapproksimation til Wilcoxons test for to sæt observationer Lineær regression 1 Modellen Estimering af parametrene β 0 og β 1 3 Estimatorernes fordeling 4 Forudsagte y i værdier e i og residualer 5 Estimering af variansen σ 6 Konfidensinterval for parametrene β 0 og β 1 7 Determinationskoefficienten R 8 Forudsigelser og prediktionsinterval 9 Oversigt over formler 10 Eksempel wwwventusdk

7 Indholdsfortegnelse A Engelsk-dansk ordliste B Oversigt over diskrete fordelinger C Tabeller C1 Sådan forstås tabellerne C Standardnormalfordeligen C3 χ -fordelingen C4 Student s t-fordeling C5 Fishers f-fordeling, α = 10% C6 Fishers f-fordeling, α = 5% C7 Fishers f-fordeling, α = 1% C8 Wilcoxons test for ét sæt observationer C9 Wilcoxons test for sæt observationer, α = 5% D Symbolforklaring E Index wwwventusdk

8 Forord 1 Forord Det her foreliggende kompendium i statistik har som målgruppe studerende på de økonomiske og samfundsvidenskabelige studier For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskuelig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk Lær nemt statistik - kort og præcist er en venlig gennemgang af statistikkens centrale områder, der lægger vægten på overblikket De mange eksempler giver desuden læseren en kogebogsopskrift på, hvordan de almindeligste opgavetyper besvares 8 wwwventusdk

9 Sandsynlighedsregningens grundbegreber Sandsynlighedsregningens grundbegreber 1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse Et sandsynlighedsfelt er et par (Ω, P) bestående af en mængde og en funktion P, der til hver delmængde A af knytter et reelt tal P(A) i intervallet [0, 1] Desuden forlanges følgende aksiomer opfyldt: 1 P(Ω) = 1, n= 1 n =Σn= 1 n P( A ) P(A ) hvis A 1,A, er en følge af parvis disjunkte delmængder af Ω Mængden Ω kaldes et udfaldsrum Elementerne ω Ω kaldes udfald, og delmængderne A Ù kaldes hændelser Funktionen P kaldes en sandsynlighedsfunktion For en hændelse A kaldes P(A) sandsynligheden for A Af de aksiomer kan udledes følgende konsekvenser: 3 P(Ø) = 0, 4 P(A\B) = P(A) P(B) hvis B A, 5 P(CA) = 1 P(A), 6 PA ( ) PB ( ) hvis B A, 7 PA ( 1 An) = PA ( 1) + + PA ( n) hvis A 1,,A n er parvis disjunkte hændelser, 8 PA ( B) = PA ( ) + PB ( ) PA ( B) for vilkårlige hændelser A og B Eksempel Betragt mængden Ω = {1,, 3, 4, 5, 6} Definér for hver delmængde A af Ω # PA ( ) = A 6 hvor #A er antallet af elementer i A Så er parret (Ω, P) et sandsynlighedsfelt Man kan se dette sandsynlighedsfelt som model for situationen kast med en terning Eksempel Betragt nu mængden Ω = {1,, 3, 4, 5, 6} {1,, 3, 4, 5, 6} Definér for hver delmængde A af Ω # PA ( ) = A 36 Sandsynlighedsfeltet (Ω, P) er nu model for situationen kast med terninger Delmængden A = {(1, 1), (, ), (3, 3), (4, 4), (5, 5), (6, 6)} er hændelsen to ens Betinget sandsynlighed For to hændelser A og B defineres den betingede sandsynlighed for A givet B som PA ( B) PAB ( ): = PA ( ) 9 wwwventusdk

10 Sandsynlighedsregningens grundbegreber Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige årsager: Antag A 1,,A n er parvis disjunkte hændelser med A1 A n =Ω Da er for enhver hændelse B: PB ( ) = PA ( ) P(B A) + PA ( ) P(B A) 1 1 n n Eksempel I finalen i French Open 005 skal Puerta møde vinderen af semifinalen mellem Federer og Nadal En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til 60% Sandsynligheden for, at Puerta kan slå Federer i finalen, vurderes til 0%, mens sandsynligheden for, at Puerta kan slå Nadal i semifinalen, vurderes til 30% Bookmakeren beregner derfor ved opsplitning i muligeårsager sandsynligheden for, at Puerta vinde French Open, til P(Puerta vinder finalen) = P(Federer vinder semifinalen) P(Puerta vinder finalen Federer vinder semifinalen)+ P(Nadal vinder semifinalen) P(Puerta vinder finalen Nadal vinder semifinalen) = 0,6 0, + 0,4 0,3 = 4% 3 Uafhængige hændelser To hændelser A og B kaldes uafhængige, hvis PA ( B) = PA ( ) PB ( ) Ækvivalent hermed er betingelsen P(A B) = P(A), altså at sandsynligheden for A er den samme som den betingede sandsynlighed for A givet B 10 wwwventusdk

11 Sandsynlighedsregningens grundbegreber Huskeregel: To hændelser er uafhængige, hvis sandsynligheden for den ene ikke påvirkes af kendskab til, om den anden har fundet sted Eksempel Der kastes en rød og en sort terning Betragt hændelserne A: rød terning viser 6, B: sort terning viser 6 Da PA ( B) = = = PA ( ) PB ( ), er A og B uafhængige Sandsynligheden for, at rød terning viser 6, påvirkes ikke af kendskab til, hvad sort terning viser Eksempel Der kastes en rød og en sort terning Betragt hændelserne Da A: rød terning og sort terning viser det samme, B: rød terning og sort terning viser tilsammen PA ( ) =, men PAB ( ) =, 6 3 er A og B ikke uafhængige Sandsynligheden for at få to ens slag stiger, hvis man ved, at summen af slagene er 10 4 Inklusions-eksklusionsformlen Formel 8 på side 9 har følgende generalisering til 3 hændelser A,B,C: PA ( B C) = PA ( ) + PB ( ) + PC ( ) PA ( B) PA ( C) PB ( C) + PA ( B C) Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser Eksempel Hvad er sandsynligheden for at få mindst én sekser i tre kast med en terning Lad A 1 være hændelsen, at vi får en sekser i første kast, og definér A og A 3 tilsvarende Den søgte sandsynlighed beregnes da ved inklusion-eksklusion: P = P( A1 A A3) = PA ( 1) + PA ( ) + PA ( 3) PA ( 1 A) PA ( 1 A3) PA ( A3) = +P( A1 A A3) = % 11 wwwventusdk

12 Sandsynlighedsregningens grundbegreber Der gælder følgende generalisering for n hændelser A 1,A,,A n med foreningsmængde A= A1 A n: PA ( ) = PA ( ) PA ( A) + PA ( A A) ± PA ( A ) i i j i j k 1 n i i<j i<j<k Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser Eksempel Der trækkes 5 tilfældige kort fra et almindeligt spil bestående af 5 kort Vi vil bestemme sandsynligheden P(B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtrukne kort Lad til dette formål A1 være den hændelse, at ingen af de udtrukne kort er spar Definer A, A 3 og A 4 tilsvarende for henholdsvis hjerter, ruder, klør Så er B=A A A A Inklusions-eksklusionsformlen giver nu P( B ) = P( A ) P( A A ) + P( A A A ) P( A A A A ), i i j i j k i i<j i<j<k altså P( B ) = ,6% Dermed fås PB ( ) = 1 P( B= ) 6,4% Eksempel I en skoleklasse sidder n børn Læreren beder alle børnene rejse sig op og sætte sig igen på en tilfældig plads Lad os bestemme sandsynligheden P(B) for den hændelse B, at hvert barn får en ny plads Vi starter med at nummerere børnene fra 1 til n For hvert i defineres hændelsen A i : barn nummer i sætter sig på sin gamle plads Så er B=A1 A n Nu kan P( B) beregnes ved hjælp af inklusions eksklusionsformlen for n hændelser: P( B ) = P( A ) P( A A ) + P( A A A ) P( A A ), i i j i j k 1 n i i<j i<j<k 1 wwwventusdk

13 Sandsynlighedsregningens grundbegreber altså n n n 1 n 1 P( B ) = + ± 1 1 nn ( 1) n n! 1 1 = 1 + ±! n! Ergo er PB ( ) = 1 P( B= ) + ±! 3! 4! n! Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P(B) er meget tæt på 37% for alle n 4 5 Binomialkoecienter Binomialkoecienten n (læses n over k ) er defineret som k n n! 1 3 n = = k k!( n-k)! 1 k 1 ( n-k) for hele tal n og k med 0 k n Der mindes om konventionen 0! = 1 Årsagen til, at binomialkoecienterne optræder igen og igen i sandsynlighedsregningen, er følgende sætning: n Antallet af delmængder med k elementer af en mængde med n elementer er k 13 wwwventusdk

14 Sandsynlighedsregningens grundbegreber Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 5 elementer (et spil kort) lig 5 = En god måde at huske binomialkoecienterne på er ved at stille dem op i Pascals trekant, hvor hvert tal er lig summen af de to ovenstående tal: Man bemærker, at der gælder regnereglen n n =, fx = n-k k Multinomialkoecienter Multinomialkoecienterne er defineret som n n! = k 1 k r k 1! k r! for hele tal n og k 1,, k r med n = k 1 + +k r Multinomialkoecienter kaldes også generaliserede binomialkoecienter, idet binomialkoecienten n k er lig multinomialkoecienten n k med l = n k 14 wwwventusdk

15 Stokastiske variable 3 Stokastiske variable 31 Stokastiske variable, definition Betragt et sandsynlighedsfelt (Ω, P) En stokastisk variabel er en afbildning X fra Ω ind i mængden af reelle tal R Ω X R Figur 1 Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke på følgende huskeregel: Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager forskellige værdier Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives på følgende måde: P(X = x): sandsynligheden for, at X tager værdien x R, P(X < x): sandsynligheden for, at X tager en ærdi mindre end x, P(X > x): sandsynligheden for, at X tager en værdi større end x, etc Der gælder regnereglerne PX ( x) = PX ( < x) + PX ( = x) PX ( x) = PX ( > x) + PX ( = x) 1 = PX ( < x) + PX ( = x) + PX ( > x) 3 Fordelingsfunktionen Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R R givet ved F( x) = P( X x) F(x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F(x) 1 for x og F(x) 0 for x 15 wwwventusdk

16 Stokastiske variable Ved hjælp af F(x) kan alle X s sandsynligheder regnes ud: P(X < x) = lim F(x ε) ε 0 P(X = x) = F(x) lim F(x ε) ε 0 P(X x) = 1 lim F(x ε) ε 0 P(X > x) = 1 F(x) 33 Diskret stokastisk variabel, punktsandsynligheder En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange værdier I praksis tager diskrete stokastisk variable værdier i mængden {0, 1,, } Punktsandsynlighederne P(X = k) fastlægger X s fordeling Om alle A {0, 1,, } gælder nemlig PX ( A) = PX ( = k) k A Specielt haves regnereglerne PX ( k) = PX ( = i) i= 0 PX ( k) = PX ( = i) k i= k 16 wwwventusdk

17 Stokastiske variable Punktsandsynligheder illustreres grafisk i et pindediagram: P(X=k) 0, 0, k Figur 34 Kontinuert stokastisk variabel, tæthedsfunktion En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f(x) Tæthedsfunktionen, som normalt blot kaldes tætheden, opfylder PX ( A ) ftdt ( ) = t A for alle A R Hvis A er et interval [a, b], gælder altså b Pa ( X b) = f( tdt ) a 35 Kontinuert stokastisk variabel, fordelingsfunktion For en kontinuert stokastisk variabel X med tæthed f(x) er fordelingsfunktionen F(x) givet ved x F( x) = f( t) dt Fordelingsfunktionen opfylder følgende regneregler: PX ( x) = Fx ( ) PX ( x) = 1 Fx ( ) P( X x) = F( x) F( x) P( X x) = F( x) + 1 F( x) 36 Uafhængige stokastiske variable To stokastiske variable X og Y kaldes uafhængige, hvis der for alle AB, R gælder, at hændelserne X A og Y B er uafhængige På tilsvarende vis defineres uafhængighed af tre eller flere stokastiske variable Huskeregel: X og Y er uafhængige, hvis man ikke kan slutte noget om Y s værdi ved at kende X s værdi 17 wwwventusdk

18 Stokastiske variable Eksempel Kast en rød terning og en sort terning og betragt de stokastiske variable X: antal øjne af rød terning, Y : antal øjne af sort terning Z: antal øjne af rød og sort terning lagt sammen X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y X og Z er derimod ikke uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, må X have en af værdierne 4, 5 og 6) 37 Stokastisk vektor, simultan tæthed og fordelingsfunktion Hvis X 1,,X n er stokastiske variable defineret på samme sandsynlighedsfelt (Ω, P), kaldes X = (X 1,,X n ) en (n-dimensional) stokastisk vektor Det er en afbildning X n :Ω R n Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : R [0, 1] givet ved F( x,, x ) = P( X x X x ) 1 n 1 1 n n n Antag nu at X i erne er kontinuerte Så har X en simultan (n-dimensional) tæthed f : R [0, [, som opfylder P( X A) f( x) dx = x A n for alle A R X i ernes individuelle tætheder f i kaldes marginale tætheder, og de fås fra den simultane ved formlen f ( x ) = f ( x,, x ) dx dx 1 1 Rn 1 1 n n her givet for f 1 (x 1 ), de øvrige fås på helt tilsvarende vis Huskeregel: De marginale tætheder fås fra den simultane tæthed ved at integrere de overflødige variabler bort 18 wwwventusdk

19 Middelværdi og varians 4 Middelværdi og varians 41 Middelværdi af stokastisk variabel Middelværdien af en diskret stokastisk variabel X er defineret som EX ( ) = PX ( = k) k k = 1 Middelværdien for en kontinuert stokastisk variabel X med tæthed f(x) defineres som E( X) = f( x) xdx Ofte bruger man bogstavet μ ( my ) om middelværdien 4 Varians og spredning af stokastisk variabel Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som var(x) = E((X μ) ) Hvis X er diskret, kan variansen udregnes således: var ( X) = P( X = k) ( k μ) Hvis X er kontinuert med tæthed f(x), kan variansen udregnes således: k = 0 var ( X) = f( x)( x μ) dx Spredningen σ ( sigma ) af en stokastisk variabel er kvadratroden af variansen 43 Eksempel (udregning af middelværdi, varians og spredning) Eksempel 1 Definér den diskrete stokastiske variabel X som antallet af øjne ved kast med en terning Punktsandsynlighederne er P(X = k) = 1/6 for k = 1,, 3, 4, 5, 6 Middelværdien er derfor E( X) = k = = 35, 6 6 k = 1 Variansen er Spredningen bliver så 6 1 (1 35), + ( 35), + + (6 35), var ( X) = ( k 35), = = 917, 6 6 k = 1 σ = 917, = 1708, 19 wwwventusdk

20 Middelværdi og varians Eksempel Definér den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet [0, 1] X har så tætheden f(x) = 1 på [0, 1] Middelværdien er Variansen er Spredningen er 1 var( X) = ( x 0, 5) dx= 0, σ 1 0 E( X) = xdx= 05, = 0083, = 089, 44 Vurdering af middelværdi μ og spredning på øjemål Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for en stokastisk variabel, kan man på øjemål vurdere μ og σ Middelværdien μ er cirka massemidtpunktet for fordelingen, og spredning σ er sådan, at cirka /3 af sandsynlighedsmassen ligger i intervallet μ ± σ f(x) 0, 0,1 μ-r μ μ+r X Figur 3 0 wwwventusdk

21 Middelværdi og varians 45 Additions- og multiplikationsformler for middelværdi og varians Lad X og Y være stokastiske variable Da gælder E( X + Y) = E( X) + E( Y) EaX ( ) = aex ( ) var( X) = E( X ) E( X) ax = a X var( ) var( ) var( X + a) = var( X) for ethvert a R Hvis X og Y er uafhængige, gælder desuden EXY ( ) = EX ( ) EY ( ) var( X + Y) = var( X) + var( Y) Huskeregel: Middelværdien er additiv For uafhængige stokastiske variable er middelværdien multiplikativ og variansen additiv 46 Covarians og korrelationskoefficient Covariansen for to stokastiske variable X og Y er tallet Cov( XY, ) = E(( X EX)( Y EY)) Der gælder Cov( X, X) = var( X) Cov( XY, ) = EX ( Y) EX EY var( X + Y) = var( X) + var( Y) + Cov( X, Y) Korrelationskoefficienten for X og Y er tallet Cov( XY, ) ρ= var( X) var( Y) Korrelationskoefficienten er et tal i intervallet [ 1, 1] Hvis X og Y er uafhængige, er både covariansen og ρ lig 0 Huskeregel: En positiv korrelationskoefficient betyder, at X normalt er stor, når Y er stor, og omvendt En negativ korrelationskoefficient betyder, at X normalt er lille, når Y er stor, og omvendt Eksempel Der kastes en rød og en sort terning Betragt de stokastiske variable X: antal øjne af rød terning, Y : antal øjne af rød og sort terning lagt sammen 1 wwwventusdk

22 Middelværdi og varians Hvis X er stor, vil Y normalt også være stor, og omvendt Vi forventer derfor en positiv korrelationskoefficient Mere præcist udregnes EX ( ) = 35, EY ( ) = 7 E( X Y) = 7, 4 var( X ) =, 9 var( Y) = 583, Covariansen er derfor Cov(X, Y ) = E(X Y ) E(X) E(Y ) = 7,4 3,5 7 =,9 Korrelationskoefficienten bliver som forventet et positivt tal: Cov( XY, ) 9, ρ = = = 017, var( X) var( Y), 9 583, wwwventusdk

23 De store tals lov 5 De store tals lov 51 Chebyshev s ulighed For en stokastisk variabel X med middelværdi μ og varians σ gælder Chebyshev s ulighed for ethvert a > 0 σ P( X μ a) a 5 De store tals lov Betragt en følge X 1,X,X 3, af uafhængige stokastiske variable med samme fordeling, og lad μ være den fælles middelværdi Indfør betegnelsen S n for summerne S n = X X n De store tals lov siger da P S n μ > ε 0 for n n for ethvert ε > 0 Sagt i ord: Huskeregel: Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi, når stikprøvens størrelse n går mod 53 Den centrale grænseværdisætning Betragt en følge X 1, X, X 3, af uafhængige stokastiske variable med samme fordeling Lad μ være den fælles middelværdi og σ den fælles varians Det antages, at σ er positiv Indfør betegnelsen S n for de normerede summer S n X Xn nμ = σ n Ved normeret forstås, at S n erne har middelværdi 0 og varians 1 Den centrale grænseværdisætning siger da P( S n x) Φ( x) for n for alle x R, hvor er fordelingsfunktionen for standardnormalfordelingen (se afsnit 154) x 1 1 t Φ ( x) = e dt π Fordelingsfunktionen for de normerede summer S n konvergerer altså mod Ф, når n går mod 3 wwwventusdk

24 De store tals lov Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det overraskende er, at de normerede summers grænsefordeling er uafhængig af X i ernes fordeling 54 Eksempel (punktsandsynligheder konvergerer mod φ) Betragt en følge af uafhængige stokastiske variable X 1, X,, der alle har punktsandsynlighederne 1 PX ( i = 1) = = PX ( i = 1) Man kan tænke på summerne X 1 ++ X n som antal krone minus antal plat i n kast med en mønt X i erne har middelværdi μ = 0 og varians σ = 1 De normerede summer bliver dermed S X + + X 1 n n = Fordelingen af S n erne er givet ved punktsandsynlighederne, som her vises for n = 1,, 3, 10 sammen med standardnormalfordelingens tæthed φ(x) Det er fascinerende at se, hvordan de normerede summers punktsandsynligheder falder til føje og nærmer sig φ(x) n n=1 n= n=3 n= Figur 4 4 wwwventusdk

25 Beskrivende statistik 6 Beskrivende statistik 61 Median og kvartiler Antag der foreligger n observationer x 1,,x n Man definerer da observationernes median x(0,5) som den midterste observation Mere præcist er x( n+ 1)/ hvis n ulige x(0,5) = xn/ + xn/+ 1) / hvis n lige idet man ordner observationer efter størrelse således: x 1 x x n På tilsvarende vis defineres observationernes nedre kvartil x(0,5) således, at 5% af observationerne ligger under x(0,5), og observationernes øvre kvartil x(0,75) således, at 75% af observationerne ligger under x(0,75) Kvartilafstanden er afstanden mellem x(0,5) og x(0,75), altså x(0,75-0,5) 6 Gennemsnit Antag der foreligger n observationer x 1,,x n Man definerer da observationernes gennemsnit som n x = x = n i 1 i 63 Empirisk varians og empirisk spredning Antag der foreligger n observationer x 1,,x n Man definerer da observationernes empiriske varians som n ( x ) i 1 i x = s = n 1 Den empiriske spredning er kvadratroden af den empiriske varians n ( x ) i 1 i x = s = n 1 Jo større den empiriske spredning s er, des mere spredt ligger observationerne omkring gennemsnittet x 64 Empirisk covarians og empirisk korrelationskoefficient Antag der foreligger n observationspar (x 1,y 1 ),, (x n,y n ) Man definerer da observationernes empiriske covarians som Cov emp n ( x )( ) 1 i x y i i y = = n 1 5 wwwventusdk

26 Beskrivende statistik En alternativ måde at udregne Cov emp er ved Cov n x y nxy i= 1 i i emp = n 1 Den empiriske korrelationskoefficient er Cov emp empirisk covarians r = = ( x'ernes empiriske spredning)( y'ernes empiriske spredning s xs y Den empiriske korrelationskoeffecient r ligger altid i intervallet [-1, 1] Fortolkning af den empiriske korrelationskoefficient: Hvis x-observationerne er uafhængige af y-observationerne, ligger r tæt på 0 Hvis x-observationerne og y-observationerne afhænger på den måde, at store x'er oftest svarer til store y'er og omvendt, ligger r tæt på 1 Hvis x'erne og y'erne afhænger af hinanden på den måde, at store x'er oftest svarer til små y'er og omvendt, ligger r tæt på -1 Cheminovas mission er at bekæmpe uønskede insekter, planter og svampe for at sikre den globale forsyning af fødevarer og plantefibre samt forbedre menneskers livsbetingelser generelt wwwcheminovadk - wwwbusiness-traineedk - wwwkarrierestartdk 6 wwwventusdk

27 Statistisk testteori 7 Statistisk testteori 71 Nulhypotese og alternativ hypotese Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en på forhånd givet nulhypotese H 0 Nogle gange testes H 0 mod en eksplicit alternativ hypotese H 1 Til grund for testet ligger en eller flere observationer Nulhypotesen (og den eventuelle alternative hypotese) drejer sig om, hvilken fordeling observationerne stammer fra 7 Signifikanssandsynlighed og signifikansniveau Man udregner nu signifikanssandsynligheden P, som er sandsynligheden givet at H 0 er sand for at få lige så ekstreme eller mere ekstreme observationer, end de foreliggende Jo mindre P er, des mindre plausibel er H 0 Ofte vælger man på forhånd et signifikansniveau α, typisk α = 5% Man forkaster så H 0, hvis P er mindre end α (man siger H 0 forkastes på signifikansniveau α ) Hvis P er større end α, accepteres H 0 (man siger H 0 accepteres eller opretholdes på signifikansniveau α eller H 0 kan ikke forkastes på signifikansniveau α ) 73 Fejl af type I og II Man taler om fejl af type I, hvis man forkaster en sand nulhypotese Hvis signifikansniveauet er α, er risikoen for en fejl af type I højst α Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese Testets styrke er sandsynligheden for at forkaste H 0, hvis H 1 er sand Jo større styrken er, des mindre er risikoen for en fejl af type II 74 Eksempel Antag at vi vil undersøge, om en bestemt terning er ægte Ved ægte forstås, at sandsynligheden p for at få en sekser er 1/6 Vi tester nulhypotesen 1 H 0: p = (terningen er ægte) 6 mod den alternative hypotese 1 H 1: p > (terningen er falsk) 6 7 wwwventusdk

28 Statistisk testteori Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen:, 6, 3, 6, 5,, 6, 6, 4, 6 Lad os på forhånd lægge os fast på signifikansniveauet α = 5% Nu beregnes signifikanssandsynligheden P Ved ekstreme observationer skal forstås, at der er mange seksere P er altså sandsynligheden for at få mindst 5 seksere i 10 slag med en ærlig terning Vi udregner 10 (1 6) k (5 6) 10 k P = / / =, k = 5 k (se afsnit 8 om binomialfordelingen) Da P = 1,5% er mindre end α = 5%, forkaster vi H 0 Hvis terningen i virkeligheden var ægte, ville sandsynligheden for at begå en fejl af type I være 1,5% 8 wwwventusdk

29 Binomialfordelingen Bin(n, p) 8 Binomialfordelingen Bin(n, p) 81 Parametre n: antalsparameter (antal forsøg) p: sandsynlighedsparameter (successandsynlighed) I formlerne bruger vi også fiaskosandsynligheden q = 1 - p 8 Beskrivelse Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko I hvert forsøg er successandsynligheden den samme, nemlig p Det totale antal succeser X er da binomialfordelt, og man skriver X ~ Bin(n, p) X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, n} 83 Punktsandsynligheder For k {0, 1,, n} er punktsandsynlighederne i en (n, p)-fordeling n k n k PX ( = k) = p q k Se afsnit 5 vedrørende binomialkoefficienterne n k 9 wwwventusdk

30 Binomialfordelingen Bin(n, p) Eksempel Hvis man kaster en terning 0 gange, vil det samlede antal 6 ere X være binomialfordelt med antalsparameter 0 og sandsynlighedsparameter 1/6 Vi kan opskrive punktsandsynlighederne P(X = k) og de kumulerede sandsynligheder P(X k) i et skema (i procent) k P(X = k),6 10,4 19,8 3,8 0, 1,9 6,5,6 0,8 0, P(X k) ,4 87,0 67,1 43,3 3,1 10, 3,7 1,1 0,3 84 Middelværdi og varians Middelværdi: E(X) = np Varians: var(x) = npq 85 Signifikanssandsynligheden for test i binomialfordelingen Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser tælles Vi vil teste nulhypotesen H 0 : p = p 0 mod en alternativ hypotese H 1 H0 H1 Signifikanssandsynlighed p = p0 p > p0 P(X k) p = p0 p = p0 p < p0 P(X k) p p0 P(X = l) l hvor der i sidste linje summeres over alle de l, for hvilke P(X = l) P(X = k) Eksempel Et firma køber en maskine, der kan fremstille mikrochips Producenten af maskinen hævder, at højst 1/6 af de fremstillede chips vil være defekte Den første dag fremstiller maskinen 0 chips, af hvilke 6 er defekte Kan firmaet på denne baggrund forkaste producentens påstand? Svar: Vi tester nulhypotesen H 0 : p = 1/6 mod den alternative hypotese H 1 : p > 1/6 Signifikanssandsynlighe den beregnes til P(X 6) = 10,% (se se fx tabellen i afsnit 83) Firmaet kan altså ikke forkaste producentens påstand på 5-procentsniveau 86 Normalapproksimationen til binomialfordelingen Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X cirka være normalfordelt med middelværdi μ = np og spredning σ= npq Punktsandsynlighederne er derfor k np 1 1 k np PX ( = k) ϕ = exp, npq npq π 30 wwwventusdk

31 Binomialfordelingen Bin(n, p) hvor φ er tætheden for standardnormalfordelingen, og halesandsynlighederne er 1 k+ np PX ( k) Φ npq 1 k np PX ( k) 1 Φ npq hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) Tommelfingerregel: Man kan bruge approksimationen, hvis np og nq begge er større end 5 Eksempel (fortsættelse af eksemplet i afsnit 85) Efter uger har maskinen fremstillet 00 chips, af hvilke 46 er defekte Kan firmaet nu forkaste producentens påstand, om at sandsynligheden for defekt er højst 1/6? Svar: Vi tester atter nulhypotesen H 0 : p - 1/6 mod den alternative hypotese H 1 : p > 1/6 Da nu np 33 og nq 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde signifikanssandsynligheden: , PX ( 46) 1 Φ 1 Φ (, 3) 11, % 78, Firmaet kan altså nu forkaste producentens påstand på 5-procentsniveau 87 Estimatorer Antag k er en observation fra en stokastisk variabel X ~ (n, p) med kendt n og ukendt p Maksimum likelihoodestimatet (ML-estimatet) på p er k pˆ = n Denne estimator er middelret (dvs estimatorens middelværdi er p) og har variansen pq ( pˆ ) = n Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte) sandsynlighedsparameter p Hvis man imidlertid indsætter den estimerede værdi ˆp på p s plads, får man den estimerede varians pˆ(1 pˆ) n Eksempel Vi betragter atter eksemplet med maskinen, der har fremstillet 0 mikrochips, af hvilke de 6 er defekte Hvad er maksimum likelihood-estimatet på sandsynlighedsparameteren? Hvad er dennes estimerede varians? 31 wwwventusdk

32 Binomialfordelingen Bin(n, p) Svar: Maksimum likelihood-estimatet er variansen på ˆp estimeres til 6 p ˆ = = 30% 0 03, (1 03), = 0, Spredningen estimeres dermed til 0, , Hvis vi går ud fra, at ˆp ligger inden for spredninger fra p, vil p altså ligge mellem 10% og 50% 88 Konfidensintervaller Antag k er en observation fra en binomialfordelt stokastisk variabel X ~ Bin(n, p) med kendt n og ukendt p Konfidensintervallet med konfidensgrad 1 - α omkring punktestimatet ˆp = k/n er ˆ ˆ ˆ ˆ p(1 p) p(1 p) pˆ u ˆ 1 a/, p+ u1 a/ n n Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 - α Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 BRUG DIN VIDEN BLIV TRAINEE I POST DANMARK I Post Danmark kan du kick-starte din karriere! Hvert år ansætter vi 10-0 nyuddannede akademikere i traineestillinger Som trainee får du i løbet af 1 måneder både ansvar og udfordringer Du får ny viden, og du får lov til at vise, hvad du kan! Vi har brug for kompetente akademikere inden for både økonomi, teknologisk udvikling, HR, logistik, IT, salg og markedsføring Læs mere om Post Danmark og vores traineestillinger på wwwpostdanmarkdk/postjobsdk 3 wwwventusdk

33 Binomialfordelingen Bin(n, p) Opgave I en Gallup-undersøgelse i år 01 svarer 6 ud af 100 adspurgte, at de vil stemme på Enhedslisten ved næste valg Bestem konfidensintervallet med konfidensgrad 95% om den sande procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal Svar: Punktestimatet er ˆp = 6/100 = 0,6 Da konfidensgraden skal være 95%, skal α = 0,05 Tabelopslag giver u 0,975 = 1,96 Man får 06, 038, 196, = 0, Konfidensintervallet bliver dermed [0,55, 0,715] Vi kan altså sige med 95 procents sikkerhed, at mellem 5,5% og 71,5% vil stemme på Enhedslisten, hvilket vil give mellem 94 og 18 af folketingets 179 mandater 33 wwwventusdk

34 Poissonfordelingen Pois(λ) 9 Poissonfordelingen Pois(λ) 91 Parametre λ: Intensiteten 9 Beskrivelse Visse begivenheder siges at forekomme spontant, dvs de finder sted på tilfældige tidspunkter, men med en vis konstant intensitet λ Intensiteten λ er det gennemsnitlige antal spontane begivenheder pr tidsinterval Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt, og man skriver X ~ Pois(λ) X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, 3,} 93 Punktsandsynligheder For k {0, 1,, 3 } er punktsandsynlighederne i en Pois(λ)-fordeling k λ PX ( = k) = exp( λ ) k! Der mindes om konventionen 0! = 1 Eksempel I en vis butik kommer der i gennemsnit 3 kunder pr minut Antallet af kunder X, der kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3 Punktsandsynlighederne kan opskrives i procent i et skema: k P(X = k) 5,0 14,9,4,4 16,8 10,1 5,0, 0,8 0,3 0,1 94 Middelværdi og varians Middelværdi: E(X) = λ Varians: var(x) = λ 95 Additionsformel Antag at X 1,,X n er uafhængige Poissonfordelte stokastiske variable Lad λ i være intensiteten af X i, altså X i ~ Pois (λ i ) Så er summen X = X X n 34 wwwventusdk

35 Poissonfordelingen Pois(λ) Poissonfordelt med intensitet λ = λ λ n altså X ~ Pois (λ), 96 Signifikanssandsynligheder for test i Poissonfordelingen Antag at k er en observatione fra en Pois (λ)-fordeling med ukendt intensitet λ Vi vil teste nul-hypotesen H 0 : λ = λ 0 mod en alternativ hypotese H 1 H0 H1 Signifikanssandsynlighed λ=λ 0 λ>λ 0 P(X k) λ=λ 0 λ<λ 0 P(X k) λ=λ 0 λ λ 0 l = P(X = l) hvor der i sidste linje summeres over alle l, for hvilke P(X = l) P(X = k) Hvis man har givet n uafhængige observationer k 1,,k n fra en Pois (λ)-fordeling, kan man udnytte, at summen k = k k n er en observation fra en Pois (n λ)-fordeling Vil du spare penge og have råd til at leve livet? Basisbank er kåret til Danmarks billigste bank 3 år i træk af Penge & Privatøkonomi og kåret til banken med den bedste kundeservice 3 år i træk af Teleperformance A/S Få råd til livet Ring eller skriv til os og få en snak om, hvad vi kan gøre for dig Basisbank er udelukkende en internetbank Det er nemt og enkelt at blive kunde Du skal blot klikke dig ind på vores hjemmeside wwwbasisbankdk og tilmelde dig som kunde, så klarer vi det praktiske 35 wwwventusdk

36 Poissonfordelingen Pois(λ) 97 Eksempel (signifikant stigning af salg af Skodaer) Opgave En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om måneden Måneden efter et reklamefremstød for Skoda sælges 7 biler Er dette en signifikant stigning? Svar: Salget af biler den givne måned kan med rimelighed antages at være Poissonfordelt med en vis intensitet λ Vi tester nulhypotesen H 0 : λ = 3,5 mod den alternative hypotese H 1 : λ > 3,5 Signifikanssandsynligheden, altså sandsynligheden for at sælge mindst 7 biler givet H 0, er (35), = k P exp( 35), = 0, , , , 00 + = 0, 065 k! k = 7 Da P er større end 5%, kan vi ikke forkaste H 0 Der er altså ikke tale om en signifikant stigning 98 Binomialapproksimationen til Poissonfordelingen Poissonfordelingen med intensitet λ er grænseværdi for binomialfordelingen med antalsparameter n og sandsynlighedsparameter λ/n, når n går mod Der gælder altså om punktsandsynlighederne P(X n = k) P(X = k) for n for X ~ Pois (λ) og X n ~ Bin(n, λ/n) I praksis vil man dog altid bruge normalapproksimationen i stedet (se næste afsnit) 99 Normalapproksimationen til Poissonfordelingen Hvis intensiteten λ er stor, vil en Poissonfordelt stokastisk variabel X cirka være normalfordelt med middelværdi μ = λ og spredning σ = λ Punktsandsynlighederne er derfor k λ PX ( = k) ϕ, λ hvor φ er tætheden for standardnormalfordelingen, og halesandsynlighederne er 1 k + λ PX ( k) Φ λ 1 k λ PX ( k) 1 Φ λ hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) 36 wwwventusdk

37 Poissonfordelingen Pois(λ) Tommelfingerregel: Man kan bruge approksimationen til Poissonfordelingen, hvis λ er større end Eksempel (signifikant fald i antal klager) Opgave: DSB-færgen Prinsesse Benedikte modtager gennemsnitligt 180 klager om ugen Ugen efter lukningen af færgens cafeteria modtages kun 11 klager Er dette et signifikant fald? Svar: Antallet af klager den givne uge kan med rimelighed antages at være Poissonfordelt med en vis intensitet λ Vi tester nulhypotesen H 0 : λ = 180 mod den alternative hypotese H 1 : λ < 180 Signifikanssandsynligheden, altså sandsynligheden for at få højst 11 klager givet H 0, kan approksimeres med normalfordelingen: P =Φ =Φ( 5, 03) < 0, Da P er meget lille, kan vi klart forkaste H 0 Der er altså sket et klart signifikant fald 911 Estimatorer Antag k 1,,k n er uafhængige observationer fra en stokastisk variabel X ~ Pois (λ) med ukendt intensitet λ Maksimum likelihood-estimatet (ML-estimatet) på λ er λ= ˆ ( k + + k ) / n 1 n Denne estimator er middelret (dvs estimatorens middelværdi er λ) og har variansen ˆ λ var( λ ) = n Mere præcist gælder nλˆ ( nλ ) Hvis man indsætter den estimerede værdi ˆλ på λ s plads, får man den estimerede varians ˆ var( ^ ˆ λ λ ) = n 37 wwwventusdk

38 Poissonfordelingen Pois(λ) 91 Konfidensintervaller Antag k 1,,k n er uafhængige observationer fra en Poissonfordelt stokastisk variabel X ~ Pois (λ) med ukendt intensitet λ Konfidensintervallet med konfidensgrad 1 - α omkring punktestimatet ˆλ = (k k n )/n er ˆ ˆ ˆ λ ˆ λ λ u1 á/,λ+ u1 á/ n n Løst sagt ligger den sande værdi λ i konfidensintervallet med sandsynligheden 1 - α Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 Eksempel (fortsættelse af eksemplet i afsnit 910) Den første uge efter lukningen af færgens cafeteria modtages altså 11 klager Vi betragter k = 11 som en observation fra en Pois(λ)-fordeling og vil finde konfidensintervallet med konfidensgrad 95% omkring estimatet ˆλ = 11 Tabelopslag giver u 0,975 = 1,96 Konfidensintervallet bliver dermed 11, , 11 +, [91, 133] 38 wwwventusdk

39 Den geometriske gordeling Geo(p) 10 Den geometriske fordeling Geo(p) 101 Parametre p: successandsynligheden (sandsynlighedsparameteren) I formlerne bruger vi også fiaskosandsynligheden q = 1 - p 10 Beskrivelse Der udføres en række af uafhængige forsøg, der hver resulterer i enten succes eller fiasko Successandsynligheden p er den samme i hvert forsøg Antallet W af fiaskoer før succes er da geometrisk fordelt, og man skriver W ~ Geo(p) W er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1,, } Ventetiden til succes er V = W Punktsandsynligheder og halesandsynligheder For k {0, 1,,} er punktsandsynlighederne i en Geo(p)-fordeling P(X = k) = q k p I modsætning til de fleste andre fordelinger kan vi let beregne den geometriske fordelings halesandsynligheder P(X k) = q k Eksempel Pindediagram for punktsandsynlighederne i en geometrisk fordeling med successandsynlighed p = 0,5: Figur 5 39 wwwventusdk

40 Den geometriske gordeling Geo(p) 104 Middelværdi og varians Middelværdi: E(W) = q/p Varians: var(w) = q/p Om ventetiden til succes V = W + 1 har vi den nyttige huskeregel Huskeregel: Middelventetiden til succes er den reciprokke successandsynlighed Eksempel En lotto-spiller indleverer hver uge en enkelt lotto-kupon Sandsynligheden for at få 7 rigtige er 1 36 p = 0, Middelventetiden til succes bliver dermed 1 36 EV ( ) = p = uger = 16053år 7 40 wwwventusdk

41 Den hypergeometriske fordeling HG(n, r, N) 11 Den hypergeometriske fordeling HG(n, r, N) 111 Parametre r: antal røde kugler s: antal sorte kugler N: antal kugler ialt (N = r + s) n: antal udtagne kugler (n N) 11 Beskrivelse I en urne ligger r røde kugler og s sorte kugler, altså i alt N = r + s kugler Der udtages nu tilfældigt og uden tilbagelægning n kugler fra urnen Nødvendigvis er n N Antallet af røde kugler S blandt de udtagne er da hypergeometrisk fordelt, og vi skriver S ~ HG(n, r, N) S er en diskret stokastisk variabel med værdier i mængden {0, 1,, min{n, r}} 113 Punktsandsynligheder og halesandsynligheder For k {0, 1,, min{ n, r}} er punktsandsynlighederne i en (n, r, N)-fordeling r s ( ) k = = n k PS k N n Eksempel Frederiksberg byråd har 5 medlemmer, heraf 13 konservative Et udvalg nedsættes bestående af 5 tilfældigt udvalgte byrådsmedlemmer Hvor stor er sandsynligheden, for at de konservative får flertal i udvalget? Svar: Vi har at gøre med en hypergeometrisk fordelt stokastisk variabel S HG (5, 13, 5) og skal bestemme P(S 3) Lad os først udregne alle punktsandsynligheder (i procent): k P(S = k) 1,5 1,1 3,3 35,5 16,1,4 Den ønskede sandsynlighed bliver dermed P(S 3) = 35,5% + 16,1% +,4% = 54,0% 41 wwwventusdk

42 Den hypergeometriske fordeling HG(n, r, N) 114 Middelværdi og varians Middelværdi: E(S) = nr/n Varians: var(s) = nrs(n - n)/(n (N - 1)) 115 Binomialapproksimationen til den hypergeometriske fordeling Hvis det udtrukne antal kugler n er småt i sammenligning både med antallet af røde kugler r og antallet af sorte kugler s, er det irrelevant, om udtrækningen foretages med eller uden tilbagelægning Dermed kan vi approksimere den hypergeometriske fordeling med binomialfordelingen: P(S = k) P(X = k) for S ~ HG(n, r, N) og X ~ Bin(n, r/n) I praksis er spiller denne approksimation dog ingen rolle, da det er lige så svært at udregne P(X = k) som P(S = k) 116 Normalapproksimationen til den hypergeometriske fordeling Hvis n er lille i forhold til både r og s, kan den hypergeometriske fordeling approksimeres med en normalfordeling med samme middelværdi og varians Punktsandsynlighederne bliver så k nr/n PS ( = k) ϕ, ( ) ( ( 1)) nrs N-n / N N hvor φ er tætheden for standardnormalfordelingen Halesandsynlighederne bliver k+ ½ nr/ N PS ( k) Φ, ( ) ( ( 1)) nrs N n / N N k ½ nr/ N PS ( k) 1 Φ, ( ) ( ( 1)) nrs N n / N N hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) 4 wwwventusdk

43 Multinomialfordelingen Mult(n, p 1, p r ) 1 Multinomialfordelingen Mult(n, p 1, p r ) 11 Parametre n: antalsparameter (antal forsøg) p 1 : p r : den 1 sandsynlighedsparameter den r te sandsynlighedsparameter Der skal gælde p p r = 1 1 Beskrivelse Der udføres n uafhængige forsøg, der hver resulterer i et ud af r mulige udfald I hvert forsøg er sandsynligheden for et udfald af type i den samme, nemlig p i Lad S i betegne det samlede antal udfald af type i Den stokastiske vektor S = (S 1,,S r ) er da multinomialfordelt, og man skriver S ~ (n, p 1, p r ) S er diskret og tager værdier i mængden {( k1,, kr) Z r ki 0, k1 + + kr = n } 13 Punktsandsynligheder For k k r = n er punktsandsynlighederne i en (n, p 1,, p r )-fordeling n ( = ( 1,, )) = r ki PS k kr pi k1 kr i= 1 Eksempel Kast en terning 6 gange og lad, for hvert i, S i være det samlede antal i ere Så er S = (S 1,,S 6 ) en multinomialfordelt stokastisk vektor: S ~ Mult(6, 1/6,, 1/6) Sandsynligheden for at få netop 1 etter, toere og 3 seksere er PS ( = (1,, 0, 0, 0, 3)) = (1/ 6) (1/ 6) (1/ 6) 013, % Her er multinomialkoefficienten (se også afsnit 6) udregnet således: 6 6! 70 = = = !!!!!! 1 14 Estimatorer Antag k 1,, k r er en observation fra en stokastisk variabel S ~ Mult(n, p 1,, p r ) med kendt n og ukendte p i Maksimum likelihood-estimatet (ML-estimatet) på p i er ki pˆ i = n Denne estimator er middelret (dvs estimatorens middelværdi er p i ) og har variansen pi(1 pi) ( pˆ ) = i n 43 wwwventusdk

44 Den negative binomialfordeling NB(n, p) 13 Den negative binomialfordeling NB(n, p) 131 Parametre n: antalsparameter p: sandsynlighedsparameter I formlerne bruger vi også q = 1 - p 13 Beskrivelse Der udføres en række af uafhængige forsøg, der hver resulterer i enten succes eller fiasko Successandsynligheden p er den samme i hvert forsøg Antallet X af fiaskoer før den n te succes er da negativt binomialfordelt, og man skriver X ~ NB(n, p) Den stokastisk variabel X er diskret og kan tage værdier i mængden {0, 1,, } Den geometriske fordeling er specialtilfældet n = 1 af den negative binomialfordeling 133 Punktsandsynligheder For k {0, 1,,} er punktsandsynlighederne i en (k, p)-fordeling n+ k 1 n k PX ( = k) = p q n 1 44 wwwventusdk

45 Den negative binomialfordeling NB(n, p) 134 Middelværdi og varians Middelværdi: E(X) = nq/p Varians: var(x) = nq/p 135 Estimatorer Den negative binomialfordeling bruges af og til som alternativ til Poissonfordelingen i situationer, hvor man vil beskrive en stokastisk variabel, der tager værdier i mængden {0, 1,, } Antag k 1,, k m er uafhængige observationer fra en NB(n, p)-fordeling med ukendte parametre n og p Vi har da følgende estimatorer: k nˆ = k, pˆ = s k s hvor k og s er observationernes gennemsnit og empirisk varians 45 wwwventusdk

46 Eksponentialfordelingen Eks(λ) 14 Eksponentialfordelingen Eks(λ) 141 Parametre λ: Intensiteten 14 Beskrivelse I en situation, hvor begivenheder forekommer spontant med intensiteten λ, (og hvor altså antallet af spontane begivenheder i et tidsinterval er Pois(λ)-fordelt), er ventetiden T mellem spontane begivenheder eksponentialfordelt, og man skriver T ~ Eks(λ) T er en kontinuert stokastisk variabel, der kan tage værdier i [0, [ 143 Tæthed og fordelingsfunktion Eksponentialfordelingens tæthed er f(x) = λ ekp(-λx) Fordelingsfunktionen er F(x) = 1 - ekp(-λx) 144 Middelværdi og varians Middelværdi: E(T) = 1/λ Varians: var(t) = 1/λ Born to Businness? Ingen anden avis ruster dig bedre til din karriere end Børsen Et studieabonnement holder dig opdateret og giver dig viden, der hjælper dig under din uddannelse Du får også et personligt password til det nye borsendk, hvor du har fuld adgang til en række onlineværktøjer, som letter din studietid Få Børsen i 3 mdr for 75 kr og bliv klædt på til din kommende karriere* Meld dig ind i Børsen Executive StudentClub nu og vær med i lodtrækningen om en luksusrejse for personer med Singapore Airlines Ring eller gå ind på borsendk/studie * Er du studerende, kan du få Børsen med en rabat på 50% = 347,50 for 3 mdr Er du medlem af YC, DJØF StudSamf eller IDA Junior er prisen 75 kr for 3 mdr Tilbuddet gælder kun for husstande, der ikke har haft abonnement på Børsen de sidste 6 mdr Der beregnes porto til udlandet Midlertidig afmelding i abonnementsperioden refunderes ikke, men Børsen kan altid flyttes til en alternativ adresse Børsen tager forbehold for evt prisændringer 46 wwwventusdk

47 Normalfordelingen 15 Normalfordelingen 151 Parametre μ: middelværdi σ : varians Husk at spredningen σ er kvadratroden af variansen 15 Beskrivelse Normalfordelingen er en kontinuert fordeling Hvis en stokastisk variabel X er normalfordelt, kan X tage værdier i hele R, og man skriver X ~ N(μ, σ ) Normalfordelingen er den vigtigste fordeling i statistikken Utallige naturligt forekommende fænomener kan beskrives (eller approksimeres) med en normalfordeling 153 Tæthed og fordelingsfunktion Normalfordelingens tæthed er 1 (x μ) f(x) = exp σ πσ Den er symmetrisk, dvs der gælder f(-x) = f(x) Normalfordelingens fordelingsfunktion x 1 (t μ) F(x) = exp dt σ πσ er svær at beregne I stedet for benytter man formlen x μ F(x) =Φ σ hvor Φ er fordelingsfunktionen for standardnormalfordelingen, som kan slås op i Tabel C Af tabellen aflæses fx: Huskeregel: I en normalfordeling ligger 68% af sandsynlighedsmassen inden for 1 spredning omkring middelværdien, mens 95% af sandsynlighedsmassen ligger inden for spredninger omkring middelværdien 47 wwwventusdk

48 Normalfordelingen 154 Standardnormalfordelingen En normalfordeling med middelværdi μ = 0 og varians σ = 1 kaldes en standardnormalfordeling Spredningen i en standardnormalfordeling er tydeligvis σ = 1 Tætheden φ(t) for en standardnormalfordeling er 1 1 ϕ (t) = exp t π Fordelingsfunktionen Φ for en standardnormalfordeling er 1 1 ϕ = π x (t) exp t dt Man kan slå Φ op i Tabel C 155 Regneregler for Φ Fordelingsfunktionen Φ for en standardnormalfordelt stokastisk variabel X ~ N(0, 1) opfylder PX ( x) = Φ( x) PX ( x) = Φ( x) P( X x) = Φ( x) Φ( x) P( X x) = Φ( x) Φ ( x) = 1 Φ( x) 156 Estimation af middelværdien μ Antag X 1,,X n er uafhængige observationer fra en stokastisk variabel X ~ N(μ, σ ) Maksimum likelihoodestimatet (ML-estimatet) på μ er x μ= ˆ + + x n 1 n Dette kaldes også blot gennemsnittet og skrives x Gennemsnittet er en middelret estimator på μ (dvs at estimatorens middelværdi er μ) Variansen på gennemsnittet er var (x) σ = n Mere præcist gælder, at x selv er normalfordelt: σ x N( μ, ) n 48 wwwventusdk

49 Normalfordelingen 157 Estimation af variansen σ Antag X 1,,X n er uafhængige observationer fra en stokastisk variabel X ~ N(μ, σ ) Normalt estimerer man variansen σ vha den empiriske varians ( xi x) s = n 1 Den empiriske varians s er en middelret estimator på den sande varians σ Advarsel: Den empiriske varians er ikke maksimum likelihood-estimatet på σ Maksimum likelihood-estimatet på σ er men man bruger den sjældent, da den ikke er middelret og oftest estimerer for lavt ( xi x) n 158 Konfidensinterval for middelværdien μ Antag X 1,,X n er uafhængige observationer fra en normalfordelt stokastisk variabel X ~ N(μ, σ ), og at vi vil estimere middelværdien μ Hvis σ er kendt, er konfidensintervallet for μ med konfidensgrad 1 - α: σ x u, x+ u n 1 α/ 1 α/ σ n Tallet u 1-α/ er fastlagt ved Φ(u 1-α/ ) = 1 - α/, hvor Φ er fordelingsfunktionen for standardnormalfordelingen Det fremgår fx af Tabel C, at for konfidensgrad 95% er u 1-α/ = u 0,975 = 1,96 Hvis variansen σ er ukendt, er konfidensintervallet for μ med konfidensgrad 1 - α: s s 1 α/ 1 α/ n n x t (n 1), x+ t (n 1) hvor s er den empiriske varians (afsnit 63) Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - 1 frihedsgrader Det fremgår fx af Tabel C, at for konfidensgrad 95% haves n t1- α/ 1,7 4,30 3,18,78,57,45,36,31,6,3,0 159 Konfidensinterval for variansen σ og spredningen σ Antag X 1,,X n er uafhængige observationer fra en normalfordelt stokastisk variabel X ~ N(μ, σ ) Konfidensintervallet for variansen σ med konfidensgrad 1 - α er: (n 1)s (n 1)s, X α/ X 1 α/ 49 wwwventusdk

50 Normalfordelingen hvor s er den empiriske varians (afsnit 63) Tallene X og α/ X er fastlagt ved 1-α/ F(X ) = α/ og α/ F(X ) = 1-α/ 1 - α/, hvor F er fordelingsfunktionen for X -fordelingen med n - 1 frihedsgrader (Tabel C3) Konfidensintervallet for spredningen σ med konfidensgrad 1 - α fås ganske enkelt ved at tage kvadratroden af grænserne i konfidensintervallet for variansen: (n 1)s (n 1)s, X α/ X 1 α/ 1510 Additionsformlen En lineær funktion af en normalfordelt stokastisk variabel er selv normalfordelt Hvis med andre ord X ~ N(μ, σ ) og ab, R ( a 0), så er ax + b ~ N(aμ + b, a σ ) Summen af uafhængige normalfordelte stokastiske variable er selv normalfordelt Hvis med andre ord X 1,,X n er uafhængige med X i ~ N(μ i, σ ), i X X n ~ N(μ μ n, σ σ n ) Tag skridtet! Find jobbet hos StepStone StepStone s Jobagent Du opretter din Jobagent ved at indtaste oplysninger som branche, geografisk område, stillingstype mv Med StepStone s Jobagent har du mulighed for automatisk at få tilsendt stillinger, som kan være interessante for dig CV Opret dit CV på wwwstepstonedk og brug det hvis du skal søge en stilling online Mange virksomheder scanner ofte vores CV database for spændende kandidater Klik ind på wwwstepstonedk og se de mange muligheder 50 wwwventusdk

51 Fordelinger knyttet til normalfordelingen 16 Fordelinger knyttet til normalfordelingen 161 X -fordelingen Lad X 1,,X n ~ N(0, 1) være uafhængige standardnormalfordelte stokastiske variable Fordelingen af kvadratsummen Q = X X n kaldes X -fordelingen med n frihedsgrader Antallet af frihedsgrader skrives normalt df (degrees of freedom) En X -fordelt stokastik variabel Q med df frihedsgrader har middelværdi E(Q) = df og varians var(q) = df X -fordelingens tæthed f(x) er df 1 x f( x) = K x e hvor df er antallet af frihedsgrader, og K er en konstant I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C3 Nedenstående graf viser tæthedsfunktionen med df = 1, 4, 10, 0 frihedsgrader df=1 df=4 df=10 df=0 Figur 6 51 wwwventusdk

52 Fordelinger knyttet til normalfordelingen 16 Student s t-fordeling Lad X være en normalfordelt stokastisk variabel med middelværdi μ og varians σ Lad de stokastiske variable x og S være henholdsvis gennemsnit og empirisk varians for en stikprøve bestående af n observationer fra X Fordelingen af X μ T = S /n er da uafhængig af både μ og σ og kaldes Student s t-fordeling med n - 1 frihedsgrader En t-fordelt stokastik variabel T med df frihedsgrader har middelværdi E(T) = 0 for df og varians df ( T ) = df for df 3 t-fordelingens tæthed f(x) er x f( x) = K 1+ df ( df + 1) / 5 wwwventusdk

53 Fordelinger knyttet til normalfordelingen hvor df er antallet af frihedsgrader, og K er en konstant I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C4 Nedenstående graf viser tætheden for t-fordelingen med df = 1,, 3 frihedsgrader samt tætheden φ(x) for standardnormalfordelingen Som man kan se, nærmer t-fordelingen sig standardnormalfordelingen, når df ϕ(x) df=3 df= df=1 Figur Fisher s F-fordeling Lad X 1 og X være uafhængige normalfordelte stokastiske variable med samme varians Lad for i = 1, den stokastiske variabel S være den empiriske varians af en stikprøve af størrelse n fra X Fordelingen af i i i kvotienten S V = S kaldes Fisher s F-fordeling med n - 1 frihedsgrader i tælleren og n - 1 frihedsgrader i nævneren 1 F-fordelingens tæthed f(x) er df1/ x 1 f( x) = K ( df + df x ) 1 hvor K er en konstant, df 1 er antal frihedsgrader i tæller, df er antal frihedsgrader i nævner og df = df 1 + df I praksis bruger man ikke tætheden, men slår fordelingsfunktionen op i Tabel C5 df / 53 wwwventusdk

54 Test i normalfordelingen 17 Test i normalfordelingen 171 En stikprøve, kendt varians, H 0 : μ = μ 0 Lad der være givet en stikprøve X 1,,X n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og kendt varians σ Vi vil teste nulhypotesen H 0 : μ = μ 0 Hertil beregnes teststørrelsen n(x μ ) μ= = σ n 0 i= 1 x nμ i 0 nσ Signifikanssandsynligheden ses nu af følgende skema, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C) Alternativ hypotese H1 : μ > μ0 Signifikanssandsynlighed Φ(-u) H1 : μ < μ0 Φ(u) H1 : μ μ0 Φ(- u ) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% 17 En stikprøve, ukendt varians, H 0 : μ = μ 0 (Student s t-test) Lad der være givet en stikprøve X 1,,X n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Vi vil teste nulhypotesen H 0 : μ = μ 0 Hertil beregnes teststørrelsen t n(x μ ) s n x nμ 0 i= 1 i 0 = =, ns hvor s er den empiriske varians (se afsnit 63) Signifikanssandsynligheden ses nu af følgende skema, hvor F Student er fordelingsfunktionen for Student s -fordeling med df = n - 1 frihedsgrader (Tabel C4) 54 wwwventusdk

55 Test i normalfordelingen Alternativ hypotese Signifikanssandsynlighed H1 : μ > μ0 1-FStudent(t) H1 : μ < μ0 1-FStudent(t) H1 : μ μ0 (1 F ( t)) Student Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Eksempel Rektor ved Rysensteen Gymnasium ønsker at bekræfte statistisk, at hans elever ved studentereksamen 005 har klaret sig signifikant miserabelt Til dette formål udvælges n = 10 studenter tilfældigt Deres gennemsnit er x1 x x3 x4 x5 x6 x7 x8 x9 x10 7,6 7,7 7,5 5,8 5,7 7,9 5,4 6,7 7,9 9,4 Landsgennemsnittet for 005 er 8,7 Man kan med rimelighed antage, at gennemsnittene er normalfordelte Variansen er imidlertid ukendt Vi benytter derfor Student s t-test og vil teste nul-hypotesen H 0 : μ = 8,7 mod den alternative hypotese H 1 : μ < 8,7 Det får du kun i CA! cadk Dagpenge med til udlandet i 3 måneder Op til 3 ugers betalt ferie Personlig rådgivning og coaching C Branding af dine kompetencer Business netværk med andre unge Balance i karrieren Læs mere på cadk wwwventusdk

56 Test i normalfordelingen Vi beregner observationernes gennemsnit x = 7,17 og empiriske spredning s = 1,6 og finder teststørrelsen 10(7, 17 8, 7) t = = 76, 16, Et opslag i Tabel C4 under df = n - 1 = 9 frihedsgrader giver en signifikanssandsynlighed 1 - F Student (-t) = 1 - F Student (,76) mellem 1% og,5% Vi kan altså forkaste H 0 til fordel for Rektors formodning, om at hans elever har klaret sig signifikant ringere end resten af landet 173 En stikprøve, ukendt middelværdi, H 0 : σ = σ 0 SÆTNING Lad der være givet n (uafhængige) observationer x 1,,x n fra en normalfordeling med varians σ Da er teststørrelsen ( n 1) s n x i= 1 i q = = σ ( x) σ X -fordelt med df = n - 1 frihedsgrader (her er s den empiriske varians) Lad der være givet en stikprøve x 1,,x n af n uafhængige observationer fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Vi vil teste nulhypotesen H 0 : σ = σ 0 Hertil beregnes teststørrelsen hvor s er den empiriske varians ( n 1) s n x i= 1 i σ0 σ0 ( x) q = =, Signifikanssandsynligheden ses nu af følgende skema, hvor F x er fordelingsfunktionen for X -fordelingen med df = n - 1 frihedsgrader (Tabel C3) Alternativ hypotese H1 : σ > σ0 Signifikanssandsynlighed 1-FX(q) H1 : σ < σ0 FX(q) H1 : σ σ0 min{fx(q), 1-FX(q)} Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Bemærk: I praksis testes altid mod den alternative hypotese H 0 : σ > σ 0 56 wwwventusdk

57 Test i normalfordelingen 174 Eksempel Betragt følgende 0 observationer stammende fra en normalfordeling med ukendt middelværdi og varians: Vi vil teste nulhypotesen H 0 : spredningen er højst 5 (dvs variansen er højst 5) mod den alternative hypotese H 0 : spredningen er større end 5 (dvs variansen er større end 5) Den empiriske varians beregnes til s = 45,47, og dermed finder vi teststørrelsen (0 1) 4547, q = = 34, 56 5 Opslag i tabel C3 under df = 19 frihedsgrader viser, signifikanssandsynlighed omkring er % Vi kan hermed afvise H 0 (Rent faktisk stammer observationer fra en normalfordeling med middelværdi μ = 100 og spredning σ = 6 Testet er altså bemærkelsesværdigt følsomt) 175 To stikprøver, kendte varianser, H 0 : μ 1 = μ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og kendt varians σ Lad der desuden være givet en stikprøve y,,y fra en normalfordeling med ukendt middelværdi μ 1 1 m og kendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : μ 1 = μ Hertil beregnes teststørrelsen u = x y σ/ n+σ/ m 1 Signifikanssandsynligheden ses nu af følgende skema, hvor Φ er fordelingsfunktionen for standardnormalfor delingen (Tabel C3) 57 wwwventusdk

58 Test i normalfordelingen Alternativ hypotese Signifikanssandsynlighed H1 : μ1 > μ 1 - Φ (- u) H1 : μ1 < μ Φ (u) H1 : μ1? μ Φ (- u ) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Bemærk: I praksis er forudsætningerne for dette test sjældent til stede 176 To stikprøver, ukendte varianser, H 0 : μ 1 = μ (Fisher-Behrens) Lad situationen være som i afsnit 175, men antag, at varianserne σ og 1 σ er ukendte Problemet, at finde en passende teststørrelse til afprøvning af nulhypotesen H 0 : μ 1 = μ, kaldes Fisher-Behrens-problemet og har ikke nogen tilfredsstillende løsning Hvis n, m > 30, kan man dog kopiere testet i afsnit 175 med den alternative teststørrelse u = x y, s / n+ s / m 1 hvor s og 1 s er de empiriske varianser for x erne henholdsvis y erne Viden Vil du vide, hvad der sker i dansk erhvervsliv? Og går du rundt med en iværksætter i maven? Så følg med i Danmarks største erhvervsavis Læs om de små og mellemstore virksomheder, der udgør 98% af dansk erhvervsliv Og som står for 75% af al omsætning i Danmark Læs om deres succeser og udfordringer Få viden og værktøjer til virksomhedsdrift ErhvervsBladet udkommer i eksemplarer Hver dag Over hele landet Tegn et abonnement allerede i dag Studerende får 50% rabat Ring til os på , og få din daglige dosis erhvervsnyheder 58 wwwventusdk

59 Test i normalfordelingen 177 To stikprøver, ukendte middelværdier, H 0 : σ 1 = σ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og ukendt varians σ Lad der desuden være givet en stikprøve y 1,,y m fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : σ 1 = σ, Hertil beregnes teststørrelsen s x ernes empiriske varians v = = s y ernes empiriske varians Desuden sættes 1 v = max v, v 1 Signifikanssandsynligheden ses nu af følgende skema, hvor F Fisher er fordelingsfunktionen for Fishers F- fordeling med n - 1 frihedsgrader i tælleren og m - 1 frihedsgrader i nævneren (Tabel C5) Alternativ hypotese H1 : μ1 σ > σμ 1 Signifikanssandsynlighed 1 - FFisher(v) H1 : μ1 σ < > σμ FFisher(1/v) H1 : μ1 σ? μ σ 1 (1 - FFisher(v*)) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% Hvis H 0 accepteres, estimeres den fælles varians σ og 1 σ af den poolede varians n m ( x ) ( ) = 1 i x + y = 1 i y i i ( n 1) s1 + ( m 1) s pool s = = n+ m n+ m 178 To stikprøver, ukendt fælles varians, H 0 : μ 1 = μ Lad der være givet en stikprøve x 1,,x n fra en normalfordeling med ukendt middelværdi μ 1 og ukendt varians σ Lad der desuden være givet en stikprøve y 1,,y m fra en normalfordeling med ukendt middelværdi μ og ukendt varians σ Det antages, at de to stikprøver er uafhængige af hinanden Vi vil teste nulhypotesen H 0 : μ 1 = μ 59 wwwventusdk

60 Test i normalfordelingen Hertil beregnes teststørrelsen t = x y (1/ n+ 1 / m) s pool hvor s er den poolede varians som givet i afsnit 177 pool Signifikanssandsynligheden ses nu af følgende skema, hvor F Student er fordelingsfunktionen for Student s t- fordeling med n + m - frihedsgrader (Tabel C4) Alternativ hypotese H1 : μ1 > μ Signifikanssandsynlighed 1 - FStudent(t) H1 : μ1 < μ 1 - FStudent(-t) H1 : μ1? μ (1 - FStudent( t )) Normalt forkastes H 0, hvis signifikanssandsynligheden er mindre end 5% 179 Eksempel (sammenligning af to middelværdier) Antag vi har givet 7 uafhængige observationer fra en normalfordelt stokastisk variabel X: x = 6, x = 1, x = 15, x = 7, x = 15, x = 8, x = samt 4 uafhængige observationer fra en normaltfordelt stokastisk variabel Y: Vi vil teste hypotesen y = 9, y = 31, y = 17, y = H 0 : E(X) = E(Y) For at kunne dette, må vi først teste, om X og Y har samme varians Vi tester altså hjælpehypotesen H 0 *: var(x) = var(y) mod alternativet H 1 *: var(x) var(y) Hertil beregnes som i afsnit 177 teststørrelsen samt s 5, 3 v = = = 16, s 416, 1 1 v = max v, = 16, v 60 wwwventusdk

61 Test i normalfordelingen Et opslag i Tabel C5 med 7-1 = 6 frihedsgrader i tælleren og 4-1 = 3 frihedsgrader i nævneren viser, at signifikanssandsynligheden er klart større end 0%, og vi kan derfor acceptere hjælpehypotesen H 0 * Vi vender nu tilbage til testet af H 0 mod den alternative hypotese H 0 : E(X) E(Y) Den poolede varians findes til 6s + 3s = = 488, 9 1 pool Teststørrelsen bliver dermed x y 19 48, t = = = 131, (1/ 7 + 1/ 4) s (1/ 7 + 1/ 4)48, 8 s pool Signifikanssandsynligheden fås derfor til (1 F ( t )) = (1 F (131)), (1 090), = 0% Student Student idet vi slår Student s t-fordeling med = 9 frihedsgrader op i Tabel C4 Vi kan dermed ikke forkaste H 0 Krifa Light - gratis fagforening for unge Hvad skal du have i løn på dit fritidsjob? Hvor mange timer må du arbejde? Hvad står der med småt i din ansættelseskontrakt? Hvordan skriver du en ansøgning, der rykker? Hvad er Krifa Light? Krifa Light er en gratis fagforening for unge under 3 år, som er elever, lærlinge eller under uddannelse på mindst 0 timer om ugen Krifa Light er en del af Kristelig Fagbevægelse, som er politisk uafhængig Danmarks længste åbningstid Meld dig ind på wwwkrifa-lightdk eller ring alle hverdage kl 8- på tlf Er du over 3 år, har vi også et godt tilbud til dig Læs mere på wwwkrifadk 61 wwwventusdk

62 Variansanalyse 18 Variansanalyse 181 Formål Variansanalyse, også kaldet ANOVA (analysis őf variance), er en metode til sammenligning af gennemsnittene af flere end stikprøver Variansanalyse er en naturlig forlængelse af testene i forrige kapitel 18 k stikprøver, ukendt fælles varians, H 0 : μ 1 = = μ k Lad X 1,,X k være k uafhængige, normalfordelte stokastiske variable med middelværdier μ 1 = = μ k og fælles varians σ Lad der fra hver X i være givet en stikprøve bestående af n i observationer Lad x j og s j være gennemsnit og empirisk varians af stikprøven fra X j Vi vil teste nulhypotesen H 0 : μ 1 = = μ k mod alle andre hypoteser Til dette formål estimeres den fælles varians σ på to forskellige måder Variansestimatet inden for stikprøverne er Variansestimatet mellem stikprøverne er s 1 = ( n 1) s I k j j n k j= 1 1 s = n ( x) M 1 k j x j k j = 1 s estimerer I σ, uanset om H 0 er sand eller ej s estimerer kun M σ, hvis H 0 er sand Hvis H 0 er falsk, estimerer s for højt M Betragt nu teststørrelsen s v = s M I Signifikanssandsynligheden er 1 - F Fisher (v) hvor F Fisher er fordelingsfunktionen for Fishers F-fordeling med k - 1 frihedsgrader i tælleren og n - k frihedsgrader i nævneren (Tabel C5) 6 wwwventusdk

63 Variansanalyse 183 To eksempler (sammenligning af middelværdier i 3 stikprøver) Lad der være givet 3 stikprøver 1 stikprøve: 9, 8, 9, 1, 8,,, 9, 6, 6 stikprøve:, 1, 18, 8, 3, 5, 5, 8, 3, 6 3 stikprøve: 4, 3, 6, 0, 33, 3, 6, 4, 7, Det antages, at stikprøverne stammer fra uafhængige normalfordelinger med fælles varians Lad μ i være middelværdien af den i te normalfordeling Vi vil teste nulhypotesen H 0 : μ 1 = μ = μ 3 (Rent faktisk stammer alle observationerne fra en normalfordeling med middelværdi 5 og varians 10, så testet bør ikke føre til forkastelse af H 0 ) Vi har altså k = 3 stikprøver med hver n i = 10 observationer, i alt n = 30 observationer En udregning giver følgende variansestimat inden for stikprøverne: S I = 10,91 og følgende variansestimat mellem stikprøverne: S M = 11,10 63 wwwventusdk

64 Variansanalyse (Da vi ved, at H 0 er sand, bør både S og I S estimere M σ = 10, hvilket også passer ganske godt) Nu beregnes teststørrelsen: s 1110, v = = = 10, s 1091, M I Opslag i Tabel C5 under k - 1 = frihedsgrader i tælleren og n - k = 7 frihedsgrader i nævneren viser, at signifikanssandsynligheden er over 10% Nulhypotesen H 0 må altså opretholdes Lidt mere udførligt kan udregningerne opsummeres i et skema som følger: Stikprøve nummer Gennemsnit x j 6,0 3,9 4,8 Empirisk varians s j 10, 9,88 1,6 x = 4,9 (samlet gennemsnit) S I = +(S 1 + S + S 3 )/3 = 10,91 (varians inden for stikprøverne) S M = 5 ( x x) = 11,10 (varians mellem stikprøverne) j V = S M / S I = 1,0 (teststørrelsen) 64 wwwventusdk

65 Variansanalyse Hvis vi lægger 5 til alle observationerne i stikprøve nummer 3, får vi i stedet følgende skema: Stikprøve nummer Gennemsnit x j 6,0 3,9 9,8 Empirisk varians s j 10, 9,88 1,6 x = 6,6 (samlet gennemsnit) S I = +(S 1 + S + S 3 )/3 = 10,91 (varians inden for stikprøverne) S M = 5 ( x x) = 89,43 (varians mellem stikprøverne) j V = S M / S I = 8,0 (teststørrelsen) Bemærk hvordan variansen inden for stikprøverne ikke ændrer sig, hvorimod variansen mellem stikprøverne nu er alt for stor Dermed bliver teststørrelsen v = 8,0 også stor, og signifikanssandsynligheden ses i Tabel C5 at være mindre end 1% Dermed forkastes nulhypotesen H 0 om ens middelværdier (hvilket var at forvente, da H 0 rent faktisk er falsk) 65 wwwventusdk

66 Chi-kvadrat χ 19 Chi-kvadrat χ 191 χ -test for fordelingslighed Grunden til, at χ -fordelingen er så vigtig, er, at den kan bruges til at teste, om et forelagt sæt af observationer kan tænkes at stamme fra en bestemt fordeling I de næste afsnit skal vi se eksempler på dette Testet, som også kaldes Pearson s χ -test eller χ -test for goodness of fi t, udføres således: 1 Først inddeles observationerne i kategorier Lad os kalde antallet af kategorier for k, og antallet af observationer i den i te kategori for O i Det samlede antal observationer er altså n = O O k Opstil en nul-hypotese H 0 Nul-hypotesen skal fortælle, hvad sandsynligheden p i er, for at en observation havner i den i te kategori 3 Udregn teststørrelsen χ k ( Oi E ) = E i= 1 i i O i er som sagt det observerede antal i den i te kategori E i er det (under nul-hypotesen) forventede ( expected ) antal i den i te kategori: E i = np i Teststørrelsen χ kaldes i øvrigt nogle gange diskrepansen 4 H 0 forkastes nu, hvis χ er større end den kritiske værdi C for χ -fordelingen med df frihedsgrader (slås op i Tabel C3) Antallet af frihedsgrader er normalt df = k - 1, altså 1 mindre end antallet af kategorier Hvis man bruger observationerne til at estimere nul-hypotesens sandsynlighedsparametre p i, bliver df dog mindre Huskeregel: Hver parameter, der estimeres, koster én frihedsgrad Bemærk: det er logisk at forkaste H 0, hvis X er stor, thi det betyder jo, at forskellen mellem de observerede og de forventede antal er stor 19 Normalfordelingsantagelse Da χ -testet hviler på en normalapproksimation, kan man kun bruge det, hvis der ikke er alt for få observationer Huskeregel: χ -testet kan bruges, hvis det forventede antal Ei er mindst 5 i hver kategori Hvis der er flere end 5 kategorier, kan man dog nøjes med mindst 3 forventede antal i hver kategori 193 Standardiserede residualer Hvis nulhypotesen om fordelingslighed forkastes ved et χ -test, skyldes det, at nogle af de observerede antal afviger ekstremt fra de forventede antal Det er da interessant at undersøge, præcis hvilke observerede antal der er ekstreme Til dette formål beregnes de standardiserede residualer 66 wwwventusdk

67 Chi-kvadrat χ r = i O np i np (1 p ) i i i for hver kategori Hvis nulhypotesen var sand, ville hver r i være normalfordelt med middelværdi μ = 0 og spredning σ = 1 Derfor: Huskeregel: Standardiserede residualer numerisk større end er tegn på ekstremt observeret antal Det kan meget vel tænkes, at der forekommer standardiserede residualer numerisk større end, selvom χ -testet ikke fører til forkastelse af nulhypotesen Dette betyder imidlertid ikke, at nulhypotesen alligevel skal forkastes Særligt hvis man har et stort antal kategorier, vil det ikke være unormalt med enkelte store residualer Formaning: Regn kun de standardiserede residualer ud, hvis nulhypotesen er blevet forkastet ved et χ -test 194 Eksempel (kvinder med 5 børn) Opgave Ved en optælling på Rigshospitalet registreredes børnenes køn for 1045 kvinder, som havde 5 børn i alt Resultat: A worldwide education in the heart of London One of the largest Universities in the UK Located in central London Over 150 years providing education Over 150 subject areas including Art and Design, Architecture, Business, Management and Marketing, Social Sciences, Leisure and Tourism, Sport, Computing and Information Sciences Visit our website or contact us on: wwwlondonmetacuk/europe From Foundation to MBA Top Government rating for business and management teaching Guaranteed accommodation Postgraduate scholarships available Well-equipped IT, language and library facilities The world looks different from here 67 wwwventusdk

68 Chi-kvadrat χ Oi 5 piger 58 4 piger + 1 dreng piger + drenge 305 piger + 3 drenge pige + 4 drenge 16 5 drenge 45 Test den hypotese H 0, at der ved hver barnefødsel er lige stor sandsynlighed for en dreng som en pige Svar: Hvis H 0 holder, består ovenstående tabel af 1045 observationer fra en Bin(5, 1/)-fordeling Punktsandsynlighederne i en Bin(5, 1/)-fordeling er pi 5 piger 0, piger + 1 dreng 0, piger + drenge 0,315 piger + 3 drenge 0,315 1 pige + 4 drenge 0, drenge 0,0313 De forventede antal E i = 1045 p i bliver da Ei 5 piger 3,7 4 piger + 1 dreng 163,3 3 piger + drenge 36,6 piger + 3 drenge 36,6 1 pige + 4 drenge 163,3 5 drenge 3,7 Teststørrelsen udregnes = (58 3, 7) ( ), (305 36, 6) 3, , 36, = 8, 6 (303 36, 6) ( ), (45 3, 7) 36, , 3, 7 Da observationerne er inddelt i 6 kategorier, sammenligner vi teststørrelsen med χ -fordelingen med df = 6-1 = 5 frihedsgrader Opslag i Tabel C3 viser, at signifikanssandsynligheden er klart under 0,5% Vi kan altså med stor sikkerhed forkaste hypotesen, at dreng-pige-forholdet er Bin(5, 1/)-fordelt 68 wwwventusdk

69 Chi-kvadrat χ Lad os endelig udregne de standardiserede residualer: ri 5 piger 4,5 4 piger + 1 dreng -1, 3 piger + drenge -1,4 piger + 3 drenge -1,6 1 pige + 4 drenge -0,1 5 drenge, Det konstateres, at det er antallene af kvinder med 5 børn af samme køn, som er ekstreme og gør teststørrelsen stor 195 Eksempel (folketingsvalg) Opgave Ved folketingsvalget i februar 005 fordelte stemmeprocenterne sig således på partierne: A B C D O V Ø Andre 5,8 9, 10,3 6,0 13,3 9,0 3,4 3,0 I august 005 foretoges en Gallup-undersøgelse, hvor 1000 tilfældigt udvalgte personer blev spurgt, hvem de nu ville stemme på Resultatet blev: A B C D O V Ø Andre Nu kan teststørrelsen χ udregnes: ( O E ) (4 58) (5 30) = = + + =, 8 i i 615 i= 1 Ei Opslag i Tabel C3 under χ -fordelingen med df = 8-1 = 7 frihedsgrader viser, at signifikanssandsynligheden er under 50% Der er dermed ikke belæg for at konkludere, at partiernes vælgertilslutning har ændret sig Vi vil forbryde os mod formaningen i afsnit 193 og regne de standardiserede residualer ud For kategori A finder vi fx , 58 r = = 116, , 58 0, wwwventusdk

70 Chi-kvadrat χ Samlet fås A B C D O V Ø Andre -1,16-0,33-0,5 1,06 0,74 0,8 1,57-0, Eksempel (dødsfald i det preussiske kavaleri) I perioden registreredes antallet af dødsfald forårsaget af hestespark i 10 af det preussiske kavaleris dragonregimenter Af de i alt 00 regimentsår var der 109 år uden dødsfald, 65 år med 1 dødsfald, år med dødsfald, 3 år med 3 dødsfald, og 1 år med 4 dødsfald Vi vil undersøge, om disse tal kan stamme fra en Poissonfordeling Pois(λ) For at få forventede antal (næsten) større end 5, slår vi årene med 3 og 4 dødsfald sammen til én kategori og har dermed følgende observerede antal O i af år med i dødsfald: i Oi = 3 4 Intensiteten λ estimeres til ë = 1/00 = 0,61, da der i alt er 1 dødsfald i de 00 regimentsår Punktsandsynlighederne i en Pois(0,61)-fordeling er Tror du på et liv efter studierne? Det vil vi gerne give dig en god grund til Bliv telekonsulent hos Codan i Århus eller København, så undgår du at blive begravet af bøgerne For vi tilbyder dig mere end bare et studiejob Med -3 aftener om ugen kan du rent faktisk bygge bro mellem dit studieliv og dine fremtidige jobmuligheder hvad enten du sigter efter et fremtidigt job i Codans egen organisation, eller du er interesseret i de stærke kompetencer, som jobbet giver dig Dine arbejdsopgaver: Opfølgning på salgskampagner Gennemgang af forsikringerne hos vores nuværende kunder, så de er sikret lige præcis den dækning, der passer til deres behov Dine kvalifikationer: Du er udadvendt og kontaktskabende, og du sætter en ære i at give kunden den optimale service hver gang Du har en veludviklet analytisk evne til at sætte dig hurtigt ind i policer og andet forsikringsstof Du motiveres af at yde topresultater i et konkurrenceorienteret miljø Vi tilbyder dig: En god, fast timeløn suppleret med en god individuel bonus Et udviklingsprogram, der styrker både dine faglige og personlige kvalifikationer En mulighed for fastansættelse og karriere i Codan Sådan søger du: Send din ansøgning til mærket Telekonsulent Århus eller Telekonsulent København Vi glæder os til at høre fra dig Hos Codan skal kunderne være bedre sikret Codan er mere end et normalt forsikringsselskab Gennem vores dækning, vores skadebehandling og vores service tilbyder vi mere end de andre Derfor kan vores kunder altid vide sig bedre sikret med Codan Vores løfte til kunderne stiller store krav til kvaliteten af den rådgivning, den service, den hjælp og de løsninger, som vi tilbyder kunderne Derfor har vi behov for de bedste medarbejdere inden for de områder, som vi beskæftiger os med 70 wwwventusdk

71 Chi-kvadrat χ i pi 0 0, ,331 0,101 = 3 0,04 Det forventede antal bliver dermed i Ei 0 108,7 1 66,3 0, = 3 4,8 Læseren bør lade sig imponere af den slående lighed mellem forventede og observerede antal! Det er i grunden overflødigt at regne videre, men lad os alligevel bestemme teststørrelsen ( , 7) (65 66, 3) ( 0, ) (4 4, 8) 108, 7 66, 3 0, 4, 8 03 = =, Da der er 4 kategorier, og vi har estimeret et parameter ud fra data, skal teststørrelsen sammenlignes med χ - fordelingen med df = = frihedsgrader Opslag i Tabel C3 viser som ventet en signifikanssandsynlighed klart over 50% Eksemplet stammer i øvrigt fra Ladislaus von Bortkiewicz bog Das Gesetz der kleinen Zahlen fra wwwventusdk

72 Kontigenstabeller 0 Kontingenstabeller 01 Definition, metode Antag der foreligger et antal observationer, og observationerne er inddelt i kategorier efter to forskellige kriterier Man kan så opstille antallet af observationer i hver kategori i en kontingenstabel Formålet med det test, der her behandles, er at teste, om der er uafhængighed mellem de to kriterier, efter hvilke observationerne er inddelt Metode: Lad der være givet en r s-tabel med r rækker og s søjler: a11 a1 a1s a1 a as ar1 ar ars med rækkesummer R = s i a j= 1 ij og søjlesummer S = r j a i= 1 ij og samlet sum observerede antal O Rækkesandsynlighederne estimeres som N = a Dette er de ij i, j Ri pˆ i =, N og søjlesandsynlighederne estimeres som S j pˆ = j N Hvis der er uafhængighed mellem rækker og søjler, kan cellesandsynlighederne estimeres som Vi kan dermed beregne de forventede antal E: pˆ RS i j = pˆ ˆ p = N ij i j R, S N 1 1 R, S N 1 R, 1 S s N R, S N 1 R, S N R, S s N Rr, S N 1 Rr, S N Rr, S N s 7 wwwventusdk

73 Kontigenstabeller idet det forventede antal i den (i, j) te celle er E = N pˆ = RS / N ij i j Nu beregnes teststørrelsen ( ) ( O E) a RS / N ij i j = = E RS / N i j hvor der summeres over hver celle i tabellen Hvis uafhængighedshypotesen holder, og det forventede antal er mindst 5 i hver celle, er teststørrelsen χ -fordelt med df =(r - 1) (s - 1) frihedsgrader Vigtigt! Hvis data er givet som procenttal, skal de regnes om til absolutte tal, inden de skrives ind i kontingenstabellen 0 Standardiserede residualer Hvis uafhængighedshypotesen forkastes ved et χ -test, vil man, lige som i afsnit 193, være interesseret i at se, i hvilke celler det observerede antal afviger ekstremt fra det forventede antal De standardiserede residualer beregnes nu som r ij = O RS / n ij i j ( RS / n)(1 R/ n)(1 S / n) i j i j 73 wwwventusdk

74 Kontigenstabeller Hvis uafhængighedshypotesen var sand, ville hver r ij være normalfordelt med middelværdi μ = 0 og spredning σ = 1 Standardiserede residualer numerisk større end er derfor tegn på et ekstremt observeret antal 03 Eksempel (studieretning og politisk orientering) Opgave Med en undersøgelse på 3 danske universiteter blev 488 studerende spurgt, hvilket parti de ville stemme på, hvis der var valg i morgen Resultatet var (i forenklet form): Soc dem Rad V Kons SF DF Venstre Enhlist Ri Humaniora Natvidenskab Samfundsfag Sj Undersøg om der er uafhængighed mellem de studerendes studieretning og deres politiske orientering Svar: Vi har med at gøre med en 3 7-tabel og foretager et χ -test for uafhængighed Først regnes de forventede antal ud og opstilles i en tabel: RS E = i j 488 Soc dem Rad V Kons SF DF Venstre Enhlist Humaniora 3,5 35,4 15,8 16,4 7,4 44,1 5,5 Natvidenskab 34,6 37,6 16,8 17,5 7,9 46,9 5,8 Samfundsfag 33,9 37,0 16,5 17,1 7,7 46,0 5,7 Nu kan teststørrelsen = O E ( ) E regnes ud, idet de observerede antal O er tallene i den første tabel: (37 3, 5) (5 5, 7) 3, 5 5, = + + =, Teststørrelsen skal sammenlignes med χ -fordelingen med df = (3-1) (7-1) = 1 frihedsgrader Et opslag i Tabel C3 viser, at signifikanssandsynligheden er klart under 0,1%, og vi kan derfor klart forkaste uafhængighedshypotesen 74 wwwventusdk

75 Kontigenstabeller Lad os nu beregne de standardiserede residualer for at se, i hvilke celler de observerede antal er ekstreme Vi bruger formlen for r ij i afsnit 0 og får Soc dem Rad V Kons SF DF Venstre Enhlist Humaniora 1,1,9-0, 3,0-1,6-5,8,4 Natvidenskab -0,6 0,1 0,7 0, -0,4 0,9 -,0 Samfundsfag -0,5-3,0-0,5-3, -1,9 4,9-0,4 Der er altså ekstreme observationer i mange af cellerne 04 χ -test for -tabeller En kontingenstabel med rækker og søjler kaldes en -tabel Lad os skrive de observerede antal op således: a b c d Teststørrelsen bliver så ad bc = + + +, N E E E E hvor N = a + b + c + d er det totale antal observationer, og E ij er det forventede antal i den ij te celle Teststørrelsen χ skal sammenholdes med χ -fordelingen med df = ( - 1) ( - 1) = 1 frihedsgrad Ønskes det at foretage et ensidet test af uafhængighedshypotesen, kan teststørrelsen ad bc u = N E E E E beregnes Under uafhængighedshypotesen vil u være standardnormalfordelt 05 Fisher s eksakte test for -tabeller Der er intet i vejen for at bruge χ -testet på -tabeller, men der findes et bedre test, kaldet Fisher s eksakte test Fisher s eksakte test gør ikke brug af nogen normalapproksimation, så det kan altså også anvendes, når antallet af forventede observationer i en eller flere af cellerne er mindre end 5 Metode Lad der være givet en -tabel: a b c d 75 wwwventusdk

76 Kontigenstabeller med rækkesummer R 1 = a + b og R = c + d og søjlesummer S 1 = a + c og S 1 = b + d og samlet sum N = R 1 + R = S 1 + S = a + b + c + d Vi tester uafhængighedshypotesen H 0 mod den alternative hypotese H 1, at dia gonalsandsynlighederne p 11 og p er større, end hvis der havde været uafhængighed (Dette kan altid opnås ved evt at bytte om på rækkerne) Den betingede sandsynlighed for at få netop ovenstående -tabel givet at rækkesummerne er R 1 og R, og søjlesummerne er S 1 og S, er P R! R! S! S! Nabcd!!!!! 1 1 betinget = Signifikanssandsynligheden i Fisher s eksakte test er nu summen af P betinget taget på alle -tabeller med samme række- og søjlesummer som den givne, og som er ligeså ekstreme eller mere ekstreme end den givne: P R! R! S! S! min{, } 1 1 Fisher = bc i= N! a+ i! b i! c i! d + i! 0 ( ) ( ) ( ) ( ) Uafhængighedshypotesen H 0 forkastes, hvis P Fisher er mindre end 5% (eller hvad man nu vælger som signifikansniveau) Tilføjelse: Hvis man tester ensidet, altså ikke mod en specifik alternativ hypotese, bliver signifikanssandsynl igheden P Fisher Det forlanges dog samtidig, at -tabellen er skrevet sådan op, at de observerede antal i diagonalen er større end de forventede antal (kan altid opnås ved at bytte om på rækkerne om nødvendigt) 76 wwwventusdk

77 Kontigenstabeller 06 Eksempel (Fisher s eksakte test) I et medicinsk forsøg med alternativ behandling medvirker 10 patienter, som inddeles tilfældigt i grupper med 5 i hver Patienterne i den ene gruppe behandles med akupunktur, mens patienterne i den anden gruppe ingen behandling får Ved forsøgets ophør konstateres, om hver patient er syg eller rask Resultatet kan opstilles i en -tabel: raske syge akupunktur 4 1 ingen behandling 3 Signifikanssandsynligheden i Fisher s eksakte test beregnes nu: !!!! Fisher i= 0 10!(4 + i)!(1 i)!( i)!(3 + i)! P = = 6% Med en så stor signifikanssandsynlighed kan der ikke påvises nogen effekt af akupunkturbehandling 77 wwwventusdk

78 Fordelingsfri test 1 Fordelingsfri test I alle de test, vi hidtil har set på, har vi vidst noget om den fordeling, de givne observationer stammede fra Vi har fx vidst, at fordelingen var en normalfordeling, selvom vi ikke kendte middelværdien eller spredningen I visse tilfælde kommer man imidlertid ud for, at man intet ved om den bagvedliggende fordeling Man må da bruge en fordelingsfri test(også kaldet ikke-parametrisk test) 11 Wilcoxons test for ét sæt observationer Lad der være givet n uafhængige observationer d 1,d n fra en ukendt fordeling Vi tester nul-hypotesen H 0 : Den ukendte fordeling er symmetrisk omkring 0 Hver observation d i tildeles et rangtal, som er et af tallene 1,,, n Denne tildeling sker således, at observationen med den laveste numeriske værdi får rangtallet 1, observationen med den næstlaveste numeriske værdi får rangtallet, osv Definér nu teststørrelserne t t + = = (rangtal svarende til positive d ) (rangtal svarende til negative d ) (På dette tidspunkt kan man checke, at der gælder t + + t - = n(n + 1)/; hvis ikke, har man regnet galt) Hvis H 0 holder, vil t + og t - være cirka lige store Hvornår H 0 forkastes, afhænger af, om man foretager et eneller tosidet test i i Hvis H 0 ikke testes mod nogen særlig alternativ hypotese, forkastes nulhypotesen, hvis t + er ekstremt stor eller ekstremt lille Testet er med andre ord tosidet Sæt t := min{t +, t - } Vælg et signifikansniveau α, og slå op i Tabel C8 under n og α (bemærk at signifikansniveauet bliver det dobbelte af det i tabellen anførte) Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Hvis man derimod tester H 0 mod den alternative hypotese H 1 : Den ukendte fordeling giver overvejende positive (hhv negative) observationer, så forkastes H 0 kun, hvis t + er ekstremt stor (hhv ekstremt lille) Testet er altså ensidet Sæt t := t - (hhv t := t + ) Vælg et signifikansniveau α, og slå op i Tabel C8 under n og α Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Ovenstående test finder primært anvendelse, når der foreligger to sæt af observationer x 1,x n og y 1,y n, og d i er differensen mellem før-værdien x i og efter-værdien y i, altså d i = x i - y Hvis der kun er tilfældige, i usystematiske forskelle mellem før- og efter-værdierne, følger, at d i erne er fordelt symmetrisk omkring 0 78 wwwventusdk

79 Fordelingsfri test 1 Eksempel Et forsøg med 10 personer skal vise, om motion virker blodtrykssænkende Ved forsøgets start måles de 10 forsøgspersoners blodtryk Disse observationer kaldes x 1,,x 10 Efter en måneds motion måles blodtrykkene atter Disse observationer kaldes y 1,,y 10 Vi vil nu teste nul-hypotesen H 0 : Motion spiller ingen rolle for blodtrykket De 10 differenser d i = x i - y i vil derfor være fordelt symmetrisk omkring 0, mod den alternative hypotese H 1 : Motion virker blodtrykssænkende De 10 differenser d i vil derfor være overvejende positive Vi beregner rangtallene og t + og t - : Person Førværdi xi Efterværdi yi Differens di Rangtal t + = = 46, t + = = 9 79 wwwventusdk

80 Fordelingsfri test Vi sætter altså t := 9 og forkaster H 0, hvis t er ekstremt lille Et opslag i Tabel C8 med signifikansniveau α = 5% viser, at ekstremt lille betyder 10 Konklusion: testet viser, at nul-hypotesen H 0 ikke kan opretholdes mod den alternative hypotese H 0 på signifi kansniveau 5% 13 Normalapproksimation til Wilcoxons test for ét sæt observationer Tabel C8 går op til n = 50 Hvis antallet af observationer er større, kan man benytte en normalfordelingsap proksimation Der gælder nemlig under forudsætning af nul-hypotesen, at teststørrelsen t + er approksimativt normalfordelt med middelværdi ( 1) ì = nn+ 4 og spredning nn ( + 1)(n+ 1) ó = 4 Signifikanssandsynligheden findes derfor ved at sammenholde teststørrelsen ì = t + z ó med Tabel C over standardnormalfordelingen Eksempel Lad os bruge normalapproksimationen til at finde signifikanssandsynligheden i forrige eksempel (selvom n her er mindre end 50, og approksimationen derfor ikke bliver helt præcis) Vi får μ = 7,5 og σ = 9,81 Teststørrelsen bliver derfor z = 1,89, hviket giver signifikanssandsynligheden,9% Konklusionen er altså den samme, nemlig at H 0 forkastes på signifikansniveau 5% 14 Wilcoxons test for to sæt observationer Lad der være givet to sæt x 1,,x n og y 1,,y n af uafhængige observationer, og antag n m Vi tester nul-hypotesen H 0 : Observationerne stammer fra samme fordeling Hver af de n + m observationer tildeles et rangtal, som er et af tallene 1,,, n + m Denne tildeling sker således, at observationen med den laveste numeriske værdi får rangtallet 1, observationen med den næstlaveste numeriske værdi får rangtallet, osv Definér teststørrelsen t = ( x i ernes rangtal) Om H 0 forkastes, afhænger af, om man foretager et en- eller tosidet test 80 wwwventusdk

81 Fordelingsfri test Hvis H 0 ikke testes mod nogen særlig alternativ hypotese, forkastes nulhypotesen, hvis t er ekstremt stor eller ekstremt lille Testet er med andre ord tosidet Sæt t := min{t +, t - } Vælg et signifikansniveau α, og slå op i Tabel C9 under n og α (bemærk at signifikansniveauet bliver det dobbelte af det i tabellen anførte) Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes Hvis man derimod tester H 0 mod den alternative hypotese H 1 : x i erne er overvejende større (hhv mindre) end y i erne, så forkastes H 0 kun, hvis t er ekstremt stor (hhv ekstremt lille) Testet er altså ensidet Vælg et signifikansniveau α, og slå op i Tabel C9 under n og α Hvis t er mindre eller lig tabelværdien, så forkaster man H 0 Hvis t er større end tabelværdien, kan H 0 ikke forkastes 15 Normalapproksimation til Wilcoxons test for to sæt observationer Tabel C9 kan benyttes for moderate værdier af n og m Hvis antallet af observationer er større, kan man benytte en normalfordelingsapproksimation Der gælder nemlig under forudsætning af nul-hypotesen, at teststørrelsen t er approksimativt normalfordelt med middelværdi ( + + 1) ì = nn m og spredning nm( n + m + 1) ó = 1 Signifikanssandsynligheden findes derfor ved at sammenholde teststørrelsen ì z = t ó med Tabel C over standardnormalfordelingen 81 wwwventusdk

82 Lineær regression Lineær regression 1 Modellen Lad der være givet en stikprøve bestående af n observationspar (x 1, y 1 ), (x, y ), (x n, y n ) Vi opstiller den model, at hvert y i er en observation fra en stokastisk variabel Y i = β 0 + β 1 x i + E i hvor E i erne er uafhængige normalfordelte stokastiske variable med middelværdi 0 og fælles varians σ Vi kan altså skrive hvert y i som y i = β 0 + β 1 x i + e i hvor e i er en observation fra E i Man kalder y i responsvariablen, x i den forklarende variabel og e i restleddet Estimering af parametrene β 0 og β 1 Lad x være gennemsnittet af x i erne og y gennemsnittet af y i erne Definér summen af afvigelsernes produkter 8 wwwventusdk

83 Lineær regression n xy i i i= 1 SAP = ( x x)( y y) samt summen af afvigelsernes kvadrater n i= 1 SAK = ( x x) x i Parametrene β 0 og β 1 i regressionsligningen estimeres da som SAPxy ˆâ 1= SAK x ∠ˆ 0= y â1x 3 Estimatorernes fordeling Hvis modellens forudsætningerne er opfyldt, er estimatoren ˆâ 0 normalfordelt med middelværdi β 0 (estimatoren er altså middelret) og varians ó (1/ n+ x / SAKx ) Der gælder med andre ord ∠â ó 1 ˆ x 0 N 0, + n SAK x Endvidere er estimatoren ˆâ 1 normalfordelt med middelværdi β 1 (denne estimator er altså også middelret) og varians σ /SAK x Der gælder med andre ord ∠ˆ ó N â, SAK x Forudsagte værdier y ˆi og residualer eˆi Ud fra estimaterne ˆâ 0 og ˆâ 1 kan for hvert i den forudsagte værdi af y i beregnes som ˆ = ∠+ ∠y i 0 1x i Det i te residual e ˆi er forskellen mellem den faktiske værdi y i og den forudsagte værdi y ˆ i : eˆ = y yˆ i i i Residualet e ˆi er et estimat for restleddet e i 5 Estimering af variansen σ Man indfører summen af residualernes kavdrater SRK = n eˆ i i= 1 Restleddenes varians σ estimeres nu som 83 wwwventusdk

84 Lineær regression SRK s = n Denne estimator er middelret (men ikke lig ML-estimatoren) 6 Konfidensinterval for parametrene β 0 og β 1 Når man har estimeret parametrene β 0 og β 1, kan man beregne konfidensintervallet med konfidensgrad 1 - α omkring estimaterne ˆâ 0 og ˆâ 1 Disse er 1 x ˆâ ± t 0 1 á / s + n SAKx s ˆâ 1 ± t1 á / SAK x Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - 1 frihedsgrader, se også afsnit Determinationskoefficienten R For at undersøge, hvor godt modellen med de estimerede parametre kan beskrive de faktiske observationer, beregnes determinationskoefficienten R SAK y = SAK SRK y R ligger i intervallet [0, 1] og angiver den andel af y i ernes variation, der af modellen beskrives som en lineær funktion af x i erne Huskeregel: Jo større determinationskoefficenten R er, des bedre beskriver modellen observationerne 8 Forudsigelser og prediktionsinterval Lad der være givet et reelt tal x 0 Funktionsværdien y 0 = β 0 + β 0 x 0 estimeres eller forudsiges da som yˆ = ∠+ ∠x Konfidensintervallet eller prediktionsintervallet med konfidensgrad 1 - α omkring estimatet ŷ 0 er da 1 ( x x) 0 0 ± t1 a / s + + n SAKx yˆ 1 84 wwwventusdk

85 Lineær regression Tallet t 1-α/ er fastlagt ved F(u 1-α/ ) = 1 - α/, hvor F er fordelingsfunktionen for Student s t-fordeling med n - frihedsgrader, se også afsnit Oversigt over formler Sx = x = S / n SK n x i= 1 i x n x = x i= 1 i n x = ( ) = / i= 1 i x x x = x/ ( 1) n xy = x = 1 i y i i n xy ( )( ) i= 1 i i xy x y SAK x x SK S n s SAK n SP SAP = x x y y = SP S S / n ˆâ 1= SAPxy/ SAK x ∠ˆ 0= y â1x yˆ i = be0 + ˆ1xi eˆ i = yi yˆ i n SRK = ˆ = / i= 1 ei SAK y SAPxy SAK x s = SRK/ ( n ) R = 1 SRK/ SAK y Summen af x i erne Gennemsnittet af x i erne Summen af kvadraterne af x i erne Summen af afvigelsernes kvadrater empirisk varians af x i erne Summen af produkterne Summen af afvigelsernes produkter Estimatet på β 1 Estimatet på β 0 Forudsagt værdi af y i Det i te residual Summen af residualernes kvadrater Estimatet på σ Determinationskoefficienten 10 Eksempel Opgave Det hævdes, at temperaturen i Andesbjergene falder med 6 grader pr 1000 meter Ved en samtidig måling på 10 forskellige lokaliteter inden for et afgrænset område fandtes følgende temperaturer: ALM BRAND - beskæftiger sig med forsikring, bank, liv og pension, bilfinansiering, leasing samt børsmæglervirksomhed Begrebet»Alm sund fornuft«afspejler den holdning, vi står for i vores betjening af kunderne Vi er en af Danmarks større finanskoncerner med en omsætning på knap 7 miakr Vi lægger vægt på at være lokale, og over halvdelen af koncernens 1500 medarbejdere arbejder tæt på kunden på vores forsikringskontorer og bankfilialer over hele landet Vores forsikringsprodukter dækker såvel private som erhvervsvirksomheder og landbrug Banken er blandt Danmarks 10 største banker og tilbyder et bredt sortiment af indlåns-, udlåns- og investeringsprodukter til attraktive priser ALM BRAND UDFORDRINGER FOR STUDERENDE OG NYUDDANNEDE KANDIDATER! Alm Brand Bank er blandt de større pengeinstitutter i Danmark Banken tilbyder en bred palette af bankprodukter, som vi løbende udvikler, så de dækker en typisk families behov Vi tilbyder samtidigt højt kvalificeret rådgivning om investering, pension og bolig for privatkunder Banken henvender sig også til udvalgte kundesegmenter indenfor det professionelle investeringsmarked, landbrug og bilfinansiering Banken varetager derudover Alm Brand Koncernens aktiviteter inden for kapitalforvaltning, valuta samt handel med og analyse af obligationer, aktier og pantebreve Alm Brand Bank Koncernens forretningsaktiviteter er fordelt på følgende områder: Detailbanken Engrosbanken Bilkredit og Leasing VI TILBYDER Alm Brand Bank er en moderne virksomhed, der løbende søger dygtige studentermedhjælpere og nyuddannede kandidater Alm Brand prioriterer medarbejdertilfredshed højt, og er du villig til at tage et medansvar, kan vi tilbyde et spændende job med indflydelse, udfordringer og mulighed for at præge din egen hverdag ANSØGNING Har du lyst til at arbejde i Alm Brand, er du meget velkommen til at sende en uopfordret ansøgning med oplysninger om ønsket beskæftigelse, kvalifikationer og CV Send din ansøgning pr til: eller med post til: Alm Brand Personaleudvikling Midtermolen København Ø WWWALMBRANDDK ALMSUND FORNUFT 85 wwwventusdk

86 Lineær regression Højde xi (meter) Temperatur yi (grader) Vi antager en lineær regressionsmodel: y 0 = β 0 + β 0 x 0 hvor restleddene e i er uafhængige normalfordelte med middelværdi 0 og samme varians σ 1) Estimer parametrene β 0 og β 1 ) Bestem konfidensintervallet med konfidengrad 95% for β 1 3) Kan hypotesen H 0 : β 1 = -0,006 opretholdes? 4) Hvor stor en del af temperaturforskellene kan forklares som en lineær funktion af højden? Svar: Vi foretager først de relevante beregninger: x 10 x = S / 10 = x i= 1 i x = x x/ = 10 xy i= 1 i i 1 x S = x = 7500 x i= 1 i SK = = SAK SK S SP = x y = ˆâ = SAP / SAK = 00061, xy SRK SAK SAP SAK x = y xy/ x =, R = 1 SRK/ SAK = 0948, y 41 y 10 S = y = 1 i= 1 i y = S / 10 = 1, y y 10 y i= 1 i SK = = 859 SAK SK S y = y y/ =, SAP = SP S S / 10 = 1650 xy xy x y ∠= y ∠x = 189, s = SRK/ 8= 56, 1) Det aflæses direkte af beregningerne, at estimaterne på β 0 og β 1 er ˆâ 0 = 18,9, ˆâ 1 = - 0, wwwventusdk

87 Lineær regression ) Tallet t 0,975 findes i Tabel C4 under df = 10-1 = 9 frihedsgrader at være t 0,975 =,31 (se også afsnit 158) Konfidensintervallet omkring ˆâ 1 bliver dermed 56, 56,, , 31,, , 31 =, [ ,, ] ) Hypotesen H 0 : β 1 = -0,006 opretholdes, da denne værdi ligger i konfidensintervallet 4) Den del af temperaturforskellene, som kan beskrives ved hjælp af en lineær funktion af højden, er netop determinationskoefficienten R = 94,8% At R er høj, viser, at de faktiske temperaturer ligger ganske tæt på de forudsagte Dette fremgår også af nedenstående figur, som viser, at de faktiske temperaturer kun afviger lidt fra regressionslinjen: Figur 8 87 wwwventusdk

88 Engelsk-dansk ordliste A Engelsk-dansk ordliste Alternative hypothesis Analysis of variance (ANOVA) Arithmetic mean Biased estimator Binomial coefficient Binomial distribution Central limit theorem Centralised sum Chi-square distribution Chi-square test Conditional probability Confidence interval Contingency table Continuity, correction for Correction for continuity Correlation Correlation coefficient Covariance Critical value Cumulative probability Degrees of freedom Density Alternativ hypotese Variansanalyse (ANOVA) Aritmetisk gennemsnit Skæv (modsat middelret) estimator Binomialkoefficient Binomialfordeling Den centrale grænseværdisætning Centraliseret sum Chi-kvadrat-fordeling, χ -fordeling Chi-kvadrat-test, χ -test Betinget sandsynlighed Konfidensinterval Kontingenstabel Korrektion for kontinuitet Korrektion for kontinuitet Korrelation Korrelationskoefficient Covarians Kritisk værdi Kumuleret sandsynlighed Frihedsgrader Tæthed 88 wwwventusdk

89 Engelsk-dansk ordliste Density function Tæthedsfunktion Density, marginal Marginal tæthed Density, simultaneous Simultan tæthed Disjoint Disjunkte (fx hændelser) Discrete (distribution) Diskret (fordeling) Distribution Fordeling Distribution function Fordelingsfunktion Empirical (variance) Empirisk (varians) Error (of type I or II) Fejl (af type I eller II) Estimate Estimat Estimation Estimering Event Hændelse Expectation value Middelværdi Expected number/frequency Forventet antal Exponential distribution Eksponentialfordeling F-distribution F-fordeling F-test F-test Freedom, degrees of Frihedsgrader Geometric distribution Geometrisk fordeling Goodness of fit Fordelingslighed Grand mean Samlet gennemsnit Hypothesis Hypotese Independent (events, stoch vars) Uafhængige (hændelser, stok var) Inter block variance Varians mellem stikprøverne Intra block variance Varians inden for stikprøverne Inter quartile range Afstand mellem 1 og 3 kvartil Intersection Fællesmængde Law of large numbers Store tals lov Least squares method Mindste kvadraters metode Level of significance Signifikansniveau Likelihood (function) Likelihood (-funktion) Linear regresssion Lineær regression Map Afbildning, funktion Marginal (density, distribution) Marginal (tæthed, fordeling) Maximum likelihood estimator Maksimum likelihood-estimator (ML-estimator) Mean Gennemsnit Mean square Gennemsnitlig kvadratafvigelse ( i ) / x x n Median Median ML-estimator Maksimum likelihood-estimator (ML-estimator) Moments Momenter Multinomial distribution Multinomialfordeling Multiple regression Multipel (lineær) regression 89 wwwventusdk

90 Engelsk-dansk ordliste Non-parametric test Ikke-parametrisk test Normal distribution Normalfordeling Normed normal distribution Standardnormalfordeling Normed sum Normeret sum Null hypothesis Nulhypotese Observed number/frequency Observeret antal One-sided test Ensidet test Outlier Outlier (ekstrem observation) Point estimation Punktestimering Poisson distribution Poisson fordeling Pooled variance Pooled varians Probability Sandsynlighed Probability function Sandsynlighedsfunktion Probability space Sandsynlighedsfelt Quartile Kvartil Random variable Stokastisk variable Rank Rang, rangtal Rank sum Sum af rangtal Reject Forkaste Root mean square Kvadratroden af den gennemsnitlige kvadratafvigelse Sample Stikprøve; udfald Sample correlation coefficient Empirisk korrelationskoefficient Sample mean Gennemsnit Sample size Stikprøvestørrelse Sample space Udfaldsrum Sample variance Empirisk varians Sampling distribution Fordeling af teststørrelse Set Mængde Significance level Signifikansniveau Slope Hældning, hældningskoefficient Standard deviation Spredning Statistic Teststørrelse Stochastic variable stokastisk variabel Student s t Student s t (test, fordeling) Tail probability (left/right) Halesandsynlighed (højre/venstre) Test Test Two-sided test Tosidet test Type I or II error Fejl af type I eller Unbiased estimator Middelret (modsat skæv) estimator Uniform distribution Ligefordeling Union Foreningsmængde Variance Varians 90 wwwventusdk

91 Oversigt over diskrete fordelinger B Oversigt over diskrete fordelinger Fordeling Beskrivelse Værdier Punktsandsynligheder Middelværdi Varians Binomialfordelingen Bin(n, p) Poissonfordelingen Pois( λ ) Antal succeser i n forsøg Antal spontane begivenheder i et tidsinterval k = 0, 1,, n n np npq pq k n k k k k = 0, 1, λ λ k! λ λ Den geometriske fordeling Geo(p) Antal fiaskoer før succes k = 0, 1, q k p q / p q / p Den hypergeometriske fordeling HG(n, r, N) Antal røde kugler blandt n udtrukne k = 0,, min{n, r} r s k n k N n nr / N nrs( N n) N ( N 1) Den negative binomialfor -deling NB(n, p) Miltinomialf ordelingen Mult(n, p1,, pr) Antal fiaskoer før n te succes Antal udfald af hver type k = 0, 1, n + k 1 nq / p nq / p n k p q n 1 (k1,, kr) hvor k i = n n k1 kr p k i i wwwventusdk

92 Tabeller C Tabeller C1 Sådan forstås tabellerne Tabel C angiver værdier af fordelingsfunktionen 1 1 Φ ( u) = u exp t dt ð for standardnormalfordelingen Tabel C3 angiver værdier af x, for hvilke fordelingsfunktionen F for χ -fordelingen med df frihedsgrader tager værdierne F(x) = 0,500, F(x) = 0,600 etc Tabel C4 angiver værdier af x, for hvilke fordelingsfunktionen F for Student s t-fordeling med df frihedsgrader tager værdierne F(x) = 0,600, F(x) = 0,700 etc Tabel C5, Tabel C6 og Tabel C7 angiver værdier af x, for hvilke fordelingsfunktionen F for Fisher s F- fordeling med n frihedsgrader i tælleren (øverste linje) og m frihedsgrader i nævneren (venstre søjle) tager værdierne F(x) = 0,10, F(x) = 0,05 og F(x) = 0,01 Tabel C8 angiver for 4 værdier af α det største tal T, så der om teststørrelsen t + fra Wilcoxons test for et sæt observationer gælder P(t + T) < α Tabel C9 angiver det største tal T, så der om teststørrelsen t fra Wilcoxons test for to sæt observationer gælder P(t T) < α Startguidendk samler al information for iværksættere Her kan nystartede virksomheder - og personer, der overvejer at blive selvstændige - få information om fx skatteforhold, forsikringer, markedsføring, ansættelse af medarbejdere og finansiering Målet er at Startguidendk skal være en interaktiv markedsplads, hvor iværksættere finder og sparer med hinanden, får redskaber stillet til rådighed og hurtigt får svar på de spørgsmål, som altid melder sig ved start af virksomhed 9 wwwventusdk

93 Tabeller C Standardnormalfordeligen u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u) 0,00 0,5000 0,5000 0,36 0,6406 0,3594 0,7 0,764 0,358 0,01 0,5040 0,4960 0,37 0,6443 0,3557 0,73 0,7673 0,37 0,0 0,5080 0,490 0,38 0,6480 0,350 0,74 0,7704 0,96 0,03 0,510 0,4880 0,39 0,6517 0,3483 0,75 0,7734 0,66 0,04 0,5160 0,4840 0,40 0,6554 0,3446 0,76 0,7764 0,36 0,05 0,5199 0,4801 0,41 0,6591 0,3409 0,77 0,7794 0,06 0,06 0,539 0,4761 0,4 0,668 0,337 0,78 0,783 0,177 0,07 0,579 0,471 0,43 0,6664 0,3336 0,79 0,785 0,148 0,08 0,5319 0,4681 0,44 0,6700 0,3300 0,80 0,7881 0,119 0,09 0,5359 0,4641 0,45 0,6736 0,364 0,81 0,7910 0,090 0,10 0,5398 0,460 0,46 0,677 0,38 0,8 0,7939 0,061 0,11 0,5438 0,456 0,47 0,6808 0,319 0,83 0,7967 0,033 0,1 0,5478 0,45 0,48 0,6844 0,3156 0,84 0,7995 0,005 0,13 0,5517 0,4483 0,49 0,6879 0,311 0,85 0,803 0,1977 0,14 0,5557 0,4443 0,50 0,6915 0,3085 0,86 0,8051 0,1949 0,15 0,5596 0,4404 0,51 0,6950 0,3050 0,87 0,8078 0,19 0,16 0,5636 0,4364 0,5 0,6985 0,3015 0,88 0,8106 0,1894 0,17 0,5675 0,435 0,53 0,7019 0,981 0,89 0,8133 0,1867 0,18 0,5714 0,486 0,54 0,7054 0,946 0,90 0,8159 0,1841 0,19 0,5753 0,447 0,55 0,7088 0,91 0,91 0,8186 0,1814 0,0 0,5793 0,407 0,56 0,713 0,877 0,9 0,81 0,1788 0,1 0,583 0,4168 0,57 0,7157 0,843 0,93 0,838 0,176 0, 0,5871 0,419 0,58 0,7190 0,810 0,94 0,864 0,1736 0,3 0,5910 0,4090 0,59 0,74 0,776 0,95 0,889 0,1711 0,4 0,5948 0,405 0,60 0,757 0,743 0,96 0,8315 0,1685 0,5 0,5987 0,4013 0,61 0,791 0,709 0,97 0,8340 0,1660 0,6 0,606 0,3974 0,6 0,734 0,676 0,98 0,8365 0,1635 0,7 0,6064 0,3936 0,63 0,7357 0,643 0,99 0,8359 0,1641 0,8 0,6103 0,3897 0,64 0,7389 0,611 1,00 0,8413 0,1587 0,9 0,6141 0,3859 0,65 0,74 0,578 1,01 0,8438 0,156 0,30 0,6179 0,381 0,66 0,7454 0,546 1,0 0,8461 0,1539 0,31 0,617 0,3783 0,67 0,7485 0,515 1,03 0,8485 0,1515 0,3 0,655 0,3745 0,68 0,7517 0,483 1,04 0,8508 0,149 0,33 0,693 0,3707 0,69 0,7549 0,451 1,05 0,8531 0,1469 0,34 0,6331 0,3669 0,70 0,7580 0,40 1,06 0,5540 0,4460 0,35 0,6368 0,363 0,71 0,7611 0,389 1,07 0,8577 0, wwwventusdk

94 Tabeller u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u) 1,08 0,8599 0,1401 1,45 0,965 0,0735 1,8 0,9656 0,0344 1,09 0,861 0,1379 1,46 0,979 0,071 1,83 0,9664 0,0336 1,10 0,8643 0,1357 1,47 0,99 0,0708 1,84 0,9671 0,039 1,11 0,8665 0,1335 1,48 0,9306 0,0694 1,85 0,9678 0,03 1,1 0,8686 0,1314 1,49 0,9319 0,0681 1,86 0,9686 0,0314 1,13 0,8708 0,19 1,50 0,933 0,0668 1,87 0,9693 0,0307 1,14 0,879 0,171 1,51 0,9345 0,0655 1,88 0,9699 0,0301 1,15 0,8749 0,151 1,5 0,9357 0,0643 1,89 0,9706 0,094 1,16 0,8770 0,130 1,53 0,9370 0,0630 1,90 0,9713 0,087 1,17 0,8790 0,110 1,54 0,938 0,0618 1,91 0,9719 0,081 1,18 0,8810 0,1190 1,55 0,9394 0,0606 1,9 0,976 0,074 1,19 0,8830 0,1170 1,56 0,9406 0,0594 1,93 0,973 0,068 1,0 0,8849 0,1151 1,57 0,9418 0,058 1,94 0,9738 0,06 1,1 0,8869 0,1131 1,58 0,949 0,0571 1,95 0,9744 0,056 1, 0,8888 0,111 1,59 0,9441 0,0559 1,96 0,9750 0,050 1,3 0,8907 0,1093 1,60 0,945 0,0548 1,97 0,9756 0,044 1,4 0,895 0,1075 1,61 0,9463 0,0537 1,98 0,9761 0,039 1,5 0,8944 0,1056 1,6 0,9474 0,056 1,99 0,9767 0,033 1,6 0,896 0,1038 1,63 0,9484 0,0516,00 0,977 0,08 1,7 0,8980 0,100 1,64 0,9495 0,0505,01 0,9778 0,0 1,8 0,8997 0,1003 1,65 0,9505 0,0495,0 0,9783 0,017 1,9 0,9015 0,0985 1,66 0,9515 0,0485,03 0,9788 0,01 1,30 0,903 0,0968 1,67 0,955 0,0475,04 0,9793 0,007 1,31 0,9049 0,0951 1,68 0,9535 0,0465,05 0,9798 0,00 1,3 0,9066 0,0934 1,69 0,9545 0,0455,06 0,9803 0,0197 1,33 0,908 0,0918 1,70 0,9554 0,0446,07 0,9808 0,019 1,34 0,9099 0,0901 1,71 0,9564 0,0436,08 0,981 0,0188 1,35 0,9115 0,0885 1,7 0,9573 0,047,09 0,9817 0,0183 1,36 0,9131 0,0869 1,73 0,958 0,0418,10 0,981 0,0179 1,37 0,9147 0,0853 1,74 0,9591 0,0409,11 0,986 0,0174 1,38 0,916 0,0838 1,75 0,9599 0,0401,1 0,9830 0,0170 1,39 0,9177 0,083 1,76 0,9608 0,039,13 0,9834 0,0166 1,40 0,919 0,0808 1,77 0,9616 0,0384,14 0,9838 0,016 1,41 0,907 0,0793 1,78 0,965 0,0375,15 0,984 0,0158 1,4 0,9 0,0778 1,79 0,9633 0,0367,16 0,9846 0,0154 1,43 0,936 0,0764 1,80 0,9641 0,0359,17 0,9850 0,0150 1,44 0,951 0,0749 1,81 0,9649 0,0351,18 0,9854 0, wwwventusdk

95 Tabeller u Φ Φ(-u) u Φ Φ(-u) u Φ Φ(-u),19 0,9857 0,0143,4 0,99 0,0078,65 0,9960 0,0040,0 0,9861 0,0139,43 0,995 0,0075,66 0,9961 0,0039,1 0,9864 0,0136,44 0,997 0,0073,67 0,996 0,0038, 0,9868 0,013,45 0,999 0,0071,68 0,9963 0,0037,3 0,9871 0,019,46 0,9931 0,0069,69 0,9964 0,0036,4 0,9875 0,015,47 0,993 0,0068,70 0,9965 0,0035,5 0,9878 0,01,48 0,9934 0,0066,71 0,9966 0,0034,6 0,9881 0,0119,49 0,9936 0,0064,7 0,9967 0,0033,7 0,9884 0,0116,50 0,9938 0,006,73 0,9968 0,003,8 0,9887 0,0113,51 0,9940 0,0060,74 0,9969 0,0031,9 0,9890 0,0110,5 0,9941 0,0059,75 0,9970 0,0030,30 0,9893 0,0107,53 0,9943 0,0057,76 0,9971 0,009,31 0,9896 0,0104,54 0,9945 0,0055,77 0,997 0,008,3 0,9898 0,010,55 0,9946 0,0054,78 0,9973 0,007,33 0,9901 0,0099,56 0,9948 0,005,79 0,9974 0,006,34 0,9904 0,0096,57 0,9949 0,0051,80 0,9974 0,006,35 0,9906 0,0094,58 0,9951 0,0049,81 0,9975 0,005,36 0,9909 0,0091,59 0,995 0,0048,8 0,9976 0,004,37 0,9911 0,0089,60 0,9953 0,0047,83 0,9977 0,003,38 0,9913 0,0087,61 0,9955 0,0045,84 0,9977 0,003,39 0,9916 0,0084,6 0,9956 0,0044,85 0,9978 0,00,40 0,9918 0,008,63 0,9957 0,0043,86 0,9979 0,001,41 0,990 0,0080,64 0,9959 0,0041,87 0,9979 0, wwwventusdk

96 Tabeller u Φ Φ(-u),88 0,9980 0,000,89 0,9981 0,0019,90 0,9981 0,0019,91 0,998 0,0018,9 0,998 0,0018,93 0,9983 0,0017,94 0,9984 0,0016,95 0,9984 0,0016,96 0,9985 0,0015,97 0,9985 0,0015,98 0,9986 0,0014,99 0,9986 0,0014 3,00 0,9987 0,0013 3,10 0,9990 0,0010 3,0 0,9993 0,0007 3,30 0,9995 0,0005 3,40 0,9997 0,0003 3,50 0,9998 0,000 3,60 0,9998 0,000 3,70 0,9999 0,0001 3,80 0,9999 0,0001 3,90 1,0000 0,0000 4,00 1,0000 0, wwwventusdk

97 Tabeller C3 χ -fordelingen df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,45 0,71 1,07 1,64,71 3,84 5,0 6,63 7,88 10,83 1,39 1,83,41 3, 4,61 5,99 7,38 9,1 10,60 13,8 3,37,95 3,66 4,64 6,5 7,81 9,35 11,34 1,84 16,7 4 3,36 4,04 4,88 5,99 7,78 9,49 11,14 13,8 14,86 18,47 5 4,35 5,13 6,06 7,9 9,4 11,07 1,83 15,10 16,75 0,5 6 5,35 6,1 7,3 8,56 10,64 1,59 14,45 16,81 18,55,46 7 6,35 7,8 8,38 9,80 1,0 14,07 16,01 18,48 0,8 4,3 8 7,34 8,35 9,5 11,03 13,36 15,51 17,53 0,09 1,95 6,1 9 8,34 9,41 10,66 1,4 14,68 16,9 19,0 1,67 3,59 7, ,34 10,47 11,78 13,44 15,99 18,31 0,48 3,1 5,19 9, ,34 11,53 1,90 14,63 17,8 19,68 1,9 4,7 6,76 31,6 1 11,34 1,58 14,01 15,81 18,55 1,03 3,34 6, 8,30 3, ,34 13,64 15,1 16,98 19,81,36 4,74 7,69 9,8 34, ,34 14,69 16, 18,15 1,06 3,68 6,1 9,14 31,3 36, ,34 15,73 17,3 19,31,31 5,00 7,49 30,58 3,80 37, ,34 16,78 18,4 0,47 3,54 6,30 8,85 3,00 34,7 39, ,34 17,8 19,51 1,61 4,77 7,59 30,19 33,41 35,7 40, ,34 18,87 0,60,76 5,99 8,87 31,53 34,81 37,16 4, ,34 19,91 1,69 3,90 7,0 30,14 3,85 36,19 38,58 43,8 0 19,34 0,95,77 5,04 8,41 31,41 34,17 37,57 40,00 45,31 1 0,34 1,99 3,86 6,17 9,6 3,67 35,48 38,93 41,40 46,80 97 wwwventusdk

98 Tabeller df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0,999 1,34 3,03 4,94 7,30 30,81 33,9 36,78 40,9 4,80 48,7 3,34 4,07 6,0 8,43 3,01 35,17 38,08 41,64 44,18 49,73 4 3,34 5,11 7,10 9,55 33,0 36,4 39,36 4,98 45,56 51,18 5 4,34 6,14 8,17 30,68 34,38 37,65 40,65 44,31 46,93 5,6 6 5,34 7,18 9,5 31,79 35,56 38,89 41,9 45,64 48,9 54,05 7 6,34 8,1 30,3 3,91 36,74 40,11 43,19 46,96 49,64 55,48 8 7,34 9,5 31,39 34,03 37,9 41,34 44,46 48,8 50,99 56,89 9 8,34 30,8 3,46 35,14 39,09 4,56 45,7 49,59 5,34 58, ,34 31,3 33,53 36,5 40,6 43,77 46,98 50,89 53,67 59, ,34 3,35 34,60 37,36 41,4 44,99 48,3 5,19 55,00 61, ,34 33,38 35,66 38,47 4,58 46,17 49,48 53,49 56,33 6, ,34 34,41 36,73 39,57 43,75 47,40 50,73 54,78 57,65 63, ,34 35,44 37,80 40,68 44,90 48,60 51,97 56,06 58,96 65, ,34 36,47 38,86 41,78 46,06 49,80 53,0 57,34 60,7 66, ,34 37,50 39,9 4,88 47,1 51,00 54,44 58,6 61,58 67, ,34 38,53 40,98 43,98 48,36 5,19 55,67 59,89 6,88 69, ,34 39,56 4,05 45,08 49,51 53,38 56,90 61,16 64,18 70, ,34 40,59 43,11 46,17 50,66 54,57 58,1 6,43 65,48 7, ,34 41,6 44,16 47,7 51,81 55,76 59,34 63,69 66,77 73, ,34 4,65 45, 48,36 5,95 56,94 60,56 64,95 68,05 74, ,34 43,68 46,8 49,46 54,09 58,1 61,78 66,1 69,34 76, ,34 44,71 47,34 50,55 55,3 59,30 6,99 67,46 70,6 77, ,34 45,73 48,40 51,64 56,37 60,48 64,0 68,71 71,89 78, ,34 46,76 49,45 5,73 57,51 61,66 65,41 69,96 73,17 80, ,34 47,79 50,51 53,8 58,61 6,83 66,6 71,0 74,44 81, ,34 48,81 51,56 54,91 59,77 64,00 67,8 7,44 75,70 8, ,34 49,84 5,6 55,99 60,91 65,17 69,0 73,68 76,97 84, ,33 50,87 53,67 57,08 6,04 66,34 70, 74,9 78,3 85, ,33 51,89 54,7 58,16 63,17 67,50 71,4 76,15 79,49 86, ,33 5,9 55,78 59,5 64,30 68,67 7,6 77,39 80,75 87, ,33 53,94 56,83 60,33 65,4 69,83 73,81 78,6 8,00 89,7 53 5,33 54,97 57,88 61,41 66,55 70,99 75,00 79,84 83,5 90, ,33 55,99 58,93 6,50 67,67 7,15 76,19 81,07 84,50 91, ,33 57,0 59,98 63,58 68,80 73,31 77,38 8,9 85,75 93, ,33 58,04 61,03 64,66 69,9 74,47 78,57 83,51 86,99 94, ,33 59,06 6,08 65,74 71,04 75,6 79,75 84,73 88,4 95, ,33 60,09 63,13 66,8 7,16 76,78 80,94 85,95 89,48 97, ,33 61,11 64,18 67,89 73,8 77,93 8,1 87,17 90,7 98, ,33 6,13 65,3 68,97 74,40 79,08 83,30 88,38 91,95 99, ,33 63,16 66,7 70,05 75,51 80,3 84,48 89,59 93,19 100, ,33 64,18 67,3 71,13 76,63 81,38 85,65 90,80 94,4 10,17 98 wwwventusdk

99 Tabeller df 0,500 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,33 65,0 68,37 7,0 77,75 8,53 86,83 9,01 95,65 103, ,33 66,3 69,4 73,8 78,86 83,68 88,00 93, 96,88 104, ,33 67,5 70,46 74,35 79,97 84,8 89,18 94,4 98,11 105, ,33 68,7 71,51 75,4 81,09 85,96 90,35 95,63 99,33 107, ,33 69,9 7,55 76,50 8,0 87,11 91,5 96,83 100,55 108, ,33 70,0 73,60 77,57 83,31 88,5 9,69 98,03 101,78 109, ,33 71,34 74,64 78,64 84,4 89,39 93,86 99,3 103,00 111, ,33 7,36 75,69 79,71 85,53 90,53 95,0 100,43 104,1 11,3 99 wwwventusdk

100 Tabeller C4 Student s t-fordeling df 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0, ,3 0,73 1,38 3,08 6,31 1,71 31,8 63,66 318,31 0,9 0,6 1,06 1,89,9 4,30 6,96 9,9,33 3 0,8 0,58 0,98 1,64,35 3,18 4,54 5,84 10,0 4 0,7 0,57 0,94 1,53,13,78 3,75 4,60 7,17 5 0,7 0,56 0,9 1,48,0,57 3,36 4,03 5,89 6 0,6 0,55 0,91 1,44 1,94,45 3,14 3,71 5,1 7 0,6 0,55 0,90 1,41 1,89,36 3,00 3,50 4,79 8 0,6 0,55 0,89 1,40 1,86,31,90 3,36 4,50 9 0,6 0,54 0,88 1,38 1,83,6,8 3,5 4, ,6 0,54 0,88 1,37 1,81,3,76 3,17 4, ,6 0,54 0,88 1,36 1,80,0,7 3,11 4,0 1 0,6 0,54 0,87 1,36 1,78,18,68 3,05 3, ,6 0,54 0,87 1,35 1,77,16,65 3,01 3, ,6 0,54 0,87 1,35 1,76,14,6,98 3, ,6 0,54 0,86 1,34 1,75,13,60,95 3, ,6 0,54 0,86 1,34 1,75,1,58,9 3, ,6 0,53 0,86 1,33 1,74,11,57,90 3, ,6 0,53 0,86 1,33 1,73,10,55,88 3, ,6 0,53 0,86 1,33 1,73,09,54,86 3,58 0 0,6 0,53 0,86 1,33 1,7,09,53,85 3,55 1 0,6 0,53 0,86 1,3 1,7,08,5,83 3, wwwventusdk

101 Tabeller df 0,600 0,700 0,800 0,900 0,950 0,975 0,990 0,995 0,999 0,6 0,53 0,86 1,3 1,7,07,51,8 3,50 3 0,6 0,53 0,86 1,3 1,71,07,50,81 3,48 4 0,6 0,53 0,86 1,3 1,71,06,49,80 3,47 5 0,6 0,53 0,86 1,3 1,71,06,49,79 3,45 6 0,6 0,53 0,86 1,31 1,71,06,48,78 3,43 7 0,6 0,53 0,86 1,31 1,70,05,47,77 3,4 8 0,6 0,53 0,85 1,31 1,70,05,47,76 3,41 9 0,6 0,53 0,85 1,31 1,70,05,46,76 3, ,6 0,53 0,85 1,31 1,70,04,46,75 3, ,6 0,53 0,85 1,31 1,69,03,44,7 3, ,6 0,53 0,85 1,30 1,68,0,4,70 3, ,5 0,53 0,85 1,30 1,68,01,40,68 3, ,5 0,53 0,85 1,9 1,66 1,98,36,63 3,17 0,5 0,5 0,84 1,8 1,64 1,96,33,58 3, wwwventusdk

102 Tabeller C5 Fishers f-fordeling, α = 10% ,86 49,50 53,59 55,83 57,4 58,0 58,91 59,44 59,86 60,19 8,53 9,00 9,16 9,4 9,9 9,33 9,35 9,37 9,38 9,39 3 5,54 5,46 5,39 5,34 5,31 5,8 5,7 5,5 5,4 5,3 4 4,54 4,3 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,9 5 4,06 3,78 3,6 3,5 3,45 3,40 3,37 3,34 3,3 3,30 6 3,78 3,46 3,9 3,18 3,11 3,05 3,01,98,96,94 7 3,59 3,6 3,07,96,88,83,78,75,7,70 8 3,46 3,11,9,81,73,67,6,59,56,54 9 3,36 3,01,81,69,61,55,51,47,44,4 10 3,9,9,71,61,5,46,41,38,35,3 11 3,3,86,66,54,45,39,34,30,7,5 1 3,18,81,61,48,39,33,8,4,1, ,14,76,56,43,35,8,3,0,16, ,10,73,5,39,31,4,19,15,1, ,07,70,49,36,7,1,16,1,09, ,05,67,46,33,4,18,13,09,06, ,03,64,44,31,,15,10,06,03, ,0,6,4,9,0,13,08,04,00 1, ,01,61,40,7,18,11,06,0 1,98 1,96 0 3,00,59,38,5,16,09,04,00 1,96 1,94 1,98,57,36,3,14,08,0 1,98 1,95 1,9,97,56,35,,13,06,01 1,97 1,93 1,90 3,96,55,34,1,11,05 1,99 1,95 1,9 1,89 4,95,54,33,19,10,04 1,98 1,94 1,91 1,88 5,94,53,3,18,09,0 1,97 1,93 1,89 1,87 6,93,5,31,17,08,01 1,96 1,9 1,88 1,86 7,9,51,30,17,07,00 1,95 1,91 1,87 1,85 8,9,50,9,16,06,00 1,94 1,90 1,87 1,84 9,91,50,8,15,06 1,99 1,93 1,89 1,86 1,83 30,90,49,8,14,05 1,98 1,93 1,88 1,85 1,8 31,90,48,7,14,04 1,97 1,9 1,88 1,84 1,81 3,89,48,6,13,04 1,97 1,91 1,87 0,84 1,81 33,89,47,6,1,03 1,96 1,91 1,86 1,83 1,80 34,88,47,5,1,0 1,96 1,90 1,86 1,8 1,79 35,88,46,5 11,00,0 1,95 1,90 1,85 1,8 1,79 10 wwwventusdk

103 Tabeller C6 Fishers f-fordeling, α = 5% ,45 199,50 15,71 4,58 30,16 33,99 36,77 38,88 4,54 41,88 18,51 19,00 19,16 19,5 19,30 19,33 19,35 19,37 19,38 19, ,13 9,55 9,8 9,1 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,6 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,8 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,8 4,1 4,15 4,10 4,06 7 5,59 4,74 4,35 4,1 3,97 3,87 3,79 3,73 3,68 3,64 8 5,3 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,1 4,6 3,86 3,63 3,48 3,37 3,9 3,3 3,18 3, ,96 4,10 3,71 3,48 3,33 3, 3,14 3,07 3,0, ,84 3,98 3,59 3,36 3,0 3,09 3,01,95,90,85 1 4,75 3,89 3,49 3,6 3,11 3,00,91,85,80, ,67 3,81 3,41 3,18 3,03,9,83,77,71, ,60 3,74 3,34 3,11,96,85,76,70,65, ,54 3,68 3,9 3,06,90,79,71,64,59, ,49 3,63 3,4 3,01,85,74,66,59,54, ,45 3,59 3,0,96,81,70,61,55,49, ,43 3,55 3,16,93,77,66,58,51,46, ,41 3,5 3,13,90,74,63,54,48,4,38 0 4,38 3,49 3,10,87,71,60,51,45,39,35 1 4,35 3,47 3,07,84,68,57,49,4,37,3 103 wwwventusdk

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

STATISTIKNOTER Simple binomialfordelingsmodeller

STATISTIKNOTER Simple binomialfordelingsmodeller STATISTIKNOTER Simple binomialfordelingsmodeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter, Postboks 260, DK-4000 Roskilde. Jørgen Larsen: STATISTIKNOTER:

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema: Der er hjælp til opgaver med # og facit på side 6 1. Et eksperiment kan beskrives med følgende skema: u 1 2 3 4 5 P(u) 0,3 0,2 0,1 0,2 x Bestem x og sandsynligheden for at udfaldet er et lige tal.. 2.

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Juni 2013 Roskilde

Læs mere

CIVILINGENIØREKSAMEN. Side 1 af 18 sider. Skriftlig prøve, den: 2. juni 2009 Kursus nr : 02405. Kursus navn: Sandsynlighedsregning

CIVILINGENIØREKSAMEN. Side 1 af 18 sider. Skriftlig prøve, den: 2. juni 2009 Kursus nr : 02405. Kursus navn: Sandsynlighedsregning CIVILINGENIØREKSAMEN Side 1 af 18 sider Skriftlig prøve, den: 2. juni 2009 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Tilladte hjælpemidler: Alle Dette sæt er besvaret af: (navn) (underskrift)

Læs mere

Statistik for ankomstprocesser

Statistik for ankomstprocesser Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005 TEKST NR 435 2004 BASISSTATISTIK Jørgen Larsen 2004, 2005 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING OG ANVENDELSER

Læs mere

IDRÆTSSTATISTIK BIND 2

IDRÆTSSTATISTIK BIND 2 IDRÆTSSTATISTIK BIND 2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-07-8 Bd.2 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

CIVILINGENIØREKSAMEN. Side 1 af 19 sider. Skriftlig prøve, den: 20. december 2006 Kursus nr : 02405. Kursus navn: Sandsynlighedsregning

CIVILINGENIØREKSAMEN. Side 1 af 19 sider. Skriftlig prøve, den: 20. december 2006 Kursus nr : 02405. Kursus navn: Sandsynlighedsregning CIVILINGENIØREKSAMEN Side af 9 sider Skriftlig prøve, den: 0. december 006 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Tilladte hjælpemidler: Alle Dette sæt er besvaret af: navn underskrift bord

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag Jens Ledet Jensen på data, og statistik er derfor et nødvendigt værktøj i disse sammenhænge. Gennem konkrete datasæt og problemstillinger giver Statistik viden fra data en grundig indføring i de basale

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )} Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet. Til gengæld kan vi prøve at sige noget om,

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Maj-juni, 2013/14

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Statistik noter - Efterår 2009 Keller - Statistics for management and economics Statistik noter - Efterår 2009 Keller - Statistics for management and economics Jonas Sveistrup Hansen - stud.merc.it 22. september 2009 1 Indhold 1 Begrebsliste 3 2 Forelæsning 1 - kap. 1-3 3 2.1 Kelvin

Læs mere

Sandsynlighedregning

Sandsynlighedregning MOGENS ODDERSHEDE LARSEN Sandsynlighedregning + = - P(A B) = P(A) + P(B) P(A B). 1. udgave 2007 FORORD Dette notat giver en kort gennemgang af de grundlæggende begreber i sandsynlighedsregning. Det forudsættes,

Læs mere

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring 7. april 2011 Indhold 1 Undersøgelsesdesign 5 1.1 Kausalitet............................. 5 1.2 Validitet og bias......................... 6 1.3

Læs mere

Normalfordelingen. Erik Vestergaard

Normalfordelingen. Erik Vestergaard Normalfordelingen Erik Vestergaard Erik Vestergaard www.matematiksider.dk Erik Vestergaard, 008. Billeder: Forside: jakobkramer.dk/jakob Kramer Side 7: istock.com/elenathewise Side 8: istock.com/jaroon

Læs mere

Statistisk beskrivelse og test

Statistisk beskrivelse og test Statistisk beskrivelse og test 005 Karsten Juul Kapitel 1. Intervalhyppigheder Afsnit 1.1: Histogram En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Sandsynlighedsregning og statistik

Sandsynlighedsregning og statistik og statistik Jakob G. Rasmussen, Institut for Matematiske Fag jgr@math.aau.dk Litteratur: Walpole, Myers, Myers & Ye: Probability and Statistics for Engineers and Scientists, Prentice Hall, 8th ed. Slides

Læs mere

Eksempel I. Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ =2minutter.

Eksempel I. Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ =2minutter. Eksempel I Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ =2minutter. Per Bruun Brockhoff IMM DTU 02402 Eksempler 1 Eksempel I Tiden mellem kundeankomster på et posthus

Læs mere

En Introduktion til Sandsynlighedsregning

En Introduktion til Sandsynlighedsregning En Introduktion til Sandsynlighedsregning 4. Udgave Michael Sørensen 26. juni 2003 0 Forord Til 2. udgave Disse forelæsningsnoter trækker i betydelig grad på noter udarbejdet af en række kolleger. Det

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

IDRÆTSSTATISTIK BIND 1

IDRÆTSSTATISTIK BIND 1 IDRÆTSSTATISTIK BIND 1 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder Sandsynligheder Mængder Hændelser Sandsynligheder Regler for sandsynligheder Sandsynligheder En sandsynlighed er et kvantitativt mål for usikkerhed et mål der udtrykker styrken af vores tro på forekomsten

Læs mere

Spørgeskemaundersøgelser og databehandling

Spørgeskemaundersøgelser og databehandling DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2015 Institution Campus vejle Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik B (Valghold) PEJE

Læs mere

Nanostatistik: sandsynligheder Kursushjemmeside: http://www.imf.au.dk/ kurser/nanostatistik/

Nanostatistik: sandsynligheder Kursushjemmeside: http://www.imf.au.dk/ kurser/nanostatistik/ Nanostatistik: sandsynligheder Kursushjemmeside: http://www.imf.au.dk/ kurser/nanostatistik/ JLJ Nanostatistik: sandsynlighederkursushjemmeside:http://www.imf.au.dk/kurser/nanostatistik/ p. 1/16 Højder

Læs mere

Kønsproportion og familiemønstre.

Kønsproportion og familiemønstre. Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Efterår 2014 Institution Niels Brock Uddannelse Fag og niveau Lærer Hold HHX Matematik - Niveau A Peter Harremoës GSK hold t14gymaau1o2 Oversigt over gennemførte undervisningsforløb

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj/Juni 2014 Institution Vejen Business College Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik niveau

Læs mere

Sandsynlighedsbaserede metoder

Sandsynlighedsbaserede metoder Metodeartikel 29 Sandsynlighedsbaserede metoder Monte Carlo-metoden Daniel Kjær I sidste udgave af Famøs kunne læseren finde første halvdel af en todelt artikelserie om sandsynlighedsbaserede metoder under

Læs mere

Vejledning til Gym18-pakken

Vejledning til Gym18-pakken Vejledning til Gym18-pakken Copyright Maplesoft 2014 Vejledning til Gym18-pakken Contents 1 Vejledning i brug af Gym18-pakken... 1 1.1 Installation... 1 2 Deskriptiv statistik... 2 2.1 Ikke-grupperede

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: maj-juni, 2014 IBC-Kolding

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj / juni 2015 Institution Vejen Business College Uddannelse Fag og niveau HHX Matematik niveau B Lærer(e)

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Vejledende besvarelse

Vejledende besvarelse Ib Michelsen Svar: stx B 29. maj 2013 Side 1 1. Udfyld tabellen Vejledende besvarelse Givet funktionen f (x)=4 5 x beregnes f(2) f (2)=4 5 2 =4 25=100 Den udfyldte tabel er derfor: x 0 1 2 f(x) 4 20 100

Læs mere

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005 Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret

Læs mere

Løsningsforslag til Stokastik 1.-10. klasse

Løsningsforslag til Stokastik 1.-10. klasse 1 Løsningsforslag til Stokastik 1.-10. klasse Bemærk, at vi benytter betegnelsen øvelser som en meget bred betegnelse. Derfor er der også nogle af vores øvelser, der nærmer sig kategorien undersøgelser,

Læs mere

Skriftlig Eksamen Diskret Matematik (DM528)

Skriftlig Eksamen Diskret Matematik (DM528) Skriftlig Eksamen Diskret Matematik (DM528) Institut for Matematik & Datalogi Syddansk Universitet Tirsdag den 20 Januar 2009, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

F I N N H. K R I S T I A N S E N KUGLE SIMULATIONER MÅLSCORE I HÅNDBOLD G Y L D E N D A L

F I N N H. K R I S T I A N S E N KUGLE SIMULATIONER MÅLSCORE I HÅNDBOLD G Y L D E N D A L RÆSONNEMENT & 1BE V I S F I N N H. K R I S T I A N S E N GNING 2 EGNEARK KUGLE 5 MÅLING SIMULATIONER 3 G Y L D E N D A L MÅLSCORE I HÅNDBOLD Faglige mål: Håndtere simple modeller til beskrivelse af sammenhænge

Læs mere

matx.dk Differentialregning Dennis Pipenbring

matx.dk Differentialregning Dennis Pipenbring mat.dk Differentialregning Dennis Pipenbring 0. december 00 Indold Differentialregning 3. Grænseværdi............................. 3. Kontinuitet.............................. 8 Differentialkvotienten

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information Kursus 02402 Forelæsning 1: Intro og beskrivende statistik Oversigt 1 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Opgave 6. Opgave 7. Peter Harremoës Matematik A med hjælpemidler 26 maj 2015. a) Se Bilag 2! b) Variablen n isoleres. L = 2 z 1 α. L = 2 z 1 α L = n =

Opgave 6. Opgave 7. Peter Harremoës Matematik A med hjælpemidler 26 maj 2015. a) Se Bilag 2! b) Variablen n isoleres. L = 2 z 1 α. L = 2 z 1 α L = n = Opgave 6 a) Se Bilag 2! b) Variablen n isoleres ( L = 2 z 1 α 2 ) 2 L = 2 z 1 α 2 L = 2 z 1 α 2 n = ( ˆp (1 ˆp) n ˆp (1 ˆp) n ˆp (1 ˆp) ( n ( ˆp (1 ˆp) ) 1/2 ) 2 L 2 z 1 α 2 n ) 1/2 Opgave 7 n = 4ˆp (1

Læs mere

Grundlæggende Matematik

Grundlæggende Matematik Grundlæggende Matematik Hayati Balo, AAMS August 2012 1. Matematiske symboler For at udtrykke de verbale udsagn matematisk korrekt, så det bliver lettere og hurtigere at skrive, indføres en række matematiske

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Peter Harremoës Matematik A med hjælpemidler 16. december 2013. M = S 1 + a = a + b a b a = b 1. b 1 a = b 1. a = b 1. b 1 a = b

Peter Harremoës Matematik A med hjælpemidler 16. december 2013. M = S 1 + a = a + b a b a = b 1. b 1 a = b 1. a = b 1. b 1 a = b stk. Peter Harremoës Matematik A med hjælpemidler 16. december 2013 Opagve 6 Variables a isoleres: M = S 1 + a = a + b b a b a = b 1 ( ) 1 b 1 a = b 1 a = b 1 1 b 1 a = b Hvis b = 1, så gælder ligningen

Læs mere

MATEMATIK ( 5 h ) DATO: 8. juni 2009

MATEMATIK ( 5 h ) DATO: 8. juni 2009 EUROPÆISK STUDENTEREKSAMEN 2009 MATEMATIK ( 5 h ) DATO: 8. juni 2009 PRØVENS VARIGHED: 4 timer (240 minutter) TILLADTE HJÆLPEMIDLER Europaskolernes formelsamling Ikke-grafisk, ikke-programmerbar lommeregner

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik. Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2014 Institution Campus Vejle Uddannelse HHX Fag og niveau Matematik B ( Valghold ) Lærer(e) LSP (

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 9. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OPSAMLING EKSAKTE MODELLER Fordele: Praktiske til initierende analyser/dimensionering

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin maj-juni 11/12 Institution VUC Holstebro-Lemvig-Struer Uddannelse Fag og niveau Lærer(e) Hold Hf/hfe Matematik

Læs mere

ANVENDT STATISTIK (med anvendelse af Excel)

ANVENDT STATISTIK (med anvendelse af Excel) MOGENS ODDERSHEDE LARSEN ANVENDT STATISTIK (med anvendelse af Excel) Hyppighed 0 18 16 14 1 10 8 6 4 0 6,94 7,0 7,1 7,18 7,6 7,34 7,4 7,5 7,58 7,66 Mere Hyppighed. udgave 008 FORORD Notatet er bygget op

Læs mere

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i Normalfordeliger For at e stokastisk variabel X ka være ormalfordelt, skal X agive værdie af e eller ade målig, f.eks. tid, lægde, vægt, beløb osv. Notatioe er: Xi ~ N( μ, σ hvor i er observatiosummeret,

Læs mere

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Matematiske færdigheder Grundlæggende færdigheder - plus, minus, gange, division (hele tal, decimaltal og brøker) Identificer

Læs mere

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle.

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. Af E. Susanne Christensen. Lektor i statistik. Institut for Matematiske Fag. Aalborg Universitet. I mange tilfælde og

Læs mere

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp.

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp. Udarbejdet af Thomas Jensen og Morten Overgård Nielsen Indhold Introduktion til materialet. s. 2 Introduktion til chi i anden test. s. 4 Et eksempel hastighed og ulykker på motorveje s. 8 Sådan udregnes

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Side 1 af 8. Undervisningsbeskrivelse. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Termin Maj-juni 2010/11.

Side 1 af 8. Undervisningsbeskrivelse. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Termin Maj-juni 2010/11. Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj-juni 2010/11 Institution Uddannelse Fag og niveau Lærer(e) Hold Zealand Business College Hhx Matematik

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Kombinatorik og Sandsynlighedsregning

Kombinatorik og Sandsynlighedsregning Kombinatorik Teori del 1 Kombinatorik er en metode til at tælle muligheder på. Man kan f.eks. inden for valg til en bestyrelse eller et fodboldhold, kodning af en lås, valg af pinkode eller telefonnummer,

Læs mere

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0.

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0. Opgave 6 Vi sætter P = 1000 og isolerer x i ligningen Se Bilag 2! P = 100 x 0.6 y 0.4 1000 = 100 x 0.6 y 0.4 10 = x 0.6 y 0.4 10 y 0.4 = x 0.6 ( 10 y 0.4 )1 /0.6 = x 10 1 /0.6 y 0.4 /0.6 = x x = 10 5 /3

Læs mere

Spar Nord Banks ansøgningsscoremodel. - et ekspertbaseret ratingsystem for nye udlånskunder

Spar Nord Banks ansøgningsscoremodel. - et ekspertbaseret ratingsystem for nye udlånskunder Spar Nord Banks ansøgningsscoremodel - et ekspertbaseret ratingsystem for nye udlånskunder Mål for ansøgningsscoremodel Rating af nye udlånskunder som beskrives vha. en række variable: alder, boligform,

Læs mere

MønsterGenkendelse Forår 2001. S. I. Olsen

MønsterGenkendelse Forår 2001. S. I. Olsen MønsterGenkendelse Forår 2001 S. I. Olsen Dette skrift er 3. udkast til et notesæt til brug i kurset Mønstergenkendelse. Noterne dækker primært områderne: Statistiske mønstergenkendelse, Klyngeanalyse,

Læs mere

Kalkulus 1 - Opgaver. Anne Ryelund, Anders Friis og Mads Friis. 20. januar 2015

Kalkulus 1 - Opgaver. Anne Ryelund, Anders Friis og Mads Friis. 20. januar 2015 Kalkulus 1 - Opgaver Anne Ryelund, Anders Friis og Mads Friis 20. januar 2015 Mængder Opgave 1 Opskriv følgende mængder med korrekt mængdenotation. a) En mængde A indeholder alle hele tal fra og med 1

Læs mere

Kapitel 2 Tal og variable

Kapitel 2 Tal og variable Tal og variable Uden tal ingen matematik - matematik handler om tal og anvendelse af tal. Matematik beskæftiger sig ikke udelukkende med konkrete problemer fra andre fag, og de konkrete tal fra andre fagområder

Læs mere