Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Sandsynlighedsfordelinger kontinuerte variable Sandsynlighedsfordelingen for en kontinuert variabel tildeler sandsynligheder til et interval, for eksempel p(a<x<b). Ligeledes gælder at Sandsynligheden for intervallet, der indeholder alle mulige værdier af x, er lig med. Grafen for en sandsynlighedsfordeling for en kontinuert variabel er en glat kontinuert kurve. Arealet under kurven i et givet interval, er sandsynligheden for at x tilhører dette interval. Den meste brugte kontinuerte fordeling, er normal fordelingen. f(x) P( a < < b) = areal under f(x) mellem a og b 0 a b x

Normal fordelingen Dens kendetegn er: Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi=median=mode Den er karakteriseret ved en middelværdi μ og varians σ² (eller standard afvigelse σ). ~N(μ,σ²) betyder, at følger en normal fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig) σ μ

Linear kombination af uafhængige normalfordelte stokastiske variable Hvis,,, n er uafhængige normalfordelte stokastiske variable, så vil variablen Q defineret som Q = a + a + + a n n + b også være normal fordelt, med: Bemærk: Det er varianserne, der lægges sammen og ikke standard-afvigelserne. ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( n n n n V a V a V a Q V b E a E a E a Q E + + + = + + + + = L L

Eksempel Eksempel 4.3: Lad,, 3 og 4 være uafhængige normal fordelte stokastiske variable med middelværdi og varians givet som i tabellen. Find middelværdien og variansen af Q = - + 3-4 4 + 5 Mean Variance 4-5 3 8 5 4 0 E(Q) = (-5) + 3(8) 4(0) + 5 = V(Q) = 4 + (-) () + 3 (5) + (-4) () = 73 SD(Q) = 73 = 8. 544

Bogstav Eksempel Antag at vi har n uafhængige stokastiske variable,,, n, der alle følger den samme normalfordeling med middelværdi μ og varians σ. Definer Hvad er middelværdi og varians for S? E(S) = V(S) = S S ~ N(, ) = n = i n i

Standard normal fordelingen Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=, Z~N(0,²) 0.4 Standard Normal fordeling f(z) 0.3 0. σ= { 0. 0.0-5 - 4-3 - - 0 μ = 0 Z 3 4 5 NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.

Tabellen Sandsynligheder for standard normal fordelingen er tabellagt i Tabel i Appendiks C, side 776 De tabellagte værdier er sandsynligheder for intervaller fra μ=0 til punkter z til højre for 0, altså de positive z værdier Da normal fordelingen er symmetrisk, er hele arealet til venstre for 0 lig med ½ Denne halve skal man huske at trække fra eller lægge til afhængig af hvilket interval man er interesseret i at finde sandsynligheden for, se Tips og Trix Standard Normal Distribution 0.4 0.3 Figuren viser P(0<Z<,56) f(z) 0. 0..56 { Hvis nu man ville have: P(Z<,56)=½+P(0<Z<,56) 0.0-5 -4-3 - - 0 Z 3 4 5

Find P(0 < Z <.56) tabel i Appendiks C, side 776 Standard Normal Probabilities f(z) 0.4 0.3 0. 0. 0.0-5 -4 Standard Normal Distribution -3 - - 0.56 Z { Kig i rækken med.5 og søjlen med.06 P(0 Z.56) = 0.4406 3 4 5 z.00.0.0.03.04.05.06.07.08.09 0.0 0.0000 0.0040 0.0080 0.00 0.060 0.099 0.039 0.079 0.039 0.0359 0. 0.0398 0.0438 0.0478 0.057 0.0557 0.0596 0.0636 0.0675 0.074 0.0753 0. 0.0793 0.083 0.087 0.090 0.0948 0.0987 0.06 0.064 0.03 0.4 0.3 0.79 0.7 0.55 0.93 0.33 0.368 0.406 0.443 0.480 0.57 0.4 0.554 0.59 0.68 0.664 0.700 0.736 0.77 0.808 0.844 0.879 0.5 0.95 0.950 0.985 0.09 0.054 0.088 0.3 0.57 0.90 0.4 0.6 0.57 0.9 0.34 0.357 0.389 0.4 0.454 0.486 0.57 0.549 0.7 0.580 0.6 0.64 0.673 0.704 0.734 0.764 0.794 0.83 0.85 0.8 0.88 0.90 0.939 0.967 0.995 0.303 0.305 0.3078 0.306 0.333 0.9 0.359 0.386 0.3 0.338 0.364 0.389 0.335 0.3340 0.3365 0.3389.0 0.343 0.3438 0.346 0.3485 0.3508 0.353 0.3554 0.3577 0.3599 0.36. 0.3643 0.3665 0.3686 0.3708 0.379 0.3749 0.3770 0.3790 0.380 0.3830. 0.3849 0.3869 0.3888 0.3907 0.395 0.3944 0.396 0.3980 0.3997 0.405.3 0.403 0.4049 0.4066 0.408 0.4099 0.45 0.43 0.447 0.46 0.477.4 0.49 0.407 0.4 0.436 0.45 0.465 0.479 0.49 0.4306 0.439.5 0.433 0.4345 0.4357 0.4370 0.438 0.4394 0.4406 0.448 0.449 0.444.6 0.445 0.4463 0.4474 0.4484 0.4495 0.4505 0.455 0.455 0.4535 0.4545.7 0.4554 0.4564 0.4573 0.458 0.459 0.4599 0.4608 0.466 0.465 0.4633.8 0.464 0.4649 0.4656 0.4664 0.467 0.4678 0.4686 0.4693 0.4699 0.4706.9 0.473 0.479 0.476 0.473 0.4738 0.4744 0.4750 0.4756 0.476 0.4767.0 0.477 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.48 0.487. 0.48 0.486 0.4830 0.4834 0.4838 0.484 0.4846 0.4850 0.4854 0.4857. 0.486 0.4864 0.4868 0.487 0.4875 0.4878 0.488 0.4884 0.4887 0.4890.3 0.4893 0.4896 0.4898 0.490 0.4904 0.4906 0.4909 0.49 0.493 0.496.4 0.498 0.490 0.49 0.495 0.497 0.499 0.493 0.493 0.4934 0.4936.5 0.4938 0.4940 0.494 0.4943 0.4945 0.4946 0.4948 0.4949 0.495 0.495.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.496 0.496 0.4963 0.4964.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.497 0.497 0.4973 0.4974.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.498.9 0.498 0.498 0.498 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

Find: P(Z < -.47) Arealet til venstre for -.47 P(Z < -.47) =.5-0.493 = 0.0068 f(z) 0.4 0.3 0. Standard Normal Distribution Tabel areal for.47 P(0 < Z <.47) = 0.493 0. 0.0-5 -4-3 - - 0 Z 3 4 5 For at finde P(Z<-.47): Find tabel areal for.47 P(0 < Z <.47) =.493 P(Z < -.47) =.5 - P(0 < Z <.47) =.5 -.493 = 0.0068 z....06.07.08.............3... 0.4909 0.49 0.493.4... 0.493 0.493 0.4934.5... 0.4948 0.4949 0.495..

Find: P(< Z < ) For at finde P( Z ):. Find tabel arealet for.00 F() = P(Z.00) =.5 +.477 =.977. Find tabel arealet for.00 F() = P(Z.00) =.5 +.343 =.843 3. P( Z.00) = P(Z.00) - P(Z.00) =.977 -.843 = 0.359 z.00......... 0.9 0.359....0 0.343.... 0.3643..........9 0.473....0 0.477.... 0.48... Standard Normal Distribution 0.4 f(z) 0.3 0. Areal mellem og P( Z ) =.977 -.843 = 0.359 0. 0.0-5 -4-3 - - 0 Z 3 4 5

Summe opgave Find P(0<Z<,96) Find P(-,5<Z<0)

Find: P(0 < Z < z) = 0.40 Find Z, så P( 0 Z z ) = 0,40. Find en sandsynlighed så tæt på 0.40. som muligt.. Bestem herefter værdien af z fra den pågældende række og søjle. P( 0 Z,8 ) = 0,40 Desuden, da P(Z 0) = 0,50 z.00.0.0.03.04.05.06.07.08.09 0.0 0.0000 0.0040 0.0080 0.00 0.060 0.099 0.039 0.079 0.039 0.0359 0. 0.0398 0.0438 0.0478 0.057 0.0557 0.0596 0.0636 0.0675 0.074 0.0753 0. 0.0793 0.083 0.087 0.090 0.0948 0.0987 0.06 0.064 0.03 0.4 0.3 0.79 0.7 0.55 0.93 0.33 0.368 0.406 0.443 0.480 0.57 0.4 0.554 0.59 0.68 0.664 0.700 0.736 0.77 0.808 0.844 0.879 0.5 0.95 0.950 0.985 0.09 0.054 0.088 0.3 0.57 0.90 0.4 0.6 0.57 0.9 0.34 0.357 0.389 0.4 0.454 0.486 0.57 0.549 0.7 0.580 0.6 0.64 0.673 0.704 0.734 0.764 0.794 0.83 0.85 0.8 0.88 0.90 0.939 0.967 0.995 0.303 0.305 0.3078 0.306 0.333 0.9 0.359 0.386 0.3 0.338 0.364 0.389 0.335 0.3340 0.3365 0.3389.0 0.343 0.3438 0.346 0.3485 0.3508 0.353 0.3554 0.3577 0.3599 0.36. 0.3643 0.3665 0.3686 0.3708 0.379 0.3749 0.3770 0.3790 0.380 0.3830. 0.3849 0.3869 0.3888 0.3907 0.395 0.3944 0.396 0.3980 0.3997 0.405.3 0.403 0.4049 0.4066 0.408 0.4099 0.45 0.43 0.447 0.46 0.477................................. Standard Normal Distribution Areal til venstre for 0 =.50 P(z 0) =.50 0.4 f(z) 0.3 0. Areal til højre for 0 =.40 (.3997) P( Z,8 ) = 0,90 0. 0.0-5 -4-3 - - 0 Z 3 4 5 Z =.8

Summe opgave Find P(Z<z)=0,975

Transformation til standard normal fordelingen og tilbage igen Enhver normal fordelt stokastisk variabel kan transformeres til en standard normal fordelt stokastisk variabel! Hvis ~N(μ,σ²), så er μ Z = ~ N(0,) σ Den inverse transformation er også gyldig: = μ + σz ~ N( μ, σ )

Transformation til standard normal fordelingen og tilbage igen Transformationen kan bruges til at finde sandsynligheder for normal fordelte stokastiske variable, der ikke er standard normal fordelt: Transformer om til Z ligeledes for interval grænserne Find sandsynlighederne for Z, der vil være de samme som for < < = < < > = < < = < σ μ σ μ σ μ σ μ b Z a P b a P b Z P b P a Z P a P ) ( ) ( ) ( (0,) ~ ), ( ~ N Z N σ μ

Eksempel Antag ~N(50,0 ) Find P(45<<60) μ Z = = σ 50 0 ~ N(0,) 45 50 50 60 50 P( 45 < < 60) = P( < < ) = P( 0,5 < Z < ) 0 0 0 0.00 0.0 0.04 0 40 60 80 0.0 0. 0. 0.3 0.4 3 0 3 P( 0,5 < Z < ) = P( 0,5 < Z < 0) + P(0 < Z < ) = P(0 < Z < 0,5) + P(0 < Z < ) = 0,95 + 0,343 = 0,538 0.0 0. 0. 0.3 0.4 3 0 3 P ( 0,5 < z < 0) P( 0 < Z < ) P( 0,5 < Z < 0) = P(0 < Z < 0,5)

Eksempler fra bogen Eksempel 4-9 ~N(60,30 ) P ( 00 80 ) 00 μ μ 80 μ = P σ σ σ 00 60 80 60 = P Z 30 30 = P( Z. 6667 ) = 0. 477 + 0. 475 = 0. 747 Eksempel 4-0 ~N(7, ) P ( < 50 ) P μ 50 μ = < σ σ 50 7 = P Z < = P( Z <. 045) = 0. 5 + 0. 350 = 0. 850

Den inverse transformation Eksempel 4- Antag ~N(4, ). Find x, så P( > x) = 0.0. Løsning: Bemærk P(Z > z) 0.0 for z=.8. Derfor: x = μ + zσ = 4 + (.8)() = 39.36 z.07.08.09................... 0.3790 0.380 0.3830.... 0.3980 0.3997 0.405.3... 0.447 0.46 0.477............... f(x) 0.04 0.03 0.0 0.0 0.00 Normal Distribution: μ = 4, σ = 80 30 39.36 0. 80

Statistik Statistisk Inferens: Prædiktere værdier af populations parametre Teste hypoteser om værdier af populations parametre Tage beslutninger på basis af stikprøver Drage Drage konklusioner om om egenskaber for for en en population... på påbasis af af observationer i i en en stikprøve, en en del del af af populationen.

The Literary Digest Poll (936) Population Demokrater Ikke biased stikprøve Republikanere Ikke biased, repræsentativ stikprøve fra hele populationen. Population Folk, der har telefon og/eller bil og/eller læser Digest. Demokrater Biased stikprøve Republikanere Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest.

Data indsamling Data indsamling Direkte observationer Eksperimenter Registre Spørgeskemaer Et problem med spørgeskemaer er nonrespons bias hvad gør man når folk ikke vil svare? Typisk vil gruppen af folk, der ikke svarer være anderledes end folk, der svarer. Lav for eksempel en opfølgning på spørgeskemaet ved at ringe til folk. Folk, der slet ikke svarer, vil ligne dem der svarer anden gang mere end de ligner dem, der svarer første gang (men ikke helt). Man kan også over sample dem man tror ikke vil svare (hvis man ved det) og dermed have større chance for at nogen af dem svarer.

Hvordan laver man en stikprøve Simpel stikprøve I en simpel stikprøve er observationerne udvalgt, så enhver anden stikprøve med samme antal observationer, er lige så sandsynlig at vælge Observationerne kan for eksempel vælges ved hjælp af en Random numbers tabel (tabel 4 side 809 i jeres bog) 0495, 5793, 0034, 35640,. Stratificeret stikprøve Opdele populationen i disjunkte mængder (strata) og tage en simpel stikprøve fra hver strata. Hvis man for eksempel ved, at der er forskel på hvordan mænd og kvinder svarer og der i populationen er 54 % mænd og 46 % kvinder. Klynger Simpel stikprøve af grupper (klynger) af elementer. Derefter måske simple stikprøver indenfor klyngerne Systematisk stikprøve Hvis elementer man skal udtage allerede er i tilfældig orden, kan man for eksempel tage hver 0. element, altså nummer 0, 0, 30 osv.

Estimator og estimat En stikprøve statistik er et numerisk mål for en opsummerende karakteristik af stikprøven. En populations parameter er et numerisk mål for en opsummerende karakteristik af populationen. En En estimator af af en en populations parameter er er en en stikprøve statistik, der der bruges til til at at estimere populations parameteren. Et Et estimat af af en en parameter er er en en bestemt numerisk værdi af af en en stikprøve statistik. Et Et punkt-estimat er er en en enkelt værdi, der der bruges som som et et estimat for for en en populations parameter. Et Et interval-estimat estimat er er et et interval, der der bruges som som et et estimat for for en en populations parameter.

Estimatorer Stikprøve gennemsnittet er den mest almindelige estimator af populations middelværdien, μ. n = = i i n Stikprøve variansen, s², er den mest almindelige estimator af populations variansen, σ². S ( ) = n n i= i i = n i Stikprøve standard afvigelsen, s, er den mest almindelige estimator af populations standard afvigelsen, σ. = n( n n ( ) n ) i= i

Populations og stikprøve andele Populations andelen er lig med antallet af elementer i populationen der tilhører den kategori, man er interesseret i, divideret med det totale antal elementer i populationen: p = N Stikprøve andelen er antallet af elementer i stik-prøven, der tilhører den kategori, man er interesseret i, divideret med det totale antal elementer i stikprøven: $p = x n Stikprøve andelen er en estimator for populations andelen.

Populations fordeling, stikprøve, populations middelværdi og stikprøve gennemsnit. Populations middelværdi (μ) Frekvens fordeling af populationen er selv en stokastisk variabel, der følger en fordeling. Stikprøve Stikprøve gennemsnit ( )

Eksempel Jeg påstår at gennemsnitshøjden er 75cm!! Antag at højden blandt oecon studerende er normalfordelt med middelværdi μ = 75 og standard afvigelse σ = 0. Antag vi har en stikprøve på n =, dvs.,,, n er uafhængige stokastiske variable, hvor i ~ N(75,0 ). Hvilken fordeling følger? Hvad er sandsynligheden for at ligger i intervallet [74;76]? Hvad nu hvis højderne ikke var normalfordelte?

Stikprøve fordelinger Uniform population af heltal fra til 8: P() P() P() P() (-μ (-μ x ) (-μ x ) P()(-μ x ) x ) (-μ x ) P()(-μ x ) Uniform Distribution (,8) 0.5 0.5 0.5 0.5-3.5-3.5.5.5.535.535 0.5 0.5 0.50 0.50 -.5 -.5 6.5 6.5 0.785 0.785 3 3 0.5 0.5 0.375 0.375 -.5 -.5.5.5 0.85 0.85 4 4 0.5 0.5 0.500 0.500-0.5-0.5 0.5 0.5 0.035 0.035 5 5 0.5 0.5 0.65 0.65 0.5 0.5 0.5 0.5 0.035 0.035 6 6 0.5 0.5 0.750 0.750.5.5.5.5 0.85 0.85 7 7 0.5 0.5 0.875 0.875.5.5 6.5 6.5 0.785 0.785 8 8 0.5 0.5.000.000 3.5 3.5.5.5.535.535.000.000 4.500 4.500 5.5000 5.5000 0.0 3 4 5 6 7 8 P() 0. 0. E() = μ = 4.5 V() = σ = 5.5 SD() = σ =.93

Stikprøve fordelinger Der er 8*8 = 64 forskellige men lige sandsynlige stikprøver af tal, man kan tage (med tilbagelægning) fra en uniform population af hel tallene fra til 8: Stikprøver af tal fra Uniform (,8) 3 4 5 6 7 8,,,3,4,5,6,7,8,,,3,4,5,6,7,8 3 3, 3, 3,3 3,4 3,5 3,6 3,7 3,8 4 4, 4, 4,3 4,4 4,5 4,6 4,7 4,8 5 5, 5, 5,3 5,4 5,5 5,6 5,7 5,8 6 6, 6, 6,3 6,4 6,5 6,6 6,7 6,8 7 7, 7, 7,3 7,4 7,5 7,6 7,7 7,8 8 8, 8, 8,3 8,4 8,5 8,6 8,7 8,8 Hver af disse stikprøver har et gennemsnit. For eksempel er gennemsnittet af (,4) lig,5 og gennemsnittet af (8,4) er 6. Stikprøve gennemsnit 3 4 5 6 7 8.0.5.0.5 3.0 3.5 4.0 4.5.5.0.5 3.0 3.5 4.0 4.5 5.0 3.0.5 3.0 3.5 4.0 4.5 5.0 5.5 4.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 6 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

Stikprøve fordelinger Sandsynligheds fordelingen af stikprøve middelværdien kaldes stikprøve fordelingen af stikprøve middelværdien rdien. Stikprøve fordelingen P() P() -μ (-μ ) P()(-μ ) Stikpøve fordeling.0 0.0565 0.0565-3.5.5 0.9406.5 0.0350 0.046875-3.0 9.00 0.850.0 0.046875 0.093750 -.5 6.5 0.9969.5 0.06500 0.5650 -.0 4.00 0.50000 3.0 0.0785 0.34375 -.5.5 0.7578 3.5 0.093750 0.385 -.0.00 0.093750 4.0 0.09375 0.437500-0.5 0.5 0.07344 4.5 0.5000 0.56500 0.0 0.00 0.000000 5.0 0.09375 0.546875 0.5 0.5 0.07344 5.5 0.093750 0.5565.0.00 0.093750 6.0 0.0785 0.468750.5.5 0.7578 6.5 0.06500 0.40650.0 4.00 0.50000 7.0 0.046875 0.385.5 6.5 0.9969 7.5 0.0350 0.34375 3.0 9.00 0.850 8.0 0.0565 0.5000 3.5.5 0.9406.000000 4.500000.65000 P() 0.0 0.05 0.00.0.5.0.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 E( ) = 4,5 V ( ) =,65

Stikprøvefordeling af middelværdien Ved at at sammenligne populations fordelingen og og stikprøve fordelingen af af middelværdien, ser ser man at: at: Stikprøve fordelingen er er mere klokkeformet og og den er er symmetrisk. Begge har samme centrum. Stikprøve fordelingen er er mere kompakt, med en en mindre varians. P() P() 0. 0. 0.0 0.0 0.05 Uniform Distribution (,8) 3 4 5 6 7 Stikpøve fordeling 8 0.00.0.5.0.53.03.54.04.5 5.05.56.06.57.07.58.0

Stikprøve-fordeling Den forventede værdi af stikprøve middelværdien er lig med populations middelværdien Variansen af stikprøve middelværdien er lig med populations variansen divideret med stikprøve størrelsen Hvis normal fordelt, så er normalfordelt: E μ μ = = ) ( n V ) ( σ = σ = n N, ~ σ μ

Den centrale grænseværdi sætning Stikprøve fordelingen af middelværdien af en stikprøve taget fra en vilkårlig population er approksimativ normal fordelt for tilstrækkelig store n. Jo større n er, jo tættere er stikprøve middelværdien på at følge en normal fordeling. I praksis er n>30 ok. Så alt i alt:. S E( ) = μ = μ. S V ( ) = σ = σ n 3. Hvis er normal, så er normal. Hvis stikprøve størrelsen er stor nok, er normal fordelt, selvom ikke er normal fordelt.

Eksempler Normal Uniform Skewed General Population n = n = 30 μ μ μ μ