Modul 3: Kontinuerte stokastiske variable

Relaterede dokumenter
Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 5: Test for én stikprøve

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Repetition Stokastisk variabel

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Sandsynlighedsregning Oversigt over begreber og fordelinger

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Module 2: Beskrivende Statistik

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik og Sandsynlighedsregning 2

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Produkt og marked - matematiske og statistiske metoder

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Kvantitative Metoder 1 - Forår 2007

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Teoretisk Statistik, 16. februar Generel teori,repetition

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Note til styrkefunktionen

Sandsynlighedsregning Stokastisk variabel

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Uge 10 Teoretisk Statistik 1. marts 2004

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Konfidensinterval for µ (σ kendt)

Statistik og Sandsynlighedsregning 2

Kapitel 3 Centraltendens og spredning

hvor a og b er konstanter. Ved middelværdidannelse fås videre

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Funktionalligninger - løsningsstrategier og opgaver

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Statistiske modeller

Normalfordelingen og Stikprøvefordelinger

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Hvad skal vi lave i dag?

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantitative Metoder 1 - Efterår Dagens program

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

TALTEORI Primfaktoropløsning og divisorer.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Trivsel og fravær i folkeskolen

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Eksamen 2014/2015 Mål- og integralteori

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Funktioner af flere variable

Basal statistik. 30. januar 2007

Transkript:

Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 3: Kontinuerte stokastiske variable 3.1 Kontinuerte stokastiske variable........................... 1 3.1.1 Tæthedsfunktion............................... 1 3.1.2 Fordelingsfunktion.............................. 2 3.1.3 Middelværdi, varians og spredning..................... 3 3.2 Uafhængighed..................................... 4 3.3 Kendte kontinuerte fordelinger........................... 5 3.3.1 Den uniforme fordeling............................ 5 3.3.2 Eksponentialfordelingen........................... 6 3.3.3 Normalfordelingen.............................. 6 3.3.4 Weibullfordelingen.............................. 10 3.4 Den centrale grænseværdisætning.......................... 11 3.4.1 Approximationer til binomial- og Poissonfordelinger........... 14 3.5 Modelcheck...................................... 15 3.6 Transformationer................................... 17 3.1 Kontinuerte stokastiske variable Statistik er kunsten med præcise termer at fastslå det man ikke ved. William Kruskal 3.1.1 Tæthedsfunktion En funktion f : R [0, ) kaldes en tæthedsfunktion hvis 1. f er integrabel. 2. f (y) dy = 1. En stokastisk variabel Y kaldes for absolut kontinuert hvis der findes en tæthedsfunktion f Y så P (Y A) = f Y (y) dy for alle hændelser A R. A

3.1 Kontinuerte stokastiske variable 2 Bestemmer sandsynligheden for ethvert interval P (a < Y < b) = Terminologi: b a f Y (y) dy, for alle a b. 1. I daglig tale siger vi at Y er kontinuert. 2. f Y kaldes for Y s tæthedsfunktion, eller blot tætheden. 3. Engelsk: Probability density function (PDF) 4. Bemærk, at for ethvert y R gælder: P (Y = y) = f Y (t)dt = 0. 5. Bemærk at P (a < Y < b) = P (a Y b) = P (a Y < b) = P (a < Y b) 6. Den mindste lukkede hændelse A så P(Y A) = 1 kaldes for støtten for Y. Eksempel 3.1: Eksponentialfordelingen Y E (λ) med λ > 0 Defineret ud fra tæthedsfuntion f Y (y) = λe λy, y > 0 (0 ellers). Støtte R +, dvs. Y kan kun antage positive værdier. Bruges som ventetidsfordeling, f.eks. tiden mellem to jordskælv. {y}

3.1 Kontinuerte stokastiske variable 3 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 x Figur 3.1: Forskellige eksponentialfordelinger. 3.1.2 Fordelingsfunktion Fordelingsfunktionen F Y for Y er defineret ved F Y (y) = P (Y y) = y f Y (t) dt for y R. Engelsk: cumulative distribution function (CDF) Tæthedsfunktionen er givet ud fra F Y : f Y (y) = y F Y (y) (evt. på nær tælleligt mange punkter). Eksponentialfordelingen (fortsat) F Y (y) = 1 e λy, y > 0 (0 ellers). Differentiabel, på nær i 0. Generel definition (uanset om Y er diskret, kontinuert, eller generel): F Y (y) = P (Y y) Enhver fordelingsfunktion F Y opfylder: 1. F Y er svagt voksende.

3.1 Kontinuerte stokastiske variable 4 2. F Y er kontinuert fra højre. 3. F Y opfylder lim F (y) = 0 og lim F (y) = 1. y y Enhver F Y som opfylder 1. 3. er fordelingsfunktion for en stokastisk variabel Y. Det kontinuerte tilfælde kendes ved at F Y er (absolut) kontinuert. Det diskrete tilfælde kendes ved at 1. F Y er stykkevis konstant. 2. F Y springer med størrelsen P(Y = y) i y. Eksempel 3.2: binomialfordelingen Y b(n, p) har [y] ( ) n F Y (y) = p i (1 p) n i for y R. i i=0 3.1.3 Middelværdi, varians og spredning Middelværdi: Vægtet middel af mulige værdier hvis y f Y (y) dy <. Varians: hvis y2 f Y (y) dy <. Spredning (standardafvigelse): Regneregler, husk at µ Y = E(Y ) = y f Y (y) dy, σy 2 = Var(Y ) = (y µ Y ) 2 f Y (y) dy, σ Y = Var(Y ). 1. E(aY + b) = ae(y ) + b (specielt er E(b) = b) 2. Var(aY + b) = a 2 Var(Y ) 3. σ ay = a σ Y 4. E(X + Y ) = E(X) + E(Y ) 5. Var(Y ) = E ( Y 2) E 2 (Y )

3.2 Uafhængighed 5 Bevis for 5.: Var(Y ) = E {[Y E(Y )] 2} = E [ Y 2 + E 2 (Y ) 2Y E(Y ) ] = E ( Y 2) + E 2 (Y ) 2E(Y )E(Y ) = E ( Y 2) + E 2 (Y ) 2E 2 (Y ) = E ( Y 2) E 2 (Y ). 3.2 Uafhængighed Husk: n stokastiske variable Y 1, Y 2,...,Y n kaldes uafhængige hvis P (Y 1 y 1, Y 2 y 2,...,Y n y n ) = F Y1 (y 1 )F Y2 (y 2 ) F Yn (y n ). for alle y 1,y 2,...,y n R. Hvis X og Y er uafhængige gælder 1. E(XY ) = E(X) E(Y ) 2. Var(X + Y ) = Var(X) + Var(Y ) Bemærk at 1. og 2. er ækvivalente. Bevis: Lad os forudsætte at X og Y har middelværdi 0 (hvorfor er det nok?). Så fås Var(X + Y ) = E [ (X + Y ) 2] = E ( X 2 + Y 2 + 2XY ) = E ( X 2) + E ( Y 2) + 2E(XY ) = Var(X) + Var(Y ) + 2E(X) E(Y ) = Var(X) + Var(Y ) Definition: kovariansen mellem X og Y defineres ved Cov(X,Y ) = E(XY ) E(X) E(Y ) Hvis X og Y er uafhængige gælder Cov(X, Y ) = 0. Kovariansen måler hvor meget X og Y mangler i at være uafhængige. Bemærk at Cov(X,Y ) = 0 medfører ikke nødvendigvis at X og Y er uafhængige. Kovariansen studeres nærmere i Modul 6.

3.3 Kendte kontinuerte fordelinger 6 3.3 Kendte kontinuerte fordelinger 3.3.1 Den uniforme fordeling Y Uniform(a,b) med a < b Y har støtte (a, b). Alle værdier i (a,b) lige sandsynlige (?) Bedre: sandsynligheden for x < Y < y proportional med y x. Tæthed { 1/(b a) hvis y (a,b) f Y (y) = 0 ellers. Eksempel 3.3: Uniform roulette: Y Uniform(0, 2π). For Y Uniform(a, b) gælder Middelværdi: Varians: Spredning: E(Y ) = a + b 2 Var (Y ) = (b a)2 12 σ Y = b a 12 = 0.2887(b a) Vises i bog, se også Adams afsnit 7.8. 3.3.2 Eksponentialfordelingen Husk at for Y E (λ) er tæthedsfunktionen f Y (y) = λe λy, y > 0 Fordelingsfunktionen F Y (y) = { 1 e λy y > 0 0 y 0 Middelværdi: E(Y ) = 1 λ Varians: Var (Y ) = 1 λ 2

3.3 Kendte kontinuerte fordelinger 7 Spredning: σ Y = 1 λ. Eksempel 3.4: Tid mellem kraftige jordskælv Ventetiden (i dage) mellem kraftige jordskælv (over 7.5 på Richterskalaen) kan modelleres med en eksponentialfordeling med rate λ = 0.00229. Så er E(Y ) = 436.68 Var (Y ) = 190690 σ Y = 436.68. Udregn sandsynligheden for at der kommer et kraftigt jordskælv inden for 10 dage. Svar: P(Y < 10) = 1 exp ( 0.00229 10) = 0.02264 går mere end 100 dage til næste kraftige jordskælv. Svar P(Y > 100) = 1 [1 exp ( 0.00229 100)] = 0.7953 3.3.3 Normalfordelingen Normalfordeling: Y N ( µ,σ 2), parametre µ R og σ 2 > 0. Langt den vigtigste fordeling, både teoretisk og praktisk. Fremkommer når Y er en sum af uendeligt mange uendeligt små stød (næste afsnit). Kaldes også den Gaussiske fordeling, efter C.F. Gauss. Tæthedsfunktionen for N ( µ,σ 2) : f Y (y) = 1 2πσ 2 e 1 2σ 2 (y µ)2, y R. Fordelingen har en pæn klokkeformet tæthedsfunktion, se følgende grafer

3.3 Kendte kontinuerte fordelinger 8 0.0 0.2 0.4 0.6 0.8 4 2 0 2 4 x Figur 3.2: Forskellige normalfordelinger. Se også følgende histogrammer med indlagte tætheder. 25 simulerede N(0,1) 100 simulerede N(0,1) 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 4 2 0 2 4 1 4 2 0 2 4 2 1000 simulerede N(0,1) 10000 simulerede N(0,1) 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 4 2 0 2 4 3 4 2 0 2 4 4

3.3 Kendte kontinuerte fordelinger 9 Momenter for Y N ( µ,σ 2) : Figur 3.3: Simulation af normalfordelte data. Middelværdi: E(Y ) = µ, positionsparameter. Varians: Var(Y ) = σ 2 Spredning: σ, skalaparameter. Standard normalfordeling: Z N(0, 1) har tæthed ϕ(z) = 1 2π e z2 /2, z R. og fordelingsfunktion Φ (z) = z 1 2π e t2 /2 dt, z R. Bemærk at Φ er i familie med error function erf erf z = 2 π z 0 e t2 dt. (udled selv sammenhængen med Φ, brug at Φ (0) = 1 2 ). Fordelingsfunktionen Φ for N(0,1) er tabellagt (Appendix A.3 i bogen). Bemærk symmetri: og ϕ( z) = ϕ(z) Φ ( z) = 1 Φ (z). Tæthed og fordelingsfunktion for Y kan udtrykkes ved ϕ og Φ: f Y (y) = 1 ( ) y µ σ ϕ σ ( ) y µ F Y (y) = Φ σ Bemærk symmetri omkring µ. Bemærk at µ er positionsparameter og σ er skalaparameter. Udregning af sandsynligheder. Husk: for en generel fordeling gælder: P(a < Y b) = F Y (b) F Y (a).

3.3 Kendte kontinuerte fordelinger 10 For standard normalfordelingen Z N(0, 1): Generel normalfordeling Y N ( µ,σ 2) : P (a < Z b) = Φ (b) Φ (a). ( ) d µ P (c < Y d) = Φ Φ σ Giver samme resultat for alle kombinationer af < og. Bemærk: At Y N ( µ,σ 2) er ensbetydende med ( c µ σ ). Z = Y µ σ N(0,1). Eksempel 3.5 Studerendes højde Lad os antage, at en tilfældigt udtrukket studerendes højde har fordeling Y N ( 175,10 2). Udregn sandsynligheden for, at en tilfældigt udtrukket studerende er højere end 180 cm. Svar: P(Y > 180) = 1 P(Y 180) ( ) 180 175 = 1 P Z 10 = 1 P (Z 0.5) = 1 0.6915 (tabel A.3) = 0.3085 Find det tal y, så P(Y y) = 0.1. Svar: så er P(Y y) = 0.9, og 0.9 = P(Y y) ( = P Z y 175 ) 10 Fra tabel A.3 fås så y = 187.8. y 175 10 = 1.28 Lineære transformationer: Hvis Y N ( µ,σ 2) gælder ay + b N ( aµ + b,a 2 σ 2).

3.4 Den centrale grænseværdisætning 11 Specielt gælder Y N ( µ,σ 2). Summer af normalfordelte variable: Hvis Y 1 og Y 2 er uafhængige og Y 1 N ( µ 1,σ1 2 ) og Y 2 N ( µ 2,σ2) 2, så gælder Y 1 + Y 2 N ( µ 1 + µ 2,σ 2 1 + σ2 2). Denne egenskab gør det meget let at regne med normalfordelingen. 3.3.4 Weibullfordelingen Betegnes Y W(α, β), defineret ved f Y (y) = α β αyα 1 e (y/β)α for y > 0 (0 ellers). Fordelingsfunktion F Y (y) = 1 e (y/β)α for y > 0 (0 ellers). Bemærk: Y/β W(α, 1), så β er en skalaparameter. Bemærk: Y α = E(1/β α ). Bruges som model for min: Y = min {Y 1,...,Y n } (en kædes svageste led). 3.4 Den centrale grænseværdisætning Antag at Y 1,Y 2,...,Y n uafhængige, identisk fordelte stokastiske variable alle med middelværdi µ og varians σ 2. Definer: S n = Y 1 + Y 2 + + Y n Ȳ n = 1 n S n Z n = S n nµ σ n = Ȳn µ σ/ n For n stor er Z n en sum af mange små uafhængige variable.

3.4 Den centrale grænseværdisætning 12 Husk at og specielt E(S n ) = nµ (vi siger at Z er standardiseret). Så gælder for alle z R Var(S n ) = σ 2 n E(Ȳn) = µ Var(Ȳn) = σ 2 /n E(Z n ) = 0 Var(Z n ) = 1 F Zn (z) Φ (z) for n. Kaldes den centrale grænseværdisætning (CLT). Vi siger at Z n konvergerer mod N(0,1) i fordeling. Bemærk: Det eneste krav er at E(Y ) og Var(Y ) eksisterer! For n passende stor kan vi approximere F Zn (z) med Φ (z). Hvor stort et n kræves afhænger af F Y1. Fortolkning: For Z n gælder ( betyder approksimativt fordelt som). For S n gælder tilsvarende Z n N(0,1). S n = nµ + σ nz n N ( nµ,nσ 2). Tilsvarende for Ȳn Ȳ n = µ + σ/ nz n ) N (µ, σ2. n Følgende grafer illustrerer konvergensen i tre tilfælde.

3.4 Den centrale grænseværdisætning 13 Uniform(0,1) Gennemsnit af 2 Uniform(0,1) 0.0 0.2 0.4 0.6 0.8 0.0 0.4 0.8 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Gennemsnit af 4 Uniform(0,1) Gennemsnit af 8 Uniform(0,1) 0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 2 1 0 1 2 1.0 0.5 0.0 0.5 1.0 Figur 3.4: Normalapproksimation til gennemsnit af uniforme fordelinger.

3.4 Den centrale grænseværdisætning 14 Eksponential(1) Gennemsnit af 2 E(1) 0.0 0.4 0.8 0.0 0.4 0.8 2 0 2 4 2 0 2 4 Gennemsnit af 4 E(1) Gennemsnit af 16 E(1) 0.0 0.4 0.8 0.0 0.5 1.0 1.5 2.0 2 0 2 4 1 0 1 2 3 Figur 3.5: Normalapproksimation til gennemsnit af eksponentialfordelinger.

3.4 Den centrale grænseværdisætning 15 Binomial(15,0.9) Gennemsnit af 2 b(15,0.9) 0.0 0.4 0.8 0.0 0.2 0.4 0.6 8 10 12 14 16 18 8 10 12 14 16 18 Gennemsnit af 4 b(15,0.9) Gennemsnit af 30 b(15,0.9) 0.0 0.4 0.8 0.0 1.0 2.0 10 11 12 13 14 15 16 12.5 13.0 13.5 14.0 14.5 Figur 3.6: Normalapproksimation til gennemsnit af binomialfordelinger. 3.4.1 Approximationer til binomial- og Poissonfordelinger Binomialfordeling: Y b(n, p): Betingelse: n stor. I praksis skal np og n(1 p) begge være mindst 10. Approximation: Hvis y er et heltal mellem 0 og n, ( ) y np + 0.5 P(Y y) Φ np(1 p) Leddet +0.5 er den såkaldte kontinuitetskorrektion. Approximationen er baseret på CLT. Poissonfordelingen: Y Poisson(λ): Betingelse: λ stor. I praksis skal λ være mindst 10.

3.5 Modelcheck 16 Approximation: Hvis y er et heltal større end 0 ( ) y λ + 0.5 P(Y y) Φ λ Leddet +0.5 er den såkaldte kontinuitetskorrektion. Approximationen er baseret på CLT. 3.5 Modelcheck Passer modellen godt til data? Der er mindst tre måder at checke en model på for data y 1,...,y n : 1. Sammenlign tæthedshistogram med tæthedsfunktion. Problem: valg af inddeling. 2. Sammenligning af F Y med empirisk fordelingsfunktion: Problem: svær at vurdere. F n (y) = 1 n {y i y}. 3. QQ-plot, eller fraktilsammenligning, som vi ser på nu. Lad y (1) y (n) betegne de ordnede data. Bemærk at F n (y (i) ) = i n, dvs. y (i) er en slags empirisk i/n-fraktil. Af symmetrigrunde vedtager vi dog y (i) er den empiriske i 1 2 n -fraktil. Antag nu at data kommer fra N ( µ,σ 2). Den teoretiske i 1 2 n -fraktil er µ + σz i, hvor ( ) i z i = Φ 1 1 2 n QQ-plot: Tegn punkterne (z i,y (i) ) op for i = 1,...,n. Skal følge en ret linie med hældning σ gennem (0,µ). Formlen for de empiriske fraktilerne varierer mellem programpakkerne.

3.5 Modelcheck 17 SAS benytter f.eks. i stedet for ( ) i 0.375 z i = Φ 1 n + 0.250 ( ) i z i = Φ 1 1 2. n Gør kun mindre forskel. Eksempel 1.6 (fortsat): Flagermus på jagt Ordnede data: Ordnede data: y (1) y (2) y (3) y (4) y (5) y (6) y (7) y (8) y (9) y (10) y (11) 23 27 34 40 42 45 52 56 62 68 83 Teoretiske fraktiler for normalfordeling Φ ( ): Fraktiler: ( ) z 1 z 2 z 3 z 10 z 11 Φ 1 k 0.375 11+0.25 1.5932 1.0606 0.7279 1.0606 1.5932 Figurer Figur 3.8: QQ-plot af afstand mellem flagermus og bytte.

3.6 Transformationer 18 Normal Q Q Plot Normal Q Q Plot Sample Quantiles 2.0 1.0 0.0 1.0 Sample Quantiles 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles Normal Q Q Plot Normal Q Q Plot Sample Quantiles 3 1 1 2 3 Sample Quantiles 4 2 0 2 3 1 0 1 2 3 4 2 0 2 4 Theoretical Quantiles Theoretical Quantiles Figur 3.7: QQ-plot af normalfordelte data. Afvigelserne fra den rette linie bliver mindre, jo større n er. De største afvigelser ses i halerne. Man bør se efter S-formede afvigelser eller krumning (opad eller nedad). Har man flere datasæt, bør man se efter systematiske afvigelser plottene. 3.6 Transformationer Hvis Y ikke er normalfordelt, kan man ofte finde en transformation H så X = H(Y ) er normal. Hvis Y er positiv benyttes ofte log Y eller Y c. Eksempel 3.6 Guldårer I 47 mulige guldårer blev målt mængden af udvindeligt guld i gram pr ton. (Figur 3.9)

3.6 Transformationer 19 Figur 3.9: Udvindeligt guld i guldårer. Figur 3.10: Log(Udvindeligt guld) i guldårer.