Sandsynlighed og Statistik

Relaterede dokumenter
Tema. Dagens tema: Indfør centrale statistiske begreber.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Produkt og marked - matematiske og statistiske metoder

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

INSTITUT FOR MATEMATISKE FAG c

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Elementær sandsynlighedsregning

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Sandsynlighedsregning Oversigt over begreber og fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Elementær sandsynlighedsregning

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Løsning eksamen d. 15. december 2008

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kvantitative Metoder 1 - Forår Dagens program

Løsning til eksaminen d. 14. december 2009

Betingning med en uafhængig variabel

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Modul 12: Regression og korrelation

Module 4: Ensidig variansanalyse

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Statistiske modeller

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Sandsynlighedsregning

Løsning til eksaminen d. 29. maj 2009

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Hvorfor er normalfordelingen så normal?

StatDataN: Test af hypotese

Analyse af måledata II

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Simpel Lineær Regression: Model

Højde af kvinder 2 / 18

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Note om Monte Carlo metoden

Kvantitative Metoder 1 - Efterår Dagens program

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

StatDataN: Plot af data

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

standard normalfordelingen på R 2.

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Nanostatistik: Test af hypotese

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Normalfordelingen og Stikprøvefordelinger

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Anvendt Lineær Algebra

1 Regressionsproblemet 2

Uge 10 Teoretisk Statistik 1. marts 2004

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Nanostatistik: Opgaver

Økonometri: Lektion 6 Emne: Heteroskedasticitet

4 Oversigt over kapitel 4

Den todimensionale normalfordeling

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Betingede sandsynligheder Aase D. Madsen

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Transkript:

36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet, så det erstatter på ingen måde et egentligt kursus i statistik, og slet ikke en egentlig lærebog. Min egen yndlingsbog er Glen Cowan: Statistical Data Analysis, Oxford Science Publications, men der er snesevis af dem i alle mix mellem tør teori, og praktiske anvendelser. 6.2 Sandsynlighedstæthed - p.d.f. En een-dimensional sandsynlighedstæthed på engelsk probability density function, (p.d.f.) angiver sandsynligheden for at finde en tilfældig variabel x i intervallet mellem x og x + dx: f(x, θ)dx hvor θ er en vektor af fastholdte parametre. værdier mellem 0 og 1, samt være integrabel med f(x, θ)dx = 1 Funktionen skal antage 6.3 Forventningsværdi og momemter Enhver funktion, g(x), af en tilfældig variabel med p.d.f. f(x) (vi dropper her parameterlisten), har forventningsværdien: E[g(x)] = g(x)f(x)dx En p.d.f. kan karakteriseres ved dets momenter, som er forventningsværdierne af lineært uafhængige polynomier i x, hvor de vigtigste er middelværdien: µ = xf(x)dx = E[x]

6.4. KORRELATIONER MELLEM TO TILFÆLDIGE VARIABLE 37 og variansen: σ 2 = E[(x µ) 2 ] = E[x 2 ] µ 2 1 Middelværdien µ, er ofte approximeret ved gennemsnittet: N xi, og 1 variansen med: N (xi µ) 2 for et endeligt antal, N, målinger. Faktisk er disse de bedst mulige estimater af de sande momenter. 6.4 Korrelationer mellem to tilfældige variable Kovariansen af to tilfældige variable x og y med kombineret p.d.f. f(x, y) er defineret som V xy = E[(x µ x )(y µ y )] = E[xy] µ x µ y = xyf(x, y)dxdy µ x µ y Mere generelt, for hvilke som helst to funktioner af n tilfældige variable x er kovarians-matricen givet ved: V ab = E[(a µ a )(b µ b )] = E[ab] µ a µ b = a( x)b( x)f( x)d x µ a µ b Per konstruktion er V ab symmetrisk med positiv diagonal: V aa = σ 2 a, altså variansen af a. Graden af korrelation er givet af korrelations-koefficienten: ρ ab = V ab σ a σ b som tager værdier i området 1 ρ ab 1. Læg mærke til at uafhængige variable har V ij omvendte ikke nødvendigvis er sandt. = 0, i j, mens det

38 6.5 Fejlpropagering - kædereglen Antag at vi kender middelværdierne µ i og kovarians-matricen V ij af nogle tilfældige variable x i, men ikke den detaljerede p.d.f. Hvordan skal vi så bestemme middelværdien og variansen af en funktion y( x)? (stregen betyder her vektor!) Ifald en første-ordens Taylor ekspansion omkring µ i er en god approximation, så er: y( x) y( µ) + Heraf ses let (idet E[ x µ] = 0) at E[y( x)] y( µ) E[y 2 ( x)] y 2 ( µ) + n i=1 δy δx i (x i µ i ) n i,j=1 [ ] δy δy V ij δx i δx j x= µ og heraf fås variansen σ 2 y = E[y 2 ( x)] E[y( x)] 2. Et par eksempler: Eksempel: y = x 1 + x 2. Eksempel: y = x 1 x 2. σ 2 y = σ 2 x 1 + σ 2 x 2 + 2V 12 σ 2 y y 2 = σ2 x 1 x 2 1 + σ2 x 2 x 2 2 + 2 V 12 x 1 x 2 Hvis der er tale om uafhængige variable, forsvinder V 12 -leddene, og udtrykkene reduceres til de velkendte formler. 6.6 Nogle vigtige sandsynlighedstætheder 6.6.1 Den uniforme fordeling f(x) = { 1 0 < x < 1 0 ellers

6.6. NOGLE VIGTIGE SANDSYNLIGHEDSTÆTHEDER 39 µ = 1 2 σ = 1 12 Et eksempel på en variabel, der er uniformt fordelt, er den nøjagtige brøkdel af et sekund, der lige NU er gået siden det sidste GMT sekund. Med få liniers kode kan man generere sådanne tilfældige tal på computeren, eller man kan benytte de generatorer, der er indbygget i alle statistiske pakker. 6.6.2 Binomial fordelingen Betragt N uafhængige forsøg med kun to mulige udfald: succes med sandsynlighed p og fiasko med sandsynlighed 1 p. Sandsynligheden for n succeser er: f(n; N, p) = N! n!(n n)! pn (1 p) N n µ = E[n] = Np σ = Np(1 p) Eksempelvis antallet af seksere ved 10 terningekast. 6.6.3 Poisson-fordelingen Betragt en begivenhed som sker med en fast sandsynlighed ν per tidsinterval. Intet andet begrænser antallet af begivenheder. Sandsynligheden for at observere n begivenheder i et sådant interval er så: f(n; ν) = νn n! e ν µ = E[n] = ν σ = ν Poisson-fordelingen er grænsen for binomial fordelingen når N er stor og p er lille med Np konstant. Den bliver til Gauss-fordelingen for store ν.

40 Et eksempel er en hvilken som helst tælling, der i princippet kan antage alle værdier. For eksempel antallet af biler, der i det næste minut passerer forbi ude på Nørre Alle eller antallet af henfald i en radioaktiv prøve i et givet tidsinterval. 6.6.4 Exponential-fordelingen Denne p.d.f. er definet på 0 x < : f(n; ξ) = 1 ξ e x/ξ µ = E[x] = ξ σ = ξ Et eksempel er den individuelle levetid af en ustabil partikel underlagt kvantemekanikkens love. Dette er let at vise, når det holdes for øje at sandsynligheden for at partiklen henfalder i den næste tidsenhed ikke afhænger af hvor længe den allerede har levet.. Man kan også let vise at tiden der går imellem to efterfølgende Poisson-fordelte begivenheder er exponentialt fordelt. 6.6.5 Gauss-fordelingen og måleusikkerheder f(x; µ, σ) = ( ) 1 (x µ) 2 exp 2πσ 2 2σ 2 Dens store betydning stammer fra de store tals lov: Summen af n tilfældige variable x i med hvilken som helst p.d.f. bliver Gauss-fordelt i grænsen af store n med µ = µ i og σ 2 = σi 2. Derfor bliver målefejl behandlet som Gaussiske tilfældige variabler, idet de anses for at skyldes en stor sum a mange små bidrag. I denne forbindelse er en standardafvigelse et alias for σ og det er normalt denne der angives sammen med måleresultatet. 6.6.6 χ 2 fordelingen f(z; n d ) = 1 2 n d/2 Γ(n d /2) zn d/2 1 e z/2, n d = 1, 2,

6.7. MINDSTE KVADRATERS METODE 41 µ = E[z] = n d σ = 2n d hvor n d kaldes antallet af frihedsgrader. Betragt n d uafhængige Gaussiske tilfældige tal, y i, med kendte middelværdier og varianser. Så er variablen z = n (y i µ i ) 2 σ 2 i=1 i χ 2 -fordelt for n d frihedsgrader. Mere generelt, hvis y i erne ikke er uafhængige, så er den χ 2 -fordelte tilfældige variabel: z = (ȳ µ) T V 1 (ȳ µ) 6.7 Mindste kvadraters metode Betragt N uafhængige målinger, y i, der skulle være beskrevet ved hypotetisk funktion λ(x i, θ), hvor variablerne x i er kendt uden fejl, mens parametrene θ er ukendte. Antag nu at y i erne er Gaussiske tilfældige variable centreret omkring værdien af funktionen λ. Vi antager altså at hypotesen er sand. Den kombinerede sandsynlighed under denne antagelse af alle målingerne kaldes hypotesens likelihood, L. Denne er er da et produkt af Gauss-funktioner og dens logaritme er: log L( θ) = 1 N (y i λ(x i ; θ)) 2 2 σ 2 i=1 i = 1 2 χ2 ( θ)

42 Så maximering af log L med hensyn til de ukendte parametre θ svarer til at minimere χ 2. Mindste kvadraters metoden anvender minimering af χ 2, selv for ikke-gaussiske variable. I det tilfælde at y i erne ikke er uafhængige, men beskrevet af N-dimensional Gauss med kovarians matrix V, er størrelsen der skal minimeres χ 2 ( θ) = N (y i λ(x i ; i=1 1 θ))(vij )(y j λ(x j ; θ)) Nogle gange kan minimaliseringen foretages analytisk. Man differentierer mht θ erne, sætter lig nul og løser de lineære ligninger. Der er også forskellige numeriske strategier anvendt i statistiske programpakker. Efter at have fundet de parametre som minimaliserer χ 2, skal parametrenes kovarians matrix bestemmes. En parameters standardafvigelse sættes til den variation af parameteren, som forøger χ 2 med 1. 6.7.1 Fittets kvalitet Betragt igen N målinger, y i, og en hypotese λ parametriseret af m parametre.. Hvis følgende betingelser er opfyldt: y i erne er Gaussiske variable. de Gaussiske σ er er korrekt estimeret. λ er lineær i parametrene. λ er den korrekte funktion. Så vil χ 2 faktisk følge χ 2 -fordelingen med n d = N m frihedsgrader. Sandsynligheden for at finde det observerede χ 2, eller et der er endnu værre er så: P = χ 2 f(z; n d )dz

6.7. MINDSTE KVADRATERS METODE 43 Dette P (nogle gange kaldet CL for Confidence Level) kan bruges som et subjektivt kriterium for at forkaste hypotesen, λ. Man kunne f.eks vælge at bortkaste hypotesen hvis P < 0.01, altså hvis der er mindre en 1% sandsynlighed for at finde det observerede χ 2 (eller eet, der er større). I tabellen nedenfor er nogle eksempler på P -værdier for få frihedsgrader. For et stort antal frihedsgrader er χ 2 n d (eller mere nøjagtigt: 2χ 2 er approximativt Gauss-fordelt med middelværdi 2 n d 1 og varians 1). Derfor bør χ 2 /n d 1, hvis hypotesen og målingerne er OK. χ 2 per frihedsgrad kaldes også det reducerede chisquared. χ 2 for forskellige P-værdier og antal frihedsgrader (n d ). P -værdi: 0.1 0.05 0.01 0.001 n d 1 2.71 3.84 6.63 10.83 2 4.61 5.99 9.21 13.81 3 6.25 7.81 11.34 16.27 4 7.78 9.49 13.28 18.47 6 10.64 12.59 16.81 22.46 8 13.36 15.51 20.09 26.12 10 15.99 18.31 23.21 29.59 20 28.41 31.41 37.67 45.31 6.7.2 Mindste kvadraters metode - det lineære tilfælde Betragt tilfældet hvor hypotesen er en lineær funktion af m parametre θ λ(x i, θ) = m m a j (x i )θ j = A ij θ j j=1 j=1 Functionerne a j skal være lineært uafhængige. χ 2 er så i matrix notation: χ 2 = (ȳ A θ) T V 1 (ȳ A θ) Ligningerne, som skal løses, er

44 χ 2 = 2(A T V 1 ȳ A T V 1 A θ) = 0 og løsningerne er ˆθ = (A T V 1 A) 1 (A T V 1 )ȳ Bȳ Ved anvendelse af kædereglen får vi kovarians matricen af de fittede parametre: U = BV B T = (A T V 1 A) 1 ( [ ] ) 1 δ 2 χ 2 1 = 2 δθ i δθ j θ=ˆθ 6.7.3 Eksempel: lineært fit Hvis hypotesen er en ret linie: y(x) = α 1 + α 2 x, vil man for en sekvens af uafhængige målinger y i få følgende parameter estimater, hvor α 1 = (g 1 V22 1 2V12 1 α 2 = (g 2 V11 1 1V12 1 ( ) V11 1, V 12 1, V 22 1 = (1, x i, x 2 i ) /σ 2 i, (g 1, g 2 ) = (1, x i ) y i /σ 2 i, og D = V11 1 V 22 1 1 (V12 )2. Kovariance matricen af de fittede parametre er

6.7. MINDSTE KVADRATERS METODE 45 (V 11, V 12, V 22 ) = ( ) V22 1, V 12 1, V 11 1 /D. Den estimerede varians af en extrapoleret værdi y er σ 2 y = 1 V 1 11 + V 11 1 D ( x V 12 1 ) 2 V11 1. 6.7.4 Vægtet middelværdi i mindste kvadraters metode Hvis vi har flere uafhængige estimater y i af den samme størrelse λ, men med forskellige usikkerheder σ i, kan vi kombinere disse målinger med formlen for en vægtet middelværdi: ˆλ = V [ˆλ] = yi /σ 2 i 1/σ 2 j 1 1/σ 2 j Det bliver mere kompliceret hvis y i erne ikke er uafhængige (f.eks på grund af fælles systematiske fejl). Fælles fejl bør separeres ud og adderes bagefter midlingen. 6.7.5 Mindste kvadraters metode for binnede data Betragt n observationer af x præsenteret i et histogram med N bins. Vi ønsker at sammenligne det med en hypotetisk p.d.f. med sandsynligheder p i (θ) i hvert bin. For tilstrækkeligt store N er antallet af tællinger i hvert bin y i i praksis Poisson-fordelt. Derfor kan parametrene findes ved at minimere: χ 2 ( θ) = 1 N (y i np i ( θ)) 2 2 np i=1 i ( θ)

46 Det falder sig ofte i faktiske anvendelser, at nævneren erstattes af målingen selv, y i, af praktiske grunde. Dette kaldes den modificerede mindste kvadraters metode (MLS). Men det er ikke ideelt hvis nogle bins har meget få tællinger specielt hvis der er tomme bins. I dette tilfælde vælg en anden metode eller brug større bins.