36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet, så det erstatter på ingen måde et egentligt kursus i statistik, og slet ikke en egentlig lærebog. Min egen yndlingsbog er Glen Cowan: Statistical Data Analysis, Oxford Science Publications, men der er snesevis af dem i alle mix mellem tør teori, og praktiske anvendelser. 6.2 Sandsynlighedstæthed - p.d.f. En een-dimensional sandsynlighedstæthed på engelsk probability density function, (p.d.f.) angiver sandsynligheden for at finde en tilfældig variabel x i intervallet mellem x og x + dx: f(x, θ)dx hvor θ er en vektor af fastholdte parametre. værdier mellem 0 og 1, samt være integrabel med f(x, θ)dx = 1 Funktionen skal antage 6.3 Forventningsværdi og momemter Enhver funktion, g(x), af en tilfældig variabel med p.d.f. f(x) (vi dropper her parameterlisten), har forventningsværdien: E[g(x)] = g(x)f(x)dx En p.d.f. kan karakteriseres ved dets momenter, som er forventningsværdierne af lineært uafhængige polynomier i x, hvor de vigtigste er middelværdien: µ = xf(x)dx = E[x]
6.4. KORRELATIONER MELLEM TO TILFÆLDIGE VARIABLE 37 og variansen: σ 2 = E[(x µ) 2 ] = E[x 2 ] µ 2 1 Middelværdien µ, er ofte approximeret ved gennemsnittet: N xi, og 1 variansen med: N (xi µ) 2 for et endeligt antal, N, målinger. Faktisk er disse de bedst mulige estimater af de sande momenter. 6.4 Korrelationer mellem to tilfældige variable Kovariansen af to tilfældige variable x og y med kombineret p.d.f. f(x, y) er defineret som V xy = E[(x µ x )(y µ y )] = E[xy] µ x µ y = xyf(x, y)dxdy µ x µ y Mere generelt, for hvilke som helst to funktioner af n tilfældige variable x er kovarians-matricen givet ved: V ab = E[(a µ a )(b µ b )] = E[ab] µ a µ b = a( x)b( x)f( x)d x µ a µ b Per konstruktion er V ab symmetrisk med positiv diagonal: V aa = σ 2 a, altså variansen af a. Graden af korrelation er givet af korrelations-koefficienten: ρ ab = V ab σ a σ b som tager værdier i området 1 ρ ab 1. Læg mærke til at uafhængige variable har V ij omvendte ikke nødvendigvis er sandt. = 0, i j, mens det
38 6.5 Fejlpropagering - kædereglen Antag at vi kender middelværdierne µ i og kovarians-matricen V ij af nogle tilfældige variable x i, men ikke den detaljerede p.d.f. Hvordan skal vi så bestemme middelværdien og variansen af en funktion y( x)? (stregen betyder her vektor!) Ifald en første-ordens Taylor ekspansion omkring µ i er en god approximation, så er: y( x) y( µ) + Heraf ses let (idet E[ x µ] = 0) at E[y( x)] y( µ) E[y 2 ( x)] y 2 ( µ) + n i=1 δy δx i (x i µ i ) n i,j=1 [ ] δy δy V ij δx i δx j x= µ og heraf fås variansen σ 2 y = E[y 2 ( x)] E[y( x)] 2. Et par eksempler: Eksempel: y = x 1 + x 2. Eksempel: y = x 1 x 2. σ 2 y = σ 2 x 1 + σ 2 x 2 + 2V 12 σ 2 y y 2 = σ2 x 1 x 2 1 + σ2 x 2 x 2 2 + 2 V 12 x 1 x 2 Hvis der er tale om uafhængige variable, forsvinder V 12 -leddene, og udtrykkene reduceres til de velkendte formler. 6.6 Nogle vigtige sandsynlighedstætheder 6.6.1 Den uniforme fordeling f(x) = { 1 0 < x < 1 0 ellers
6.6. NOGLE VIGTIGE SANDSYNLIGHEDSTÆTHEDER 39 µ = 1 2 σ = 1 12 Et eksempel på en variabel, der er uniformt fordelt, er den nøjagtige brøkdel af et sekund, der lige NU er gået siden det sidste GMT sekund. Med få liniers kode kan man generere sådanne tilfældige tal på computeren, eller man kan benytte de generatorer, der er indbygget i alle statistiske pakker. 6.6.2 Binomial fordelingen Betragt N uafhængige forsøg med kun to mulige udfald: succes med sandsynlighed p og fiasko med sandsynlighed 1 p. Sandsynligheden for n succeser er: f(n; N, p) = N! n!(n n)! pn (1 p) N n µ = E[n] = Np σ = Np(1 p) Eksempelvis antallet af seksere ved 10 terningekast. 6.6.3 Poisson-fordelingen Betragt en begivenhed som sker med en fast sandsynlighed ν per tidsinterval. Intet andet begrænser antallet af begivenheder. Sandsynligheden for at observere n begivenheder i et sådant interval er så: f(n; ν) = νn n! e ν µ = E[n] = ν σ = ν Poisson-fordelingen er grænsen for binomial fordelingen når N er stor og p er lille med Np konstant. Den bliver til Gauss-fordelingen for store ν.
40 Et eksempel er en hvilken som helst tælling, der i princippet kan antage alle værdier. For eksempel antallet af biler, der i det næste minut passerer forbi ude på Nørre Alle eller antallet af henfald i en radioaktiv prøve i et givet tidsinterval. 6.6.4 Exponential-fordelingen Denne p.d.f. er definet på 0 x < : f(n; ξ) = 1 ξ e x/ξ µ = E[x] = ξ σ = ξ Et eksempel er den individuelle levetid af en ustabil partikel underlagt kvantemekanikkens love. Dette er let at vise, når det holdes for øje at sandsynligheden for at partiklen henfalder i den næste tidsenhed ikke afhænger af hvor længe den allerede har levet.. Man kan også let vise at tiden der går imellem to efterfølgende Poisson-fordelte begivenheder er exponentialt fordelt. 6.6.5 Gauss-fordelingen og måleusikkerheder f(x; µ, σ) = ( ) 1 (x µ) 2 exp 2πσ 2 2σ 2 Dens store betydning stammer fra de store tals lov: Summen af n tilfældige variable x i med hvilken som helst p.d.f. bliver Gauss-fordelt i grænsen af store n med µ = µ i og σ 2 = σi 2. Derfor bliver målefejl behandlet som Gaussiske tilfældige variabler, idet de anses for at skyldes en stor sum a mange små bidrag. I denne forbindelse er en standardafvigelse et alias for σ og det er normalt denne der angives sammen med måleresultatet. 6.6.6 χ 2 fordelingen f(z; n d ) = 1 2 n d/2 Γ(n d /2) zn d/2 1 e z/2, n d = 1, 2,
6.7. MINDSTE KVADRATERS METODE 41 µ = E[z] = n d σ = 2n d hvor n d kaldes antallet af frihedsgrader. Betragt n d uafhængige Gaussiske tilfældige tal, y i, med kendte middelværdier og varianser. Så er variablen z = n (y i µ i ) 2 σ 2 i=1 i χ 2 -fordelt for n d frihedsgrader. Mere generelt, hvis y i erne ikke er uafhængige, så er den χ 2 -fordelte tilfældige variabel: z = (ȳ µ) T V 1 (ȳ µ) 6.7 Mindste kvadraters metode Betragt N uafhængige målinger, y i, der skulle være beskrevet ved hypotetisk funktion λ(x i, θ), hvor variablerne x i er kendt uden fejl, mens parametrene θ er ukendte. Antag nu at y i erne er Gaussiske tilfældige variable centreret omkring værdien af funktionen λ. Vi antager altså at hypotesen er sand. Den kombinerede sandsynlighed under denne antagelse af alle målingerne kaldes hypotesens likelihood, L. Denne er er da et produkt af Gauss-funktioner og dens logaritme er: log L( θ) = 1 N (y i λ(x i ; θ)) 2 2 σ 2 i=1 i = 1 2 χ2 ( θ)
42 Så maximering af log L med hensyn til de ukendte parametre θ svarer til at minimere χ 2. Mindste kvadraters metoden anvender minimering af χ 2, selv for ikke-gaussiske variable. I det tilfælde at y i erne ikke er uafhængige, men beskrevet af N-dimensional Gauss med kovarians matrix V, er størrelsen der skal minimeres χ 2 ( θ) = N (y i λ(x i ; i=1 1 θ))(vij )(y j λ(x j ; θ)) Nogle gange kan minimaliseringen foretages analytisk. Man differentierer mht θ erne, sætter lig nul og løser de lineære ligninger. Der er også forskellige numeriske strategier anvendt i statistiske programpakker. Efter at have fundet de parametre som minimaliserer χ 2, skal parametrenes kovarians matrix bestemmes. En parameters standardafvigelse sættes til den variation af parameteren, som forøger χ 2 med 1. 6.7.1 Fittets kvalitet Betragt igen N målinger, y i, og en hypotese λ parametriseret af m parametre.. Hvis følgende betingelser er opfyldt: y i erne er Gaussiske variable. de Gaussiske σ er er korrekt estimeret. λ er lineær i parametrene. λ er den korrekte funktion. Så vil χ 2 faktisk følge χ 2 -fordelingen med n d = N m frihedsgrader. Sandsynligheden for at finde det observerede χ 2, eller et der er endnu værre er så: P = χ 2 f(z; n d )dz
6.7. MINDSTE KVADRATERS METODE 43 Dette P (nogle gange kaldet CL for Confidence Level) kan bruges som et subjektivt kriterium for at forkaste hypotesen, λ. Man kunne f.eks vælge at bortkaste hypotesen hvis P < 0.01, altså hvis der er mindre en 1% sandsynlighed for at finde det observerede χ 2 (eller eet, der er større). I tabellen nedenfor er nogle eksempler på P -værdier for få frihedsgrader. For et stort antal frihedsgrader er χ 2 n d (eller mere nøjagtigt: 2χ 2 er approximativt Gauss-fordelt med middelværdi 2 n d 1 og varians 1). Derfor bør χ 2 /n d 1, hvis hypotesen og målingerne er OK. χ 2 per frihedsgrad kaldes også det reducerede chisquared. χ 2 for forskellige P-værdier og antal frihedsgrader (n d ). P -værdi: 0.1 0.05 0.01 0.001 n d 1 2.71 3.84 6.63 10.83 2 4.61 5.99 9.21 13.81 3 6.25 7.81 11.34 16.27 4 7.78 9.49 13.28 18.47 6 10.64 12.59 16.81 22.46 8 13.36 15.51 20.09 26.12 10 15.99 18.31 23.21 29.59 20 28.41 31.41 37.67 45.31 6.7.2 Mindste kvadraters metode - det lineære tilfælde Betragt tilfældet hvor hypotesen er en lineær funktion af m parametre θ λ(x i, θ) = m m a j (x i )θ j = A ij θ j j=1 j=1 Functionerne a j skal være lineært uafhængige. χ 2 er så i matrix notation: χ 2 = (ȳ A θ) T V 1 (ȳ A θ) Ligningerne, som skal løses, er
44 χ 2 = 2(A T V 1 ȳ A T V 1 A θ) = 0 og løsningerne er ˆθ = (A T V 1 A) 1 (A T V 1 )ȳ Bȳ Ved anvendelse af kædereglen får vi kovarians matricen af de fittede parametre: U = BV B T = (A T V 1 A) 1 ( [ ] ) 1 δ 2 χ 2 1 = 2 δθ i δθ j θ=ˆθ 6.7.3 Eksempel: lineært fit Hvis hypotesen er en ret linie: y(x) = α 1 + α 2 x, vil man for en sekvens af uafhængige målinger y i få følgende parameter estimater, hvor α 1 = (g 1 V22 1 2V12 1 α 2 = (g 2 V11 1 1V12 1 ( ) V11 1, V 12 1, V 22 1 = (1, x i, x 2 i ) /σ 2 i, (g 1, g 2 ) = (1, x i ) y i /σ 2 i, og D = V11 1 V 22 1 1 (V12 )2. Kovariance matricen af de fittede parametre er
6.7. MINDSTE KVADRATERS METODE 45 (V 11, V 12, V 22 ) = ( ) V22 1, V 12 1, V 11 1 /D. Den estimerede varians af en extrapoleret værdi y er σ 2 y = 1 V 1 11 + V 11 1 D ( x V 12 1 ) 2 V11 1. 6.7.4 Vægtet middelværdi i mindste kvadraters metode Hvis vi har flere uafhængige estimater y i af den samme størrelse λ, men med forskellige usikkerheder σ i, kan vi kombinere disse målinger med formlen for en vægtet middelværdi: ˆλ = V [ˆλ] = yi /σ 2 i 1/σ 2 j 1 1/σ 2 j Det bliver mere kompliceret hvis y i erne ikke er uafhængige (f.eks på grund af fælles systematiske fejl). Fælles fejl bør separeres ud og adderes bagefter midlingen. 6.7.5 Mindste kvadraters metode for binnede data Betragt n observationer af x præsenteret i et histogram med N bins. Vi ønsker at sammenligne det med en hypotetisk p.d.f. med sandsynligheder p i (θ) i hvert bin. For tilstrækkeligt store N er antallet af tællinger i hvert bin y i i praksis Poisson-fordelt. Derfor kan parametrene findes ved at minimere: χ 2 ( θ) = 1 N (y i np i ( θ)) 2 2 np i=1 i ( θ)
46 Det falder sig ofte i faktiske anvendelser, at nævneren erstattes af målingen selv, y i, af praktiske grunde. Dette kaldes den modificerede mindste kvadraters metode (MLS). Men det er ikke ideelt hvis nogle bins har meget få tællinger specielt hvis der er tomme bins. I dette tilfælde vælg en anden metode eller brug større bins.