Sandsynlighed og Statistik
|
|
|
- Ejnar Mikkel Jespersen
- 8 år siden
- Visninger:
Transkript
1 36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet, så det erstatter på ingen måde et egentligt kursus i statistik, og slet ikke en egentlig lærebog. Min egen yndlingsbog er Glen Cowan: Statistical Data Analysis, Oxford Science Publications, men der er snesevis af dem i alle mix mellem tør teori, og praktiske anvendelser. 6.2 Sandsynlighedstæthed - p.d.f. En een-dimensional sandsynlighedstæthed på engelsk probability density function, (p.d.f.) angiver sandsynligheden for at finde en tilfældig variabel x i intervallet mellem x og x + dx: f(x, θ)dx hvor θ er en vektor af fastholdte parametre. værdier mellem 0 og 1, samt være integrabel med f(x, θ)dx = 1 Funktionen skal antage 6.3 Forventningsværdi og momemter Enhver funktion, g(x), af en tilfældig variabel med p.d.f. f(x) (vi dropper her parameterlisten), har forventningsværdien: E[g(x)] = g(x)f(x)dx En p.d.f. kan karakteriseres ved dets momenter, som er forventningsværdierne af lineært uafhængige polynomier i x, hvor de vigtigste er middelværdien: µ = xf(x)dx = E[x]
2 6.4. KORRELATIONER MELLEM TO TILFÆLDIGE VARIABLE 37 og variansen: σ 2 = E[(x µ) 2 ] = E[x 2 ] µ 2 1 Middelværdien µ, er ofte approximeret ved gennemsnittet: N xi, og 1 variansen med: N (xi µ) 2 for et endeligt antal, N, målinger. Faktisk er disse de bedst mulige estimater af de sande momenter. 6.4 Korrelationer mellem to tilfældige variable Kovariansen af to tilfældige variable x og y med kombineret p.d.f. f(x, y) er defineret som V xy = E[(x µ x )(y µ y )] = E[xy] µ x µ y = xyf(x, y)dxdy µ x µ y Mere generelt, for hvilke som helst to funktioner af n tilfældige variable x er kovarians-matricen givet ved: V ab = E[(a µ a )(b µ b )] = E[ab] µ a µ b = a( x)b( x)f( x)d x µ a µ b Per konstruktion er V ab symmetrisk med positiv diagonal: V aa = σ 2 a, altså variansen af a. Graden af korrelation er givet af korrelations-koefficienten: ρ ab = V ab σ a σ b som tager værdier i området 1 ρ ab 1. Læg mærke til at uafhængige variable har V ij omvendte ikke nødvendigvis er sandt. = 0, i j, mens det
3 Fejlpropagering - kædereglen Antag at vi kender middelværdierne µ i og kovarians-matricen V ij af nogle tilfældige variable x i, men ikke den detaljerede p.d.f. Hvordan skal vi så bestemme middelværdien og variansen af en funktion y( x)? (stregen betyder her vektor!) Ifald en første-ordens Taylor ekspansion omkring µ i er en god approximation, så er: y( x) y( µ) + Heraf ses let (idet E[ x µ] = 0) at E[y( x)] y( µ) E[y 2 ( x)] y 2 ( µ) + n i=1 δy δx i (x i µ i ) n i,j=1 [ ] δy δy V ij δx i δx j x= µ og heraf fås variansen σ 2 y = E[y 2 ( x)] E[y( x)] 2. Et par eksempler: Eksempel: y = x 1 + x 2. Eksempel: y = x 1 x 2. σ 2 y = σ 2 x 1 + σ 2 x 2 + 2V 12 σ 2 y y 2 = σ2 x 1 x σ2 x 2 x V 12 x 1 x 2 Hvis der er tale om uafhængige variable, forsvinder V 12 -leddene, og udtrykkene reduceres til de velkendte formler. 6.6 Nogle vigtige sandsynlighedstætheder Den uniforme fordeling f(x) = { 1 0 < x < 1 0 ellers
4 6.6. NOGLE VIGTIGE SANDSYNLIGHEDSTÆTHEDER 39 µ = 1 2 σ = 1 12 Et eksempel på en variabel, der er uniformt fordelt, er den nøjagtige brøkdel af et sekund, der lige NU er gået siden det sidste GMT sekund. Med få liniers kode kan man generere sådanne tilfældige tal på computeren, eller man kan benytte de generatorer, der er indbygget i alle statistiske pakker Binomial fordelingen Betragt N uafhængige forsøg med kun to mulige udfald: succes med sandsynlighed p og fiasko med sandsynlighed 1 p. Sandsynligheden for n succeser er: f(n; N, p) = N! n!(n n)! pn (1 p) N n µ = E[n] = Np σ = Np(1 p) Eksempelvis antallet af seksere ved 10 terningekast Poisson-fordelingen Betragt en begivenhed som sker med en fast sandsynlighed ν per tidsinterval. Intet andet begrænser antallet af begivenheder. Sandsynligheden for at observere n begivenheder i et sådant interval er så: f(n; ν) = νn n! e ν µ = E[n] = ν σ = ν Poisson-fordelingen er grænsen for binomial fordelingen når N er stor og p er lille med Np konstant. Den bliver til Gauss-fordelingen for store ν.
5 40 Et eksempel er en hvilken som helst tælling, der i princippet kan antage alle værdier. For eksempel antallet af biler, der i det næste minut passerer forbi ude på Nørre Alle eller antallet af henfald i en radioaktiv prøve i et givet tidsinterval Exponential-fordelingen Denne p.d.f. er definet på 0 x < : f(n; ξ) = 1 ξ e x/ξ µ = E[x] = ξ σ = ξ Et eksempel er den individuelle levetid af en ustabil partikel underlagt kvantemekanikkens love. Dette er let at vise, når det holdes for øje at sandsynligheden for at partiklen henfalder i den næste tidsenhed ikke afhænger af hvor længe den allerede har levet.. Man kan også let vise at tiden der går imellem to efterfølgende Poisson-fordelte begivenheder er exponentialt fordelt Gauss-fordelingen og måleusikkerheder f(x; µ, σ) = ( ) 1 (x µ) 2 exp 2πσ 2 2σ 2 Dens store betydning stammer fra de store tals lov: Summen af n tilfældige variable x i med hvilken som helst p.d.f. bliver Gauss-fordelt i grænsen af store n med µ = µ i og σ 2 = σi 2. Derfor bliver målefejl behandlet som Gaussiske tilfældige variabler, idet de anses for at skyldes en stor sum a mange små bidrag. I denne forbindelse er en standardafvigelse et alias for σ og det er normalt denne der angives sammen med måleresultatet χ 2 fordelingen f(z; n d ) = 1 2 n d/2 Γ(n d /2) zn d/2 1 e z/2, n d = 1, 2,
6 6.7. MINDSTE KVADRATERS METODE 41 µ = E[z] = n d σ = 2n d hvor n d kaldes antallet af frihedsgrader. Betragt n d uafhængige Gaussiske tilfældige tal, y i, med kendte middelværdier og varianser. Så er variablen z = n (y i µ i ) 2 σ 2 i=1 i χ 2 -fordelt for n d frihedsgrader. Mere generelt, hvis y i erne ikke er uafhængige, så er den χ 2 -fordelte tilfældige variabel: z = (ȳ µ) T V 1 (ȳ µ) 6.7 Mindste kvadraters metode Betragt N uafhængige målinger, y i, der skulle være beskrevet ved hypotetisk funktion λ(x i, θ), hvor variablerne x i er kendt uden fejl, mens parametrene θ er ukendte. Antag nu at y i erne er Gaussiske tilfældige variable centreret omkring værdien af funktionen λ. Vi antager altså at hypotesen er sand. Den kombinerede sandsynlighed under denne antagelse af alle målingerne kaldes hypotesens likelihood, L. Denne er er da et produkt af Gauss-funktioner og dens logaritme er: log L( θ) = 1 N (y i λ(x i ; θ)) 2 2 σ 2 i=1 i = 1 2 χ2 ( θ)
7 42 Så maximering af log L med hensyn til de ukendte parametre θ svarer til at minimere χ 2. Mindste kvadraters metoden anvender minimering af χ 2, selv for ikke-gaussiske variable. I det tilfælde at y i erne ikke er uafhængige, men beskrevet af N-dimensional Gauss med kovarians matrix V, er størrelsen der skal minimeres χ 2 ( θ) = N (y i λ(x i ; i=1 1 θ))(vij )(y j λ(x j ; θ)) Nogle gange kan minimaliseringen foretages analytisk. Man differentierer mht θ erne, sætter lig nul og løser de lineære ligninger. Der er også forskellige numeriske strategier anvendt i statistiske programpakker. Efter at have fundet de parametre som minimaliserer χ 2, skal parametrenes kovarians matrix bestemmes. En parameters standardafvigelse sættes til den variation af parameteren, som forøger χ 2 med Fittets kvalitet Betragt igen N målinger, y i, og en hypotese λ parametriseret af m parametre.. Hvis følgende betingelser er opfyldt: y i erne er Gaussiske variable. de Gaussiske σ er er korrekt estimeret. λ er lineær i parametrene. λ er den korrekte funktion. Så vil χ 2 faktisk følge χ 2 -fordelingen med n d = N m frihedsgrader. Sandsynligheden for at finde det observerede χ 2, eller et der er endnu værre er så: P = χ 2 f(z; n d )dz
8 6.7. MINDSTE KVADRATERS METODE 43 Dette P (nogle gange kaldet CL for Confidence Level) kan bruges som et subjektivt kriterium for at forkaste hypotesen, λ. Man kunne f.eks vælge at bortkaste hypotesen hvis P < 0.01, altså hvis der er mindre en 1% sandsynlighed for at finde det observerede χ 2 (eller eet, der er større). I tabellen nedenfor er nogle eksempler på P -værdier for få frihedsgrader. For et stort antal frihedsgrader er χ 2 n d (eller mere nøjagtigt: 2χ 2 er approximativt Gauss-fordelt med middelværdi 2 n d 1 og varians 1). Derfor bør χ 2 /n d 1, hvis hypotesen og målingerne er OK. χ 2 per frihedsgrad kaldes også det reducerede chisquared. χ 2 for forskellige P-værdier og antal frihedsgrader (n d ). P -værdi: n d Mindste kvadraters metode - det lineære tilfælde Betragt tilfældet hvor hypotesen er en lineær funktion af m parametre θ λ(x i, θ) = m m a j (x i )θ j = A ij θ j j=1 j=1 Functionerne a j skal være lineært uafhængige. χ 2 er så i matrix notation: χ 2 = (ȳ A θ) T V 1 (ȳ A θ) Ligningerne, som skal løses, er
9 44 χ 2 = 2(A T V 1 ȳ A T V 1 A θ) = 0 og løsningerne er ˆθ = (A T V 1 A) 1 (A T V 1 )ȳ Bȳ Ved anvendelse af kædereglen får vi kovarians matricen af de fittede parametre: U = BV B T = (A T V 1 A) 1 ( [ ] ) 1 δ 2 χ 2 1 = 2 δθ i δθ j θ=ˆθ Eksempel: lineært fit Hvis hypotesen er en ret linie: y(x) = α 1 + α 2 x, vil man for en sekvens af uafhængige målinger y i få følgende parameter estimater, hvor α 1 = (g 1 V22 1 2V12 1 α 2 = (g 2 V11 1 1V12 1 ( ) V11 1, V 12 1, V 22 1 = (1, x i, x 2 i ) /σ 2 i, (g 1, g 2 ) = (1, x i ) y i /σ 2 i, og D = V11 1 V (V12 )2. Kovariance matricen af de fittede parametre er
10 6.7. MINDSTE KVADRATERS METODE 45 (V 11, V 12, V 22 ) = ( ) V22 1, V 12 1, V 11 1 /D. Den estimerede varians af en extrapoleret værdi y er σ 2 y = 1 V V 11 1 D ( x V 12 1 ) 2 V Vægtet middelværdi i mindste kvadraters metode Hvis vi har flere uafhængige estimater y i af den samme størrelse λ, men med forskellige usikkerheder σ i, kan vi kombinere disse målinger med formlen for en vægtet middelværdi: ˆλ = V [ˆλ] = yi /σ 2 i 1/σ 2 j 1 1/σ 2 j Det bliver mere kompliceret hvis y i erne ikke er uafhængige (f.eks på grund af fælles systematiske fejl). Fælles fejl bør separeres ud og adderes bagefter midlingen Mindste kvadraters metode for binnede data Betragt n observationer af x præsenteret i et histogram med N bins. Vi ønsker at sammenligne det med en hypotetisk p.d.f. med sandsynligheder p i (θ) i hvert bin. For tilstrækkeligt store N er antallet af tællinger i hvert bin y i i praksis Poisson-fordelt. Derfor kan parametrene findes ved at minimere: χ 2 ( θ) = 1 N (y i np i ( θ)) 2 2 np i=1 i ( θ)
11 46 Det falder sig ofte i faktiske anvendelser, at nævneren erstattes af målingen selv, y i, af praktiske grunde. Dette kaldes den modificerede mindste kvadraters metode (MLS). Men det er ikke ideelt hvis nogle bins har meget få tællinger specielt hvis der er tomme bins. I dette tilfælde vælg en anden metode eller brug større bins.
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.
Simple fejlforplantningslov Landmålingens fejlteori Lektion 6 Den generelle fejlforplantningslov Antag X, X,, X n er n uafhængige stokastiske variable, hvor Var(X )σ,, Var(X n )σ n Lad Y g(x, X,, X n ),
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
INSTITUT FOR MATEMATISKE FAG c
INSTITUT FOR MATEMATISKE FAG c AALBORG UNIVERSITET FREDRIK BAJERS VEJ 7 G 9220 AALBORG ØST Tlf.: 96 35 89 27 URL: www.math.aau.dk Fax: 98 15 81 29 E-mail: [email protected] Dataanalyse Sandsynlighed og stokastiske
Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable
Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition
Elementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder
hvor a og b er konstanter. Ved middelværdidannelse fås videre
Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den
Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen
Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +
Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable
Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Sandsynlighedsregning Oversigt over begreber og fordelinger
Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Forelæsning 3: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.
Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition
Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4
02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Elementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning
Fejlforplantning Landmålingens fejlteori Lektion 5 Fejlforplantning - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf13 Landmåling involverer ofte bestemmelse af størrelser som ikke kan
Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Modul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Statistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: [email protected] Dagens nye emner afsnit 6.3 (og 6.4 Betingede
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Sandsynlighedsregning
Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007 Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006
Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W
Analyse af måledata II
Analyse af måledata II Usikkerhedsberegning og grafisk repræsentation af måleusikkerhed Af Michael Brix Pedersen, Birkerød Gymnasium Forfatteren gennemgår grundlæggende begreber om måleusikkerhed på fysiske
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Kvantitative Metoder 1 - Efterår Dagens program
Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte
Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.
Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
standard normalfordelingen på R 2.
Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet
Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: [email protected] Dagens emner: Afsnit 4.2, 4.3 og 4.4 Poissonprocessen/eksponentialfordelingen
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Uge 10 Teoretisk Statistik 1. marts 2004
1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Nanostatistik: Opgaver
Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Den todimensionale normalfordeling
Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives
Betingede sandsynligheder Aase D. Madsen
1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient
Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering
Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - [email protected] Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og
