Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Relaterede dokumenter
Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Uge 10 Teoretisk Statistik 1. marts 2004

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår 2007

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Fagplan for statistik, efteråret 2015

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Kvantitative Metoder 1 - Forår Dagens program

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kvantitative Metoder 1 - Forår 2007

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Estimation og konfidensintervaller

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Teoretisk Statistik, 16. februar Generel teori,repetition

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Statistiske principper

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Kapitel 4 Sandsynlighed og statistiske modeller

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Højde af kvinder 2 / 18

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Nanostatistik: Konfidensinterval

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Kapitel 4 Sandsynlighed og statistiske modeller

StatDataN: Test af hypotese

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Kvantitative Metoder 1 - Forår Dagens program

Elementær sandsynlighedsregning

Normalfordelingen og Stikprøvefordelinger

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Konfidensintervaller og Hypotesetest

INSTITUT FOR MATEMATISKE FAG c

Nanostatistik: Test af hypotese

Nanostatistik: Opgavebesvarelser

Kvantitative Metoder 1 - Forår Dagens program

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Betingede sandsynligheder Aase D. Madsen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistiske modeller

Kvantitative Metoder 1 - Forår 2007

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Preben Blæsild og Jens Ledet Jensen

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Om hypoteseprøvning (1)

Note til styrkefunktionen

Statistik og Sandsynlighedsregning 2

Dagens program. Praktisk information:

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 1: Intro og beskrivende statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Indblik i statistik - for samfundsvidenskab

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Opgaver til kapitel 3

Statistik og Sandsynlighedsregning 2

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Transkript:

Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag kl. 8- og fredag kl. -2; start 5. september 2 obligatoriske opgaver i løbet af semestret. Aflevering sidst i oktober og sidst i november. Flere praktiske ting Program til øvelser: Aftal løbende med holdlærerne. uge 36: opsummering samt evt. AJKMS 8. og 8.3 uge 37: AJKMS 8.2, 8.4, 8.5 (og/eller 8.6) samt efter aftale Materiale AJKM: Teoretisk statistik for økonomer AJKMS: Opgavesamling ABFJM: Elementær indføring i SAS AFJM: Statistik med SAS Erlang S: Statistiske tabeller

Teoretisk Statistik, forår 23 Dette er en kort opsummering af hvad der er foregået i forårssemesteret. "Listen" er naturligvis ikke udtømmende! Hvad er der sket i foråret? I skulle gerne nu kunne svare fornuftigt på følgende spørgsmål: Hvad vil det sige at noget er tilfældigt? Hvordan kan vi beskrive tilfældighed matematisk? Hvordan kan vi beskrive forskellige former for og grader af tilfældighed? Her i efteråret skal vi udnytte de matematiske modeller til at hive information ud af data. Byggeklodser! (2) Hvad er der sket i foråret? Mere konkret kan vi dele op i følgende: Grundlæggende sandsynlighedsregning (kapitel 3 og 4) Beskrivende statistik (kapitel 2 mm) "Diverse" (kapitel 5 og 7) Estimation (kapitel 8) SAS

Grundlæggende sandsynlighedsregning (kap.3 og 4) Punktsandsynligheder (diskrete var.), tætheder (kontinuerte var.), fordelingsfunktioner Diskrete/kontinuerte variable Endimensionale/flerdimensionale variable Uafhængighed og betingede fordelinger Middelværdi, varians, kovarians og korrelation Eksempler på fordelinger (2) Grundlæggende sandsynlighedsregning Eksempler på diskrete fordelinger med uendeligt tilstandsrum: Poisson- og negativ binomialfordeling. Eksempler på kontinuerte fordelinger: Normal-, eksponential-, Gamma-, flerdimensional normal- og χ 2 - fordelingen.

(3) Grundlæggende sandsynlighedsregning Hvorfor er normalfordelingen så særlig? Den centrale grænseværdisætning God approksimation af mange fordelinger (også diskrete) Hvis X er N-fordelt så er B+AX også N-fordelt (også flerdim.) I den flerdimensionale normalfordeling er også de marginale og betingede fordelinger normalfordelinger Hvis X,X 2 er N-ford. og cov(x,x 2 )=, så er X og X 2 uaf. P(µ kσ X µ + σk) er uafhængig af µ og σ. Beskrivende statistik Gennemsnit, empirisk varians, empirisk kovarians og korrelationskoefficient. Modstykker til de teoretiske størrelser der kan beregnes udfra tætheden/punktsandsynligheden Pindediagrammer til sammenligning af hyppigheder og punktsandsynligheder Histogrammer til sammenligning af hyppigheder og tætheder Fraktildiagrammer; især normalfraktildiagrammer Kassediagrammer (boxplots)

Diverse Poissonprocessen (afsnit 5.5 og 5.6). En egentlig statistisk model! VIGTIG! Grænseresultater: Store tals lov, den centrale grænseværdisætning, normalfordelingsapproksimationer SAS Indtastning af data, indlæsning af data fra flade filer, Excel Konstruktion af nye variable og nye datasæt, regnefunktioner (fx log) Søjlediagrammer, lagkagediagrammer (proc gchart) Beregning af mv, var, fraktiler (proc univariate) Histogrammer, fraktildiagrammer (proc univariate) Boxplots (proc boxplot)

Examen Dele af forårets pensum er at betragte som byggeklodser for den egentlige statistiske analyse (efterårets pensum) Meget examensrelevant : Poissonprocessen Diverse modelkontrol (fx fraktildiagrammer) Forståelse af diverse fordelinger Beregning af middelværdier, varianser mm Dette skal ikke forstås således at der ikke kan stilles spørgsmål i emner, der ikke umiddelbart falder ind under disse kategorier! Hvad skal der ske i efteråret? I foråret har vi arbejdet med matematiske beskrivelser af tilfældighed, nemlig med sandsynlighedsregning. I efteråret: Hvordan kan vi udnytte den matematiske beskrivelse til at hive information ud af data? Mere konkret: Estimation og test Hvordan kan vi udnytte specielle strukturer i data og modeller?

Teoretisk Statistik, 2. september 23. Hvor er vi? Opstilling af statistiske modeller Punktestimation og intro om test 2. Eksempel FCK (se uge 2) Estimation Test Arbejdsgang ved statistiske analyser a. Indsamling af data (herom senere) b. Beskrivende statistik: overblik over data c. Opstilling af statistisk model: svært! d. Punktestimation -- Vi er her -- e. Intervalestimation f. Modelkontrol (vigtig for at kontrollere punkt c.) g. Test af hypoteser h. Forudsigelser

Opstilling af statistisk model Hvordan kan vi beskrive tilfældigheden i data? Hvordan er data indsamlet? Hvad er deres karakteristika? Mere konkret: Kan observationerne antages at være uafhængige? Hvilken fordeling kan vi bruge (binomial/poisson/ normal/ )? Opstilling af model er (ofte) det sværeste i analysen (2) Opstilling af statistisk model Simultan punktsandsynlighed/tæthed for (X,,X n ): f (x,...,x, θ ) = f (x,...,x θ ) n n hvor θ er en ukendt parameter. Hvis X,,X n er uafhængige; alle med tæthed g: f(x,...,x θ ) = g(x θ) g(x θ) n n

(3) Opstilling af statistisk model Eksempler: X,,X n uafhængige; X i ~ N(µ, σ 2 ): n f x,...,x, exp x 2 2 i= 2πσ 2σ ( 2 ) n µσ = ( i µ ) 2 Stikprøve: N Kunder; hvoraf M =Nθ er tilfredse; udspørger n kunder; x af dem er tilfredse. X ~ hypgeo (N,Nθ,n): M N m Nθ N( θ) x n x x n x f( x θ ) = P(X= x θ ) = = N N n n Estimation af ukendte parametre Observerer x,,x n. Hvilken værdi af θ "passer bedst"? Intuitivt: Stikprøve Mere formelt: Maksimum likelihood estimation (mest udbredt). Meget ofte sammenfaldende med intuitive "gæt". Mindste kvadraters metode, momentestimation.

(2) Estimation af ukendte parametre θ=θ ˆ ˆ(x,...,x n ) er en funktion af observationerne: Andre observationer Y andet estimat. Med andre ord: θ=θ ˆ ˆ(X,...,X n ) er en funktion af de stokastiske variable og dermed selv en stokastisk variabel. Har en fordeling og en middelværdi og en varians. Hvilke egenskaber har estimatoren og dens fordeling? Hvor god/præcis er estimatoren? (Konfidensintervaller) Test af hypoteser Data er ofte indsamlet med henblik på test af en bestemt hypotese, for eksempel: Normalfordelingen: Kan middelværdien tænkes at være? Stikprøve: Kan andelen θ tænkes at være 5%? Vi skal afgøre om afvigelserne fra hypotesen blot skyldes tilfældigheder (så hypotesen accepteres) eller skyldes at hypotesen ikke er sand (så hypotesen forkastes). Husk: En statistisk analyse giver ikke endelig svar; bygger på sandsynlighedsudsagn!

Eksempel på ML-metoden I en urne ligger 4 kugler, der enten kan være hvide eller sorte, og som alle forudsættes at have samme ssh. for at forekomme i en trækning. θ = antal hvide kugler i urnen, dvs. θ =,,2,3,4. X = antal hvide kugler i 3 trækninger med tilbagelægning, dvs. x =,,2,3. Model : x 3 x 3 θ θ f(x 3, θ /4) = x,,2,3. x = 4 4 θ 3 θ f(x 3, ) = L( θ x) x = x = x = 2 x = 3 f(x 3, ) P(+gæt) E[ θ ˆ] 4 4 x= θ = θ = 27/64 27/64 9/64 /64 27/64-6/64 θ = 2 8/64 24/64 24/64 8/64 2 θ = 3 /64 9/64 27/64 27/64 27/64 3+6/64 θ = 4 4 ˆθ 3 4 ML Ifølge sandsynlighedsmaksimeringsprincippet vælges hver gang som estimat for θ den værdi ˆθ, som er således, at sandsynligheden for netop det resultat vi har fået, bliver større end for en hvilken som helst anden værdi, som θ kan have.

Ovenstående eksempel illustrerer princippet i ML metoden. Når θ er heltallig, må likelihoodfunktionen tabellægges, som gjort ovenfor, hvorefter ˆθ bestemmes således at ( ) L θ x =max L θ x θ ˆθ kaldes ML-estimatet for θ, og er en funktion θ ( x) af x. Repetition : Maksimum likelihood estimation Punktsandsynlighed/tæthed for givet θ: f(x,,x n θ) (x,,x n ) varierer i udfaldsrummet for (X,,X n ), θ er fast. Vil nu betragte f som funktion af θ: Likelihoodfunktionen L(θ) = L(θ x,,x n ) = f(x,..,x n θ) θ varierer i Θ, x= ( x, x 2,...,x n) er fast! Maksimum likelihood estimatoren er den værdi af θ, der maksimaliserer L(θ)

Repetition : (2) Maksimum likelihood estimation Fortolkning i det diskrete tilfælde: L( θ ) = f (x,...,x n θ ) = P(X= x,...,xn = x n θ ) Dvs. L(θ) er sandsynligheden for at observere netop det vi har observeret, når parameteren er θ. Estimatet ˆθ er altså den værdi af θ, der gør vores observation mest sandsynlig! (I det kontinuerte tilfælde ikke helt samme fortolkning, men næsten ) Repetition : (3) Maksimum likelihood estimation Vi skal altså finde den værdi af θ Θ, der maksimaliserer L(θ x): L( θ ˆ x) = max L( θ x) θ Θ I praksis er det næsten altid nemmere at maksimalisere l(θ x) = logl(θ x) OK da log er en voksende funktion. Man løser likelihoodligningen (mht. θ): l( θ x) θ = Bemærk at kun hvis den anden afledede af l er negativ,

svarer løsningen ˆθ til et absolut maksimum. Ellers må L undersøges på randen af θ`s variationsområde. Er der flere løsninger svarende til et maksimum må L θ x for hver løsning for at finde det absolutte maksimum. beregnes (2) Eksempel på ML-metoden I eksemplet ovenfor er x n x n θ θ L( θ x ) = x =,,2,3 og n=3 x 4 4 n θ θ l( θ x ) = log + xlog + ( n x ) log x 4 4 ( ) dl θ x x n x x n x = + = = dθ θ/4 4 θ/4 4 θ 4 θ x 4 θˆ=4 = x n 3 ( ) 2 2 dl x n x dl = < for θ ogθ 4 2 2 2 2 dθ θ dθ ( 4 θ) Dvs. for x = fås ˆθ = for x = fås ˆθ =4/3 ( ) ( ) L θ = x = =27/64 θ = L θ =2 x= =24/64

for x = 2 fås ˆθ = 8/3 ( ) ( ) L θ = 2 x=2 =24/64 θ= ˆ 3 L θ = 3 x=2 =27/64 for x = 3 fås ˆθ = 4 Pointer Skal til at snakke om estimation og test (kapitel 8 og 9). Vigtige pointer desangående (som nok skal blive gentaget de næste gange En estimator er et "skøn" over den ukendte parameter; løst sagt den værdi der passer bedst med data. En estimator er en stokastisk variabel, der har en fordeling! Maksimum likelihood estimation er den mest udbredte metode: punktsandsynligheden/tætheden maksimaliseres med hensyn til parameteren for fastholdt x.