Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Relaterede dokumenter
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Fagplan for statistik, efteråret 2015

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Perspektiver i Matematik-Økonomi: Linær regression

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik II 4. Lektion. Logistisk regression

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Modul 12: Regression og korrelation

Uge 10 Teoretisk Statistik 1. marts 2004

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Kvantitative metoder 2

Multipel Lineær Regression

1 Regressionsproblemet 2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kvantitative metoder 1

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kvantitative metoder 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistiske principper

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik Lektion 4. Variansanalyse Modelkontrol

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

1 Hb SS Hb Sβ Hb SC = , (s = )

Kvantitative metoder 2

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Kvantitative metoder 2

Kvantitative Metoder 1 - Efterår Dagens program

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

Kvantitative Metoder 1 - Forår Dagens program

Modul 11: Simpel lineær regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Løsninger til kapitel 14

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Sandsynlighedsregning

Statistik Lektion 16 Multipel Lineær Regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Eksamen i Statistik for biokemikere. Blok

Hypotesetests, fejltyper og p-værdier

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Normalfordelingen og Stikprøvefordelinger

Personlig stemmeafgivning

Kvantitative metoder 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Simpel Lineær Regression: Model

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Transkript:

1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad er en statistik analyse? (1) Er euro'en skæv? Spørgsmål: Er mønten symmetrisk? Det udførte eksperiment: 250 møntkast: 140 krone (56%) 110 plat (44%) Tænkte eksperimenter (med forskellige konklusioner...): 25 møntkast: 14 krone (56%) 11 plat(44%) 250.000 møntkast: 140.000 krone (56%) 110.000 (44%) De 56% er ikke nok til at afgøre, om mønten er skæv; konklusionen afhænger af antallet af møntkast. Hvad med n = 250?

2 (2) Er euro'en skæv? Statistisk model og hypotese: n = 250 møntkast X= antal krone Observeret værdi af X er x=140 X er binomialfordelt: X ~ bin(250, p) Hypotese: p =½ (symmetri) mod alternativ: p ½. Hvis vi udførte samme eksperiment mange gange, hvor ofte ville vi da få noget der passede mindst lige så dårligt med hypotesen? (3) Er euro'en skæv? P("noget værre") = P(X 140) + P(X 110) = P(X = 140) + + P(X = 250) + P(X = 0) + + P(X = 110) = 0.033+ 0.033 = 0.066 > 0.05 Traditionelt skilles ved 5%, så 140 krone i 250 kast giver altså ikke grund til at tro at mønten er skæv. (Ved 25 kast er den tilsvarende sandsynlighed 0.69; ved 250.000 er den 0).

3 (4) Er euro'en skæv? Vi har i virkeligheden udført en lille statistisk analyse: "Indsamling" af data Opstilling af statistisk model (X ~ bin(n,p)) Estimation (p ˆ = x / n = 0.56) Modelkontrol Test af hypotese H 0 : p = ½ mod den alternative hypotese H 1 : p ½. (1) Regressionsanalyse Punkterne varierer tilsyneladende omkring en ret linie. Vi vil formulere en lineær regressionsmodel. To led: En systematisk del (den rette linie) En tilfældig del (restled, variation om linien) Lad y 1,...,y 9 være omsætningen og x 1,...,x 9 antal ansatte for de ni virksomheder y= i α+βx i + e i Den rette linie Restled

4 (2) Regressionsanalyse y= i α+βx i + e i Den rette linie Restled Tilfældigheden kan have forskellige årsager. For eksempel Ikke nok forklarende variable med i modellen (fx. branche) Variation i salg (fx. pga. vejr, mode eller lignende) En angivelse af hvordan restleddene e 1,...,e 9 opfører sig mangler. Bruger sandsynlighedsregning. Antag for eksempel at de er normalfordelte. (3) Regressionsanalyse Model: y i = α + βx i +e i α (skæringspunktet) og β (hældningen) er ukendte parametre, der skal estimeres på grundlag af data. Løst: Vi skal finde de værdier af α og β der får den rette linie til at "passe bedst muligt" med datapunkterne.

5 (4) Regressionsanalyse Modellen igen: y i = α + βx i + e i Mere præcist: Vi skal finde de værdier af α og β så (y 1 - α - βx 1 ) 2 +...+(y 9 - α - βx 9 ) 2 er mindst mulig. Estimater (beregnet i SAS): α ˆ = 810, βˆ = 0.61 (5) Regressionsanalyse Vi har igen udført en lille statistisk analyse: "Indsamling" af data Opstilling af statistisk model (y i = α + βx i + e i ) α= ˆ 810, β= ˆ 0.61 Estimation ( ) Modelkontrol Test af hypotese (fx. β = 0)

(6) Regressionsanalyse 6 Kunne bruge investeringer som forklarende variabel i stedet for antal ansatte y i = α 2 + β 2 z i + e i hvor z 1,...,z 9 er virksomhedernes investeringer. Eller bruge dem begge (multipel regression): y i = α 3 + β 3 x i + β 4 z i + e i (7) Regressionsanalyse I artiklen i Børsen bruges de ni virksomheder til at udtale sig om virksomheder i Danmark generelt. Med andre ord: Der er udtaget en stikprøve (bestående af de ni virksomheder) af populationen (alle virksomheder). Hvis man havde udtaget en anden stikprøve havde man (måske) fået andre resultater. Gælder altså om at udtage stikprøven på fornuftig vis!

7 "Arbejdsgang" ved statistisk analyse Hypotese - formodning "Indsamling" af data - stikprøveudvælgelse Opstilling af statistisk model Kontrol af model, grafisk Estimation af modellens parametre Modelkontrol, numerisk test Test af hypoteser, forkastelse eller ej Forudsigelse Konklusion Teoretisk statistik er en lære om, hvorledes data 1. indsamles 2. bearbejdes og 3. udnyttes til at drage slutninger inferenser om den mekanisme, der har frembragt data. Data kan være 1. observationer af samme begivenhed et stort antal gange under helt ens betingelser, 2. successive observationer af samme begivenhed, der kun ændrer sig lidt med tiden: tidsrækkedata, og 3. simultane observationer af forskellige begivenheder,

8 der kan betragtes som værende af samme type: tværsnitsdata. De to eksempler ovenfor illustrerer punkt 1. og 3. Praktiske informationer To semestre Forår: 2 t forelæsninger, 2t øvelser per uge Efterår: 4t forelæsninger, 4t øvelser per uge Deleksamen til sommer (2 timers skriftlig eksamen) Øvelsesundervisning om mandagen eller tirsdagen Opgaveregning (I har regnet opgaverne hjemmefra!) Ikke gennemgang af teori i større stil Opgaver i opgavesamling. (2) Praktiske informationer SAS i efterårssemestret Statistikprogrampakke (og meget mere...) Bruges til øvelser, obligatoriske opgaver, eksamen Bruges i ministerier, styrelser. Dataindlæsning, grafer og nøgletal, statistiske analyser. Webside: http://www.econ.ku.dk/okonej Forelæsningsplan, plan for øvelserne, ekstra materiale og andre praktiske oplysninger

9 Opdateres (mindst) efter hver forelæsning (3) Praktiske informationer Undervisningsmateriale Teoretisk Statistik for Økonomer, 3. udgave af Andersen, Jensen, Kousgaard, Milhøj. Opgaver i Teoretisk Statistik for Økonomer, 3. udgave af Andersen, Jensen, Kousgaard, Milhøj, Stene. Elementær indføring i SAS af Andersen, Bedsted, Feilberg, Jakobsen, Milhøj. Statistik med SAS af Andersen, Bedsted, Feilberg, Jakobsen, Milhøj. Dataanalyse med SAS Enterprise Guide af Andersen, Feilberg, Jakobsen, Milhøj. (4) Praktiske informationer Obligatoriske opgaver To opgaver med brug af SAS i efterårssemestret. Kommentarer, tak! Brug evt. øvelseslærere eller talsmænd. Indhold af kursus og foreløbig plan, se kursushjemmesiden.