1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad er en statistik analyse? (1) Er euro'en skæv? Spørgsmål: Er mønten symmetrisk? Det udførte eksperiment: 250 møntkast: 140 krone (56%) 110 plat (44%) Tænkte eksperimenter (med forskellige konklusioner...): 25 møntkast: 14 krone (56%) 11 plat(44%) 250.000 møntkast: 140.000 krone (56%) 110.000 (44%) De 56% er ikke nok til at afgøre, om mønten er skæv; konklusionen afhænger af antallet af møntkast. Hvad med n = 250?
2 (2) Er euro'en skæv? Statistisk model og hypotese: n = 250 møntkast X= antal krone Observeret værdi af X er x=140 X er binomialfordelt: X ~ bin(250, p) Hypotese: p =½ (symmetri) mod alternativ: p ½. Hvis vi udførte samme eksperiment mange gange, hvor ofte ville vi da få noget der passede mindst lige så dårligt med hypotesen? (3) Er euro'en skæv? P("noget værre") = P(X 140) + P(X 110) = P(X = 140) + + P(X = 250) + P(X = 0) + + P(X = 110) = 0.033+ 0.033 = 0.066 > 0.05 Traditionelt skilles ved 5%, så 140 krone i 250 kast giver altså ikke grund til at tro at mønten er skæv. (Ved 25 kast er den tilsvarende sandsynlighed 0.69; ved 250.000 er den 0).
3 (4) Er euro'en skæv? Vi har i virkeligheden udført en lille statistisk analyse: "Indsamling" af data Opstilling af statistisk model (X ~ bin(n,p)) Estimation (p ˆ = x / n = 0.56) Modelkontrol Test af hypotese H 0 : p = ½ mod den alternative hypotese H 1 : p ½. (1) Regressionsanalyse Punkterne varierer tilsyneladende omkring en ret linie. Vi vil formulere en lineær regressionsmodel. To led: En systematisk del (den rette linie) En tilfældig del (restled, variation om linien) Lad y 1,...,y 9 være omsætningen og x 1,...,x 9 antal ansatte for de ni virksomheder y= i α+βx i + e i Den rette linie Restled
4 (2) Regressionsanalyse y= i α+βx i + e i Den rette linie Restled Tilfældigheden kan have forskellige årsager. For eksempel Ikke nok forklarende variable med i modellen (fx. branche) Variation i salg (fx. pga. vejr, mode eller lignende) En angivelse af hvordan restleddene e 1,...,e 9 opfører sig mangler. Bruger sandsynlighedsregning. Antag for eksempel at de er normalfordelte. (3) Regressionsanalyse Model: y i = α + βx i +e i α (skæringspunktet) og β (hældningen) er ukendte parametre, der skal estimeres på grundlag af data. Løst: Vi skal finde de værdier af α og β der får den rette linie til at "passe bedst muligt" med datapunkterne.
5 (4) Regressionsanalyse Modellen igen: y i = α + βx i + e i Mere præcist: Vi skal finde de værdier af α og β så (y 1 - α - βx 1 ) 2 +...+(y 9 - α - βx 9 ) 2 er mindst mulig. Estimater (beregnet i SAS): α ˆ = 810, βˆ = 0.61 (5) Regressionsanalyse Vi har igen udført en lille statistisk analyse: "Indsamling" af data Opstilling af statistisk model (y i = α + βx i + e i ) α= ˆ 810, β= ˆ 0.61 Estimation ( ) Modelkontrol Test af hypotese (fx. β = 0)
(6) Regressionsanalyse 6 Kunne bruge investeringer som forklarende variabel i stedet for antal ansatte y i = α 2 + β 2 z i + e i hvor z 1,...,z 9 er virksomhedernes investeringer. Eller bruge dem begge (multipel regression): y i = α 3 + β 3 x i + β 4 z i + e i (7) Regressionsanalyse I artiklen i Børsen bruges de ni virksomheder til at udtale sig om virksomheder i Danmark generelt. Med andre ord: Der er udtaget en stikprøve (bestående af de ni virksomheder) af populationen (alle virksomheder). Hvis man havde udtaget en anden stikprøve havde man (måske) fået andre resultater. Gælder altså om at udtage stikprøven på fornuftig vis!
7 "Arbejdsgang" ved statistisk analyse Hypotese - formodning "Indsamling" af data - stikprøveudvælgelse Opstilling af statistisk model Kontrol af model, grafisk Estimation af modellens parametre Modelkontrol, numerisk test Test af hypoteser, forkastelse eller ej Forudsigelse Konklusion Teoretisk statistik er en lære om, hvorledes data 1. indsamles 2. bearbejdes og 3. udnyttes til at drage slutninger inferenser om den mekanisme, der har frembragt data. Data kan være 1. observationer af samme begivenhed et stort antal gange under helt ens betingelser, 2. successive observationer af samme begivenhed, der kun ændrer sig lidt med tiden: tidsrækkedata, og 3. simultane observationer af forskellige begivenheder,
8 der kan betragtes som værende af samme type: tværsnitsdata. De to eksempler ovenfor illustrerer punkt 1. og 3. Praktiske informationer To semestre Forår: 2 t forelæsninger, 2t øvelser per uge Efterår: 4t forelæsninger, 4t øvelser per uge Deleksamen til sommer (2 timers skriftlig eksamen) Øvelsesundervisning om mandagen eller tirsdagen Opgaveregning (I har regnet opgaverne hjemmefra!) Ikke gennemgang af teori i større stil Opgaver i opgavesamling. (2) Praktiske informationer SAS i efterårssemestret Statistikprogrampakke (og meget mere...) Bruges til øvelser, obligatoriske opgaver, eksamen Bruges i ministerier, styrelser. Dataindlæsning, grafer og nøgletal, statistiske analyser. Webside: http://www.econ.ku.dk/okonej Forelæsningsplan, plan for øvelserne, ekstra materiale og andre praktiske oplysninger
9 Opdateres (mindst) efter hver forelæsning (3) Praktiske informationer Undervisningsmateriale Teoretisk Statistik for Økonomer, 3. udgave af Andersen, Jensen, Kousgaard, Milhøj. Opgaver i Teoretisk Statistik for Økonomer, 3. udgave af Andersen, Jensen, Kousgaard, Milhøj, Stene. Elementær indføring i SAS af Andersen, Bedsted, Feilberg, Jakobsen, Milhøj. Statistik med SAS af Andersen, Bedsted, Feilberg, Jakobsen, Milhøj. Dataanalyse med SAS Enterprise Guide af Andersen, Feilberg, Jakobsen, Milhøj. (4) Praktiske informationer Obligatoriske opgaver To opgaver med brug af SAS i efterårssemestret. Kommentarer, tak! Brug evt. øvelseslærere eller talsmænd. Indhold af kursus og foreløbig plan, se kursushjemmesiden.