Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag kl. 8- og fredag kl. -2; start 5. september 2 obligatoriske opgaver i løbet af semestret. Aflevering sidst i oktober og sidst i november. Flere praktiske ting Program til øvelser: Aftal løbende med holdlærerne. uge 36: opsummering samt evt. AJKMS 8. og 8.3 uge 37: AJKMS 8.2, 8.4, 8.5 (og/eller 8.6) samt efter aftale Materiale AJKM: Teoretisk statistik for økonomer AJKMS: Opgavesamling ABFJM: Elementær indføring i SAS AFJM: Statistik med SAS Erlang S: Statistiske tabeller
Teoretisk Statistik, forår 23 Dette er en kort opsummering af hvad der er foregået i forårssemesteret. "Listen" er naturligvis ikke udtømmende! Hvad er der sket i foråret? I skulle gerne nu kunne svare fornuftigt på følgende spørgsmål: Hvad vil det sige at noget er tilfældigt? Hvordan kan vi beskrive tilfældighed matematisk? Hvordan kan vi beskrive forskellige former for og grader af tilfældighed? Her i efteråret skal vi udnytte de matematiske modeller til at hive information ud af data. Byggeklodser! (2) Hvad er der sket i foråret? Mere konkret kan vi dele op i følgende: Grundlæggende sandsynlighedsregning (kapitel 3 og 4) Beskrivende statistik (kapitel 2 mm) "Diverse" (kapitel 5 og 7) Estimation (kapitel 8) SAS
Grundlæggende sandsynlighedsregning (kap.3 og 4) Punktsandsynligheder (diskrete var.), tætheder (kontinuerte var.), fordelingsfunktioner Diskrete/kontinuerte variable Endimensionale/flerdimensionale variable Uafhængighed og betingede fordelinger Middelværdi, varians, kovarians og korrelation Eksempler på fordelinger (2) Grundlæggende sandsynlighedsregning Eksempler på diskrete fordelinger med uendeligt tilstandsrum: Poisson- og negativ binomialfordeling. Eksempler på kontinuerte fordelinger: Normal-, eksponential-, Gamma-, flerdimensional normal- og χ 2 - fordelingen.
(3) Grundlæggende sandsynlighedsregning Hvorfor er normalfordelingen så særlig? Den centrale grænseværdisætning God approksimation af mange fordelinger (også diskrete) Hvis X er N-fordelt så er B+AX også N-fordelt (også flerdim.) I den flerdimensionale normalfordeling er også de marginale og betingede fordelinger normalfordelinger Hvis X,X 2 er N-ford. og cov(x,x 2 )=, så er X og X 2 uaf. P(µ kσ X µ + σk) er uafhængig af µ og σ. Beskrivende statistik Gennemsnit, empirisk varians, empirisk kovarians og korrelationskoefficient. Modstykker til de teoretiske størrelser der kan beregnes udfra tætheden/punktsandsynligheden Pindediagrammer til sammenligning af hyppigheder og punktsandsynligheder Histogrammer til sammenligning af hyppigheder og tætheder Fraktildiagrammer; især normalfraktildiagrammer Kassediagrammer (boxplots)
Diverse Poissonprocessen (afsnit 5.5 og 5.6). En egentlig statistisk model! VIGTIG! Grænseresultater: Store tals lov, den centrale grænseværdisætning, normalfordelingsapproksimationer SAS Indtastning af data, indlæsning af data fra flade filer, Excel Konstruktion af nye variable og nye datasæt, regnefunktioner (fx log) Søjlediagrammer, lagkagediagrammer (proc gchart) Beregning af mv, var, fraktiler (proc univariate) Histogrammer, fraktildiagrammer (proc univariate) Boxplots (proc boxplot)
Examen Dele af forårets pensum er at betragte som byggeklodser for den egentlige statistiske analyse (efterårets pensum) Meget examensrelevant : Poissonprocessen Diverse modelkontrol (fx fraktildiagrammer) Forståelse af diverse fordelinger Beregning af middelværdier, varianser mm Dette skal ikke forstås således at der ikke kan stilles spørgsmål i emner, der ikke umiddelbart falder ind under disse kategorier! Hvad skal der ske i efteråret? I foråret har vi arbejdet med matematiske beskrivelser af tilfældighed, nemlig med sandsynlighedsregning. I efteråret: Hvordan kan vi udnytte den matematiske beskrivelse til at hive information ud af data? Mere konkret: Estimation og test Hvordan kan vi udnytte specielle strukturer i data og modeller?
Teoretisk Statistik, 2. september 23. Hvor er vi? Opstilling af statistiske modeller Punktestimation og intro om test 2. Eksempel FCK (se uge 2) Estimation Test Arbejdsgang ved statistiske analyser a. Indsamling af data (herom senere) b. Beskrivende statistik: overblik over data c. Opstilling af statistisk model: svært! d. Punktestimation -- Vi er her -- e. Intervalestimation f. Modelkontrol (vigtig for at kontrollere punkt c.) g. Test af hypoteser h. Forudsigelser
Opstilling af statistisk model Hvordan kan vi beskrive tilfældigheden i data? Hvordan er data indsamlet? Hvad er deres karakteristika? Mere konkret: Kan observationerne antages at være uafhængige? Hvilken fordeling kan vi bruge (binomial/poisson/ normal/ )? Opstilling af model er (ofte) det sværeste i analysen (2) Opstilling af statistisk model Simultan punktsandsynlighed/tæthed for (X,,X n ): f (x,...,x, θ ) = f (x,...,x θ ) n n hvor θ er en ukendt parameter. Hvis X,,X n er uafhængige; alle med tæthed g: f(x,...,x θ ) = g(x θ) g(x θ) n n
(3) Opstilling af statistisk model Eksempler: X,,X n uafhængige; X i ~ N(µ, σ 2 ): n f x,...,x, exp x 2 2 i= 2πσ 2σ ( 2 ) n µσ = ( i µ ) 2 Stikprøve: N Kunder; hvoraf M =Nθ er tilfredse; udspørger n kunder; x af dem er tilfredse. X ~ hypgeo (N,Nθ,n): M N m Nθ N( θ) x n x x n x f( x θ ) = P(X= x θ ) = = N N n n Estimation af ukendte parametre Observerer x,,x n. Hvilken værdi af θ "passer bedst"? Intuitivt: Stikprøve Mere formelt: Maksimum likelihood estimation (mest udbredt). Meget ofte sammenfaldende med intuitive "gæt". Mindste kvadraters metode, momentestimation.
(2) Estimation af ukendte parametre θ=θ ˆ ˆ(x,...,x n ) er en funktion af observationerne: Andre observationer Y andet estimat. Med andre ord: θ=θ ˆ ˆ(X,...,X n ) er en funktion af de stokastiske variable og dermed selv en stokastisk variabel. Har en fordeling og en middelværdi og en varians. Hvilke egenskaber har estimatoren og dens fordeling? Hvor god/præcis er estimatoren? (Konfidensintervaller) Test af hypoteser Data er ofte indsamlet med henblik på test af en bestemt hypotese, for eksempel: Normalfordelingen: Kan middelværdien tænkes at være? Stikprøve: Kan andelen θ tænkes at være 5%? Vi skal afgøre om afvigelserne fra hypotesen blot skyldes tilfældigheder (så hypotesen accepteres) eller skyldes at hypotesen ikke er sand (så hypotesen forkastes). Husk: En statistisk analyse giver ikke endelig svar; bygger på sandsynlighedsudsagn!
Eksempel på ML-metoden I en urne ligger 4 kugler, der enten kan være hvide eller sorte, og som alle forudsættes at have samme ssh. for at forekomme i en trækning. θ = antal hvide kugler i urnen, dvs. θ =,,2,3,4. X = antal hvide kugler i 3 trækninger med tilbagelægning, dvs. x =,,2,3. Model : x 3 x 3 θ θ f(x 3, θ /4) = x,,2,3. x = 4 4 θ 3 θ f(x 3, ) = L( θ x) x = x = x = 2 x = 3 f(x 3, ) P(+gæt) E[ θ ˆ] 4 4 x= θ = θ = 27/64 27/64 9/64 /64 27/64-6/64 θ = 2 8/64 24/64 24/64 8/64 2 θ = 3 /64 9/64 27/64 27/64 27/64 3+6/64 θ = 4 4 ˆθ 3 4 ML Ifølge sandsynlighedsmaksimeringsprincippet vælges hver gang som estimat for θ den værdi ˆθ, som er således, at sandsynligheden for netop det resultat vi har fået, bliver større end for en hvilken som helst anden værdi, som θ kan have.
Ovenstående eksempel illustrerer princippet i ML metoden. Når θ er heltallig, må likelihoodfunktionen tabellægges, som gjort ovenfor, hvorefter ˆθ bestemmes således at ( ) L θ x =max L θ x θ ˆθ kaldes ML-estimatet for θ, og er en funktion θ ( x) af x. Repetition : Maksimum likelihood estimation Punktsandsynlighed/tæthed for givet θ: f(x,,x n θ) (x,,x n ) varierer i udfaldsrummet for (X,,X n ), θ er fast. Vil nu betragte f som funktion af θ: Likelihoodfunktionen L(θ) = L(θ x,,x n ) = f(x,..,x n θ) θ varierer i Θ, x= ( x, x 2,...,x n) er fast! Maksimum likelihood estimatoren er den værdi af θ, der maksimaliserer L(θ)
Repetition : (2) Maksimum likelihood estimation Fortolkning i det diskrete tilfælde: L( θ ) = f (x,...,x n θ ) = P(X= x,...,xn = x n θ ) Dvs. L(θ) er sandsynligheden for at observere netop det vi har observeret, når parameteren er θ. Estimatet ˆθ er altså den værdi af θ, der gør vores observation mest sandsynlig! (I det kontinuerte tilfælde ikke helt samme fortolkning, men næsten ) Repetition : (3) Maksimum likelihood estimation Vi skal altså finde den værdi af θ Θ, der maksimaliserer L(θ x): L( θ ˆ x) = max L( θ x) θ Θ I praksis er det næsten altid nemmere at maksimalisere l(θ x) = logl(θ x) OK da log er en voksende funktion. Man løser likelihoodligningen (mht. θ): l( θ x) θ = Bemærk at kun hvis den anden afledede af l er negativ,
svarer løsningen ˆθ til et absolut maksimum. Ellers må L undersøges på randen af θ`s variationsområde. Er der flere løsninger svarende til et maksimum må L θ x for hver løsning for at finde det absolutte maksimum. beregnes (2) Eksempel på ML-metoden I eksemplet ovenfor er x n x n θ θ L( θ x ) = x =,,2,3 og n=3 x 4 4 n θ θ l( θ x ) = log + xlog + ( n x ) log x 4 4 ( ) dl θ x x n x x n x = + = = dθ θ/4 4 θ/4 4 θ 4 θ x 4 θˆ=4 = x n 3 ( ) 2 2 dl x n x dl = < for θ ogθ 4 2 2 2 2 dθ θ dθ ( 4 θ) Dvs. for x = fås ˆθ = for x = fås ˆθ =4/3 ( ) ( ) L θ = x = =27/64 θ = L θ =2 x= =24/64
for x = 2 fås ˆθ = 8/3 ( ) ( ) L θ = 2 x=2 =24/64 θ= ˆ 3 L θ = 3 x=2 =27/64 for x = 3 fås ˆθ = 4 Pointer Skal til at snakke om estimation og test (kapitel 8 og 9). Vigtige pointer desangående (som nok skal blive gentaget de næste gange En estimator er et "skøn" over den ukendte parameter; løst sagt den værdi der passer bedst med data. En estimator er en stokastisk variabel, der har en fordeling! Maksimum likelihood estimation er den mest udbredte metode: punktsandsynligheden/tætheden maksimaliseres med hensyn til parameteren for fastholdt x.