Lineære normale modeller (4) udkast
|
|
- Lene Danielsen
- 5 år siden
- Visninger:
Transkript
1 E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse afhænger af en eller flere andre. Antag at der foreligger et statistisk datamateriale som er fremkommet på den måde at man på hvert af nogle»individer«(f.eks. forsøgspersoner eller forsøgsdyr eller enkelt-laboratorieforsøg osv.) har målt værdien af et antal størrelser (variable). En af disse størrelser indtager en særstilling, idet man nemlig gerne vil»beskrive«eller»forklare«denne størrelse ved hjælp af de øvrige. Tit kalder man den variabel der skal beskrives for y, og de variable ved hjælp af hvilke man vil beskrive, for x 1, x 2,..., x p. Andre betegnelser fremgår af følgende oversigt: y den modellerede variabel den afhængige variabel den forklarede variabel responsvariabel x 1, x 2,..., x p baggrundsvariable de uafhængige variable de forklarende variable Her skitseres et par eksempler: 1. Lægen observerer den tid y som patienten overlever efter at være blevet behandlet for sygdommen, men lægen har også registreret en mængde baggrundsoplysninger om patienten, så som køn, alder, vægt, detaljer om sygdommen osv. Nogle af baggrundsoplysningerne kan måske indeholde information om hvor længe patienten kan forventes at overleve. 2. I en række nogenlunde ens i-lande har man bestemt mål for lungekræftforekomst, cigaretforbrug og forbrug af fossilt brændstof, altsammen pr. indbygger. Man kan da udnævne lungekræftforekomst til y-variabel og søge at»forklare«den ved hjælp af de to andre variable, der så får rollen som forklarende variable. 3. Man ønsker at undersøge et bestemt stofs giftighed. Derfor giver man det i forskellige koncentrationer til nogle grupper af forsøgsdyr og ser 1 Genbrug fra IMFUFA-tekst 254
2 Lineære normale modeller (4) Side 2 af 8 hvor mange af dyrene der dør. Her er koncentrationen x en uafhængig variabel hvis værdi eksperimentator bestemmer, og antallet y af døde er den afhængige variabel. Regressionsanalyse går ud på at finde en statistisk model hvormed man kan beskrive en y-variabel ved hjælp af en kendt simpel funktion af nogle baggrundsvariable og nogle parametre. Parametrene er de samme for alle observationssæt, hvorimod baggrundsvariablene typisk ikke er det. Man må naturligvis ikke forvente at den statistiske model leverer en perfekt beskrivelse, et perfekt fit, dels fordi den model man måtte finde frem til, næppe er fuldstændig rigtig, dels fordi en af pointerne med statistiske modeller netop er at de kun beskriver hovedtrækkene i datamaterialet og ser stort på de finere detaljer. Der vil derfor være en vis forskel mellem den observerede værdi y og den såkaldt fittede værdi ŷ, dvs. den værdi som man ifølge regressionsmodellen skulle få med de givne værdier af baggrundsvariablene. Denne forskel kaldes residualet og betegnes ofte e. Vi har så opspaltningen y = ŷ + e observeret værdi = fittet værdi + residual Residualerne er det som modellen ikke beskriver, og derfor er det naturligt at man (eller rettere modellen) anser dem for tilfældige, dvs. for at være tilfældige tal fra en vis sandsynlighedsfordeling. To væsentlige forudsætninger for at kunne benytte regressionsanalyse er 1. at det ikke er x-erne, men kun y-erne og residualerne, der er behæftede med tilfældig variation (»usikkerhed«), 2. at de enkelte målinger er stokastisk uafhængige af hinanden, hvilket vil sige at de tilfældigheder der indvirker på én bestemt y-værdi (efter at man har taget højde for baggrundsvariablene), ikke har nogen sammenhæng med de tilfældigheder der spiller ind på de øvrige y-værdier. Det simpleste eksempel på regressionsanalyse er det hvor der kun er én enkelt baggrundsvariabel, som vi så kan betegne x. Opgaven bliver da at beskrive y-værdierne ved hjælp af en kendt simpel funktion af x. Det simpleste ikketrivielle bud på en sådan funktion må vel være en funktion af typen y = α + xβ hvor α og β er to parametre, dvs. man formoder at y er en affin funktion af x. Derved får man den såkaldte simple lineære regressionsmodel. Næste skridt er den multiple lineære regressionsmodel hvor man har p forklarende variable x 1, x 2,..., x p og søger at beskrive y-værdierne med en funktion af formen y = p j=1 x jβ j.
3 Lineære normale modeller (4) Side 3 af Formulering af modellen For at regressionsmodellen kan blive til en genuin statistisk model, skal man specificere den sandsynlighedsfordeling som skal beskrive y-ernes variation omkring deres middelværdi. Denne sandsynlighedsfordeling antages at være en normalfordeling med varians σ 2 (samme varians for alle observationer). Vi vil formulere modellen mere præcist på følgende måde: Der foreligger n sammenhørende værdier af en afhængig variabel y og p baggrundsvariable x 1, x 2,..., x p. Det i-te sæt værdier er y i og x i1, x i2,..., x ip Det antages at y 1, y 2,..., y n er observerede værdier af uafhængige normalfordelte stokastiske variable Y 1, Y 2,..., Y n med samme varians σ 2 og med E Y i = p x i j β j, i = 1, 2,..., n (1) j=1 hvor β 1, β 2,..., β p er ukendte parametre. Ofte vil en af de forklarende variable være konstanten 1, dvs. den har værdien 1 for alle i. I matrixnotation kan modellen (1) skrives kort som E Y = Xβ hvor X er en n p-matrix (den såkaldte designmatrix) indeholdende x i j -værdierne. Man kan naturligvis også formulere det ved hjælp af underrum: E Y L hvor L = {Xβ : β R p }. Betegnelsen lineær regression skyldes at EY er en lineær funktion af β. Ovenstående kan generaliseres på flere måder. I stedet for observationer med samme varians kan man have»observationer hvis varians er kendt pånær en konstant faktor«, dvs. Var Y = σ 2 Σ hvor Σ > 0 er en kendt matrix og σ 2 en ukendt parameter; så bliver der tale om vægtet lineær regressionsanalyse. Man kan udskifte normalfordelingen med f.eks. binomialfordelingen, Poissonfordelingen eller gammafordelingen, og samtidig generalisere (1) til g(e Y i ) = p x i j β j, j=1 i = 1, 2,..., n for en passende funktion g; så bliver der tale om generaliseret lineær regression. I det følgende vil vi kun beskæftige os med ordinær lineær regression Estimation af parametrene Ifølge den generelle teori estimerer man middelværdivektoren Xβ som projektionen af y vinkelret ned på L. Det betyder at β skal estimeres ved en eller anden vektor β således at X β er lig projektionen af y på L. Det giver følgende nødvendige og tilstrækkelige betingelse som β skal opfylde: y
4 Lineære normale modeller (4) Side 4 af 8 X β, Xβ = 0, β R p, hvilket er ensbetydende med at X y X X β, β = 0, β R p, som igen er ensbetydende med at X X β = X y (2) Ligningssystemet (2) kaldes normalligningerne og består af p lineære ligninger med p ubekendte. Hvis X X (som er en p p-matrix) er regulær, er der en entydig løsning som man kan man skrive op som β = (X X) 1 X y Betingelsen at X X er regulær, kan formuleres på mange forskellige (ensbetydende) måder: dimensionen af L er p; rangen af X er p; rangen af X X er p; søjlerne i X er lineært uafhængige; parametriseringen er injektiv. Variansparameteren estimeres ved s 2 = y X β 2 /(n dim L). Ved at bruge regnereglerne for variansmatricer fås i øvrigt Var β ( = Var (X X) 1 X ) Y ( = (X X) 1 X ) Var Y ((X X) 1 X ) ( = (X X) 1 X ) σ 2 I ((X X) 1 X ) = σ 2 (X X) 1 (3) der estimeres ved s 2 (X X) 1. Kvadratroden af diagonalelementerne heri er estimater over middelfejlen (standardafvigelsen) på de tilsvarende β-er. Ethvert ordentligt computerprogram til statistik har en indbygget funktion til løsning af normalligningerne (2); funktionen vil returnere parameterestimaterne og deres middelfejl, og muligvis også hele Var β Hypoteseprøvning Hypoteser af formen H 0 : EY L 0 hvor L 0 er et underrum af L, testes på helt sædvanlig måde med et F-test. Ofte vil man være interesseret i en hypotese af formen H : β j = 0, svarende til at den tilsvarende forklarende variabel x j er uden betydning. En sådan hypotese kan testes enten med et F-test eller med t-teststørrelsen t = β j est. middelfejl på β j
5 Lineære normale modeller (4) Side 5 af Om faktorer Der kan være to forskellige slags baggrundsvariable. I det foregående er omtalt eksempler på kvantitative baggrundsvariable, dvs. nogle der angiver en eller anden størrelse. Man kan imidlertid også operere med kvalitative baggrundsvariable, faktorer, der angiver tilhørsforhold til en klasse i forbindelse med en klassificering. Eksempel: I ensidet variansanalyse optræder observationer y der er inddelt i et antal grupper; man kan opfatte data som bestående af sammenhørende værdier (y, f ) af en observation y og en faktor f som simpelthen er navnet på den gruppe som y tilhører. Man kan formulere det som et regressionsproblem: Lad os sige at der er k forskellige niveauer af f (dvs. der er k grupper), og lad os kalde dem 1, 2,..., k. Så indfører vi nogle kunstige (kvantitative) forklarende variable x 1, x 2,..., x k sådan at x i = 1 hvis f = i og 0 ellers. På den måde erstatter man (y, f ) med (y, x 1, x 2,..., x p ) hvor det er sådan at alle x-er pånær ét er lig 0, og det x som er lig 1, udpeger den gruppe som y tilhører. Ensidet variansanalyse-modellen kan nu skrives E Y = p x j β j j=1 hvor β j svarer til µ j i den oprindelige formulering af modellen. Ved at kombinere kvantitative baggrundsvariable og faktorer kan man formulere komplicerede modeller, eksempelvis med over- og underordnede grupper eller med forskellige lineære sammenhænge i forskellige delgrupper Opgaver OPGAVE 4.1 Betragt den simple lineære regressionsmodel E Y = α + xβ, og antag at der foreligger et antal sammenhørende værdier (y i, x i ), i = 1, 2,..., n. Hvordan ser designmatricen ud? Skriv normalligningerne op og løs dem. Find formler for middelfejlene (dvs. standardafvigelserne) på α og β, samt en formel for korrelationen mellem de to estimatorer. Tip: udnyt formel (3). I visse typer forsøg kan eksperimentator (eller statistikeren) selv bestemme x-værdierne inden for visse grænser. Hvordan skal man vælge x-erne? OPGAVE 4.2 (FORBES BAROMETRISKE MÅLINGER) Som bekendt aftager lufttrykket med højden over havets overflade, og derfor kan et barometer benyttes som højdemåler. Imidlertid kan man også bestemme højden ved at koge vand, fordi vands kogepunkt aftager med lufttrykket. I 1840erne og 1850erne foretog den skotske fysiker James D. Forbes på 17 forskellige lokaliteter i Alperne og i Skotland en række målinger hvor han bestemte dels vands kogepunkt, dels luftens tryk (omregnet til lufttrykket ved en standardlufttemperatur). Resultaterne er vist i Tabel 1.
6 Lineære normale modeller (4) Side 6 af 8 Tabel 1 Opgave 4.2: Forbes barometriske målinger. Kogepunktet er angivet i F, lufttrykket i inches Kviksølv. Kogepunkt Lufttryk Meningen med eksperimentet er at undersøge om og hvordan man kan forudsige lufttrykket (og dermed højden over havet) på grundlag af en bestemmelse af vands kogepunkt. Lav et scatterplot for at se om det skulle være muligt. 2. Bestem den bedste rette linje, og indtegn den i figuren. Hvordan passer linjen til punkterne? 3. Fysikken kan fortælle os at det næppe er lufttrykket selv der afhænger lineært af kogepunktet, men snarere logaritmen til lufttrykket. Derfor kan man forsøge sig med logaritmen til lufttrykkene i stedet for. Bliver det bedre af det? 4. Og så det praktiske: Hvordan omregner man egentlig fra lufttryk (eller kogepunkt) til højde over havets overflade? OPGAVE 4.3 (INDIANERE I PERU) En gruppe antropologer undersøgte hvordan blodtrykket ændrer sig hos peruvianske indianere der flyttes fra deres oprindelige primitive samfund i de høje Andesbjerge til den såkaldte civilisation, dvs. storbyen, der i øvrigt ligger i langt mindre højde over havets overflade end deres oprindelig bopæl. Antropologerne udvalgte en stikprøve på 39 mænd over 21 år der havde
7 Lineære normale modeller (4) Side 7 af 8 Tabel 2 Indianere i Peru: Sammenhørende værdier af y: systolisk blodtryk (mm Hg), x 1 : brøkdel af livet i de nye omgivelser, og x 2 : vægt (kg). y x 1 x 2 y x 1 x undergået en sådan flytning. På hver af disse måltes blodtrykket (både det systoliske og det diastoliske) samt en række baggrundsvariable, heriblandt alder, antal år siden flytningen, højde, vægt og puls. Desuden har man udregnet endnu en baggrundsvariabel, nemlig»brøkdel af livet levet i de nye omgivelser«, dvs. antal år siden flytning divideret med nuværende alder. Man forestillede sig at denne baggrundsvariabel kunne have stor»forklaringsevne«. Her vil vi ikke se på hele talmaterialet, men kun på blodtrykket (det systoliske) der skal optræde som y-variabel, og på de to x-variable brøkdel af livet i de nye omgivelser og vægt. Disse er angivet i Tabel 2. Antropologerne mente at x 1 (brøkdel levet i de nye omgivelser) var et godt mål for hvor længe personerne havde levet i de civiliserede omgivelser, og at det derfor måtte være interessant at se hvor godt x 1 kunne forklare blodtrykket y. Første skridt kunne derfor være at fitte en simpel lineær regressionsmodel med x 1 som forklarende variabel. Gør det. Hvis man i et koordinatsystem afsætter y mod x 1, viser det sig imidlertid at det bestemt ikke virker særlig rimeligt at hævde at (middelværdien af) y afhænger lineært af x 1. Derfor må man give sig til at overveje om andre af de
8 Lineære normale modeller (4) Side 8 af 8 målte baggrundsvariable med fordel kan inddrages. Nu ved man at en persons vægt har betydning for den pågældendes blodtryk, så næste modelforslag kunne være en multipel regressionsmodel med både x 1 og x 2 som forklarende variable. Estimér parametrene i denne model. Hvad sker der med variansestimatet? Undersøg residualerne for at vurdere modellens kvalitet. Giv en tolkning af slutmodellen i forhold til de peruvianske indianere.
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Læs mereForelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereModule 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Læs mereMLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Læs mereUge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereAnvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Læs mere12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs merePoul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k
Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede
Læs mereAnvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mere1 Regressionsproblemet 2
Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation
Læs mereMindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereEksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereStatistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Læs mereØkonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006
Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereEksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Læs mereØkonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2
Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereTænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.
Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og
Læs mereØkonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Læs mere1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Læs mereModul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Læs meregrupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs meremen nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Læs mereModul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Læs mereKvantitative metoder 2
Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen
Læs mereSimpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Læs mereModule 1: Lineære modeller og lineær algebra
Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........
Læs mereCenter for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Læs mereModule 9: Residualanalyse
Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer
Læs mereMultipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereSimpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Læs mereEt eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Læs mereLineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable
E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Læs mere13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...
Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed......................
Læs mereLineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract
Læs mere13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 13: Exercises 13.1 Substrat........................................ 1 13.2 Polynomiel regression................................
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Læs mereLiA 2 Side 0. Lineær algebra 3. kursusgang
LiA 2 Side 0 Lineær algebra 3. kursusgang LiA 2 Side 1 Højdeforskelle. D C 0.7 0.7 0.8 E LiA 2 Side 2 Vi har tre punkter C, D og E. Højderne er h C, h D, h E. (I det følgende benævnes disse også x, y,
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mere! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet
Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereModule 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Læs mereDagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Læs mereDen lineære normale model
Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af
Læs mereStatistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Læs mereØkonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006
Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske
Læs mereDen lineære normale model
Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Læs mereEnsidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereFagplan for statistik, efteråret 2015
Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat
Læs mereOpgaver til kapitel 3
Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer
Læs mereLøsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereHvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Læs mereFokus på Forsyning. Datagrundlag og metode
Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereAnvendt Lineær Algebra
Anvendt Lineær Algebra Kursusgang 3 Anita Abildgaard Sillasen Institut for Matematiske Fag AAS (I17) Anvendt Lineær Algebra 1 / 38 Vi betragter et lineært ligningssystem (af m ligninger med n ubekendte)
Læs mereInstitut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereStatistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Læs mereTema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Læs mereLandmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Læs mereBilledbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)
; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians
Læs mereRegressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.
Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereTo samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Læs mereModule 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
Læs mereStatistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning
Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,
Læs mereModelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Læs mere2 X 2 = Antal mygstik på enpersoniløbetaf1minut
Opgave I I mange statistiske undersøgelser bygger man analysen på anvendelse af normalfordelingen til (eventuelt tilnærmelsesvist) at beskrive den tilfældige variation. Spørgsmål I.1 (1): Forén af følgende
Læs mere02402 Vejledende løsninger til Splus-opgaverne fra hele kurset
02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også
Læs mereLidt om fordelinger, afledt af normalfordelingen
IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,
Læs mereUniversity of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version
university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,
Læs mereSandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
Læs mereKapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Læs mereProgram. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12
Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption
Læs mereTest for strukturelle ændringer i investeringsadfærden
d. 6.10.2016 De Økonomiske Råds Sekretariat Test for strukturelle ændringer i investeringsadfærden Dette notat redegør for de stabilitetstest af forskellige tidsserier vedrørende investeringsadfærden i
Læs mereVi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.
Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som
Læs mereSide 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402
Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mere