Statistik 1TS 2004 Obligatorisk opgave 2

Størrelse: px
Starte visningen fra side:

Download "Statistik 1TS 2004 Obligatorisk opgave 2"

Transkript

1 23. april 2004 Stat 1TS / EH Statistik 1TS 2004 Obligatorisk opgave 2 Formelle forhold: Opgaven stilles fredag d. 23. april Rapporten afleveres senest torsdag d. 13. maj kl. 12. Rapporten afleveres til mig personligt For sent indleverede besvarelser vil ikke blive rettet. Rapporten skal skrives ind i et tekstbehandlingsanlæg (eller på maskine). Håndskrevne besvarelser vil ikke blive accepteret. Opgaven kan besvares i grupper af 1-3 studerende. Grupperne må gerne samarbejde undervejs, men den endelige rapport skal være selvstændigt arbejde for hver gruppe. Software: I princippet er valget af software frit. Det anbefales dog at man bruger R. Rapportens indhold: Besvarelsen skal indeholde tekst, formler og grafer, men ikke program-kode. Ernst Hansen 1

2 Sympativurdering af ansigter II Også i denne rapportopgave retter interessen sig mod de ansigtsvurderinger, der blev indsamlet ved øvelsestimerne i kursets første uge. Eksperimentet er omhyggeligt beskrevet i forbindelse med kursets første rapportopgave. Målet med denne opgave er at beskrive målingerne så godt som det nu er muligt udfra seks faktorer: de fem måder ansigterne varierede på, og en forsøgspersonfaktor. Datamaterialet er gjort tilgængeligt på erhansen/stat1ts 04/doku/data/FaceExperiment.txt Denne fil indeholder indeholder en linie for hver af de 1216 enkeltvurderinger. Kolonnerne svarer til variable: UsrName Time WeekDay Draws Assesment Overall Mouth Nose Eyes Eyelids Forsøgspersonen Rækkefølgen for hver forsøgsperson Hvilken ugedag, forsøgspersonen deltog Ansigtsnummer Sympativurderingen Ansigstform rund/oval Mund åben/lukket Næse forfra/sidefra Øjne runde/ovale Øjenbryn smalle/buskede De sidste fem variable, som vi under et vil referere til faconvariable, kan i princippet udledes af ansigtsnummeret. Variablen UsrName er en tilfældig numerering af de indgående forsøgspersoner, og har ikke anden betydning, end at den kan bruges til at skille personerne ad. Bemærk at UsrName formentlig indlæses som en numerisk variabel - hvis den ikke efterfølgende konverteres til en faktor, risikerer man en meningsforladt analyse. (Noget lignende gælder for Draws, men denne variabel indgår næppe i analysen.) Lineær normal model Udgangspunktet for analysen vil være en lineær normal model. Vi antager altså at sympativurderingerne er uafhængige, normalfordelte med en fælles 2

3 varians σ 2 og med en middelværdistruktur vi vil beskrive i det følgende. Dette udgangspunkt er i høj grad problematisk, set i lyset af to forhold: 1) Den benyttede skala er begrænset - den går fra 0 til 100 2) Målingerne ligger essentielt på et diskret gitter Begge disse forhold udelukker strengt taget en normalfordeling, men den slags plejer man ikke at tage så alvorligt - normalfordelingsmodeller kan stadig være fortræffelige beskrivelser. Problemet i denne sammenhæng er nærmere at de to forhold ødelægger mulighederne for en fælles varians. En begrænset skala skaber nærmest af sig selv variansheterogenitet, fordi der ikke er ret meget plads ude i enderne. Observationer med ekstreme middelværdier kan ikke variere ret meget. Man forsøger ofte at komme uden om denne begrænsning ved at transformere responsensvariablen. Hvis responserne lå i det åbne enhedsinterval, kunne man f.eks. bruge transformationen logit(x) = log x 1 x, der ville give nye observationer med et ubegrænset variationsområde. Logittransformationen er stort set lineær i midten af enhedsintervallet, men strækker enderne voldsomt ud, og på den måde får de observationer, der før var tvunget til at klumpe sig sammen, pludselig plads at brede sig på. Om logittransformationen er det rigtige valg, må man vurdere fra tilfælde til tilfælde - der er mange andre muligheder for hvordan man kan foretage strækningen af intervalenderne. Men når den begrænsede skala kombineres med at observationerne falder på et diskret gitter, så løser en transformation af variablene ingenting. Observationer der ligger oven i hinanden før transformationen, ligger selvfølgelig også oven i hinanden efter transformationen, uanset hvor meget man strækker... Problemerne lader sig kun løse tilfredsstillende, hvis man samtænker transformations- og diskretiseringsaspekterne. Det leder naturligt til en udvidelse af den multiple logistiske regressionsmodel, så den kan tage højde for såkaldt overdispersion. Det er en klasse af modeller, der falder langt uden for hvad vi kan behandle her, men som viser sig at give resultater, der er stort set identiske med hvad vi kan opnå gennem analyse af den simple lineære normale model. 3

4 Derfor fastholder vi antagelsen om normalfordelte observationer med samme varians. Men vi må forberede os på at modelkontrollen nok vil give anledning til usædvanlige fænomener. Lad os nu specificere middelværdistrukturen. Den grundmodel, vi har i tankerne, er en additiv model med de fem faconvariable, skrevet Assesment = Overall + Mouth + Nose + Eyes + Eyelids + støj (1) Idet disse faktorer hver især har to niveauer, indgår der seks parametre i modellen: En parameter beskriver niveauet for referenceansigtet - det kan variere lidt med hvordan man gennemført indlæsningen, men referenceansigtet vil typisk svare til billede nr. 21, der har et aflangt ansigt med lukket mund og aflange øjne, retvendt næse og buskede øjebryn 1. De øvrige fem parametre er de tillæg (positive eller negative) som for hver af dem fem faktorer udløses af ændringer i forhold til referenceansigtet. Hvis man skifter referenceansigt, vil visse af disse tillæg skifte fortegn, men deres numeriske værdi ændres ikke. Modellen er attraktiv, fordi den associerer en letforståelig effekt med hver faktor. Og dermed også en simpel måde at vurdere på, om den enkelte faktor overhovedet har en effekt. Til gengæld er den næppe realistisk i sin grundform, fordi den ikke tager hensyn til at der er forskel på forsøgspersonerne. En teori kunne være at forsøgspersonerne kun influerer på resultaterne gennem et generelt niveau: nogle personer vurderer systematisk alle ansigterne højt, andre vurderer dem lavt. I så fald kunne vi blot tilføje forsøgspersonen som en ny faktor, der adderes til de fem faconfaktorer. Igen ville det være en attraktiv model, fordi resultatet ville være nemt at fortolke. Men vi vælger (i hvert fald i første omgang) en mere fri tilgang, hvor vi lader de seks middelværdiparametre at variere frit fra person til person. Formelt skriver man Assesment = UsrName/(Overall + Mouth + Nose + Eyes + Eyelids) + støj (2) og taler om at modellen (1) er blevet nested i forhold til UsrName. Opgave 1. Estimer parametrene i modellen (2). Lav et QQ-plot af residualerne og et plot af residualerne mod de fittede værdier. Ser disse tegninger ud som du forestiller dig de bør gøre? Gør det nogen forskel om man bruger de rå residualer eller de standardiserede residualer? 1 For hver faktor ordnes de forskellige labels alfabetisk, og referencegruppen svarer til det første label 4

5 Lad os starte med en misspecifikationsundersøgelse, hvor vi sammenholder (1) med den udvidede variant Assesment = (Overall + Mouth + Nose + Eyes + Eyelids) 2 + støj (3) Formelt betyder kvadratet at vi danner alle produktfaktorer af par af de indgående variable, og at vi opstiller den additive model med disse produktfaktorer. Opgave 2. Vis at middelværdirummet for (3) for en enkelt forsøgsperson er 16-dimensionalt. Vi udvider som før denne vekselvirkningsmodel ved at neste den i forhold til UsrName, Assesment = UsrName/(Overall+Mouth+Nose +Eyes +Eyelids) 2 + støj (4) Opgave 3. Estimer parametrene i modellen (4). Udfør et test af den lille model (2) mod vekselvirkningsmodellen. Det ser i ubehagelig grad ud til at der er signifikante vekselvirkninge. Opgave 4. Udfør for hver enkelt forsøgsperson et test af (1) mod (3). Identificer på denne måde de forsøgspersoner, hvor der er konstaterbare vekselvirkninger. Undersøg også hvad det er for vekselvirkninger, der er signifikante. Er der noget mønster i disse vekselvirkninger? Lav en tegning, der illustrerer de relevante vekselvirkninger for de hårdest ramte forsøgspersoner. Opgave 5. Kan man ved at slette en enkelt forsøgsperson eller to fra materialet få accept når man tester (2) mod (4)? Misspecifikationsundersøgelser gennemføres ofte på en sådan måde, at man ikke tager det sædvanlige 5% niveau alt for alvorligt. Måske bruger man et 1% niveau, måske er man endnu mere løs. Sagen er, at man ikke er interesseret i at afvise modellen, men nærmere i at få en fornemmelse af i hvilken retning, problemer med modellen kan ligge. Det er dårlig stil at se helt bort fra forsøgspersoner, der af en eller anden grund ikke passer med det mønster man helst vil se. Et kompromis kan være at gennemføre den resterende analyse både med og uden kritiske personer, for at se om det betyder noget for konklusionen. 5

6 Vi vender nu tilbage til grundmodellen (2). Der er et hav af parametre, fordi alting får lov at afhænge af forsøgspersonen. Opgave 6. Undersøg for hver af de fem faconfaktorer, om de kan indgå i modellen på personuafhængig måde. Altså f.eks. Assesment = Overall+UsrName/(Mouth+Nose+Eyes+Eyelids) + støj (5) Kan man eventuelt helt fjerne en eller flere faktorer fra modellen? Random effects modeller Personafhængige parametre er lidt af en ulykke, fordi de ikke tillader at man siger noget generelt - alle udsagn er begrænset til at handle om de forsøgspersoner man faktisk har målt på. For at komme uden om dette forhold vil man meget ofte forestille sig at de personafhængige parametre i sig selv er realisationer af stokastiske variable. Man taler da om random effects - hvis man hellere vil tale dansk, kan man eventuelt tale om tilfældige virkninger. Tankegangen er at forsøgspersonerne i sig selv er trukket tilfældigt fra en større population, og målet med undersøgelsen er at få sagt noget begavet om hvordan de personafhængige størrelser varierer i populationen. Det er nemmest at forklare random effects i rammen af simpel lineær regression. Antag at vi har forsøgspersoner i = 1,..., N, og at de hver har en række målinger X ij og en tilsvarende række kovariater t ij. Vi kan forestille os at forsøgspersonerne er spædbørn, at målingerne repræsenterer disse børns vægt, og at kovariaterne angiver børnenes alder ved vejningen. Den simple lineære regression, nested i forhold til forsøgspersonerne, siger at X ij = α i + β i t ij + ɛ ij hvor ɛ ij erne er uafhængige N (0, σ 2 )-fordelte variable. At α i erne er forskellige, betyder at børnene vejer forskelligt ved fødslen. At β i erne er forskellige, betyder at børnene tager på i vægt med forskellig hastighed - det kunne f.eks. have at at gøre med barnets helbredstilstand eller kvaliteten af moderens mælk. Sådanne individuelle forskelle er meget almindelige i biologiske sammenhænge, men de repræsenterer en hindring i ethvert forsøg på at forstå hvordan spædbørn generelt vokser sig store. 6

7 Random intercept overbygningen på den nestede model siger, at α i erne er uafhængige, identisk fordelte stokastiske variable, og at α i N (α, ν 2 ) for i = 1,..., N I denne model repræsenterer α den typiske fødselsvægt for et spædbarn. Variansen ν 2 repræsenterer (sammen med normalfordelingsantagelsen) den variabilitet i fødselvægt som populationens spædbørn har omkring dette α. Tilsvarende kan man lave en random slope overbygning på den nestede model, ved at sige at β i erne er uafhængige, identisk fordelte stokastiske variable, og at β i N (β, µ 2 ) for i = 1,..., N Her repræsenterer β populationens typiske væksthastighed, og µ 2 børnenes variabilitet omkring denne populationsværdi. Man taler generelt om random effects modeller, hvis man opfatter en eller flere af de individafhængige parametre som stokastiske. Hvis man både har et random intercept og et random slope, har man således to stokastiske variable per person, og man bør nok overveje om de i så fald er afhængige. Er det f.eks. sådan at børn, der er atypisk store ved fødslen, også vokser atypisk hurtigt? Eller måske omvendt? En random effects overbygning tillader at man kan generalisere til nye observationer. Hvis vi i vægteksemplet antager at α i og β i er uafhængige, så kan man indse at vægten X af et nyt spædabarn, vejet til tid t, er fordelt som X N (α + βt, σ 2 + ν 2 + t 2 µ 2 ) Eller måske mere nyttigt: man vil kunne simulere nye spædbørnspopulationer med et vilkårligt antal børn og et vilkårligt mønster for hvornår de vejes, ved simpelthen at trække et intercept og en hældning for hvert fiktivt barn, og trække et tilstrækkeligt antal støjvariable ɛ. Når man analyserer en random effects model, vil man typisk interessere sig for to ting: er de forskellige random effects uafhængige, og er middelværdien i de forskellige random effects fordelinger nul? Det sidste spørgsmål, stillet i termer af et random slope for spædbørnsvægt, kommer ud på om vægten overhovedet ændres med tiden? Nogle børn øger sikkert vægten, andre taber den (i hvert fald i de første dage efter fødslen) - det kan jo være at det i gennemsnit balancerer ud? 7

8 En måde at analsere en random effects model på, er i en totrinsanalyse. Først analyserer man modellen med personafhængige parametre. Dernæst betragter man estimaterne af de personafhængige parametre som nye observationer, og analyserer dem, uden at skænke det en tanke at disse observationer er afledte. Sympativurdering med random effects I det følgende vil vi formulere os som om alle fem faconfaktorer fortsat indgår i modellen, nested i forhold til UsrName. Hvis du har reduceret i modellen, bør den analyse, der skitseres nedenfor, ændres så den tager højde for denne reduktion. Opgave 7. Undersøg for hver af de fem faconfaktorerer om de tilsvarende personafhængige parameterestimater ser ud som om de kommer fra en normalfordeling. Find i påkommende tilfælde middelværdi og varians for denne normalfordeling. Er der nogen af disse random effects, der kan antages at have middelværdi nul? Undersøg også for hvert par af faktorer om de tilhørende random effects kan antages uafhængige eller ej. Random effects modellen udsagnskraft kan opsummeres på følgende facon: Hvis et tilfældig individ fra den population, som forsøgspersonerne er valgt fra, får forelagt to billeder, der afviger fra hinanden med hensyn til faconvariablen Overall, men som er ens på alle andre punkter, så kan han/hun prioritere på to måder: foretrække det aflange hoved, eller foretrække det runde hoved. Sandynligheden for at foretrække det aflange hoved afhænger ikke af forsøgspersonens generelle vurderingsniveau, og det afhænger ikke af hvordan de to forelagte billeder egentlig ser ud (altså af værdierne af de øvrige faconvariable), og dermed er det et validt udtryk for den prediktive effekt af Overall. Hvis de to muligheder er lige sandsynlige, er der jo f.eks. ikke meget selvstændig information i at kende et billedes Overall-værdi. Opgave 8. Find for hver af de fem faconvariable den sandsynlighed, som den estimerede model tillæger en tilfældig persons prioritering mellem de variablens to niveauer. Kommenter resultaterne. Med en færdig model er vi i stand til at simulere nye datasæt, og vi kan derfor undersøge stabiliteten af de fundne resultater. I simulationerne betragtes det personafhængige niveau (der jo i virkeligheden er den personafhængige 8

9 vurdering af referenceansigtet) som endnu en random effect, uafhængig af de øvrige. Opgave 9. Simuler et nyt datasæt af samme størrelse og struktur som det oprindelige, men med fiktive forsøgspersoner. Diskretiser observationerne ved at afrunde dem til det gitter, du benyttede i rapport 1. Lav modelkontroltegningerne fra opgave 1 for de simulerede, diskretiserede data, og sammenlign med tegningerne for de ægte data. Opgave 10. Vælg den faconvariabel, som du mener har den største prediktive effekt. Simuler et antal (f.eks. 100) datasæt af samme størrels og struktur som det oprindelige, og estimer for hvert af disse datasæt den prediktive effekt af den valgte variabel. Beskriv variabiliteten. Hvilket lys kaster denne undersøgelse over resultaterne fra opgave 8? 9

10 Programmerings-kommentarer Vi vil her komme med enkelte kommentarer til programmeringsarbejdet med opgaven. Lineære normale modeller analyseres ved funktionen lm(). Typisk på formen lm1 <- lm(respons covariater, data = eelworm) hvis man har en dataframe der hedder eelworm. Se på hjælpsiden for denne funktion - specielt argumentet subset kan være relevant. Resultatet af analysen er opsamlet i regressionsobjektet lm1. Hvis man har to faktorer, cov1 og cov2, vil de tre kald lm(respons cov1) lm(respons cov1*cov2) lm(respons cov1 + cov2) give henholdsvis en etsidet variansanalyse med faktoren cov1, en etsidet variansanalyse med produktfaktoren cov1 cov2 og en tosidet variansanalyse. På kursushjemmesiden findes et link til en oversigt over et betragteligt antal modelspecifikationer. Man kan uddrage information fra regressionobjektet på forskellig måde. Dels kan man selvfølgelig udskrive objektet, lm1 - eller bedre summary(lm1). Man kan også gå efter specielle funktioner af objektet, coef(lm1), resid(lm1), fit(lm1) eller deviance(lm1), for henholdsvis de estimerede parametre, residualer, den estimerede middelværdi-vektor og den kvadrerede afstand fra observationen til middelværdiunderrummet. Sammenligning af to regressionobjekter lm1 og lm2, f.eks. i forbindelse med et test, kan ske ved anova(lm2, lm1). 10

11 I princippet bør lm2 svare til en delmodel af lm1, men er rollerne byttet om, gør det ikke det store. Funktionen lm() har en fast procedure for hvordan den skal opstille en designmatrix udfra modelformlen respons covariater. I en række situationer, f.eks. en tosidet varians-analyse med et ikke-sammenhængende design og i mange situationer med flere end to faktorer, så vil søjlerne i en intuitivt opstillet design-matrix have en vis lineær afhængighed. I sådanne situationer sørger lm() selv for at slette et passende antal søjler, sådan at man får en rigtig design-matrix, hvor søjlerne er lineært uafhængige. Man skal tænke sig om, hvis man vil forstå antallet af frihedsgrader i den type modeller, og man skal helt op på mærkerne for at forstå parameterestimaterne. Visse variable skal opfattes som kontinuerte variable, og giver kun anledning til én søjle i designmatricen. Andre skal opfattes som faktorer, og giver anledning til et antal søjler - groft sagt een per gruppe. Det er naturligvis vigtigt at lm() ved om en variabel er af den ene eller den anden slags. Advarsel: Funktionen read.table() opfatter enhver kolonne hvori der forekommer andet end tal, som svarende til en faktor. Kolonner hvori der kun forekommer tal, opfattes derimod som kontinuerte variable. I denne sammenhæng kommer f.eks. UsrName-identifikatoren let til at optræde som en kontinuert variabel - det vil være en alvorlig fejl. En kontinuert variabel kan laves om til en faktor med funktionen factor(). Hvis man er interesseret i at undersøge hvor vigtig enkeltobservationer er for de konklusioner man drager, kan man forsøge at slette observationerne een for een, og se om det ændrer noget. I den forbindelse kan funktionen lm.influence være nyttig. Se dens hjælpeside. Der er ikke indbygget nogen standardfunktion til at finde standardiserede residualer. Men man kan udføre de nødvendige matrixmanipulationer i hånden, eller man kan bruge funktionen stdres() fra MASS-biblioteket. 11

Statistik Obligatorisk opgave

Statistik Obligatorisk opgave 13. maj 2008 Stat 2 / EH Statistik 2 2008 Obligatorisk opgave Formelle forhold: Opgaven stilles tirsdag d. 13. maj 2008. Rapporten skal afleveres til mig personligt. Afleveringsfristen er mandag d. 2.

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Noter til Specialkursus i videregående statistik

Noter til Specialkursus i videregående statistik Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed......................

Læs mere

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels.

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels. Faktorforsøg Antag at X i, i I, er uafhængige reelle variable og at X i N (ξ i, σ 2 ) for alle i I En faktor er en afbildning f : I F hvor F er en mængde af labels. En faktor deler observationerne ind

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 ( Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (10.-12. april) I et randomiseret forsøg sammenlignes vitamin D behandling

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 13: Exercises 13.1 Substrat........................................ 1 13.2 Polynomiel regression................................

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle. Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

2 Opgave i hierarkiske normalfordelingsmodeller

2 Opgave i hierarkiske normalfordelingsmodeller IMM, 2005-04-04 Poul Thyregod Flere rotter Datasættet Metal indeholder resultaterne fra en forsøgsserie, der havde til formål at bestemme toxiteten af et metalsalt (Nikkel). Ved forsøget benyttede man

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere