Additiv model teori og praktiske erfaringer
|
|
|
- Elisabeth Bundgaard
- 10 år siden
- Visninger:
Transkript
1 make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute
2 Agenda Hvad er en additiv model? Forudsætninger Fortolkning af parametrene Har vi data nok? Over/under-problematikken
3 Hvad er en additiv model? Antagelse om bestemt type sammenhæng mellem x og y Output / Target / Respons /.. (givet af datasættet) Input / Faktorer / Uafhængige (givet af datasættet) Parametre (som vi skal estimere) Fejl / Støj / Residual (det modellen ikke fanger)
4 Hvad er en additiv model? Sammenhængen er givet ved Den prædiktive funktion er Eller udtrykt i matrix notation
5 Forudsætninger Costfunktion ud fra maximum likelihood Normalfordelte uafhængige residualer med ens varians Det vil sige Kvadratisk fejl er ækvivalent med maximum likelihood, hvor residualerne er normalfordelte og uafhængige
6 Forudsætninger Cost funktionen er kvadratisk Linearitet i parameterværdierne Hvilket giver løsningen Bemærk, at dette kræver, at X har fuld rang (at XTX kan inverteres)
7 Forudsætninger Linearitet i parameterværdierne Homoskedasticitet (ens varians) Uafhængighed i residualerne Ingen multikollinearitet mellem inputvariable Normalfordelte residualer Ingen/svag usikkerhed på inputvariable
8 Forudsætninger
9 Fortolkning af parametrene Der stilles spørgsmål: Hvorfor værdien af lædersæder er , når det koster ca at få det bygget ind? Det kan ikke passe, at værdien af XXX er YYY? Spørgsmål: Hvad betyder det for de estimerede parameterværdier, at der er brud på forudsætningerne?
10 Fortolkning af parametrene Maria s eksperiment Generer data syntetisk ( obs, 5 variable, kendte parametre, lav støj) Estimere parametrene på varianter af data Plain: Det fulde datasæt uden snubletråde. Nabo til industri: En underliggende variabel (nabo til industri) relaterer til de andre variable mindre boligareal, større grundareal, senere opførelsesår m.m. Der er 87%, der ikke er nabo til industri og 13% der er. Prisen afspejler forskellen, men selve variablen nabo til industri er ikke med. Fejl i model/data: Som ovenstående, men prisen afspejler ikke de forandrede karakteristika. Der er altså ikke overensstemmelse mellem inputvar/target/modelform (misspecifikation af model eller fejl i data). CherryPick: Modellen er korrekt specificeret (overensstemmelse mellem funktionsform på den generative og den estimerede), men det er primært de lidt dyrere ejendomme, der bliver solgt. Kan modellen genfinde de generative parametre?
11 Fortolkning af parametrene Variable Variabel Værdi Generativ model Variant: Plain Variant: Nabo til industri Variant: Fejl i data/mdl Variant: CherryPick Intercept Tag_type Stråtag Tag_type Tagpap Tag_type Tegl Boligareal Grundareal Opførelsesår Ydervæg Beton Ydervæg Mursten Parametre fundet mde PROC GENMOD med Corner point tilgang
12 Har vi data nok? Valideringsfejlen og testfejlen ligger over træningsfejlen Valideringsfejlen og testfejlen aftager med flere observationer træningsfejlen vokser
13 Testfejl Har vi data nok? Hvor god ville modellen blive, hvis bare vi havde 10% flere observationer? Subsampling Ekstrapolation Subsampling giver indsigt i, hvor hurtigt testfejlen ændres, når størrelsen af træningsfejlen ændres. 0% 0 25% % % % Størrelse på træningsdata
14 Over/under problematikken Hvordan performer modellen set ift. de sande værdier? Sande værdi (target variabel) OK Underestimerede Overestimerede Meget lav 5% 62% 33% Lav 8% 71% 21% Mellem 10% 81% 9% Høj 21% 71% 8% Meget høj 33% 62% 5%
15 Over/under problematikken Target Høj værdi 1 Data Prædiktiv model Effekten ses over hele spektret, men med forskellig styrke og fortegn 2 Residuals Enheder med lav værdi har positivt residual dvs. overestimeres Enheder med høj værdi har negative residualer dvs. underestimeres Lav værdi Targets Input
16 Over/under problematikken
17 Opsummering Lad være med at lægge for meget vægt på parameterværdierne (men vær forberedt på, at det gør kunden måske). Lav learning curves for at se om der er data nok. Plot target vs residualer for at se evt. over-/under problem All models are wrong, but some are useful
18 make connections share ideas be inspired Kaare Brandt Petersen, ,
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Demo af PROC GLIMMIX: Analyse af gentagne observationer
Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute
make connections share ideas be inspired Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute Hvem bliver langtidsledige? Hvad er sandsynligheden for at komme tilbage i
Løsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Bilag 7. SFA-modellen
Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: [email protected] Online ISBN 978-87-7029-650-2
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Introduktion til GLIMMIX
Introduktion til GLIMMIX Af Jens Dick-Nielsen [email protected] 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Introduktion til Visual Data Mining and Machine Learning
SAS USER FORUM Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute Agenda Introduktion til et par machine learningmodeller Case-introduktion Demo SWEDEN 2017
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Public Analytics Tema: Effektmåling
Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 1 22 MARCH 2013 2012 COPYRIGHT SAS INSTITUTE Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 2 22 MARCH 2013 2012 COPYRIGHT
Estimation af ejendomsværdi for ejerboliger. Søren Leth, Københavns Universitet Kaare Brandt Petersen, SAS Institute
Estimation af ejendomsværdi for ejerboliger Søren Leth, Københavns Universitet Kaare Brandt Petersen, SAS Institute Introduktion hvem er vi? Søren Leth Professor, cand polit, ph.d. Økonomisk Institut,
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Kvantitative metoder 2
Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Appendiks A Anvendte test statistikker
Appendiks A Anvendte test statistikker Afhandlingen opdeler testene i henholdsvis parametriske og ikke-parametriske test. De første fire test er parametriske test, mens de ikke-parametriske test udgør
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Kvadratisk regression
Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to
Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.
Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Data warehouse-arkitektur / standarder
make connections share ideas be inspired Data warehouse-arkitektur / standarder Jan Zilstorff, SAS Institute Agenda Standarder Data warehouse-arkitektur Data Integration-standarder The Document Hvad betyder
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Logistisk Regression - fortsat
Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Regressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Center for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Statistiske Modeller 1: Kontingenstabeller i SAS
Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.
Lineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Dagens program Lineær regression
Statistisk modellering og regressionsanalyse
Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik [email protected] Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Statistisk dataanalyse af EFI-gælden
SAS USER FORUM DENMARK 2017 Statistisk dataanalyse af EFI-gælden Kaare Brandt Petersen, SAS, June 15 2017 Indrivelse af borgernes gæld til det offentlige, f.eks.: Restskat Underholdningsbidrag Kontrolafgifter
Kvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper
Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: [email protected] I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2
Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition
Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Noter til Specialkursus i videregående statistik
Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1
! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion
Dagens program Økonometri 1 Dummy variable 4. marts 003 Emnet for denne forelæsning er kvalitative variable i den multiple regressionsmodel (Wooldridge kap. 7.5-7.6+8.1)! Husk at udfylde spørgeskema 3!
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
De variable, som er inkluderet i de forskellige modeller, er følgende:
DUL II. Undersøgelse af hvilke faktorer, der er væsentlige for at understøtte, at der er klare og veltilrettelagte mål tilstede i arbejdet med elevernes læring Følgende er en statistisk analyse af ovenstående
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata
1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
I dag. Kursus Data matrice. Formål med PCA. Statistik. Principal komponent analyse, PCA, Esbensen kapitel 3. Splus. Anna Helga Jónsdóttir
I dag Kursus 02593 Statistik Anna Helga Jónsdóttir Principal komponent analyse, PCA, Esbensen kapitel 3. Splus [email protected] 18. november 2008 Anna Helga Jónsdóttir ([email protected]) Kursus 02593 18. november
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
