Brugen af R 2 i gymnasiet

Størrelse: px
Starte visningen fra side:

Download "Brugen af R 2 i gymnasiet"

Transkript

1 Brugen af R 2 i gymnasiet Per Bruun Brockhoff, DTU Compute Ernst Hansen, KU Matematik Claus Thorn Ekstrøm, KU Biostatistik 17 januar 2017 Der lader til at være en vis forvirring blandt og uenighed mellem forskellige faggrupper omkring R 2 -værdien, også kaldet forklaringsgraden eller determinationskoefficienten. Uenigheden omkring brugen og nytten af R 2 som et mål til at bekrive en statistisk model optræder ikke kun i gymnasiet: globalt set skaber brugen af R 2 tilsvarende gnidninger. Den anvendes rigtig meget i visse miljøer. Man kan imidlertid finde en del fagstatistikere, der vil tænde advarselslampen overfor forskellige over- og fejlfortolkninger af R 2 -værdien, som det er let at lade sig besnære af, og som mange miljøer uden tvivl gør sig skyldige i engang imellem. For en fagstatistiker kan det derfor være fristende simpelthen at fraråde brugen af R 2 i det hele taget for at undgå, at folk fejlfortolker resultatet og/eller misbruger størrelsen. Med dette indspark håber vi at kunne bidrage til den fælles forståelse for hvad R 2 kan og ikke kan gøre for os, og pege på et alternativ, der i mange faglige sammenhænge kunne være en mere direkte størrelse at beregne. Et eksempel: Anscombes data Et klassisk eksempel, der viser, hvorfor R 2 i sig selv er problematisk, er Anscombes fire datasæt vist nedenfor (Anscombe 1973). Det er den samme bedste rette linje, der går gennem punkterne i alle fire figurer (hældning 0.5 og skæring 3). Desuden har alle 4 datasæt samme R 2 = = 66.7%, men det er klart, at de modeller, der er givet ved de fire rette linjer ikke beskriver data lige godt. I den øverste højre figur er sammenhængen mellem x og y åbenlyst ikke-lineær, og sammenhængen i figuren i nederste højre hjørne giver det slet ikke mening at modellere som en ret linje. 1

2 y y x x2 y y x x4 Fra dette simple eksempel burde det være åbenlyst, at det ikke giver mening at bruge værdien af R 2 alene til at vurdere om en model er god til at beskrive data. Helt kort og overordnet: R 2 kan være OK som et led i at sætte tal på værdien af en statistisk model, men vær varsom! R 2 kan i visse situationer fortælle noget relevant om data/situationen i mangel af en bedre betegnelse, så vil vi i det efterfølgende referere til sådanne situationer som relevante tilfælde. Der er vigtige og centrale begrænsninger i hvad man kan uddrage alene af en R 2 -værdi, selv inden for de relevante situationer. En R 2 -værdi bør aldrig stå helt alene kombiner altid med visualisering/plot af data. Man kan huske og indprente sig mantraen: Man skal tegne før man må regne Det sidste punkt er måske det vigtigste. Hvis man vælger at bruge R 2 som et led i at vurdere en model, så skal man vide for det første vide, at det ikke er nok blot at udregne værdien. Der skal noget mere eller noget andet til. Hvad er R 2? Definitionen af R 2 værdien fremgår i de fleste lærebøger, og er også udførlig beskrevet på eksempelvis Wikipedia, og vi vil ikke gengive formlen her. Flere tekniske detaljer er præsenteret i Brockhoff, Ekstrøm, and Hansen (2017). 2

3 For det første kan en R 2 -værdi beregnes for såvel den mest simple lineære model med en y-variabel og netop een x-variabel som for mere generelle modeller med flere x-input, de såkaldte multiple lineære regressionsmodeller, og herunder således også de såkaldte polynomielle regressionsmodeller, hvor en ikke-lineær sammensstruktur mellem y og x kan håndteres. Bemærk, at man således godt kan modellere en ikke-lineær relation mellem x og y med en lineær model. Der findes naturligvis også egentlig ikke-linære modeller, men selvom R 2 kan defineres for sådanne ikke-lineære regressionsmodeller, så har den ikke længere sin sædvanlige fortolkning som forklaringsgrad. Der er yderligere matematiske finurligheder forbundet med såvel beregningen og fortolkningen af sådanne størrelser i forbindelse med egentlig ikke-lineære modeller, altså f.eks. modeller, hvor klassiske ikke-lineære funktioner som logaritme-, eksponential-, sinus - og cosinus-funktioner indgår, og/eller hvor eventuelt flere ukendte elementer af modelfunktionen indgår på en ikke-lineær måde. Det afholder ikke nødvendigvis statistisk software af forskellige slags at anføre en eller anden variant af en R 2 -værdi for sådanne modeller. Der er faktisk mange eksempler på, at den fulde indsigt i forskellige statistiske metoders betydning og begrænsning ikke har forplantet sig helt ud i alle hjørner af verden (se Ekstrøm, Hansen, and Brockhoff 2017). Vi vil i formuleringerne fokusere på det første simple setup i dette notat, altså netop en x variabel og y-variabel men vil ind imellem påpege, hvordan mange af betragtningerne enten kan anvendes direkte eller i tilpasset form til de multiple lineære setups. 1. R 2 er et relativt mål for hvor tæt punkterne gennemsnitlig ligger på den bedste rette linje i et plot af data fra to variable, x og y (målt ved lodrette y-afstande). R 2 giver en værdi mellem 0 (eller 0 %) og 1 (svarende til 100%), hvor 0 svarer til situationen, hvor der ikke er nogen form for lineær sammenhæng mellem x og y, og værdien 1 opnås, når alle punkterne ligger præcist på en ret linje. 2. R 2 er også den kvadrerede (Pearson) korrelationskoefficient mellem x og y (set som en procent), der også bruges i statistik til at beskrive, hvor tæt/stramt punkterne i et plot ligger omkring den bedste rette linje. På hjemmesiden kan man spille sig til en forståelse af, hvad forskellige punktskyer svarer til i korrelation. Kvadrerer man korrelationskoefficienterne i spillet får man således forklaringsgrader og det kan ses som et R 2 -spil i stedet. (Alle punktskyer i spillet svarer til relevante situationer ). 3. Når en R 2 naturligvis aldrig i praksis antager værdien 100% (virkelige data vil ikke falde eksakt på en linie), skyldes det faktisk to ting: Den lineære model vil i praksis aldrig være en 100% korrekt model for den virkelighed man forsøger at modellere. Selv hvis den var, så er der variation imellem individuelle y-værdier flere observationer med samme x-værdi vil variere (f.eks. vil forskellige personer med samme højde (x) typisk have forskellige vægte (y)) 4. R 2 er et samlet mål for (summen af) de to slags afvigelser svarende til de to netop nævnte fænomener, men skelner ikke mellem de to, se eksemplet med Anscombes data ovenfor. 3

4 5. Hvis man har sikret sig at ens data i situationen ikke er for mærkelige og også har sikret sig at ikke-lineariteten enten overhovedet ikke kan ses eller er så lille, at den bliver irrelevant, så kan man fint fortolke på R 2 -værdien. (Der er dog stadig grænser for hvad den kan bruges til). 6. Når den så er relevant, kan man fortolke tallet som den del af y-variationen som x via den statistiske model (den rette linje) kan forklare f.eks. vil en vis procentdel af vores vægtforskellighed kunne forklares af vores højdeforskelligheder. 7. For lineære modeller med flere x er: Alle punkter ovenfor gælder stadig med følgende tilpasninger. Generelt: Erstat linje med hyperplan. I punkt 2: R 2 er den kvadrerede korrelationskoefficient mellem de estimerede modelværdier og y. Hvad er R 2 så IKKE? Foruden problemet vist i Ascombes eksempel ovenfor er der andre punkter, man skal være opmærksom på, hvis man har tænkt sig at bruge R 2 : 1. R 2 er ikke et mål for den direkte kvantitative sammenhæng mellem x og y. R 2 siger altså intet om linjens skæring og hældning, som er de værdier, der beskriver den aktuelle sammenhæng i den relevante kontekst. 2. Ordet forklaring i forklaringsgrad kan ikke forstås som kausalitet / årsagssammenhæng det er alene et mål for den kvantitative sammenhæng. Det kræver helt andre overvejelser omkring den pågældende situation at forsøge at fortolke et resultat kausalt. 3. R 2 -tallet kan i sig selv ikke fortælle om en lineær model er korrekt : En lille R 2 kan godt være udtryk for en korrekt lineær gennemsnitssammenhæng, der beskriver et system med en stor variation. En høj R 2 kan godt stadigvæk levne rum for at der ville være en statistisk endnu højere R 2 -værdi, hvis man fik fat i den korrekte ikke-lineære sammenhæng i en situation. 4. Der findes ingen meningsfulde globale kriterier for hvad der er acceptable R 2 -værdier på tværs af fagområder. En R 2 værdi på 0.65 kan være tilfredsstillende i nogle situationer, mens en R 2 -værdi på 0.95 kan være den ønskede grænse i et konkret tilfælde for et andet fagområde. Igen betyder det, at talværdien alene ikke giver os tilstrækkelig information til at vurdere kvaliteten af en model. 5. R 2 er transformations-afhængig: hvis man eksempelvis anvender en log-transformation på y-værdierne vil lineariteten og derved parameterfortolkningen samt R 2 værdien ændre sig. 6. R 2 er ikke en sandhed skåret i granit: R 2 er, som alt andet man beregner, behæftet med statistisk usikkerhed, som der dog for netop R 2 s vedkommende ikke er så stor 4

5 tradition for at kigge på. Som i alle andre sammenhænge gælder der, at usikkerheden vil være større jo mindre datamængder, der er til rådighed. 7. Man kan skelne mellem situationer hvor man selv har bestemt x-værdierne, f.eks. et dosis-respons forsøg i kemi, og så en situation hvor såvel x som y er tilfældige udfald, f.eks. højde-vægt eksemplet, hvor man ville udtage mennesker tilfældigt, og dernæst måle såvel højde (x) som vægt (y). Lineær regression kan give fin mening i begge situationer, men R 2 -værdien (eller tilsvarende korrelationskoefficienten, r) kan have en mere fundamental fortolkning i det sidste tilfælde end i det første. I det sidste kan det (hvis alt ellers er i orden) fortolkes som en grundlæggende biologisk størrelse. I det første kan man faktisk selv langt hen ad vejen bestemme R 2 -værdien i de valg af x-værdier man gør: Jo større forskellighed og afstand mellem de selvvalgte x-værdier jo større vil R 2 blive, hvilket betyder, at den person, der laver forsøget kan gøre R 2 større simpelthen ved at sprede x-værdierne ud! Man kan ikke sige at R 2 -værdien bliver decideret forkert - det er et tal, der er i en-til-en-relation med andre ganske fornuftige beregningsstørrrelser blot er fortolkningen situationsafhængig. 8. For lineære modeller med flere x er: Alle punkter ovenfor gælder uden anden tilpasning end at x skal læses og forstås i flertal. R 2 er et problematisk værktøj i forbindelse med modellering generelt, altså i valget mellem forskellige multiple modeller en R 2 -værdi vil altid stige, hvis en model gøres mere nuanceret (et matematisk faktum), så en stigning alene kan ikke bruges til noget. Kun når en sådan sammenligning kombineres med andre statistiske værktøjer kan det bruges til noget relevant. Se også bloggen sandsynligvis.dk for flere detaljer om dette (det er skrevet af statistikere, så en god model = en tilstrækkelig korrekt model, uanset hvor stor variationen er, se diskussionen nedenfor). Et godt alternativ til R 2 : spredningen ˆσ R 2 er som fortalt et relativ mål for hvor tæt modellen ligger på data. Dette anvendes ofte i situationer, hvor skalaen på variablene i sig selv ikke betyder så meget, f.eks. i samfundsfag, sociologi, psykologi, og så videre, hvor det kan være forskellige spørgeskemaskalaer, der er i brug. Taler vi om anvendelser indenfor teknik og naturvidenskab, vil der ofte være ret konkrete skalaer for såvel x som y. I sådanne tilfælde kan det være et godt alternativ at kigge specifikt på den mere direkte eller absolutte forskel mellem modellen og data, også kaldet restspredningen eller residualspredningen, ˆσ, der udtrykker den gennemsnitlige (lodrette) afstand mellem datapunkterne og modellinjen. Beregningerne vil vi ikke vise her, men kan findes mange steder, f.eks. (Brockhoff, Ekstrøm, and Hansen 2017). Tallet vil også have en direkte fundamental fortolkning i den anvendte lineære regressionsmodel: i højde-vægt eksemplet, hvor vægten modelleres som en lineær funktion af højden, vil ˆσ udtrykke vægtspredningen for mennesker med samme fastholdte højde. Dette tal vil typisk være noget mindre end vægtspredningen i populationen som helhed på tværs af alle højder. I Anscombes eksempel ovenfor bliver ˆσ 1.237, som således kan fortolkes på samme skala og med samme fysiske enhed som y-data kommer med. Værdien for ˆσ er iøvrigt præcis som 5

6 for R 2 det samme tal i alle fire tilfælde! Tallet ˆσ er således hverken mere eller mindre rigtigt eller forkert at beregne end R 2, og det kan hverken mere eller mindre benyttes til alle de ting, som vi berører ovenfor. Til gengæld har tallet en fortolkning, der kan være direkte relateret til den konkrete problemstilling, hvilket passer bedre i forhold til punkt 7 ovenfor, og så kan man i modsætning til R 2 ikke sådan lige påvirke ˆσ-tallet bare ved at ændre på x-værdierne. Måske vil ˆσ for mange vil være et tal man lettere kan forholde sig til, og måske man i lidt mindre grad vil være fristet til at drage forhastede konklusioner, hvis man benytter ˆσ som hvis man bruger R 2. Man kan sige, at det absolutte mål ˆσ sådan set indgår i det relative mål, som R 2 faktisk er. Omend der faktisk er en lille finurlig men nydelig krølle på dette ræsonnement, se Brockhoff, Ekstrøm, and Hansen (2017). Det er iøvrigt så også et direkte eksempel på det fundamentale begreb varians og/eller spredning, som nok fortjener lidt større bevågenhed i uddannelsessystemet, herunder på gymnasieniveau (Ekstrøm, Hansen, and Brockhoff 2017). Omvendt regression? Der kan i konkrete tilfælde med to variable u og v opstå en overvejelse omkring, hvilken der skal tage rollen som x og hvilken som y. Den nysgerrige studerende kunne spørge sig selv og/eller sin lærer: hvad sker der egentlig, hvis man vender det om, og ombytter rollerne for de to variable? Man kan forholde sig til denne overvejelse på to niveauer: hvad der sker rent beregningsmæssigt, og hvad der i forhold til den kontekstspecifikke anvendelse er det mest relevante. R 2 -værdien, og tilsvarende korrelationskoefficienten afhænger ikke af hvordan tingene vender, men selve estimatet for den bedste rette linje og ˆσ-beregningen vil give to forskellige ting. Det kræver muligvis lidt forståelsesmæssig tilvænning, men det giver faktisk god mening: Det er to forskellige ting at finde den bedste rette linje som beskriver vægt som en lineær funktion af højde, hvor man minimerer vægtafvigelser, og så at finde den bedste rette linje, som beskriver højde som funktion af vægt, hvor man minimerer højdeafvigelser. Der er præcise matematiske relationer mellem de to løsninger. Folk med matematisk baggrund kender sikkert til muligheden for at finde en helt tredje beregningsvariant, der ligger præcis midt imellem de to andre, og som minimerer de vinkelrette afstande til den rette linje. Denne kommer som en konsekvens af en analysemetode, der også kaldes principal komponent analysis (PCA), som faktisk bruges i stor stil til at eksplorativ analyse af højdimensionale data og til dimensionsreduktion. Men PCA er faktisk ikke i sig selv en regressionsmetode, og den PCA-baserede linje er ikke det korrekte svar på nogen af de to oplagte fagspecifikke spørgsmål: Hvad er modellen for u som funktion af v eller hvad er modellen for v som funktion af u? Det korrekte svar på hvert disse spørgsmål er det tilsvarende valg af den asymmetriske beregning, hvor den ene får y-rollen, og den anden x-rollen. Denne diskussion skal ses i forhold til punkt 7 ovenfor. Hvis man selv har bestemt x-værdierne, så har R 2, som beskrevet, ikke så god en fortolkning, og den kontekstspecifikke problemstilling, altså hvad der er x og hvad der er y er defineret fra starten. I den anden mere symmetriske (x,y)-situation, kan begge veje give teoretisk lige god mening, og det er således alene den 6

7 kontekstspecifikke betragtning, der skal afgøre hvilket spørgsmål man vil besvare, og så lave beregningerne og konklusionerne derefter. Hvordan sikrer man sig at man er i et relevant tilfælde? Der findes desværre ikke et og kun et tal, man kan beregne, der kan besvare dette spørgsmål med et klart ja eller nej. Det er en del af den kompleksitet man må vænne sig til omkring brugen af statistisk ræssonering, se Ekstrøm, Hansen, and Brockhoff (2017). Der er mange redskaber, der forsøger at belyse forskellige aspekter af om en model er god, og på gymnasieniveau skal man finde en passende simpel måde at håndtere dette. Det primære værktøj er visualisering af selve (x,y)-relationen: ser punktskyen nogenlunde lineær og samlet ud? Hvordan ser modelafvigelserne ud, når de plottes mod de forventede værdier, og/eller mod x-inputs: Er de tilstrækkelig uden struktur? Er der ingen enkeltafvigelser, der er helt ekstreme? Og ser de ellers ud til at følge en normalfordeling? Det sidste kunne vurderes i boxplots og histogrammer af afvigelserne. Det er ikke nemt pædagogisk og præcist at indkredse denne del af den statistiske proces. Hvad angår undersøgelsen af om den lineære model er tilstrækkelig korrekt kan man også anvende modellering med mere komplekse modeller for helt konkret at vurdere om de mere komplekse modeller faktisk er nødvendige. Hvis ikke, kan man med mere ro i sindet anvende den lineære. Helt konkret kunne man tilpasse en mere generel funktion til data, og så plotte denne tilpasning sammen med nogle konfidensgrænser for sammenhængen, og derefter vurdere, om man med rimelighed kan antage, at den rette linie er at finde indenfor konfidensbåndene. Vi er med på, at dette ikke ligger inden for almindelig gymnasiepensum, men hvis man udvidede pensum til at omfatte multipel regressionsanalyse ville dette falde indenfor. Kommunikationsudfordring Vi tror, at en del af forklaringen på de gnidninger, der måske opstår mellem faggrupper, kan være af kommunikationsmæssig karakter. Måske forskellige folk lægger forskellige ting i ord som en god model versus en dårlig model, og tilsvarende et begreb som en korrekt model. Model, som begreb og som ord, kan naturligvis også betyde vidt forskellige ting afhængig af sammenhængen det indgår i. Man man forestille sig, at en matematiker/statistiker naturligt vil sætte lighedstegn mellem en god model og en tilstrækkelig korrekt model, mens anvendere i de faglige miljøer, f.eks. samfundsfag eller andet kan forestilles at mene, at en god model er lig med en model, der både er tilstrækkelig korrekt og har en lille variation, så den ligger konkret tæt på data. Begge betragtninger giver på sin vis ganske god mening! Idet R 2 måler begge dele i et samlet mål, så er det på den ene side et fornuftigt mål for anvenderen, men på den anden side skelner målet ikke mellem de to bidrag, og matematikeren/statistikeren har dermed helt ret i, at R 2 ikke er noget godt mål for korrektheden af modellen, og at der dermed kan gemme sig nuancer nedenunder, som man kan overse uden denne nuancering. 7

8 At tale om en tilstrækkelig korrekt model er en typisk fagstatistisk terminologi og tankegang, hvor udgangspunktet ofte er at alle modeller er forkerte, men nogen er brugbare (Box and Draper 1987, 424). Det er en tankegang, der muligvis hos nogle naturvidenskabsfolk, der søger de sande mekanismer = korrekte modeller kan være lidt fremmed. Men det afspejler nok, at rigtig mange af de komplekse problemstillinger, som søges løst med statistiske og matematiske modeller i samfundsmæssige, industrielle og forskningsmæssige sammenhænge ikke lader sig løse med en enkelt universel, kendt og veldefineret sand/korrekt model. Der behøver dog ikke være nogen rigtig modstrid i de to tankegange. Det kan være særdeles fornuftigt at søge at beskrive fænomener med kendte modeller, hvad enten det er fysiske, kemiske, biologisk eller andre typer modeller. Man kan nogen gange beskrive en del af strukturerne i et fænomen med kendte og velunderbyggede modeller, og lade resten modelleres af mere empirisk baserede modeller for resterende struktur og variation. Så længe man ikke lader sig teoriforblænde af modeller, der alene på grund af diverse historiske årsager og begrænset information har tilkæmpet sig uretmæssige forskningsmæssige positioner. Det er vigtigt at fortælle den samme historie. Det vigtigste må være, at de studerende lærer noget, som 1) de forstår hvad måler, og som de 2) har kompetencen til at bruge (og vide, hvornår man ikke kan bruge). Det bør derfor tilstræbes, at de forskellige fagmiljøer hvis man fortsat vælger at bruge R 2 som et led i statistikundervisningen i gymnasiet fortæller den samme historie omkring R 2. Desværre findes der ikke en simpel, objektiv måde at vurdere korrektheden af en statistisk model på, men det understreger blot vigtigheden af at alle faggrupper er i stand til at formidle alle de fordele og ulemper, der måtte være, ved den valgte metode. Referencer Anscombe, F. J Graphs in Statistical Analysis. American Statistician 27: Box, G. E. P., and N. R. Draper Empirical Model-Building and Response Surfaces. John Wiley; Sons. Brockhoff, Per Bruun, Claus Thorn Ekstrøm, and Ernst Hansen Lineær Regression: Lidt Mere Tekniske Betragtninger Om R 2 Og et Godt Alternativ. LMFK-Bladet. Ekstrøm, Claus Thorn, Ernst Hansen, and Per Bruun Brockhoff Statistik I Gymnasiet. LMFK-Bladet. 8

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Statistisk modellering og regressionsanalyse

Statistisk modellering og regressionsanalyse Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Modellering af elektroniske komponenter

Modellering af elektroniske komponenter Modellering af elektroniske komponenter Formålet er at give studerende indblik i hvordan matematik som fag kan bruges i forbindelse med at modellere fysiske fænomener. Herunder anvendelse af Grafregner(TI-89)

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Vinkelrette linjer. Frank Villa. 4. november 2014

Vinkelrette linjer. Frank Villa. 4. november 2014 Vinkelrette linjer Frank Villa 4. november 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2

Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Fremstillingsformer Fremstillingsformer Vurdere Konkludere Fortolke/tolke Diskutere Ordbog Biologi Samfundsfag Kemi: Se bilag 1 Matematik: Se bilag 2 Udtrykke eller Vurder: bestemme På baggrund af biologisk

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 1: Intro og beskrivende statistik Kursus 02402 Introduktion til Statistik Forelæsning 1: Intro og beskrivende statistik Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information Kursus 02402 Forelæsning 1: Intro og beskrivende statistik Oversigt 1 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Dansk Erhvervs gymnasieeffekt - sådan gør vi

Dansk Erhvervs gymnasieeffekt - sådan gør vi Dansk Erhvervs gymnasieeffekt - sådan gør vi FORMÅL Formålet har været at undersøge, hvor dygtige de enkelte gymnasier er til at løfte elevernes faglige niveau. Dette kan man ikke undersøge blot ved at

Læs mere

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Dansk Erhvervs gymnasieanalyse Sådan gør vi METODENOTAT Dansk Erhvervs gymnasieanalyse Sådan gør vi FORMÅL Formålet med analysen er at undersøge, hvor dygtige de enkelte gymnasier er til at løfte elevernes faglige niveau. Dette kan man ikke undersøge

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2012 Udleveret 2. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober-1. november) I Secher et al. (1986) estimeres referencekurver

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Bedste rette linje ved mindste kvadraters metode

Bedste rette linje ved mindste kvadraters metode 1/9 Bedste rette linje ved mindste kvadraters metode - fra www.borgeleo.dk Figur 1: Tre datapunkter og den bedste rette linje bestemt af A, B og C Målepunkter og bedste rette linje I ovenstående koordinatsystem

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

At lave dit eget spørgeskema

At lave dit eget spørgeskema At lave dit eget spørgeskema 1 Lectio... 2 2. Spørgeskemaer i Google Docs... 2 3. Anvendelighed af din undersøgelse - målbare variable... 4 Repræsentativitet... 4 Fejlkilder: Målefejl - Systematiske fejl-

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

praktiskegrunde Regression og geometrisk data analyse (2. del) Ulf Brinkkjær

praktiskegrunde Regression og geometrisk data analyse (2. del) Ulf Brinkkjær praktiskegrunde Praktiske Grunde. Nordisk tidsskrift for kultur- og samfundsvidenskab Nr. 3 / 2010. ISSN 1902-2271. www.hexis.dk Regression og geometrisk data analyse (2. del) Ulf Brinkkjær Introduktion

Læs mere

Dansk Erhvervs gymnasieeffekt - sådan gjorde vi

Dansk Erhvervs gymnasieeffekt - sådan gjorde vi Dansk Erhvervs gymnasieeffekt - sådan gjorde vi INDHOLD Formålet har været at undersøge, hvor dygtige de enkelte gymnasier er til at løfte elevernes faglige niveau. Dette kan man ikke undersøge blot ved

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Forberedelse. Forberedelse. Forberedelse

Forberedelse. Forberedelse. Forberedelse Formidlingsopgave AT er i høj grad en formidlingsopgave. I mange tilfælde vil du vide mere om emnet end din lærer og din censor. Det betyder at du skal formidle den viden som du er kommet i besiddelse

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed......................

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 13: Exercises 13.1 Substrat........................................ 1 13.2 Polynomiel regression................................

Læs mere

Statistik Obligatorisk opgave

Statistik Obligatorisk opgave 13. maj 2008 Stat 2 / EH Statistik 2 2008 Obligatorisk opgave Formelle forhold: Opgaven stilles tirsdag d. 13. maj 2008. Rapporten skal afleveres til mig personligt. Afleveringsfristen er mandag d. 2.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Lineær Regression A-niveau

Lineær Regression A-niveau Lineær Regression A-niveau Bo Markussen Københavns Universitet Anders Rønn-Nielsen Copenhagen Business School 14. september, 2018 Forord En måde at blive klogere på den omkringliggende verden er ved at

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Folkesundhed Afdeling for Biostatistik Afdeling for Epidemiologi. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Udgangspunktet for de følgende spørgsmål er artiklen:

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked

Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked N O T A T Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked Baggrund og resume Efter i årevis at have rapporteret om et fastfrosset boligmarked, har de danske

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007 KM2: F22 1 Program Specifikation og dataproblemer, fortsat (Wooldridge kap. 9): Betydning af målefejl Dataudvælgelse: Manglende observationer

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Juni 119 Institution Uddannelse Fag og niveau Lærere Hold Erhvervsgymnasiet Grindsted HHX Matematik B John Hansen (JO) Christian Norling Svane (CS) 1.AI18 Forløbsoversigt

Læs mere

Risikofaktorudviklingen i Danmark fremskrevet til 2020

Risikofaktorudviklingen i Danmark fremskrevet til 2020 23. marts 9 Arbejdsnotat Risikofaktorudviklingen i Danmark fremskrevet til Udarbejdet af Knud Juel og Michael Davidsen Baseret på data fra Sundheds- og sygelighedsundersøgelserne er der ud fra køns- og

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Bilag til konference om evaluering Grundforløb Kernestof Faglige mål Fokuspunkter Forslag til løbende evaluering

Bilag til konference om evaluering Grundforløb Kernestof Faglige mål Fokuspunkter Forslag til løbende evaluering Grundforløb Kernestof Faglige mål Fokuspunkter Forslag til løbende evaluering Regningsarternes hierarki At lære at lave lektier og afleveringer Ligningsløsning (lineære) med analytiske metoder og med itværktøjer

Læs mere

Pointen med Differentiation

Pointen med Differentiation Pointen med Differentiation Frank Nasser 20. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje. Maple Dette kapitel giver en kort introduktion til hvordan Maple 12 kan benyttes til at løse mange af de opgaver, som man bliver mødt med i matematiktimerne på HHX. Skærmbilledet Vi starter med at se lidt

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Lineær Regression. Anders Rønn-Nielsen Copenhagen Business School. Bo Markussen Købanhavns Universitet. 6. april, 2018

Lineær Regression. Anders Rønn-Nielsen Copenhagen Business School. Bo Markussen Købanhavns Universitet. 6. april, 2018 Lineær Regression Anders Rønn-Nielsen Copenhagen Business School Bo Markussen Købanhavns Universitet 6. april, 2018 Forord En måde at blive klogere på den omkringliggende verden er ved at indsamle data

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Matematiske færdigheder Grundlæggende færdigheder - plus, minus, gange, division (hele tal, decimaltal og brøker) Identificer

Læs mere

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere