Oversigt. 1 Praktisk Information. 2 Introduction to Statistics - a primer. 3 Introduktion til Statistik. 4 Anvendelser på DTU (mest Compute)

Relaterede dokumenter
Oversigt. 1 Praktisk Information. 2 Introduction to Statistics - a primer. 3 Intro Case historier: IBM Big data, Novo Nordisk small data, Skive fjord

Oversigt. 1 Praktisk Information. 2 Introduction to Statistics - a primer. 3 Population og stikprøve. 5 Beskrivende statistik: Grafisk fremstilling

Forelæsning 1: Intro, R og beskrivende statistik

Forelæsning 1: Intro og beskrivende statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Forelæsning 8: Inferens for varianser (kap 9)

Kapitel 3 Centraltendens og spredning

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kvantitative Metoder 1 - Forår 2007

Modul 5: Test for én stikprøve

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Basal statistik. 30. januar 2007

Kapitel 3 Centraltendens og spredning

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Konfidensinterval for µ (σ kendt)

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Statistikkompendium. Statistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Module 2: Beskrivende Statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kvantitative Metoder 1 - Forår Dagens program

Modul 3: Kontinuerte stokastiske variable

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Ensidet variansanalyse

Forelæsning 11: Envejs variansanalyse, ANOVA

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik med GeoGebra

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Forelæsning 11: Kapitel 11: Regressionsanalyse

En Introduktion til SAS. Kapitel 5.

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Statistik. Statistik. Hvad er Statistik? Hvad er Statistik? Hvad er Statistik? 1. Hvad er statistik? 2. Mennesker som måleinstrumenter

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus 02402/02323 Introducerende Statistik

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Forelæsning 2: Kapitel 4, Diskrete fordelinger

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

DDA Danish Design Association

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

Nanostatistik: Middelværdi og varians

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Lektion 9 Statistik enkeltobservationer

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Indblik i statistik - for samfundsvidenskab

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Løsning eksamen d. 15. december 2008

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Undervisningsbeskrivelse

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Basal statistik. 29. januar 2008

Trolling Master Bornholm 2012

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Projekt 4.8. Kerners henfald (Excel)

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Statistik og Sandsynlighedsregning 2

Funktionalligninger - løsningsstrategier og opgaver

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

2012 Nøglehulsmærket og Nøglehullet på spisesteder. Kommentarrapport med grafik for hovedresultater

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Trivsel og fravær i folkeskolen

Forelæsning 9: Inferens for andele (kapitel 10)

Fagplan for statistik, efteråret 2015

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Transkript:

Introduktion til statistik Forelæsning 1: Intro, R og beskrivende statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 enote 1: Simple plots og deskriptiv statistik Teknikker til at se på data! (deskriptiv statistik) Opsummerende størrelser for stikprøve Gennemsnittet ( ) Empirisk standard afvigelse (s) Empirisk varians (s 2 ) Fraktiler og percentiler (f.eks. 15% af data ligger under 0.15 fraktil) Median, øvre- og nedre kvartiler Empririsk korrelation (r) (mellem to stikprøver) Simple plots Scatter plot (y plot) Histogram (empirisk tæthed) Kumulativ fordeling (empirisk fordeling) Boplots, søjlediagram, cirkeldiagram (lagkagediagram) DTU Compute Introduktion til Statistik Efterår 2016 1 / 61 DTU Compute Introduktion til Statistik Efterår 2016 2 / 61 enote 1: Simple Graphics and Summary Statistics Oversigt Look at data as it is! (descriptive statistics) Summary statistics Sample mean: Sample standard deviation: s Sample variance: s 2 Quantiles and percentiles (e.g. 15% of data is below 0.15 quantile) Median, upper- and lower quartiles Sample correlation (r) (between two samples) Simple graphics Scatter plot (y plot) Histogram (empirical density) Cumulative distribution (empirical distribution) Boplots, Bar charts, Pie charts 1 Praktisk Information 2 3 Introduktion til Statistik 4 Anvendelser på DTU (mest Compute) 5 Gennemsnit Median Spredning Fraktiler 6 Beskrivende statistik: Grafisk fremstilling 7 8 Projekter DTU Compute Introduktion til Statistik Efterår 2016 3 / 61 DTU Compute Introduktion til Statistik Efterår 2016 4 / 61

Praktisk Information Praktisk Information Praktisk Information Praktisk Information Undervisning: Hver fredag 8-10 Generel daglig agenda: FØR undervisningsmodulet: læs det annoncerede i enoten! 245 minutters forelæsning (ugens pensum) 2 timers øvelser: Enote Ecersises (HUSK PEN OG PAPIR) Skriftlig eksamen: Tirsdag 13. december. OBLIGATORISKE projekter: 2 stk - skal godkendes for at kunne gå til eksamen Installer lige socrative app på dit device Campusnet: www.campusnet.dtu.dk Meddelelser Links til interessante historier Projekter - download og aflevering Hjemmeside: introstat.compute.dtu.dk Forelæsningsplan Læsemateriale: enoter Øvelser & besvarelser Slides og R-scripts Podcasts af gl. forelæsninger (02402) (På dansk OG engelsk) Quizzer Projekt info DTU Compute Introduktion til Statistik Efterår 2016 6 / 61 DTU Compute Introduktion til Statistik Efterår 2016 7 / 61 Eksempel med terning Hvor mange gange skal jeg slå med terningen? Hvordan kan man teste om en terning er fair? F.eks. givet en terning, svar på: Er der 1/6 sandsynlighed for at slå en sekser? Stort set umuligt at beskrive med fysik Derfor: Kast med terningen, observer og derefter udregn statistik Afgør om der er 1/6 ± fejlmargin sandsynlighed for at slå sekser med terningen Der er altid en hvis sandsynlighed for at tage fejl! men den kan styres til at matche risikoen man vil tage Hvor mange gange skal jeg slå med terningen for at afgøre om terningen slår seksere med 1/6 ± fejlmargin sandsynlighed? Det kan I nemt beregne om 13 uger :) Beregn det med R: alpha <- 0.05 ## Fejlmargen vi vil tillade (kaldet præcisionen) ME <- 0.01 ## Beregn antal gange vi skal slå med terningen p * (1-p) * (qnorm(1-alpha/2)/me)^2 DTU Compute Introduktion til Statistik Efterår 2016 9 / 61 DTU Compute Introduktion til Statistik Efterår 2016 10 / 61

Statistikken historie og anvendelse i medicin Millennium list (10 vigtigste bidrag til udvikling af medicin) Elucidation of Human Anatomy and Physiology Discovery of Cells and Their Substructures Elucidation of the Chemistry of Life New England Journal of medicine: Application of Statistics to Medicine EDITORIAL: Looking Back on the Millennium in Medicine, N Engl J Med, 342:42-49, January 6, 2000. http://www.nejm.org/doi/full/10.1056/nejm200001063420108 Development of Anesthesia Discovery of the Relation of Microbes to Disease Elucidation of Inheritance and Genetics Knowledge of the Immune System Development of Body Imaging Discovery of Antimicrobial Agents Development of Molecular Pharmacotherapy DTU Compute Introduktion til Statistik Eftera r 2016 11 / 61 DTU Compute Introduktion til Statistik Eftera r 2016 12 / 61 James Lind John Snow One of the earliest clinical trials took place in 1747, when James Lind treated 12 scorbutic ship passengers with cider, an eliir of vitriol, vinegar, sea water, oranges and lemons, or an electuary recommended by the ship s surgeon. The success of the citrus-containing treatment eventually led the British Admiralty to mandate the provision of lime juice to all sailors, thereby eliminating scurvy from the navy. (See also http://en.wikipedia.org/wiki/james_lind). The origin of modern epidemiology is often traced to 1854, when John Snow demonstrated the transmission of cholera from contaminated water by analyzing disease rates among citizens served by the Broad Street Pump in London s Golden Square. He arrested the further spread of the disease by removing the pump handle from the polluted well. (See also http://en.wikipedia.org/wiki/john_snow_(physician)). Man kan altsa undersøge fænomener man ikke forsta r og derefter begynde at forsta dem! DTU Compute Introduktion til Statistik Eftera r 2016 13 / 61 DTU Compute Introduktion til Statistik Eftera r 2016 14 / 61

Google - Big Data IBM - Big Data A quote from New York Times, 5. August 2009, from the article titled For Today s Graduate, Just One Word: Statistics is: I keep saying that the sey job in the net 10 years will be statisticians, said Hal Varian, chief economist at Google. And I m not kidding. The key is to let computers do what they are good at, which is trawling these massive data sets for something that is mathematically odd, said Daniel Gruhl, an I.B.M. researcher whose recent work includes mining medical data to improve treatment. And that makes it easier for humans to do what they are good at - eplain those anomalies. Optagelse af gæsteforedrag af Henrik H. Eliassen IBM på introstat hjemmesiden DTU Compute Introduktion til Statistik Efterår 2016 15 / 61 DTU Compute Introduktion til Statistik Efterår 2016 16 / 61 Introduktion til Statistik Introduktion til Statistik Anvendelser på DTU (mest Compute) Anvendelser på DTU (mest Compute) Hvordan behandles (eller analyseres) data? Hvordan beskrives tilfældig variation? Statistik er et værktøj til at træffe beslutninger Meget vigtigt værktøj i ingeniørens værktøjskasse: Analyse af data Forsøgsplanlægning Forudsigelse af fremtidige værdier... og meget mere! Energisystemer: Prognoser af sol- og vindkraft Optimering af energilagring f.eks. i bygninger Modellering af menneskers adfærd, spildevandsanlæg Styring: Robotnavigation Mekaniske systemer (e.g. biler, skibe, vindmøller,...) Medicin (Compute): Statistik på medicinforsøg Kunstig bugspytkirtel Billedanalyse: Billeder er observeret data! Røntgenbilleder, 3D skanninger Video DTU Compute Introduktion til Statistik Efterår 2016 18 / 61 DTU Compute Introduktion til Statistik Efterår 2016 20 / 61

Anvendelser på DTU (mest Compute) Anvendelser på DTU (mest Compute) Anvendelser på DTU (mest Compute) Population og stikprøve Signalbehandling: Elektriske systemer (filtre, forstærkere,...) Computer science: Internet data (trafik, Google, Facebook, osv.) Tekstgenkendelse Sikkerhed: Server angreb etc. Forsøg med programmer Byg: Tests af materialeegenskaber og konstruktioner Fremstillingsmetoder f.eks. støbning af beton Energisystemer og indeklima Management: Finans, spørgeskema undersøgelser,... Kemi, fysik, miljø,... Hver gang man har foretaget målinger skal man sådan set bruge statistik DTU Compute Introduktion til Statistik Efterår 2016 21 / 61 Statistik handler ofte om at analysere en stikprøve (sample), der er taget fra en population (population) Baseret på stikprøven, vil vi generalisere om populationen (dvs. beskrive noget om hele populationen) Det er derfor vigtigt, at stikprøven er repræsentativ for populationen DTU Compute Introduktion til Statistik Efterår 2016 22 / 61 Anvendelser på DTU (mest Compute) Population og stikprøve Anvendelser på DTU (mest Compute) Population og stikprøve Population Population Tilfældigt udvalgt Stikprøve: { 1, 2,..., n } Randomly selected Sample: { 1, 2,..., n } Middelværdi µ Statistisk inferens Gennemsnit Mean µ Statistical inference Sample mean DTU Compute Introduktion til Statistik Efterår 2016 23 / 61 DTU Compute Introduktion til Statistik Efterår 2016 24 / 61

Nøgletal (summary statistics) Gennemsnit Gennemsnit (average eller sample mean) Vi anvender en række nøgletal (eller statistikker) for at opsummere og beskrive data (en stikprøve): Gennemsnit: Tyngdepunkt eller centrering Median: Tyngdepunkt eller centrering Varians: Variation Spredning: Variation (samme enhed som stikprøve) Fraktiler og kvantiler: Siger noget om fordelingen af stikprøve Variations koefficient: Variationen i stikprøve (enhedsløs) Gennemsnittet er et nøgletal, der angiver tyngdepunkt eller centrering af en stikprøve Gennemsnit: = 1 n n i i=1 Vi siger, at er et estimat af middelværdien (mean) for populationen Kovarians: Samvariation mellem datasæt Korrelation: Samvariation mellem datasæt (enhedsløs) DTU Compute Introduktion til Statistik Efterår 2016 26 / 61 DTU Compute Introduktion til Statistik Efterår 2016 27 / 61 Median Eksempel Median Eksempel: Højder af unge mænd Stikprøve (Sample): Medianen er et også nøgletal, der angiver centrering af en stikprøve. I nogle tilfælde, f.eks. hvis man har ekstreme værdier, er medianen at foretrække frem for gennemsnittet Gennemsnit: = [185,184,194,180,182] n = 5 = 1 (185 + 184 + 194 + 180 + 182) = 185 5 Median: Den midterste observation i den sorterede rækkefølge (tallet hvor der er lige mange observationer under og over) Median: Først sorter data: 180 182 184 185 194 Vælg så det midterste (idet n er ulige)(3 te) tal: 184 Hvis en person på 235cm tilføjes til stikprøven, hvilken bliver mest påvirket? (socrative.com eller app. Room:PBAC) A: Gennemsnittet B: Medianen C: Påvirkes lige meget D: Ved ikke Svar) A: Gennemsnittet. Det stiger meget mere end medianen (nyt gennemsnit 193.3 og ny median 184.5) DTU Compute Introduktion til Statistik Efterår 2016 28 / 61 DTU Compute Introduktion til Statistik Efterår 2016 29 / 61

Eksempel Empirisk varians (Empirical variance) og standardafvigelse (empirical standard deviation) Spredning Eksempel med spredning: Højder af unge mænd Den empiriske varians (eller empirisk standardafvigelsen) siger noget om hvor meget observationerne er spredt: Varians s 2 = 1 n 1 n i=1 ( i ) 2 Standardafvigelse (spredning) (=standard deviation) s = n s 2 1 = n 1 ( i ) 2 i=1 Stikprøve (Sample): = [185, 184, 194, 180, 182] n = 5 Empirisk varians s 2 = 1 ( (185 ) 2 + (184 ) 2 + (194 ) 2 + (180 ) 2 + (182 ) 2) = 29 4 Standardafvigelse s = s 2 = 29 = 5.385 DTU Compute Introduktion til Statistik Efterår 2016 30 / 61 DTU Compute Introduktion til Statistik Efterår 2016 31 / 61 Fraktiler Fraktiler (percentiles eller quantiles) Fraktiler Fraktiler (percentiles eller quantiles, Definition 1.6) Den p te fraktil, også kaldet quantile, kan defineres ud fra følgende procedure: Medianen beregnes som det punkt, der deler data ind i to halvdele Man kan naturligvis finde punkter som deler i andre dele: De punkter kaldes fraktiler Ofte beregner man 0, 25, 50, 75, 100% fraktilerne kaldes kvantilerne (quartiles) 50% fraktilen er altså medianen Eksempel: 25% fraktilen er punktet (estimat) hvor 25% af observationerne ligger under 1 Sorter de n observationer fra mindst til størst: (1),..., (n) 2 Beregn pn 3 Hvis pn er et helt tal: Midl den pn te og (pn + 1) te sorterede observationer Den p te fraktil = ( ) (np) + (np+1) /2 4 Hvis pn er et ikke-helt tal: tag den næste i den sorterede liste: Den p te fraktil = ( np ) hvor np er ceiling( loftet ) af np, dvs. det mindste hele tal større end np DTU Compute Introduktion til Statistik Efterår 2016 32 / 61 DTU Compute Introduktion til Statistik Efterår 2016 33 / 61

Fraktiler Eksempel på fraktiler: Højder af unge mænd: - mål for sammenhæng Heights ( i) 168 161 167 179 184 166 198 187 191 179 Weights (y i) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 Data, n=10: 168 161 167 179 184 166 198 187 191 179 Sorteret: 161 166 167 168 179 179 184 187 191 198 Nedre kvartil (25% fraktil), Q 1 : Sorter og så vælg det rigtige baseret på np = 2.5: Q 1 = 167 Øvre kvartil (75% fraktil), Q 3 : Sorter og så vælg det rigtige baseret på np = 7.5: Q 3 = 187 Weight 60 70 80 90 100 y = 78 = 178 160 170 180 190 Height DTU Compute Introduktion til Statistik Efterår 2016 34 / 61 DTU Compute Introduktion til Statistik Efterår 2016 35 / 61 - Def. 1.17 og 1.18 - mål for sammenhæng Kovariansen: Korrelationskoefficient: r = 1 n 1 s y = 1 n 1 n i=1 n i=1 ( i )(y i ȳ) ( )( ) i yi ȳ = s y s s y s s y hvor s og s y er standard afvigelsen for henholdsvis og y Student 1 2 3 4 5 6 7 8 9 10 Heights (i) 168 161 167 179 184 166 198 187 191 179 Weights (yi) 65.5 58.3 68.1 85.7 80.5 63.4 102.6 91.4 86.7 78.9 (i ) -10-17 -11 1 6-12 20 9 13 1 (yi ȳ) -12.6-19.8-10 7.6 2.4-14.7 24.5 13.3 8.6 0.8 (i )(yi ȳ) 126.1 336.8 110.1 7.6 14.3 176.5 489.8 119.6 111.7 0.8 s y = 1 (126.1 + 336.8 + 110.1 + 7.6 + 14.3 + 176.5 + 489.8 9 +119.6 + 111.7 + 0.8) = 1 9 1493.3 = 165.9 s = 12.21, and s y = 14.07 r = 165.9 12.21 14.07 = 0.97 DTU Compute Introduktion til Statistik Efterår 2016 36 / 61 DTU Compute Introduktion til Statistik Efterår 2016 37 / 61

Korrelation - egenskaber r er altid mellem 1 og 1: 1 r 1 r mål for den lineære sammenhæng mellem og y r = ±1 kun hvis punkterne ligger på en ret linie r > 0 hvis den generelle trend it scatter plottet er positiv r < 0 hvis den generelle trend it scatter plottet er negativ DTU Compute Introduktion til Statistik Efterår 2016 38 / 61 Korrelation Hvad er korrelationen mellem og y? A: ca. -0.95 B: ca. 0 C: ca. 0.95 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 y Svar) C: ca. 0.95 DTU Compute Introduktion til Statistik Efterår 2016 39 / 61 Korrelation Hvad er korrelationen mellem og y? A: ca. 0 B: ca. -0.5 C: ca. -0.95 0.0 0.2 0.4 0.6 0.8 1.0 2 1 0 1 y Svar) B: ca. -0.5 DTU Compute Introduktion til Statistik Efterår 2016 40 / 61 Korrelation Hvad er korrelationen mellem og y? A: ca. -0.5 B: ca. 0 C: ca. 0.5 0.0 0.2 0.4 0.6 0.8 1.0 3 2 1 0 1 2 y Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår 2016 41 / 61

Korrelation Hvad er korrelationen mellem og y? A: ca. -0.5 B: ca. 0 C: ca. 0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 y Svar) B: ca. 0 DTU Compute Introduktion til Statistik Efterår 2016 42 / 61 Beskrivende statistik: Grafisk fremstilling Beskrivende statistik (eplorative statistics) Undersøg et data sæt Beskriv data ved at fremhæve de vigtige pointer så andre hurtigt kan se indhold, trends og synlige sammenhænge Præsenter data for andre, som ikke kender det Grafisk fremstilling med forskellige plots: Histogram (empirisk tæthedsfunktion) Empirisk kumulativ tæthedsfunktion Boplot Scatterplot DTU Compute Introduktion til Statistik Efterår 2016 44 / 61 Installer R og Rstudio på egen computer Introduceres i enoten Er integreret i mange ting i kurset vi gør Globalt og hurtigt voksende open source beregningsmiljø ADVARSEL: R kan IKKE erstatte vores hjerner!!!! (Læs sektion 1.5.4!) DTU Compute Introduktion til Statistik Efterår 2016 46 / 61 > ## Adding numbers in the console > 2+3 > ## Define a vector > <- c(1, 4, 6, 2) > > ## A sequence from 1 to 10 > <- 1:10 > DTU Compute Introduktion til Statistik Efterår 2016 47 / 61

## Sample Mean and Median (data from enote) <- c(168,161,167,179,184,166,198,187,191,179) mean() median() ## Sample quartiles quantile(, type=2) ## 0% 25% 50% 75% 100% ## 161 167 179 187 198 ## Sample variance and standard deviation var() sd() ## Sample quantiles 0%, 10%,..,90%, 100%: quantile(, probs=seq(0, 1, by=0.10), type=2) ## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% ## 161 164 166 168 174 179 184 187 189 194 198 DTU Compute Introduktion til Statistik Efterår 2016 48 / 61 DTU Compute Introduktion til Statistik Efterår 2016 49 / 61 Histogram Empirisk tæthed (empirical density eller density histogram) ## A histogram of the heights: hist() ## A density histogram (empirical distribution) of the heights: hist(, freq=false, col="red", nclass=8) Histogram of Histogram of Frequency 0 1 2 3 4 Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 160 170 180 190 200 160 170 180 190 200 DTU Compute Introduktion til Statistik Efterår 2016 50 / 61 DTU Compute Introduktion til Statistik Efterår 2016 51 / 61

Empirisk kumuleret distribution ecdf() Boplot Fn() 0.0 0.2 0.4 0.6 0.8 1.0 160 170 180 190 200 ## A basic boplot of the heights: (range=0 makes it "basic") boplot(, range=0, col="red", main="basic boplot") tet(1.3, quantile(), c("minimum","q1","median","q3","maimum"), col="blue") 160 170 180 190 Basic boplot Maimum Q3 Median Q1 Minimum DTU Compute Introduktion til Statistik Efterår 2016 52 / 61 DTU Compute Introduktion til Statistik Efterår 2016 53 / 61 Modified boplot ## A modified boplot of the heights with an ## etreme observation, 235cm added: ## The modified version is the default boplot(c(,235), col="red", main="modified boplot") tet(1.3, quantile(c(,235)), c("minimum","q1","median","q3", "Maimum"),col="blue") 160 180 200 220 Modified boplot Maimum Q3 Median Q1 Minimum Markeret er: Gennemsnittet, Medianen, Fraktiler (10%, 95%) Hvad er markeret med den lilla linie? A: Gennemsnittet B: Medianen C: 10% fraktilen D: 95% fraktilen Empirical density Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 2 4 6 8 10 Svar) D: 95% Fraktil DTU Compute Introduktion til Statistik Efterår 2016 54 / 61 DTU Compute Introduktion til Statistik Efterår 2016 55 / 61

Markeret er: Gennemsnittet, Medianen, Fraktiler (10%, 95%) Hvad er markeret med den røde linie? A: Gennemsnittet B: Medianen C: 10% fraktilen D: 95% fraktilen Empirical density Markeret er: Gennemsnittet, Medianen, Fraktiler (10%, 95%) Hvad er markeret med den blå linie? A: Gennemsnittet B: Medianen C: 10% fraktilen D: 95% fraktilen Empirical density Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 2 4 6 8 10 0 2 4 6 8 10 Svar) C: 10% Fraktil Svar) B: Medianen DTU Compute Introduktion til Statistik Efterår 2016 56 / 61 DTU Compute Introduktion til Statistik Efterår 2016 57 / 61 Projekter Markeret er: Gennemsnittet, Medianen, Fraktiler (10%, 95%) Hvad er markeret med den grønne linie? A: Gennemsnittet B: Medianen C: 10% fraktilen D: 95% fraktilen Empirical density Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 2 4 6 8 10 Svar) A: Gennemsnittet DTU Compute Introduktion til Statistik Efterår 2016 58 / 61 DTU Compute Introduktion til Statistik Efterår 2016 60 / 61

s Projekter Projekter Projekter Næste uge Der skal laves to projekter Emne for alle projekter i 1. omgang: Beskrivende statistik, konfidensintervaller og hypotesetest 1. omgang er der tre projekter at vælge imellem: Handel med ETF I Varmeforbrug i Sønderborg I Skive fjord I BMI I Man må gerne arbejde i grupper om beregninger, men rapporterne skal skrives individuelt, se mere på http://introstat.compute.dtu.dk/projects/ Se også afleveringsdatoer på hjemmesiden Begynd på projekt 1 efter opgaverne i dag til grupperegning Bemærk: der checkes for plagiering og det bliver anmeldt! Begge skal godkendes for at kunne gå til eksamen. Får man ikke godkendt første afleveringdtu ercompute der mulighed for genaflevering Introduktion til Statistik Efterår 2016 60 / 61 Næste uge: Stokastiske variable, sandsynligheder, diskrete fordelinger - kapitel 2 i enoten DTU Compute Introduktion til Statistik Efterår 2016 61 / 61