Modul 1: Beskrivende dataanalyse

Relaterede dokumenter
Beskrivende statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Modul 6: Regression og kalibrering

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Løsninger til kapitel 1

Kapitel 11 Lineær regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Løsning til eksamen d.27 Maj 2010

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Deskriptiv statistik for hf-matc

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Deskriptiv statistik for matc i stx og hf

Undervisningsbeskrivelse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Forelæsning 1: Intro og beskrivende statistik

Undervisningsbeskrivelse

Indblik i statistik - for samfundsvidenskab

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Modul 12: Regression og korrelation

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Multipel Lineær Regression

Kapitel 3 Centraltendens og spredning

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Perspektiver i Matematik-Økonomi: Linær regression

Statistiske modeller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

brikkerne til regning & matematik statistik preben bernitt

2 Populationer. 2.1 Virkelige populationer

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Normalfordelingen og Stikprøvefordelinger

Antal timer Køn k m k m m k m k m k k k m k k k

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

for gymnasiet og hf 2017 Karsten Juul

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kvadratisk regression

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Module 1: Data og Statistik

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

To samhørende variable

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Undervisningsbeskrivelse

Fagplan for statistik, efteråret 2015

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

for gymnasiet og hf 2016 Karsten Juul

Undervisningsbeskrivelse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

1 Hb SS Hb Sβ Hb SC = , (s = )

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Undervisningsbeskrivelse

Transkript:

Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 1: Beskrivende dataanalyse 1.1 Statistik og dataanalyse............................... 1 1.2 Variable og data................................... 2 1.2.1 Typer af variable............................... 3 1.3 Grafiske metoder til at vise data.......................... 3 1.3.1 Vurdering af grafer.............................. 7 1.4 Nøglestørrelser for numeriske variable....................... 9 1.4.1 Positionsmål................................. 10 1.4.2 Variationsmål................................. 12 1.5 Box plots....................................... 13 1.6 Sammenhængsmål.................................. 15 1.1 Statistik og dataanalyse In God we trust, all others must bring data. W. Edwards Deming Data = systematisk indsamlet information. Eksempler: 1. Massefylden af vand ved 10 givne temperaturer. 2. Koncentrationen af HCl i 15 prøver fra en industriel produktion. 3. De første 300,000 primtal. 4. En algoritmes tidsforbrug for 75 forskellige inddata. 5. Den daglige dollarkurs i 2006. 6. Vanddybden i 25 søer på Fyn. 7. Massespektret for 27 proteinprøver. Statistik = at indsamle, fortolke og analysere data. Eksempler på statistiske problemstillinger: 1. Hvordan afhænger vands massefylde af temperaturen?

1.2 Variable og data 2 2. Hvordan fordeler koncentrationen af HCl sig langs tromlen? 3. Hvordan kan man beskrive den asymptotiske fordelingen af primtallene på aksen? 4. For hvilken type inddata er algoritmen bedst? 5. Hvorledes opfører de daglige fluktuationer af dollarkursen sig? 6. Hvor mange dybe søer er der på Fyn? 7. Hvad siger massespektret om proteinsammensætningen? Variationskilder = hvor kommer variationen fra? Nogle eksempler: 1. Massefylden afhænger af temperaturen. 2. Koncentrationen af HCl aftager i procesretningen. 3. Spiller tilfældigheder ind på fordelingen af primtallene? 4. Algoritmen er robust over for komplexiteten af input. 5. Dollarkursen svinger tilfældigt fra dag til dag. 6. De dybe søer er formet af istiden. 7. Der er forskel på en ondartet og en godartet knude. To typer variationskilder: Systematisk variation. Hvordan måles den? Tilfældig variation. Hvordan måles den? 1.2 Variable og data Variable: betegnelsen for det man registrerer (måler, tæller, observerer,...) fx højde, længde, køn, styrke, vægtforskel, koncentration, farve, vindretning,... Data: de faktiske målinger, observationer,... fx 198 cm, 0.05 mm, kvinde, 42 p.s.i., 45kg, 3%, blå, sydøst...

1.3 Grafiske metoder til at vise data 3 Bemærk: I dette kursus bruger vi engelsk decimalpunktum i stedet for komma! Eksempel 1.1 Standardvægt Tidligere havde United States National Bureau of Standards en standardvægt på 10g. For at sikre sig at vægten var tilregnelig, vejedes den jævnligt. 100 målinger resulterede i: 9.999591g, 9.999600g, 9.999594g,..., 9.999596g. Eksempel 1.2 Studerendes fravær I et kursus med 28 forelæsninger, blev fraværet af hver af de 203 studerende noteret: 2, 3, 2,..., 4, 1. Eksempel 1.3 Isforbrug og temperatur Isforbruget per inbygger (i pints per dag) blev målt i forskellige områder af USA om sommeren. Desuden blev, for hver måling af isforbrug, gennemsnitstemperaturen noteret (bl.a.): Isforbrug (pints): 0.386 0.374 0.393... 0.548 Temperatur (Fahrenheit): 41 56 63... 71 1.2.1 Typer af variable Variabeltyper: Kvalitative (fx køn, farve, hvorvidt man lider af en bestemt sygdom,...) Dvs. klasseopdeling, skal være entydig. Kvantitative Diskret (fx antal biler i husstand, antal tropenætter i juli, antal fejl i en test,...) Kontinuert (fx længde, højde, vægt, styrke, koncentration,...) 1.3 Grafiske metoder til at vise data Søjlediagram (kun for diskrete variable): 1. En søjle for hver mulige/relevante værdi af variabel. 2. Søjlehøjde = antal data med pågældende værdi.

1.3 Grafiske metoder til at vise data 4 Tæthedsdiagram: del søjlehøjderne med det totale antal data. Figur 1.1: Fraværende Studerende. Histogram for kontinuert variabel. Frekvenshistogram: 1. Del det mulige/relevante interval op i et antal lige store intervaller. 2. Søjlehøjde = antal data i pågældende interval. 3. Søjlerne skal hænge sammen. Tæthedshistogram (standard): 1. Del det mulige/relevante interval op i et antal intervaller. 2. Søjlehøjde = antal data i pågældende interval delt med samlet antal data og med intervallængden. 3. Søjlerne skal hænge sammen. Areal under kurven = 1. Kan håndtere varierende intervallængde. 4. Bemærk: Grafen afhænger i høj grad af den valgte intervalopdeling!

1.3 Grafiske metoder til at vise data 5 Figur 1.2: Standardvægt 1. Figur 1.3: Standardvægt 2 (andet startpunkt).

1.3 Grafiske metoder til at vise data 6 Figur 1.4: Standardvægt 3 (mindre intervallængde). Figur 1.5: Standardvægt 4 (mindste intervallængde). Scatterplot: (for to (sædvanligvis) kontinuerte variable) 1. Tegn samhørende punkter (x,y) ind i diagram.

1.3 Grafiske metoder til at vise data 7 Figur 1.6: Isforbrug og temperatur. 1.3.1 Vurdering af grafer Søjlediagram/histogram: Hvor mange data danner baggrund for grafen? Er grafen fornuftig? er intervalopdelingen for grov/fin? er endepunkterne for intervallerne valgt fornuftigt? Er grafen som forventet? stemmer den overens med din forhåndsviden? hvordan afviger grafen fra forventningen? hvorfor? Er grafen pæn? symmetrisk/skæv? lige/ujævn? et eller flere toppunkter (modus er)? er der outliers? Scatterplot:

1.3 Grafiske metoder til at vise data 8 Figur 1.7: Isforbrug og temperatur 2. Er der sammenhæng mellem de to variable? lineær/ikke-lineær? følger de hinanden tæt? er de positivt/negativt korrelerede? er der outliers? Eksempel 1.4 Anoreksibehandling I en engelsk undersøgelse blev unge anoreksiramte piger behandlet med cognitiv terapi. Forskellen i vægt før og efter behandling blev målt i pund (lb). Figur 1.8: Vægtforøgelse efter terapi.

1.4 Nøglestørrelser for numeriske variable 9 Eksempel 1.5 Papirstyrke Styrken (p.s.i.) blev målt for forskellige partier af Kraft Paper (kraftigt indpakningspapir). For hvert parti er også angivet andelen af hårdt træ i papirmassen. Figur 1.9: Papirstyrke. 1.4 Nøglestørrelser for numeriske variable Beskriv fordelingen af givne data med nogle få talstørrelser: Position hvor på aksen er vi? (systematikken) Variation hvor store er de tilfældige udsving? Sammenhængen mellem to variable. Generel betegnelse for data fra variablen y: n = antal data. y 1,y 2,...,y n Eksempel 1.6 Flagermus på jagt Når flagermus jager, udsender de højfrekvente lyde og bruger ekkoet af lyden til at finde byttet. Data angiver afstanden (i cm) mellem flagermus og byttedyret, når flagermusen opdager byttet. 62 52 68 23 34 45 27 42 83 56 40

1.4 Nøglestørrelser for numeriske variable 10 Figur 1.10: Afstand mellem flagermus og bytte. 1.4.1 Positionsmål Middelværdi ȳ: Gennemsnit ȳ = 1 n n y i. i=1 Eksempel 1.6 Flagermus på jagt Middelværdi: ȳ = (62 + 52 + + 40)/11 = 48.36. Median Q 2 : Midterste værdi Stil data op i rækkefølge y (1) y (2) y (n) Hvis n ulige: Q 2 = y ((n+1)/2) Hvis n lige: Q 2 = y (n/2) + y (n/2+1). 2 Eksempel 1.6 Flagermus på jagt Ordnede data: 23 27 34 40 42 45 52 56 62 68 83

1.4 Nøglestørrelser for numeriske variable 11 Median: Q 2 = 45 Typetal (modus): Mest typiske værdi/interval Værdi som flest data antager (diskret variabel) Midtpunkt i intervalstykke med flest data (kontinuert variabel) Bemærk: Modus bruges ofte om samtlige høje toppe i et diagram. Eksempel 1.6 Flagermus på jagt Data: 23 27 34 40 42 45 52 56 62 68 83 Interval 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Frekvens 0 0 2 1 3 2 2 0 1 Typetal: 45 Fordele og ulemper: Middelværdi: God at regne med, men påvirkes meget af outliers. Median: Påvirkes ikke af outliers, men er sværere at regne med. Typetal: Let at forklare, men varierer meget. Andre mål for position: Fraktil (percentil) for 0 q 1: et tal Q q så: mindst q 100% af data er Q q og mindst (1 q) 100% af data er Q q Kvartiler: Nedre (første) kvartil: Q 1 = Q 25% Median (anden kvartil): Q 2 = Q 50% Øvre (tredje) kvartil Q 3 = Q 75%

1.4 Nøglestørrelser for numeriske variable 12 IQR = Q 3 Q 1 min = Q 0% max = Q 100% range =max min Eksempel 1.6 Flagermus på jagt Ordnede data: 23 27 34 40 42 45 52 56 62 68 83 Nedre kvartil: Q 1 = 34 Median: Q 2 = 45 Øvre kvartil: Q 3 = 62 Hvis Q q ligger mellem to dataværdier, defineres Q q som gennemsnittet af de to værdier. Eksempel 1.6 (fortsat) Flagermus på jagt (reducerede data) Ordnede data: 23 27 40 42 45 56 68 83 Nedre kvartil: Q 1 = (27 + 40) /2 = 33.5 Median: Q 2 = (42 + 45) /2 = 43.5 Øvre kvartil: Q 3 = (56 + 68) /2 = 62 1.4.2 Variationsmål Varians s 2 : s 2 = 1 n 1 n (y i ȳ) 2 i=1 Eksempel 1.6 Flagermus på jagt Varians: s 2 = 1 [ (62 48.36) 2 + (52 48.36) 2 + + (40 48.36) 2] = 327.05. 10

1.5 Box plots 13 Spredning (standardafvigelse): s = s 2 = 1 n (y i ȳ) 2. n 1 i=1 Eksempel 1.6 Flagermus på jagt Spredning: s = 327.05 = 18.08. Interquantile range IQR: IQR = Q 3 Q 1 Eksempel 1.6 Flagermus på jagt IQR = Q 3 Q 1 = 62 34 = 28 1.5 Box plots En simpel figur, som viser de vigtigste nøglestørrelser: Medianen Q 2 Nedre og øvre kvartiler, h.h.v. Q 1 og Q 3 Øvre og nedre adjacent values, defineret ved A + = den største værdi som er mindre end Q 3 + 1.5 IQR (øvre hinge) A = den mindste værdi som er større end Q 1 1.5 IQR (nedre hinge) Værdier som er uden for de to hinges kaldes outside values, og markeres ofte med.

1.5 Box plots 14 Figur 1.11: Flagermus på jagt Figur 1.12: Fraværende studerende.

1.6 Sammenhængsmål 15 Figur 1.13: Afvigelser på standardvægt. Outliers: Særligt store eller særligt små værdier, som ikke passer med resten af data. Outside values regnes ofte for at være muligt outliers. Om det er tilfældet, afhænger af, hvor grelle de er, og om de i øvrigt er specielle. 1.6 Sammenhængsmål Givet et variabelpar (x,y). n par af data: (x 1,y 1 ),...,(x n,y n ), målt på (x,y). Hvor stærkt (linært) afhængige er de to variable x og y, bedømt ud fra data? Kovarians mellem x og y: c = c xy = 1 n 1 n (x i x) (y i ȳ). i=1 Gennemsnitlig grad af ko-variation mellem x og y, dvs. hvor meget de varierer sammen (co-vary). Korrelation (Pearsons korrelationskoefficient): r = r xy = 1 n 1 n i=1 Mål for associationen mellem x og y. (x i x) (y i ȳ) s x s y = 1 n 1 n ( )( ) xi x yi ȳ. i=1 s x s y

1.6 Sammenhængsmål 16 Bemærk: Mulige værdier: r [ 1,1] Fortegn: Positiv korrelation hvis r > 0. Negativ korrelation hvis r < 0. Styrke: Stærk korrelation hvis r stor, dvs. tæt ved 1. Svag korrelation hvis r lille, dvs. tæt ved 0. Eksakt lineær sammenhæng hvis r = 1. Ingen lineær sammenhæng hvis r = 0. Eksempler: Isforbrug og temperatur: r = 0.776. Lineær regression Den lineære sammenhæng mellem x og y kan beskrives ved lineær regression. Vi taler om regression af y på x, dvs. vi forklarer y s variation ved x s variation. Sammenhængen er givet ved regressionslinien. For givne værdier af x, ȳ, s x og c xy er linien y = ȳ + b(x x), hvor hældningen b er defineret ved Det forudsættes at s 2 x > 0. b = c xy s 2. x

1.6 Sammenhængsmål 17 Figur 1.14: Isforbrug og temperatur, med ret linie indlagt.