Velkommen til StatBK. Program. Introduktion, summary measures, SAS. Praktisk info. Praktisk info

Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kvantitative Metoder 1 - Forår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Forelæsning 1: Intro og beskrivende statistik

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Lineær og logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

En Introduktion til SAS. Kapitel 5.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kommentarer til øvelser i basalkursus, 2. uge

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistik og Sandsynlighedsregning 2

Statistik II 1. Lektion. Analyse af kontingenstabeller

Fagplan for statistik, efteråret 2015

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kvantitative Metoder 1 - Forår Dagens program

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Introduktion til SPSS

Statistik for Biokemikere Projekt

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Multipel Lineær Regression

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Studieplan Biostatistik Semester 1

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Reeksamen i Statistik for Biokemikere 6. april 2009

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Øvelser til basalkursus, 2. uge

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Introduktion til overlevelsesanalyse

Uge 10 Teoretisk Statistik 1. marts 2004

Kapitel 3 Centraltendens og spredning

Løsning til eksaminen d. 14. december 2009

Basal statistik. 30. januar 2007

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program dag 2 (11. april 2011)

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Epidemiologi og Biostatistik

Løsninger til kapitel 1

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Træningsaktiviteter dag 3

PUT og INPUT funktionerne

Basal Statistik - SPSS

Skriftlig eksamen Science statistik- ST501

Hvorfor SAS Kort intro til SAS

Forvaltning / Politik og Administration / Socialvidenskab

Introduktion til SAS. Faculty of Health Sciences

MPH specialmodul Epidemiologi og Biostatistik

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Morten Frydenberg 14. marts 2006

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Basal Statistik. Undervisningstider. Formål med kurset. Faculty of Health Sciences. Praktiske bemærkninger om kurset.

Faculty of Health Sciences. Basal Statistik. Praktiske bemærkninger om kurset. Lene Theil Skovgaard. 1. september 2015

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Forår Dagens program

Eksamen i Statistik for biokemikere. Blok

Forvaltning / Politik og Administration / Socialvidenskab

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Kvantitative Metoder 1 - Forår Dagens program

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Produkt og marked - matematiske og statistiske metoder

Konfidensintervaller og Hypotesetest

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Modul 1: Beskrivende dataanalyse

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Transkript:

Program Introduktion, summary measures, SAS Helle Sørensen E-mail: helle@math.ku.dk I dag: Praktiske informationer Faglig intro: et par dataeksempler Datatyper Beskrivende statistik, bla. gennemsnit og spredning Intro til SAS 1 / 20 2 / 20 Praktisk info Praktisk info Velkommen til StatBK Undervisere: Helle Sørensen (forelæsninger) og Aksel Jensen (øvelser) Absalon: Kursusplan. Bøger og noter. Andet materiale. Ugesedler. Undervisning Tirsdag: Øvelser 8 10. Forelæsninger 10 12. Torsdag: (SAS-hjælp 9 10). F 10 12. Ø 13 15. F 15 16. Øvelser Regn-selv med hjælp fra Aksel. Ikke samlet gennemgang af opgaverne I har selv ansvar for at følge op på opgaverne! Jeg vil snakke om enkelte opgaver onsdag 15 16. Du får kun fuldt udbytte af øvelserne ved at møde velforberedt op! Eksamenstræning... Projekter To delprojekter (samme data). Afleveres 7/12 hhv. 14/1. Begge skal godkendes for at kunne gå til eksamen. Gruppearbejde Eksamen: 3 timers skriftlig med alle hjælpemidler. SAS: info senere... Mine forventninger til jer er at I deltager aktivt i undervisningen læser pensum før/efter forelæsninger møder velforberedt op til øvelser og følger op på opgaverne efter øvelser arbejder med kurset cirka (mindst) 20 timer om ugen Giv mig gerne datasæt fra biokemi der passer til de metoder vi snakker om. 3 / 20 4 / 20

Faglig intro: overlevelse for leukæmipatienter Faglig intro: Rygning og CO-indhold i lunger Data fra FLH eksempel 3.8. To grupper af leukæmipatienter: AML og ALL Overlevelse i måneder fra diagnose registereret for 51 AML-patienter og 20 ALL-patienter Videnskabeligt spørgsmål: Er der forskel i overlevelsestid mellem AML og ALL? Hvis der er forskel, hvor stor er så forskellen i forventet overlevelse? Hvad skal vi gøre? Er interesseret i en generel forskel; har kun data fra 51 + 20 patienter Er den forskel vi har observeret udtryk for en ægte forskel eller kan den skyldes tilfældigheder? Hvis vi indsamlede flere data, hvad ville de så vise? Kunne vi lige så godt få en anden sammenhæng mellem type og overlevelse? Data: Målinger af CO-indholdet i lungerne på forskellige tidspunkt efter rygning (sidste cigaret) 12 målinger for samme person Timer 0.50 1.50 2.00 6.00 2.25 1.50 CO 53 22 38 17 28 32 Timer 1.25 0.75 0.15 2.00 3.15 1.50 CO 35 40 61 22 28 31 Videnskabelige spørgsmål: Hvad er sammenhængen? (Og er der overhovedet en sammenhæng?) Hvordan kan vi illustrere sammenhængen grafisk? Hvad ville der ske hvis vi gentog eksperimentet? Hvor meget anderledes resultater kunne vi få? 5 / 20 6 / 20 Faglig intro: opsummering Datatyper Hvorfor er det vigtigt? Data af forskellige typer skal behandles forskelligt! Hvordan påvirkes responsvariablen det man har målt og er interesseret i af andre variable? Interesseret i generelle sammenhænge, ikke sammenhænge der kun gælder for de indsamlede data. Vi skal skelne mellem ægte effekter/sammenhænge og tilfældigheder Hvor meget anderledes kunne data blive hvis vi gentog eksperimentet? Skal beskrive variarionen i data Tegn data! Mere om det senere på ugen (og senere i kurset). Datatyper: Kategoriske (nominelle): inddeling i kategorier. Fx. køn, farve, etnicitet, død/levende. Ordinale: Ordning af de mulige værder. Fx. lav-mellem-høj, hvid-lysegrå-mørkegrå-sort, smertefølelse. Kvantitative: talværdier med egentlig mening, værdier der kan sammenlignes. Fx. højde, vægt, temperatur, alder. Kvantitative data kan inddeles i undertyper efter flere kriterier. Interval vs. ratio læs selv i bogen Diskret vs. kontinuert: Antal vs. afrunding af noget der kan gøres vilkårligt præcist. 7 / 20 8 / 20

Datatyper Beskrivende statistik Hvilken datatype er følgende: IQ-score Ægteskabelig status Antal svulster Blodtype Sygdomsstadie: I, II, III, IV blodtryk Vi skal stort set kun diskutere kvantitative (endda kontinuerte) data i dette kursus. Data: x 1,...,x n. Ønsker at få overblik over data. Hvordan kan vi sammenfatte informationen i data? Grafisk beskrivende statistik Histogrammer, boxplots mm. Mere om det på torsdag. Summary measures eller summariske mål Mål for centralitet: gennemsnit, median Mål for variabilitet: range, percentiles/fraktiler, varians, spredning 9 / 20 10 / 20 Mål for centralitet Mål for variabilitet Data: x 1,...,x n. Eksempeldata (Collinge, type 4): 44, 47, 51, 53, 47, 50, 43, 48, 49. Gennemsnit x = 1 n (x 1 +... + x n ) = 1 n n x i i=1 Median den midterste observation. Opstil x erne efter størrelse. Hvad er gennemsnit og median for vores eksempeldata? Gennemsnit eller median? Medianen, men ikke gennemsnittet, er robust overfor ekstreme værdier Gennemsnittet og median ligger tæt for data der er cirka symmetriske, men kan være langt fra hinanden for asymmetriske data. Gennemsnittet bruges i normalfordelingsmodeller Range: intervallet fra mindste til største observation. Empirisk varians og spredning s 2 = 1 ( (x 1 x) 2 + + (x 1 x) 2) = 1 n 1 n 1 s = s 2 Bemærk: division med n 1 i stedet for n. n i=1 (x i x) 2 Fortolkning af spredning: gennemsnitlig afvigelse fra gennemsnittet. Hvad er range, empirisk varians og empirisk spredning for eksempeldata? 11 / 20 12 / 20

Mål for variabilitet SAS: praktiske ting Median: 50%-fraktil eller 50%-percentil. 50% af fordelingen ligger under medianen; 50% ligger over. 25%-fraktil eller 25%-percentil 25% af fordelingen ligger under 25%-fraktilen; 75% ligger over. Opstil x erne efter størrelse, vælg obs. nummer (n + 1)/4 hvis det er et helt tal. Eller lineær interpolation mellem de to nærmeste obs. Tilsvarende definitioner af 75%-fraktil, 90%-fraktil,... Bruger sommetider intervallet fra 25%-fraktil til 75%-fraktil som mål for variabilitet. SAS er en statistikprogrampakke (og meget andet). Vi skal bruge SAS i forbindelse med opgaver og projekt. Til eksamen vil der være SAS-udskrifter som skal benyttes ved besvarelsen. I har adgang til SAS på følgende måde: I A111 og C103 på IMF s computere. I kan få login hos mig hvis I ikke allerede har fra tidligere. DVD med installationsfiler kan købes på inspektørkontoret på HCØ (20 25 kr). Installationsfiler kan hentes på punkt.ku.dk, Softwarebiblioteket. Sidste år gav installation anledning til en del problemer, især på PC er med Vista, Home Edition. Som med alt andet: man lærer det kun ved at prøve det selv! 13 / 20 14 / 20 SAS: vinduer og programdele SAS: I dag De tre vigtigste vinduer: Editor: her skriver man koden Output: her kommer resultaterne Log: her kan man se om der har været problemer med at udføre koden SAS-programmer består af to dele: DATA-trin: her konstrueres datasæt PROC-trin: her udfører SAS beregninger og laver analyser. Bemærk: Linieskift markeres med semikolon (;) Navigation i SAS Indlæsning af data Input direkte i program vha. CARDS og datalinier Indlæsning fra flad tekstfil (.txt) vha. INFILE (IMPORT DATA wizard, findes i File-menu. Alle slags filer.) PROC MEANS: beregning af gennemsnit, spredning mm. Datatilrettelæggelse konstruktion af deldatasæt: DROP, KEEP IF Nye variable Sammensætning af datasæt: SET, MERGE Materiale: Notatet Introduktion til SAS cirka side 1-10 SAS-programmet sas-intro.sas på Absalon 15 / 20 16 / 20

Eksempel: Data fra Collinge et al Eksempel: Data fra Collinge et al I Introduktion til SAS er data fra følgende artikel beyttet: Collinge, Sidle, Mead, Ironside, Hill. Molecular analysis of prion strain variation and the aetiology of new variant JCD. Nature, vol. 383 (6602), 1996. http://www.nature.com/nature/journal/v383/n6602/pdf/383685a0.pdf Sammenligning af fire varianter af Creutzfeldt-Jakob Disease (CJD) Physico-chemical properties of PrP, the disease-related isoform of prion protein Andele af PrP glycoforms : high-molecular-mass glycoform (H), lower-molecular-mass glycoform (L), unglycosylated (U) 17 / 20 Indlæsning 18 / 20 Resume Eksempel pa indlæsning fra.txt-file med INFILE: data datanavn; infile C:\Documents and Settings\helle\StatBK\collinge.txt firstobs=2; input type h l u; proc print data=datanavn; run; Opsummering fra i dag: Fornemmelse for statistiske problemstillinger. Tænk gerne over biokemiske problemstillinger! Gennemsnit, median, spredning, fraktiler SAS: navigation, dataindlæsning, datamanipulation, PROC MEANS Bemærk: Torsdag: Hele stien til filen skal angives Normalfordelingen firstobs hvis der er kommentarer eller variabelnavne i filen Grafisk deskriptiv statistik, mere SAS Lav altid en proc print af data Hvis variable har ikke-numeriske værdier (fx.bogstaver): $ efter variabelnavnet. Fx. input sex $ hvis sex kan være F og M. 19 / 20 20 / 20