Program Introduktion, summary measures, SAS Helle Sørensen E-mail: helle@math.ku.dk I dag: Praktiske informationer Faglig intro: et par dataeksempler Datatyper Beskrivende statistik, bla. gennemsnit og spredning Intro til SAS 1 / 20 2 / 20 Praktisk info Praktisk info Velkommen til StatBK Undervisere: Helle Sørensen (forelæsninger) og Aksel Jensen (øvelser) Absalon: Kursusplan. Bøger og noter. Andet materiale. Ugesedler. Undervisning Tirsdag: Øvelser 8 10. Forelæsninger 10 12. Torsdag: (SAS-hjælp 9 10). F 10 12. Ø 13 15. F 15 16. Øvelser Regn-selv med hjælp fra Aksel. Ikke samlet gennemgang af opgaverne I har selv ansvar for at følge op på opgaverne! Jeg vil snakke om enkelte opgaver onsdag 15 16. Du får kun fuldt udbytte af øvelserne ved at møde velforberedt op! Eksamenstræning... Projekter To delprojekter (samme data). Afleveres 7/12 hhv. 14/1. Begge skal godkendes for at kunne gå til eksamen. Gruppearbejde Eksamen: 3 timers skriftlig med alle hjælpemidler. SAS: info senere... Mine forventninger til jer er at I deltager aktivt i undervisningen læser pensum før/efter forelæsninger møder velforberedt op til øvelser og følger op på opgaverne efter øvelser arbejder med kurset cirka (mindst) 20 timer om ugen Giv mig gerne datasæt fra biokemi der passer til de metoder vi snakker om. 3 / 20 4 / 20
Faglig intro: overlevelse for leukæmipatienter Faglig intro: Rygning og CO-indhold i lunger Data fra FLH eksempel 3.8. To grupper af leukæmipatienter: AML og ALL Overlevelse i måneder fra diagnose registereret for 51 AML-patienter og 20 ALL-patienter Videnskabeligt spørgsmål: Er der forskel i overlevelsestid mellem AML og ALL? Hvis der er forskel, hvor stor er så forskellen i forventet overlevelse? Hvad skal vi gøre? Er interesseret i en generel forskel; har kun data fra 51 + 20 patienter Er den forskel vi har observeret udtryk for en ægte forskel eller kan den skyldes tilfældigheder? Hvis vi indsamlede flere data, hvad ville de så vise? Kunne vi lige så godt få en anden sammenhæng mellem type og overlevelse? Data: Målinger af CO-indholdet i lungerne på forskellige tidspunkt efter rygning (sidste cigaret) 12 målinger for samme person Timer 0.50 1.50 2.00 6.00 2.25 1.50 CO 53 22 38 17 28 32 Timer 1.25 0.75 0.15 2.00 3.15 1.50 CO 35 40 61 22 28 31 Videnskabelige spørgsmål: Hvad er sammenhængen? (Og er der overhovedet en sammenhæng?) Hvordan kan vi illustrere sammenhængen grafisk? Hvad ville der ske hvis vi gentog eksperimentet? Hvor meget anderledes resultater kunne vi få? 5 / 20 6 / 20 Faglig intro: opsummering Datatyper Hvorfor er det vigtigt? Data af forskellige typer skal behandles forskelligt! Hvordan påvirkes responsvariablen det man har målt og er interesseret i af andre variable? Interesseret i generelle sammenhænge, ikke sammenhænge der kun gælder for de indsamlede data. Vi skal skelne mellem ægte effekter/sammenhænge og tilfældigheder Hvor meget anderledes kunne data blive hvis vi gentog eksperimentet? Skal beskrive variarionen i data Tegn data! Mere om det senere på ugen (og senere i kurset). Datatyper: Kategoriske (nominelle): inddeling i kategorier. Fx. køn, farve, etnicitet, død/levende. Ordinale: Ordning af de mulige værder. Fx. lav-mellem-høj, hvid-lysegrå-mørkegrå-sort, smertefølelse. Kvantitative: talværdier med egentlig mening, værdier der kan sammenlignes. Fx. højde, vægt, temperatur, alder. Kvantitative data kan inddeles i undertyper efter flere kriterier. Interval vs. ratio læs selv i bogen Diskret vs. kontinuert: Antal vs. afrunding af noget der kan gøres vilkårligt præcist. 7 / 20 8 / 20
Datatyper Beskrivende statistik Hvilken datatype er følgende: IQ-score Ægteskabelig status Antal svulster Blodtype Sygdomsstadie: I, II, III, IV blodtryk Vi skal stort set kun diskutere kvantitative (endda kontinuerte) data i dette kursus. Data: x 1,...,x n. Ønsker at få overblik over data. Hvordan kan vi sammenfatte informationen i data? Grafisk beskrivende statistik Histogrammer, boxplots mm. Mere om det på torsdag. Summary measures eller summariske mål Mål for centralitet: gennemsnit, median Mål for variabilitet: range, percentiles/fraktiler, varians, spredning 9 / 20 10 / 20 Mål for centralitet Mål for variabilitet Data: x 1,...,x n. Eksempeldata (Collinge, type 4): 44, 47, 51, 53, 47, 50, 43, 48, 49. Gennemsnit x = 1 n (x 1 +... + x n ) = 1 n n x i i=1 Median den midterste observation. Opstil x erne efter størrelse. Hvad er gennemsnit og median for vores eksempeldata? Gennemsnit eller median? Medianen, men ikke gennemsnittet, er robust overfor ekstreme værdier Gennemsnittet og median ligger tæt for data der er cirka symmetriske, men kan være langt fra hinanden for asymmetriske data. Gennemsnittet bruges i normalfordelingsmodeller Range: intervallet fra mindste til største observation. Empirisk varians og spredning s 2 = 1 ( (x 1 x) 2 + + (x 1 x) 2) = 1 n 1 n 1 s = s 2 Bemærk: division med n 1 i stedet for n. n i=1 (x i x) 2 Fortolkning af spredning: gennemsnitlig afvigelse fra gennemsnittet. Hvad er range, empirisk varians og empirisk spredning for eksempeldata? 11 / 20 12 / 20
Mål for variabilitet SAS: praktiske ting Median: 50%-fraktil eller 50%-percentil. 50% af fordelingen ligger under medianen; 50% ligger over. 25%-fraktil eller 25%-percentil 25% af fordelingen ligger under 25%-fraktilen; 75% ligger over. Opstil x erne efter størrelse, vælg obs. nummer (n + 1)/4 hvis det er et helt tal. Eller lineær interpolation mellem de to nærmeste obs. Tilsvarende definitioner af 75%-fraktil, 90%-fraktil,... Bruger sommetider intervallet fra 25%-fraktil til 75%-fraktil som mål for variabilitet. SAS er en statistikprogrampakke (og meget andet). Vi skal bruge SAS i forbindelse med opgaver og projekt. Til eksamen vil der være SAS-udskrifter som skal benyttes ved besvarelsen. I har adgang til SAS på følgende måde: I A111 og C103 på IMF s computere. I kan få login hos mig hvis I ikke allerede har fra tidligere. DVD med installationsfiler kan købes på inspektørkontoret på HCØ (20 25 kr). Installationsfiler kan hentes på punkt.ku.dk, Softwarebiblioteket. Sidste år gav installation anledning til en del problemer, især på PC er med Vista, Home Edition. Som med alt andet: man lærer det kun ved at prøve det selv! 13 / 20 14 / 20 SAS: vinduer og programdele SAS: I dag De tre vigtigste vinduer: Editor: her skriver man koden Output: her kommer resultaterne Log: her kan man se om der har været problemer med at udføre koden SAS-programmer består af to dele: DATA-trin: her konstrueres datasæt PROC-trin: her udfører SAS beregninger og laver analyser. Bemærk: Linieskift markeres med semikolon (;) Navigation i SAS Indlæsning af data Input direkte i program vha. CARDS og datalinier Indlæsning fra flad tekstfil (.txt) vha. INFILE (IMPORT DATA wizard, findes i File-menu. Alle slags filer.) PROC MEANS: beregning af gennemsnit, spredning mm. Datatilrettelæggelse konstruktion af deldatasæt: DROP, KEEP IF Nye variable Sammensætning af datasæt: SET, MERGE Materiale: Notatet Introduktion til SAS cirka side 1-10 SAS-programmet sas-intro.sas på Absalon 15 / 20 16 / 20
Eksempel: Data fra Collinge et al Eksempel: Data fra Collinge et al I Introduktion til SAS er data fra følgende artikel beyttet: Collinge, Sidle, Mead, Ironside, Hill. Molecular analysis of prion strain variation and the aetiology of new variant JCD. Nature, vol. 383 (6602), 1996. http://www.nature.com/nature/journal/v383/n6602/pdf/383685a0.pdf Sammenligning af fire varianter af Creutzfeldt-Jakob Disease (CJD) Physico-chemical properties of PrP, the disease-related isoform of prion protein Andele af PrP glycoforms : high-molecular-mass glycoform (H), lower-molecular-mass glycoform (L), unglycosylated (U) 17 / 20 Indlæsning 18 / 20 Resume Eksempel pa indlæsning fra.txt-file med INFILE: data datanavn; infile C:\Documents and Settings\helle\StatBK\collinge.txt firstobs=2; input type h l u; proc print data=datanavn; run; Opsummering fra i dag: Fornemmelse for statistiske problemstillinger. Tænk gerne over biokemiske problemstillinger! Gennemsnit, median, spredning, fraktiler SAS: navigation, dataindlæsning, datamanipulation, PROC MEANS Bemærk: Torsdag: Hele stien til filen skal angives Normalfordelingen firstobs hvis der er kommentarer eller variabelnavne i filen Grafisk deskriptiv statistik, mere SAS Lav altid en proc print af data Hvis variable har ikke-numeriske værdier (fx.bogstaver): $ efter variabelnavnet. Fx. input sex $ hvis sex kan være F og M. 19 / 20 20 / 20