Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of /02/

Størrelse: px
Starte visningen fra side:

Download "Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of 117 05/02/10 13.49"

Transkript

1 Noter i statistik Thomas Bendsen 2008 VIA University College Bioanalytikeruddannelsen Indholsfortegnelse 1 - Introduktion Introduktion Brug af disse sider Analysenavne DANAK Betydende cifre Excel Copyright Referencer 2 - Beskrivende statistik Introduktion Grafer xy-plot Differensplot Histogram Tabeller Beregninger Excel Lineær regression Mere om regression Talskalaer 3 - Fordelinger Introduktion Population og stikprøve Sandsynlighed og fraktiler - lidt notation Normalfordelingen Normalfordeling - grafisk repræsentation Normalfordeling - beregning Normalfordeling - test Beregning - non-paramtrisk Probit-diagram 4 - Variation Introduktion Måleusikkerhed Analytisk variation - præcision 1 of /02/

2 4.4 - Analytisk variation - eksempel Systematisk variation - korrekthed Oversigt Biologisk variation Biologisk variation - eksempel Krav til analytisk variation Dobbeltbestemmelser Frihedsgrader Usikkerhedsbudget Referenceintervaller Referenceintervaller - eksempel Referenceintervaller - eksempel Konfidensintervaller Introduktion Beregning Eksempel Eksempel 1 - detaljer Eksempel Kvalitetskontrol Introduktion 6 - Hypotesetest Introduktion Hypotesetest - et eksempel Princip Signifikansniveau og fejltyper Eksempel fortsat t-test t-test, 1 stikprøve t-test, 1 stikprøve - eksempel t-test, 2 uparrede stikprøver Uparret t-test - eksempel t-test, 2 parrede stikprøver Parret eller uparret? Enkelt- og dobbelt-sidet test F-test F-test - eksempel Variansanalyse - generelt Variansanalyse - teknikken Excel - variansanalyse Excel - F- og t-test Metodesammenligning 7 - Hypotesetest - ikke parametrisk 2 of /02/

3 7.1 - Introduktion Mann-Whitney Wilcoxon Χ Χ 2 - resumé Normalfordelings- approximation Flere tests 8 - Metodevurdering Introduktion Begreber Eksempler Sensititvitet og specificitet Prædiktive værdier ROC-kurver ROC-kurver - eksempel 10 - Statistisk kvalitetskontrol Introduktion Kontrolkort Kontrolmateriale Kontrolgrænser Westgard-regler P og P fr ed Ekstern kvalitetskontrol 11 - Tabeller Tabeller Mann-Whitney Wilcoxon Χ t Normalfordeling F 13 - Lidt matematik Lineær interpolation Logaritmisk transformation Notation 14 - Ændringer Ændringer 1.1 Indledning Hvad er statistik? 3 of /02/

4 Statistik handler groft sagt om talbehandling. Mange beslutninger i dagens samfund er baseret på tal. Politiske beslutninger er bl.a. baseret på tal om den økonomiske udvikling, mens medicinske beslutninger bl.a. er baseret på tal om patienter. Dels tal som beskriver den enkelte patient, dels tal som beskriver hele befolkningen, for at have et sammenligningsgrundlag. Det er klart at hvis man ønsker at sammenligne en konkret patients hæmoglobinkoncentration med den raske del af befolkningen, så bliver man ikke specielt klog af at se hæmoglobinkoncentrationerne fra f.eks raske personer. Man bliver nødt til at kunne danne sig et overblik over disse tal, og det er bl.a. her statistikken kommer ind i billedet. Statistik kan overordnet opdeles i to områder: Beskrivende statistik (deskriptiv statistik) Konkluderende statistik (eller induktiv statistik, eller statistisk inferens) Beskrivende statistik Den beskrivende statistik handler om at skabe overblik over en masse tal. I stedet for at opskrive 3000 hæmoglobinkoncentrationer kan man måske nøjes med at angive en middelværdi og en spredning, eller man kan måske lave et histogram som illustrerer tallene grafisk. Hvis man er omhyggelig med at vælge den rigtige metode, så kan der være samme (relevante) information i en sådan graf, eller i en middelværdi og spredning, som der var i de oprindelige 3000 tal. Og det er vel at mærke blevet væsentlig lettere at overskue og vurdere denne information. Statistisk inferens Mens den beskrivende statistik handler om at udtrække den væsentlige information fra en masse tal, så handler statistisk inferens om at træffe beslutninger på grundlag af denne information. Det kan f.eks. være at afgøre om to forskellige analysemaskiner leverer forskellige svar, eller om en patients koncentration af et eller andet stof har ændret sig pga. en behandling. Kapitel 2 uddyber den beskrivende statistik, altså hvilke former for tabeller, grafer og beregninger man kan anvende til at opsummere data, mens de efterfølgende kapitler tager fat på den induktive statistik. 1.2 Om disse noter Disse sider er primært skrevet som undervisningsmateriale i statistik til bioanalytikeruddannelsen ved VIA University College. Det er indtil videre vigtigt at bemærke at siderne langt fra er færdige. Indtil videre vil der derfor mangle adskillige emner, ligesom nogle emner kun vil være meget kort beskrevet. Jeg vil selvfølgelig være taknemmelig for at blive gjort opmærksom på fejl og mangler (klik på copyright-linien nederst). Siderne indeholder desuden diverse tests som kan anvendes som en delvis kontrol af om materialet er forstået korrekt. Ofte vil eksemplerne ikke være gennemgregnede, men i stedet 4 of /02/

5 være baseret på at man selv udfører beregningerne, som så kan kontrolleres vha. "Kontroller"-knappen nederst på siden. I de opgaver hvor man skal indtaste et tal er det vigtigt at man indtaster det korrekte antal betydende cifre. Hvis man svarer forkert vil man ofte få forslag til hvad man har gjort forkert eller hvor man kan læse mere om teorien. Dette kræver at ens browser er sat til at tillade "popup"-vinduer. Til studerende ved VIA Bioanalyitkeruddannelsen: Hvis man ikke kan få det rigtige svar kan man søge hjælp hos undervisere og medstuderende i den tilhørende konference i Fronter eller på Studienettet. Brug denne mulighed i stedet for at sidde og blive frustreret. Søgefunktion/indholdsfortegnelse Nederst i menuen til venstre findes en søgefunktion, som erstatter den traditionelle indholdsfortegnelse. Funktionen er indtil videre ikke specielt avanceret, idet man kun kan søge på et enkelt ord ad gangen, og de sider der indeholder dette ord vises i numerisk rækkefølge. Man kan uden videre søge på dele af et ord. Bemærk at hvis man har svært ved at finde ordet på de angivne sider, kan man bruge browserens indbyggede søgefunktion når man har valgt siden (typisk CTRL-f eller CTRL-b). På den side hvor søgeresultaterne angives, er der desuden en "Google"-søgeboks, som tillader mere avancerede søgninger. Udskrift På denne side er der mulighed for at få vist en udskriftsvenlig version af et udvalgt kapitel, eller af alle siderne på en gang. Bemærk at udskriften endnu ikke bliver særlig elegant, men den er brugbar, hvis man ikke bryder sig om at læse på skærmen. 1.3 Analysenavne I de kliniske laboratorier anvendes internationale betegnelser for de analyser der foretages. Disse navne er opbygget på følgende måde: System-Komponent, Egenskabsart. Et eksempel på et sådant navn er "P-haptoglobin, stofk.". Dette navn giver 3 forskellige informationer om analysen, som forklaret nedenfor: System I eksemplet er dette "P", som angiver at der måles på plasma. Nogle ofte anvendte systemer er: Forkortelse P U B Navn Plasma Urin Blod 5 of /02/

6 S Serum (ofte anvendes kun P) Komponent I eksemplet er dette "haptoglobin". Dette angiver hvilket "stof" der måles på, f.eks. hæmoglobin eller folat. Egenskabsart I eksemplet er dette "stofk.". Dette angiver hvorledes svaret skal angives. Føglende angiver nogle ofte anvendte egenskabsarter: Forkortelse Betydning stofk. stofkoncentration (dvs. antal molekyler pr volumen; angives ofte i mol/l) antalk. antalkoncentration, (dvs. antal celler pr volumen) L -1 enz.k. Enzymkoncentration U/L antalfr. Antalfraktion (f.eks. andelen af celler af en bestemt type) kat.k. Katalytisk koncentration U/L Enhed mol/l Dimensionsløs 1.4 DANAK DANAK er Danmarks nationale akkrediteringsorgan, og spiller således en særdeles stor rolle indenfor bioanalysen i dag. Disse noter tilstræber, så vidt muligt, at tage udgangspunkt i DANAKS terminologi og begreber (omend der sikkert kan findes adskillige steder hvor det ikke lykkes). Primært tages der udgangspunkt i DANAKs retningslinier i forbindelse med akkreditering indenfor medicinsk undersøgelse, RL1 1 og RL6 2. Pr. 1/ er disse retningslinier afløst af et nyt regelsæt 3. De nye regler er imidlertid ikke helt så let tilgængelige, hvorfor disse noter indtil videre fastholder referencer til RL1 og RL6. Referencer DANAK, RL1 Metodevalidering i kemisk analytiske laboratorier. DANAK, RL6 Validering af måleprocedurer (metodevalidering) i klinisk biokemiske laboratorier DANAK, Akkrediteringskrav efter 1. oktober of /02/

7 1.5 Betydende cifre I forbindelse med angivelse af måleresultater er det vigtigt at tænke over antallet af betydende cifre. Denne side har ikke til opgave at forklare hvordan man afgør det korrekte antal betydende cifre i en given sammenhæng, men blot at gennemgå betydningen af begrebet. Antal betydende er simpelthen antallet af cifre i et tal, talt fra det første ciffer (forskelligt fra nul) fra venstre og mod højre. Bemærk at det kun er "foranstillede" nuller som ikke tælles med. "Bagvedstillede" nuller skal medregnes. Det er formentlig nemmest at forstå ved at kigge på en række eksempler: Tal 5 1 5,00 3 0,5 1 0, * ,0* ,23 3 Antal betydende cifre 1.6 Excel Her følger en oversigt over de sider, hvor man kan læse nærmere om brugen af Excel i forbindelse med statistiske beregninger. Listen er pt. ikke opdateret. Side Indhold Basal brug af Excel. Middelværdi og spredning Lineær regression Installation af "dataanalyse"-pakken, som indholder diverse statistiske værktøjer Variansanalyse F-test t-test Matrix-formler Mann-Whitney-testen 7 of /02/

8 7.3 Wilcoxon-testen 12.2 og 12.3 Generel brug af Excel XY-punktdiagrammer Beregning af sandsynlighed og fraktiler i normalfordelingen. Fremstilling af histogrammer, herunder: Generel brug af Excel Funktionen "tæl.hvis" der optæller antallet af celler der opfylder et bestemt kriterium. Fremstilling af søjlediagrammer Fremstilling af referenceintervaller, herunder: Generel brug af Excel Grafer (xy-plot) Probit-plot 1.7 Copyright Disse noter kan anvendes gratis til ikke-kommercielle formål. Distribution må dog kun ske på en af følgende måder: Som et hyperlink til: eller til en underside heraf. I en papirudgave, hvis denne udstyres med den forside som kan hentes her. Ønskes en anden forside, kan dette aftales individuelt ved henvendelse til forfatteren på thbe@viauc.dk Noterne kan fås i en nogenlunde printbar udgave via knappen nederst til venstre i menuen. Enhver form for tilbagemelding i forbindelse med brug af noterne modtages med glæde på thbe@viauc.dk. 1.8 Referencer Referencer angives i disse noter med hævet skrift. Selve referencerne findes nederst på den pågældende side. 8 of /02/

9 2.1 Beskrivende statistik Grundlæggende er der tre metoder til at lave beskrivende statistik, altså til at opsummere den relevante information der ligger i et givet datasæt. Grafer: Kan være gode til at skabe et overblik, og kan bidrage til at afsløre strukturer i tallene. Er de jævnt fordelt, samler de sig omkring en enkelt værdi med nogle få ekstreme værdier, eller noget helt trejde. Tabeller: Velegnede hvis man ønsker en kvantitativ opremsning af måledata, eller på anden vis ønsker at præsentere tal som skal anvendes til videre beregninger. Beregnede værdier: Dette kan f.eks. være middelværdi og spredning. Sikrer en kvantitativ opsummering af tallene (i modsætning til f.eks. en kvalitativ graf), som f.eks. kan bruges til at teste hypoteser. Bør sjældent stå helt alene, da man risikerer at overse væsentlige strukturerer. 2.2 Grafer Man kan selvfølgelig lave mange forskellige grafer, som alle kan have deres berettigelse, afhængig af situationen. Her gennemgås i første omgang 2 typer, som er blandt de mest anvendte, nemlig xy-plot og differensplot. Når man anvender grafer er der nogle få regler som det er godt at følge: Ikke mere information i figuren end højst nødvendigt. Dvs. man skal ikke anvende specielle 3D-effekter og lignende hvis det ikke tjener et formål. Tilstrækkelig information til at man kan forstå grafen (inkl. figurtekst) isoleret, dvs. det bør ikke være nødvendigt at læse den ledsagende tekst. Det er således obligatorisk at der er navn og enheder på akserne. På de følgende sider kan man læse nærmere om forskellige typer af ofte anvendte grafer. 2.3 XY-plot Et xy-plot bruges når man har målt to sammenhørende parametre. Det kan f.eks. være højde og vægt hos en række personer, eller substratkoncentration og enzymaktivitet i en række serumprøver. På side 12.3 gennemgås hvordan man bruger Excel til at fremstille et xy-plot. Eksempel 1 9 of /02/

10 Substratkonc. (mmol/l) enzymaktivitet (U/L) 0,6 37 1,2 52 2, of /02/

11 2.4 Differensplot Et differensplot bruges typisk hvis man har målt to parametre som i princippet burde være identiske, eller sagt med andre ord: hvis man forventer at et xy-plot giver en ret linje gennem (0,0) og med hældning 1. Et typisk eksempel er metode- eller apparatursammenligning. Dvs. at man har en række patientprøver som analyseres på to forskellige apparater som gerne skulle give samme resultat. På side 12.2 gennemgås hvordan man bruger Excel til at fremstille et differensplot. Eksempel 2 Metode 1 konc (mmol/l) Metode2 konc (mmol/l) Middelværdi (mmol/l) Differens (mmol/l) 0,91 0,88 0,895 0,03 1,62 1,49 1,555 0,13 3,07 3,10 3,085-0,03 4,38 4,51 4,445-0,13 5,36 5,48 5,420-0,12 6,52 6,69 6,605-0,17 6,34 6,13 6,235 0,21 7,93 7,91 7,920 0,02 9,33 9,44 9,385-0,11 10,0 9,57 9,785 0,43 I tabellen ses resultater fra sammenhørende koncentrationsbestemmelser foretaget med to forskellige metoder. Desuden er middelværdi og differens beregnet for hvert par af målinger. Hvis man ønsker at skabe sig hurtigt overblik over om de to metoder giver samme resultater, kan man dels lave et xy-plot, men man kan også med fordel lave et differensplot som vist på Figur 2, hvor middelværdien af hvert målepar er afsat på x-aksen, mens differensen er afsat på y-aksen. 11 of /02/

12 I dette tilfælde ses ikke nogen tydelig forskel på de to metoder. Nogle gange giver den ene metode den største værdi, andre gange er det den anden metode der giver den højeste værdi. Fordelen ved differensplottet, frem for f.eks. et xy-plot er at det nemt afslører hvis f.eks. metode 1 systematisk måler højere end metode 2, idet alle punkter så vil ligge over 0. Ligeledes vil det kunne afsløre hvis variationen mellem de to metoder afhænger af koncentrationen. Men vil således ofte se at forskellen mellem metoderne er større, når koncentrationen i prøven er større. 2.5 Histogrammer Histogrammer bruges når man ønsker at vurdere hvordan tallene i et datasæt fordeler sig (se evt. side 3.1). Histogrammer har historisk haft en vigtig funktion i forhold til at vurdere om et givet datasæt er normalfordelt (se side 3.4), hvilket er vigtigt, da normalfordeling medfører at det bliver væsentligt nemmere at drage konklusioner på baggrund af tallene. De seneste årtier har den teknologiske udvikling imidlertid medført at regnekraft ikke længere er en begrænset ressource, og dermed er probit-plot i mange tilfælde et bedre redskab til at foretage en konkret vurdering af om data er normalfordelte. Probit-plot er nærmere beskrevet på side 3.9. Histogrammer kan dog bidrage til en bedre forståelse af fordelingsbegrebet, hvorfor emnet gennemgås her, samt i powerpoints på side 12.5 og Et histogram er egentlig blot en grafisk præsentation af en klasseinddeling. Følgende er et forsøg på at give en kort teoretisk beskrivelse, men begrebet forstås formentlig nemmest ved at se side 12.5, som indeholder et powerpoint, der gennemgår hvorledes man fremstiller 12 of /02/

13 histogrammer i Excel. Klasseinddeling Hvis man skal præsentere et stort datasæt, er det ofte ikke muligt eller fornuftigt at præsentere dette ved at opskrive samtlige data. I stedet kan man vælge en passende måde at opsummere dette på. Det kunne f.eks. være ved at angive middelværdi og spredning, men ulempen herved at man mister information om hvordan data egentlig fordeler sig. Hvis man har brug for at bevare denne information i lidt større detalje, kan man anvende en såkaldt klasseinddeling. Hvis man f.eks. har målt P-Glukose, stofk. hos 110 raske danskere kan denne se således ud: P-Glukose, stofk. (mmol/l) Antal personer ]3,0-3,5] 1 ]3,5-4,0] 5 ]4,0-4,5] 29 ]4,5-5,0] 36 ]5,0-5,5] 23 ]5,5-6,0] 11 ]6,0-6,5] 4 ]6,5-7,0] 1 Her er altså talt op at 29 af de 110 personer har en glukosekoncentration i intervallet 4,0-4,5 (hvor 4,5 er inkluderet men 4,0 ikke er). Intervallerne bør laves i henhold til nedenstående: Intervallerne skal være lige store. Der skal være et tilstrækkelig stort antal intervaller, til at man rent faktisk kan vurdere fordelingen herudfra. Et sted mellem 5 og 10 intervaller må således betragtes som et absolut minimum. Der skal være et tilstrækkeligt stort antal målinger i intervallerne. Antallet af målinger i det bedst repræsenterede interval bør næppe være meget under 20. Frekvens og hyppighed I forbindelse med (bl.a.) histogrammer ser man ofte begreberne (relativ) frekvens og/eller hyppighed. Desværre er der ikke fuldkommen enighed om betydningen af disse to begreber, og man bør derfor altid overveje hvad der menes i en given sammenhæng. Ordet hyppighed anvendes formentlig oftest i betydningen "antal målinger i et interval". I eksemplet ovenfor er hyppigheden af personer med en koncentration mellem 3,5 og 4 altså 5. Når ordet hyppighed anvendes i denne betydning kan man bruge ordet frekvens i betydningen "antal målinger i et interval delt med det totale antal målinger". Frekvensen af personer med en koncentration mellem 3,5 og 4 er således 5/110=0,045. Alternativt kan man også se at ordet frekvens anvendes med samme betydning som hyppighed ovenfor. Dvs. at frekvensen er 5. I så fald anvendes begrebet relativ frekvens om andelen 5/ of /02/

14 Histogram På grundlag af denne klasseinddeling kan man nu fremstille et histogram, som blot er en grafisk repræsentation heraf: Vha. dette histogram kan man nu foretage en visuel vurdering af fordelingen. I dette tilfælde ses en tendens til at fordelingen er lidt "højreskæv", dvs. der er formentlig ikke tale om en normalfordeling. Excel I Excel kan man fremstille histogrammer på flere måder. Dels manuelt som gennemgået på side 12.6, dels automatisk som gennemgået kort herunder. Fordelen ved den manuelle metode, er at histogrammet automatisk opdateres, hvis data ændres, men ellers er den automatiske metode nok nemmest. Først og fremmest skal man have aktiveret tilføjelsespakken "analysis toolpak", hvilket man kan få hjælp til på side Data opskrives nu i en kolonne, og i fanen "data" vælges "analysis toolpak" som befinder sig længst ude til højre. I den dialogboks der nu dukker op vælges histogram, og man får derved nedenstående billede: 14 of /02/

15 Dialogboksen "histogram" udfyldes som vist på billedet. "Inputområde" angiver det område hvor man har sine data. Hvis man selv ønsker at bestemme intervalinddelingen, skrives de øvre intervalgrænser i en kolonne, og disse angives så i "intervalområde". Hvis dette felt ikke udfyldes, bestemmer Excel nogle passende intervalgrænser. "Outputområde" angiver hvor Excel angiver resultatet af optællingen, og laver diagrammet (hvis man har sat kryds "diagramoutput"). Det diagram Excel laver, ser ud som vist nedenfor. Hvis formålet udelukkende er at foretage en hurtig vurderingen af fordelingen, er Excels diagram tilfredsstillende, men hvis det på nogen måde skal præsenteres, så skal man ændre design og layout væsentligt, så man får et diagram, som vist ovenfor (for P-Glukose). Hvordan dette gøres, er gennemgået på side of /02/

16 2.6 Tabeller Tabeller anvendes typisk til at angive måleresultater. Fordelen ved brug af tabeller er at de gengiver resultaterne kvantitativt, dvs. de tillader læseren at regne videre på tallene, eller at kontrollere beregninger mv. Til gengæld sikrer de ikke nødvendigvis samme overblik som en veldesignet grafisk repræsentation. Tabeller kan også være opsummerende. Hvis man f.eks. har undersøgt 100 personer for en specifik sygdom, vil man næppe lave en tabel hvor resultatet angives for hver enkelt person. I stedet vil man oftest lave en tabel hvor man angiver antallet af syge og antallet af raske. Det er svært at angive generelle regler for hvordan en god tabel ser ud, men ofte betaler det sig at bruge lidt tid på at tænke over hvordan man præsenterer sine tal, så de bliver så letforståelige som muligt. Ligesom for grafer gælder det selvfølgelig, at man ikke skal inkludere mere information end nødvendigt, men omvendt skal der også være information nok til at tabellen umiddelbart kan forstås af læseren. 2.7 Beregninger Den sidste mulighed for at skabe overblik over et større eller mindre datasæt er at beregne en eller flere parametre, som på fornuftig vis beskriver dette datasæt. Hvis en avis skal skrive en artikel om bioanalytikeres løn, så vil de nok referere til et gennemsnit af forskellige bioanalytikeres løn, frem for at opremse hver enkelt lønning. Det er ikke helt trivielt at bruge en parameter som f.eks. middelværdi til at opsummere et datasæt, men korrekt anvendt kan det være et stærkt værktøj. Nedenfor er en kort gennemgang af de mest anvendte parametre. Middelværdi/gennemsnit Middelværdien (eller mere korrekt: det aritmetiske gennemsnit) af et datasæt betegnes med x og beregnes efter formlen: Forklaring: x 1, x 2,..., x n betegner de enkelte målinger i datasættet, og n er det samlede antal målinger. Formlen angiver altså at man skal lægge alle målinger sammen og dividere med antallet af målinger. Spredning/varians Spredningen af et datasæt betegnes SD og beregnes efter formlen: 16 of /02/

17 Spredningen siger noget om hvor langt de enkelte målinger spreder sig fra middelværdien. Hvis man igen ser på bioanalytiker-lønninger så indikerer en stor værdi af SD altså at der er stor forskel på lønningerne, mens en lille værdi af SD indikerer at alle tjener nogenlunde det samme. Variansen er kvadratet på spredningen, altså Variationskoefficient varians = SD 2 Variationskoefficient (CV - "Coefficient of Variance") er defineret som CV = SD / x altså spredningen delt med middelværdien. Denne størrelse er interessant hvis man skal vurdere om en spredning er "stor" eller "lille". Betragt f.eks. en pipette hvor man har foretaget 10 afpippeteringer med samme volumen. Som man kan læse på side 4.3 er spredningen på disse tal et udtryk på pipettens usikkerhed. På grundlag af en sådan spredning er det altså oplagt at spørge om der er tale om en god eller dårlig pipette. Men hvis man kun ved at spredningen er f.eks. 10 µl er det selvfølgelig umuligt at besvare spørgsmålet. Kender man derimod også middelværdien kan det besvares. Hvis de 10 afpippeteringer havde en middelværdi på 1000 µl må der være tale om en særdeles god pipette (CV=0,01=1%) og hvis de 10 afpippeteringer havde en middelværdi på 20 µl må der være tale om en særdeles dårlig pipette (CV=0,5=50%). Median Nogen gange kan det være uheldigt at bruge gennemsnittet. I et lille datasæt kan enkelte ekstreme værdier forrykke gennemsnittet markant. Hvis man f.eks. kigger på lønnen hos 10 bioanalytikere, hvor de 9 tjener ,- om året, mens den sidste tjener ,- (han/hun har måske vundet i lotto) så er det f.eks. ikke ret interessant at vide at gennemsnittet er ,-. Lidt teknisk må middelværdien egentlig kun bruges når datasættet er normalfordelt, (dvs. fordeler sig nogenlunde symmetrisk og klokkeformet omkring middelværdien - se side 3.4). I andre tilfælde kan man bruge medianen. Denne findes ved at opstille tallene i stigende rækkefølge og så vælge det midterste tal. Medianen af datasættet (3,5,6,7,2) er således 5. Hvis man har et datasæt med et lige antal data, hvor der således ikke er en midterste værdi, vælger man gennemsnittet af de to tal i midten. Medianen af tallene (3,7,6,4) er således 5. I eksemplet med bioanalytikernes løn, vil medianen være ,- hvilket nok er noget mere interessant end middelværdien. Medianen er også det samme som 0,5-fraktilen (se side 3.3 og 3.8). Modus 17 of /02/

18 Et begreb man kan støde på i forskellige sammenhænge, men som sjældent er specielt relevant er modus. Dette er det tal i en stikprøve, som forekommer flest gange. Hvis flere forskellige tal forekommer lige mange gange, kan man anvende gennemsnittet (eller medianen) af de oftest forekomne tal Excel Lineær regression Denne forrige side sider beskriver har beskæftiget helt basal brug sig med, af Excel hvodan til f.eks. man beregning opsummerer af middelværdi målinger af en og enkelt spredning. parameter; På f.eks. side hæmoglobin 1.6 er der henvisninger hos raske danskere. til flere eksempler En anden på klassisk mere problemstilling eller mindre avanceret brug måling af af Excel. to sammenhængende Siden tager udgangspunkt parametre, i Excel som 2007, f.eks. men eksempel det basale 1 og 2 er på identisk side 2.3 i ældre og 2.4. udgaver af Excel (og Open Office). I disse tilfælde er det ikke nødvendigvis specielt interessant at kunne udtale sig om Når middelværdien man skal have af målingerne Excel til at på foretage den ene en eller beregning den anden i celle, parameter. starter Derimod man med er det ofte lighedstegn. interessant at Skrives kunne f.eks. udtale "=2+2" sig om (uden graden anførselstegn) af sammenhæng i en mellem celle, vil de Excel to parametre. skrive "4". Dvs. Har man hvis man brug kender for formel, den ene som parameter, man ikke kan umiddelbart man så forudsige kender, værdien kan man af få den hjælp anden? under Og fanen hvis "formler". svaret herpå Under "ja": punktet Kan "flere man så formler" opskrive er et der matematisk en oversigt udtryk over alle for de denne statistiske sammenhæng? funktioner som Excel kender. Allerførst er det vigtigt at gøre sig klart at man ikke, med rent matematiske udregninger, kan Beregning udtale sig om af middelværdi hvorvidt der og er spredning en given sammenhæng foretages som mellem vist på to nedenstående paramtre. Dvs. billede. hvis man ønsker at undersøge dette, så begynder man altid med et xy-plot som gennemgået på side 2.3. Hvis dette giver anledning til at tro på at der en lineær sammenhæng mellem de to parametre, så kan man gå videre med statistiske beregninger, som kan sige noget om hvor god denne sammenhæng er, og som kan give en matematisk beskrivelse af sammenhængen. Det klassiske eksempel fra bioanalysen på brug af lineær regression, er i forbindelse med fotometri og Lambert-Beers lov. Fotometri anvendes til bestemmelse af koncentrationen af farvede stoffer i en opløsning, idet Lambert-Beers lov siger at der er en lineær sammenhæng mellem den såkaldte "absorbans" og koncentrationen af det farvede stof. Når man skal anvende fotometri til at fastlægge koncentrationen af et stof i en ukendt prøve, fremstilles først en standardkurve, dvs. at man måler på en række prøver med kendt koncentration. Resultatet af dette plottes grafisk (i et xy-plot - se side 2.3), og hvis dette viser en lineær sammenhæng, anvendes lineær regression til at fastlægge den matematiske sammenhæng mellem absorbans og koncentration. Endelig kan denne matematiske sammenhæng så anvendes til at bestemme koncentrationen i den ukendte prøve, ved at man måler dens absorbans, og herefter bruger den fundne sammenhæng til at beregne koncentrationen I det følgende gennemgås hvordan man anvender Excel til at lave lineær regression. Teorien bag lineær regression gennemgås ikke. Data opskrives typisk i en kolonne, hvorefter middelværdien beregnes i en tilfældig celle ved at Eksempel skrive: "=middel(a1:a10)". a1 og a10 henviser til nummeret på den første og sidste celle med data. I forbindelse med fremstilling af en standardkurve, har man målt følgende sammenhæng Spredningen beregnes vha. formlen "=stdafv(a1:a10)". mellem koncentration og absorbans: Ønsker man f.eks. at beregne variationskoefficienten, kan det (i dette eksempel) gøres ved at skrive "=E4/E3" i en tilfældig Koncentration celle. (mmol/l) Absorbans 0,00 0,000 Der er mere inspiration til generel brug af Excel på side of /02/

19 1,00 0,216 2,00 0,438 3,00 0,680 4,00 0,861 Først plottes disse målinger i et xy-plot (se evt. side 12.7 for en gennemgang af hvorledes dette gøres i Excel): Dette plot er i overenstemmelse med forventningen om at der er en lineær sammenhæng mellem koncentration og absorbans. For at lave lineær regression højreklikkes nu på et af datapunkterne, og der vælges "tilføj tendenslinie". I Excel XP/2003 skal man under fanen "type" vælge "lineær" og under fanen "avanceret" sætte kryds ved "Vis ligning i diagram" og vis "R-kvadreret værdi i diagram". I Excel 2007 findes disse felter under "indstillinger for tendenslinie". Herefter har man følgende diagram: Fortolkning Korrelationskoefficienten: 19 of /02/

20 Værdien R 2 er den såkaldte korrelationskoefficient, og angiver graden af sammenhæng mellem de to parametre. Hvis R 2 = 1 er der en perfekt lineær sammenhæng, og hvis R 2 = 0 er der overhovedet ingen sammenhæng. Regressionsligningen: Ligningen som i eksemplet er "y = 0,218x+0,001" angiver den matematiske forskrift, som bedst muligt beskriver sammenhængen mellem de to parametre. Hvis man f.eks. har en prøve med absorbansen 0,3 kan man nu bestemme koncentration vha. ligningen, dvs: c = (0,3-0,001)/0,218 = 1,37 mmol/l 2.10 Passing-Bablock og Deming regression Selv om de tekniske aspekter af lineær regression på side 2.9 blev overladt til Excel, er det forholdvist enkelt at forstå det grundlæggende princip bag almindelig lineær regression. De røde streger på figur 1, viser de såkaldte residualer, dvs. forskellen mellem de observerede y-værdier, og de estimerede værdier. Regressionslinjen beregnes som den linie der minimerer størrelsen af disse residualer (eller mere præcist: summen af kvadratet på residualerne). Denne metode har principielt nogle forudsætninger, hvoraf nedenstående nok er de vigtigste: Den uafhængige variabel (x) skal være bestemt uden usikkerhed Den afhængige variabel (y) skal være normalfordelt - dvs. at hvis man måler flere gange for samme værdi af x, skal disse målinger være normalfordelte. Især den første forudsætning er sjældent opfyldt i praksis. Den anden forudsætning medfører desuden at enkelte "outliers" (dvs. punkter som er målt meget forkert) kan påvirke resultatet kraftigt. Dette er stort set samme problemstilling, som når det skal afgøres, om man skal bruge middelværdien eller medianen til at opsummere en stikprøve. 20 of /02/

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Analyse af måledata II

Analyse af måledata II Analyse af måledata II Usikkerhedsberegning og grafisk repræsentation af måleusikkerhed Af Michael Brix Pedersen, Birkerød Gymnasium Forfatteren gennemgår grundlæggende begreber om måleusikkerhed på fysiske

Læs mere

Studieplan Biostatistik Semester 2

Studieplan Biostatistik Semester 2 OMRÅDET FOR SUNDHEDSUDDANNELSER Studieplan Biostatistik Semester 2 Bioanalytikeruddannelsen i Odense Forår 2017 Semester 2 Indhold 1. Fagets fokus og emner... 3 2. Lektionsplan... 4 3. Litteraturliste...

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning Graftegning på regneark. Ved hjælp af Excel regneark kan man nemt tegne grafer. Man åbner for regnearket ligger under Microsoft Office. Så indtaster man tallene fra tabellen i regnearkets celler i en vandret

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje. Maple Dette kapitel giver en kort introduktion til hvordan Maple 12 kan benyttes til at løse mange af de opgaver, som man bliver mødt med i matematiktimerne på HHX. Skærmbilledet Vi starter med at se lidt

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Mettler analysevægt 2,34 3,05 5,20 6,20 8,15 10,32 11,01 11,72 12,27 12,88 14,83 15,23 17,64

Mettler analysevægt 2,34 3,05 5,20 6,20 8,15 10,32 11,01 11,72 12,27 12,88 14,83 15,23 17,64 Opgave 1 (s1 opgave 38) To forskellige laboratorievægte ønskes sammenlignet. Man afvejer derfor en række prøver på begge vægte med følgende resultater (alle i gram): Sartorius analysevægt 2,36 3,05 5,19

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Studieplan Biostatistik Semester 1

Studieplan Biostatistik Semester 1 OMRÅDET FOR SUNDHEDSUDDANNELSER Studieplan Biostatistik Semester 1 Bioanalytikeruddannelsen i Odense Efterår 2017 Semester 1 Indhold 1. Fagets fokus og emner... 3 2. Lektionsplan... 4 3. Litteraturliste...

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17 Dig og din puls Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004 Dig og din puls Side 1 af 17

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Excel tutorial om indekstal og samfundsfag 2008

Excel tutorial om indekstal og samfundsfag 2008 Excel tutorial om indekstal og samfundsfag 2008 I denne note skal vi behandle data fra CD-rommen Samfundsstatistik 2008, som indeholder en mængde data, som er relevant i samfundsfag. Vi skal specielt analysere

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau)

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau) Matematik i WordMat En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau) Indholdsfortegnelse 1. Introduktion... 3 2. Beregning... 4 3. Beregning med brøker...

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

1. Installere Logger Pro

1. Installere Logger Pro Programmet Logger Pro er et computerprogram, der kan bruges til at opsamle og behandle data i de naturvidenskabelige fag, herunder fysik. 1. Installere Logger Pro Første gang du installerer Logger Pro

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Graph brugermanual til matematik C

Graph brugermanual til matematik C Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Projektopgave Observationer af stjerneskælv

Projektopgave Observationer af stjerneskælv Projektopgave Observationer af stjerneskælv Af: Mathias Brønd Christensen (20073504), Kristian Jerslev (20072494), Kristian Mads Egeris Nielsen (20072868) Indhold Formål...3 Teori...3 Hvorfor opstår der

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Om at finde bedste rette linie med Excel

Om at finde bedste rette linie med Excel Om at finde bedste rette linie med Excel Det er en vigtig og interessant opgave at beskrive fænomener i naturen eller i samfundet matematisk. Dels for at få en forståelse af sammenhængende indenfor det

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

INTRODUKTION TIL DIAGRAMFUNKTIONER I EXCEL

INTRODUKTION TIL DIAGRAMFUNKTIONER I EXCEL INTRODUKTION TIL DIAGRAMFUNKTIONER I EXCEL I denne og yderligere at par artikler vil jeg se nærmere på diagramfunktionerne i Excel, men der er desværre ikke plads at gennemgå disse i alle detaljer, dertil

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK Excel regneark Et regneark er et computerprogram, der bl.a. kan regne, tegne grafer og lave diagrammer. Regnearket kan bruges i mange forskellige sammenhænge, når I arbejder med matematik. Det kan gøre

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Microsoft Excel - en kort introduktion. Grundlag

Microsoft Excel - en kort introduktion. Grundlag Microsoft Excel - en kort introduktion Grundlag Udover menuer og knapper - i princippet som du kender det fra Words eller andre tekstbehandlingsprogrammer - er der to grundlæggende vigtige størrelser i

Læs mere

How to do in rows and columns 8

How to do in rows and columns 8 INTRODUKTION TIL REGNEARK Denne artikel handler generelt om, hvad regneark egentlig er, og hvordan det bruges på et principielt plan. Indholdet bør derfor kunne anvendes uden hensyn til, hvilken version

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 Epidemiologi og Biostatistik Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 1 Statestik Det hedder det ikke! Statistik 2 Streptomycin til behandling af lunge-tuberkulose?

Læs mere

Emneopgave: Lineær- og kvadratisk programmering:

Emneopgave: Lineær- og kvadratisk programmering: Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere