Statistik viden eller tilfældighed



Relaterede dokumenter
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Løsninger til kapitel 5

Kvantitative Metoder 1 - Forår Dagens program

Note til styrkefunktionen

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kvantitative Metoder 1 - Forår 2007

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Kvantitative Metoder 1 - Efterår Dagens program

Kommentarer til øvelser i basalkursus, 2. uge

Note om Monte Carlo metoden

Personlig stemmeafgivning

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

for gymnasiet og hf 2016 Karsten Juul

J E T T E V E S T E R G A A R D

Løsninger til kapitel 1

Produkt og marked - matematiske og statistiske metoder

for matematik pä B-niveau i hf

Om hypoteseprøvning (1)

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Nanostatistik: Opgavebesvarelser

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Elementær sandsynlighedsregning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Temaopgave i statistik for

Simpsons Paradoks. Et emnearbejde om årsag og sammenhæng i kvantitative undersøgelser. Inge Henningsen

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Løsning til eksaminen d. 14. december 2009

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 4 Sandsynlighed og statistiske modeller

Kvantitative Metoder 1 - Forår 2007

Definition. Definitioner

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Kønsproportion og familiemønstre.

I. Deskriptiv analyse af kroppens proportioner

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistiske modeller

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

for matematik pä B-niveau i hf

Kapitel 7 Forskelle mellem centraltendenser

for gymnasiet og hf 2017 Karsten Juul

Kvantitative Metoder 1 - Forår Dagens program

Produkt og marked - matematiske og statistiske metoder

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Normalfordelingen og Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Stastistik og Databehandling på en TI-83

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Test nr. 4 af centrale elementer 02402

Kvantitative Metoder 1 - Efterår Dagens program

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Teoretisk Statistik, 13 april, 2005

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hypotesetests, fejltyper og p-værdier

Schweynoch, Se eventuelt

Basal Statistik Kategoriske Data

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Analyse af måledata II

Oversigt over nyttige fordelinger

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Løsning til eksamen d.27 Maj 2010

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Hvad skal vi lave i dag?

Nanostatistik: Opgaver

c) For, er, hvorefter. Forklar.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Dig og din puls Lærervejleding

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Kapitel 4 Sandsynlighed og statistiske modeller

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Transkript:

MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår 315 tilfældigt udvalgte personer og observationerne er grupperet i intervaller af længde 3 mm. 20 15 10 5 0 40 60 80 100 120 140 160 180 Fragmentlængde Vi går ud fra at fordelingen er repræsentativ for befolkningen. Antag nu at et spor har en fragmentlængde på 58 mm. Hvor stor del af befolkningen vil have en fragmentlængde, der er overensstemmende med sporet, hvis der benyttes en acceptgrænse på 3 mm? Antag at befolkningsvariationen er som ovenfor for alle 8 DNA-områder, der udgør DNA-profilen, og at de otte fragmentlængder er uafhængige af hinanden. Hvor stor en del af befolkningen kan have samme DNA-profil, som et givet spor?

MATEMATIK i perspektiv Side 2 af 9 2 Konstant måleusikkerhed Punkt-plottet i teksten tyder på at måleusikkerheden ikke er afhængig af fragmentlængden. Man kan undersøge dette nærmere ved at beregne spredningen af L1 L2, hvor L 1 og L 2 er to målinger af samme fragmentlængde, for par ( L1, L 2) grupperet efter gennemsnittet af L1 og L 2. I den følgende tabel er 1000 par delt op i to grupper; midtpunktet af intervallet fra 40 til 180 er brugt til at dele op efter. Beregn spredningen af L1 L2 i hver af de to grupper. Interval Hyppighed af L L når 1 2 L1 L2 < 110 2 Hyppighed af L L når 1 2 L1 L2 > 110 2 ] 2,5; 2,0] 3 1 ] 2,0; 1,5] 9 6 ] 1,5; 1,0] 49 11 ] 1,0; 0,5] 139 33 ] 0,5; 0,0] 191 42 ]0, 0; 0,5] 196 50 ]0,5; 1,0] 131 26 ]1, 0; 1, 5] 56 23 ]1, 5; 2,0] 21 7 ]2,0; 2,5] 2 3 ]2,5; 3,0] 1 0

MATEMATIK i perspektiv Side 3 af 9 Sandsynlighedsberegninger i Plejebo-sagen 3 Binomialsandsynligheder De resultater, der er illustreret på figur 1 i teksten, fik man ved at lave simulationseksperimenter, men ved brug af binomialsandsynligheder kan man få det samme frem. Antallet af dødsfald på en afdeling i løbet af to år kaldes X. Når man går ud fra den model, der lå bag simulationseksperimenterne, gælder der, at X er binomialfordelt med antalsparameter n = 730 og sandsynlighedsparameter p = 16 / 730. a) Find PX ( 40) og PX ( 44) ved brug af for eksempel TI-83. Hvis man ser på 2000 afdelinger, vil antallet Y af afdelinger, der har 44 dødsfald eller mere, være binomialfordelt med n = 2000 og p= P( X 44). b) Find sandsynligheden for at der er mindst én afdeling med mere end 43 dødsfald. Find sandsynligheden for, at der er mindst én afdeling med mere end 39 dødsfald, og sammenlign med resultatet af simulationseksperimenterne i teksten. c) Find sandsynligheden for, at der i løbet af 2000 år vil være mindst en afdeling ud af 2000 med flere end 43 dødsfald, når de 2000 år tænkes delt op i 1000 par på hvert 2 år.

MATEMATIK i perspektiv Side 4 af 9 4 Poissonsandsynligheder Modellen kan ændres så der godt kan ske flere dødsfald pr. dag. I stedet for at opdele de to år i 730 dage kan man opdele i n = 24 730 timer eller n = 60 24 730 minutter. Den tilsvarende sandsynlighed p, for at der sker et dødsfald i løbet af den pågældende tidsenhed, skal så vælges således at n p= 16. Jo højere n jo mere realistisk er modellen, men der er en grænse for hvor højt n en lommeregner som for eksempel TI-83 kan klare, når man beregner binomialsandsynligheder. Man kan imidlertid vise, at når man lader n gå mod uendelig og samtidig sørger for at n p= λ, så gælder der, at binomialsandsynligheden n px (1 p) x n x går mod e λ λ x (1) x! En sandsynlighedsfordeling af sidstnævnte type, hvor x gennemløber tallene 0,1,2, kaldes en poissonfordeling. n x a) Benyt at (1 + ) går mod e x, når n går mod uendelig, til at vise (1); n binomialsandsynligheden kan for eksempel først omskrives til np ( np p) ( np px + p) n p 1 (1 ) n ( ) x x! n 1 p b) Kumulerede poissonsandsynligheder kan udregnes på TI-83. Antag at Z er poissonfordelt med λ= 16. Find PZ ( 20) og PZ ( 44), og sammenlign med de tilsvarende sandsynligheder i en binomialfordeling med n = 730 og p = 16 / 730.

MATEMATIK i perspektiv Side 5 af 9 5 Gevinster i Lotto Vi vil se på, hvordan sandsynligheden for at vinde i lotto afhænger af antallet af rækker, der spilles. En lotto-række består af 7 af tallene fra 1 til 36, og der er gevinst, hvis mindst 4 af disse er blandt de 7 vindertal, der senere udtrækkes blandt tallene fra 1 til 36. Antallet af rigtige på en given lottorække betegnes X. a) Beregn PX= ( 4), PX= ( 5), PX= ( 6) og PX= ( 7). Hvis man spiller flere rækker, vil hver enkelt række isoleret set have samme gevinstsandsynlighed, men samtidig ved man, at jo flere rækker man spiller jo større gevinstsandsynlighed har man. b) Beregn sandsynligheden for gevinst, når man spiller henholdsvis 1, 10 og 100 rækker.

MATEMATIK i perspektiv Side 6 af 9 Fødes der færre og færre drenge i forhold til piger? 6 Test af hypoteser I 1996 offentliggjorde Henrik Møller en artikel i The Lancet, hvor han gjorde opmærksom på, at der er tegn på, at der efter 1951 fødes færre og færre drenge i forhold til piger. Analysen byggede på tallene i nedenstående tabeller, som er offentligt tilgængelige: år Antal drenge Procent drenge år Antal drenge Procent drenge 1951 39608 51,74 1952 39632 51,51 1953 40499 51,75 1954 39309 51,48 1955 39725 51,69 1956 39538 51,53 1957 38839 51,60 1958 38456 51,49 1959 37986 51,38 1960 38959 51,21 1961 39175 51,25 1962 39849 51,21 1963 42286 51,31 1964 43006 51,59 1965 44151 51,46 1966 45412 51,41 1967 41791 51,33 1968 38491 51,64 1969 36867 51,71 1970 36382 51,39 1971 38955 51,69 1972 38692 51,24 1974 36556 51,25 1975 36811 51,08 1976 33734 51,69 1977 31823 51,43 1978 31875 51,38 1979 30555 51,38 1980 29352 51,23 1981 27117 51,08 1982 27063 51,39 1983 26001 51,16 1984 26572 51,30 1985 27465 51,10 1986 28434 51,41 1987 29079 51,72 1988 30324 51,53 1989 31475 51,30 1990 32620 51,42 1991 33005 51,28 1992 34812 51,40 1993 34609 51,37 1994 35637 51,14 I det følgende betegner x antal år efter 1951, og y procent drengefødsler det pågældende år. Et plot af punkterne ( x, y ) viser måske nok en faldende tendens, men ikke mere end at man nok synes, at det kunne skyldes tilfældige udsving.

MATEMATIK i perspektiv Side 7 af 9 51,80 51,60 51,40 51,20 51,00 0 10 20 30 40 50 Regressionslinien gennem punkterne har hældningen 0,0054, og vi skal nu se, hvordan man kan vurdere om denne afvigelse fra 0 kan skyldes tilfældigheder. Hvis der ikke sker nogen ændring i sandsynligheden for at få en dreng i perioden fra 1951 til 1995, kan de 45 observationer stort set (NB antal fødsler varierer noget) opfattes som resultater af gentagelser af samme eksperiment. Et eksperiment, der giver resultater med en middelværdi på ca. 51,4 og en spredning på ca. 0,2. Den vandrette linie, der går gennem middelværdierne for hvert år, kaldes den sande regressionslinie, og den vil altså have hældningen 0. Vi vil finde ud af, hvordan hældningerne fordeler sig for regressionslinier til et stort antal simulerede observationssæt, ved hjælp af et program på TI-83, der er vist nedenfor: : 0 S : 1 K : seq(x,x,1,45) L 1 : Input N : While K N : randnorm(51.4,0.2,45) L 2 : LinReg(a+bx) L 1,L 2,Y 1 : Y(1) 1 Y(0) 1 H : (abs( H ) 0.0054) +S S : K+1 K : End : Disp P =, S/N I hvert af årene 1 til 45 (svarende til 1951 til 1995) vælger lommeregneren tilfældigt et tal fra en normalfordeling med middel 51,4 og spredning 0,2. Disse tal lægges i L 2 og årene lægges i L 1. Antallet af observationssæt kaldes N, og H er hældningen af en simuleret regressionslinie.

MATEMATIK i perspektiv Side 8 af 9 Programmet giver en P-værdi, der siger, hvor ofte den simulerede hældning har været under 0,0054 eller over 0,0054. Når man skal vurdere P-værdien bruger man normalt følgende regel: Hvis P er under 0,05 forkaster man den hypotese man vil teste; i dette tilfælde hypotesen: der sker ikke nogen ændring i andelen af drengefødsler. a) Kør programmet med for eksempel N lig med 100 (det tager ca. 10 minutter), og lav en passende konklusion. b) Man kan godt lave andre, mere enkle tests: hvis yx betegner andelen af drengefødsler x år efter 1950, kan man se på forskellene dx = yx+ 23 yx.ved optælling ses, at 7 ud af 22 forskelle er negative. Antallet af negative differenser kaldes D. Hvis det er rigtigt, at der ikke sker nogen ændring i sandsynligheden for at få en dreng, skulle man forvente lige mange negative og positive differenser. Beregn PD ( 7) under forudsætning af, at sandsynligheden for en negativ differens er 0,5. Hvad ville man konkludere på baggrund af dette test med hensyn til, om der sker ændring af sandsynligheden for at føde en dreng. c) I ovenstående test udnytter man ikke den information, der ligger i differensernes størrelse, man ser kun på fortegnet. Lav et plot af differenserne i for eksempel Excel. Viser dette plot tegn på, at der sker ændring af sandsynligheden for at føde en dreng?

MATEMATIK i perspektiv Side 9 af 9 7 Misvisende sammenligninger a) Lav selv eksempler som de fiktive avisnotitser, hvor man får falske sammenhænge fordi man ikke deler op efter betydningsfulde variable. b) Find autentiske eksempler i aviser eller tidsskrifter c) Diskuter følgende tabel, der viser at man kan vende sammenhænge om. Her virker behandling 2 bedst i begge patientgrupper, mens behandling 1 ser ud til at virke bedst, hvis ikke man tager hensyn til, hvor raske patienterne er. Behandling 1 Behandling 2 Patient Overlevelse Pct. der Patient Overlever Pct. der tilstand ja nej overlever tilstand ja nej overlever Værre 4 6 40% Værre 50 50 50% Bedre 60 40 60% Bedre 8 2 80% Alle 64 46 58% Alle 58 52 53% Konstruer selv tilsvarende eksempler. d) I det følgende eksempel har man samme overlevelse for de to behandlinger i begge patientgrupper, og samme overlevelse i den samlede gruppe. Prøv at beskrive, hvorfor det går godt at sammenligne i den samlede tabel. Prøv at formulere en generel betingelse for, at man må have lov til at slå grupper sammen. Behandling 1 Behandling 2 Patient Overlevelse Pct der Patient Overlever Pct med tilstand ja nej overlever tilstand ja nej overlever Dårlig 20 30 40% Dårlig 10 15 40% God 80 20 80% God 40 10 80% Alle 100 50 67% Alle 50 25 67% e) Spørgsmålet om sammenligne grupper, der har fået forskellige behandlinger spiller fx en meget stor rolle i den kliniske afprøvning af lægemidler. Skal man sammenligne to lægemidler, er det vigtigt, at sikre så godt man nu kan, at det ene ikke bliver givet til gruppe relativt raske patienter, mens det andet bliver givet til nogen der i udgangspunktet er sygere. Dette prøver man at forhindre ved at udføre det, der hedder randomiserede forsøg, hvor man for hver patient trækker lod om behandlingen. Herved har man ingen garanti for at få sammenlignelige grupper, men man forhindrer i hvert fald, at et bestemt middel på forhånd bevidst favoriseres. Diskuter, en sådan fremgangsmåde i lyset af resultaterne fra opgave 4.