Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1
|
|
|
- Kristian Kjærgaard
- 10 år siden
- Visninger:
Transkript
1 Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1
2 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering af troværdighed af indsamlede data.!af epidemiologer!af klinikere (fx jordemødre)!og af mange andre.. Ikke bare et redskab for sundhedsvidenskab, men også for andre videnskaber, der gør brug af kvantitativ metode Mikrokursus i biostatistik 2
3 Hvorfor er der brug for statistik? Data/observationer er underlagt tilfældig variation. Behov for at kvantificere*, hvor meget skyldes tilfældig og hvor meget skyldes systematisk (=ikke tilfældig) variation. Behov for at resumere mange enkelte observationer i nogle få tal. Det vil sige beskrive de centrale tendenser. *beskrive med tal Mikrokursus i biostatistik 3
4 Forskellige typer statistik Deskriptiv statistik, hvor vi beskriver vores datasæt Udregning af middelværdi (=gennemsnit) i datasættet Analytisk statistik, hvor vi prøver at kvantificere den tilfældig variation, som vores datasæt er underlagt. - Vi analyserer variationen i datasættet. Hvor sikker kan du være på, at den middelværdi, du har målt, repræsenterer den virkelige middelværdi Mikrokursus i biostatistik 4
5 Forskellig brug af statistik Samfundsvidenskab:! Bruger oftest kun deskriptiv statistik! Den fastsatte værdi står alene Opinionsundersøgelser, spørgeskemaundersøgelser 28% ønsker mulighed for frit valg af forløsningsmetode! Naturvidenskab:! Man går som hovedregel videre:! Den fastsatte værdi bruges til at komme med et gæt på den tilsvarende, men ukendte, værdi i populationen. Den gennemsnitlige fødselsvægt for maj måned i Nordjyllands Amt brugt som gæt på den gennemsnitlige fødselsvægt i Danmark.! Når vores fundne værdi anvendes som gæt, kaldes den et estimat.! - og den ukendte, sande værdi, vi ønsker at sige noget om, kaldes en parameter Husk: Kun Vor Herre kender den eksakte værdi på en parameter Mikrokursus i biostatistik 5
6 Deskriptiv statistik Hyppigt anvendte deskriptive mål:! Middelværdi, fx fødselsvægt! Forskel i middelværdi, fx fødselsvægt rygere/ikke rygere! Prævalens: Hvor mange har en givet sygdom / karakeristikum på et givet tidspunkt? Hyppigheden af gravide rygere i 1. trimester.! Incidens: Hvor mange får en givet sygdom / karakteristikum indenfor en fastsat periode? Nye tilfælde af rubella i Nordjylland pr år! Relativ risiko eller odds ratio: Sammenligning af to risici (fx 2 odds eller 2 incidenser). Hvor meget større er din risiko for at få en episiotomi, hvis du bor på Sjælland i forhold til, hvis du bor i Jylland? Mikrokursus i biostatistik 6
7 Deskriptiv statistik Ved beregning af middelværdi vil en beskrivelse af de enkelte værdiers afvigelse fra middelværdien være relevant: Gennemsnitlig fødselsvægt hos 2031 primiparae i 40. uge er 3560 g. -Men hvor meget varierer de enkelte fødselsvægte omkring denne middelværdi? Søjlediagram over de 2031 fødsler: Hver søjles højde angiver antallet af fødsler i et vist interval Ex: Søjlen mærket 4600 g = 20 fødsler mellem 4500 og 4700 g Værdierne spreder fra 2100 til 4900g Hvordan kan vi udtrykke denne spredning? Dette kan gøres ved standard deviation = SD barnets vægt Mikrokursus i biostatistik 7
8 Hvad er Standard Deviation (SD) SD udregnes ved en formel, som I ikke skal bekymre jer om. Men forestil jer alligevel:! Observationerne varierer fra middelværdien 3560g i forskellig grad: fx 3210g afviger med -350g, 2780g med 780g, 4410g med 850g osv.! Disse afvigelser (= deviations) gøres op for samtlige observationer.! Herefter kvadreres de (ex 350 2, 780 2, osv), så de alle bliver positive! Så lægges de sammen (ex osv).! Til slut divideres den samlede sum med antallet af observationer.! Nu har man variansen.! derefter Standard deviation = kvadratroden af variansen.! Standard deviation = SD Mikrokursus i biostatistik 8
9 Normalfordelte data Hvis vi ser på vores stikprøve af fødselsvægte, er fordelingen flot klokkeformet og symmetrisk. En sådan fordeling af data kaldes en normalfordeling Den følger en kurve, som kan beskrives ved en formel, hvori middelværdi og spredning indgår. Formlen er skrækkeligt indviklet Men vhja. formlen kan man beskrive, hvordan data er fordelt barnets vægt Mikrokursus i biostatistik 9
10 Fordeling af data i en normalfordeling Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 68.3% = ca. 2/3 Middelværdien +/- 1 SD omfatter 2/3 af samtlige observationer. M M 1 SD M + 1 SD Mikrokursus i biostatistik 10
11 Hvor mange observationer ligger indenfor middelværdi +/- 2 SD? Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 95,45% = ca. 95% Middelværdien +/- 2 SD Er meget tæt på at omfatte 95% af samtlige observationer. 1 SD 1 SD 1 SD 1 SD M 2 SD M M 2 SD Mikrokursus i biostatistik 11
12 Hvordan fanger vi lige præcis 95% af observationerne? Middelværdi = M (gennemsnit) Standarddeviation = SD (spredning) 95%!! Middelværdien +/- 1,96 SD omfatter 95% af samtlige observationer. 2.50% 2.50% M M 1,96 SD M 1,96 SD Mikrokursus i biostatistik 12
13 SD kan også udregnes for andre fordelinger, fx en rektangulær fordeling, men giver så ikke samme mening som for en normalfordeling! Mikrokursus i biostatistik 13
14 Fra deskriptiv til analytisk statistik Hidtil har vi beskrevet vores stikprøve med middelværdi og standarddeviation. Nu vil vi bruge informationen fra stikprøven til at sige noget om hele populationen (fx alle fødsler i DK).! Det vil sige, at stikprøvens middelværdi og standarddeviation bliver til estimater på populationens sande middelværdi og standarddeviation. Population Stikprøve Stikprøve Når vi går fra stikprøve til hele populationen, går vi også væk fra at kunne udregne noget med en absolut sikkerhed til kun at kunne udregne noget med en vis (stor eller lille) sikkerhed Mikrokursus i biostatistik 14
15 Hvorfor analytisk statistik? Naturvidenskabelig seriøsitet er synonymt med inddragelse af statistisk usikkerhed ved vurdering af resultatet. Ved publicering af en fundet forskel vil der blive afkrævet oplysninger om:! Hvor stor kan man regne med, at den fundne forskel er?! Hvor sikker kan man være på, at den fundne forskel er sand? Mikrokursus i biostatistik 15
16 Forskellige typer analytisk statistik Mål for usikkerhed på estimatet! Estimate betyder egentlig noget i retning af bedste gæt.! Ved hjælp af statistik prøver man at kvantificere, hvor sikkert dette bedste gæt er i forhold til at sige noget om den tilsvarende parameter, dvs. den sande værdi (som ingen reelt kender). Konfidensintervaller: gennemsnitlig fødselsvægt 3570g (95% CI: 3310g 3830g). Hypotesetestning! Man prøver at vurdere om en funden forskel mellem to grupper er tilfældig eller sand. P-værdi: Fordoblet risiko for makrosomi ved diabetes (p = 0,02). Lad os starte med konfidensintervallerne Mikrokursus i biostatistik 16
17 Vi tager en stikprøve igen! Stikprøve på 100 fødsler Vi fandt et gennemsnit på 3490g. Vi vil gerne udtale os om det sande gennemsnit i den population, vi har taget stikprøven fra. Derfor bliver vores gennemsnit i den enkelte stikprøve nu til et estimat barnets vægt Fordeling af gennemsnit fra uendelig mange stikprøver på 100 fødsler Gennemsnit er her 3490 g 5400 Vi vil gerne sige noget om usikkerheden på dette estimat. Dette gøres ved at forestille sig, hvor meget vores estimat på gennemsnittet vil variere, hvis vi udtager utallige tilsvarende stikprøver på 100 fødsler og hver gang udregner et nyt gennemsnit. Forestil jer fx værdier som 3420g, 3510g eller 3640g. De ligger alle tæt på hinanden barnets vægt I praksis foretager vi ikke repetitiv sampling. Med matematiske beviser er man nået frem til at håndtere det ved skrivebordet = SAMPLING THEORY Mikrokursus i biostatistik 17
18 Lad os se nærmere på fordelingen af alle vores stikprøvers middelværdi! Den vigtigste erkendelse i SAMPLING THEORY er, at denne fordeling er normalfordelt, hvis stikprøverne blot er rimeligt store (80-100) dvs. også selv om fordelingen i populationen IKKE er normalfordelt. Figuren illustrerer, hvordan alle disse stikprøver på 100 fødsler med hvert sit gennemsnit har bidraget til fordelingen Man skal forestille sig, at hver stikprøves gennemsnit har en afvigelse (samplingsfejl) fra det sande, men ukendte gennemsnit. Gennemsnitlig fødselsvægt i et sample på 100 fødsler Mikrokursus i biostatistik 18
19 STANDARD ERROR er et mål for samplingsfejl! Fra tidligere ved vi, at en normalfordeling beskrives ved en standard deviation - således også for den normalfordeling, som estimaterne (vore bedste gæt) udgør ved uendelig mange samplinger. Standard deviationen på estimaterne ved uendelige mange samplinger = Den sande STANDARD ERROR (SE) Mikrokursus i biostatistik 19
20 Tilbage til estimatet på middelværdien på fødselsvægten! Estimaterne danner en normalfordeling omkring den sande, ukendte middelværdi (SM). Der hører til den sande middelværdi en sand Standard Error (sse), som I kan se på x-aksen. Hver kugle repræsenterer 1% af estimaterne, så der er 100 kugler i alt. 95% af estimaterne/kuglerne vil ligge indenfor sand middelværdi +/- 1,96 sse 2,5% 2,5% SM 1,96 sse 1 sse 1 sse 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 20
21 Estimaterne danner en normalfordeling omkring den sande, ukendte middelværdi (SM). Der hører til den sande middelværdi en sand Standard Error (sse), som I kan se på x-aksen. Hver kugle repræsenterer 1% af estimaterne, så der er 100 kugler i alt. 95% af estimaterne/kuglerne vil ligge indenfor sand middelværdi +/- 1,96 sse 2,5% For hver kugle/estimat kan du udregne en estimeret Standard error (SE) ved denne formel: SE = 2,5% SD n Hvad skal vi bruge den til???? SM 1,96 sse 1 sse 1 sse 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 21
22 Vi skal bruge Standard Error (SE) til at udregne et 95% konfidensinterval! Et 95% konfidensinterval udregnes ved formlen: Estimatet på middelværdi +/- 1,96 SE Gennemsnit på fødselsvægt i et sample på 100 fødsler = 3510g SD = 450g SD SE = n SE = 45g 3510g +/- 1,96 x 45 = /- 87g = 3423g til 3597g = 95% konfidensinterval Men hvad fortæller et 95% konfidensinterval os? Mikrokursus i biostatistik 22
23 95% KONFIDENSINTERVAL: Estimatet på middelværdi +/- 1,96 SE svarer til det interval, hvor det i 95% af tilfældene vil gælde, at den sande værdi er indeholdt. Der er altså en risiko på 5% for, at vi sidder med et interval, der har ramt ved siden af den sande middelværdi. 95% af estimaterne ville ligge her Det kan illustreres ved, at vi forestiller os, at vi udregner et konfidensinterval for alle vores kugler. Hvordan det? 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 23
24 Lad os kigge på 3 kugler/estimater 95% af estimaterne ville ligge her Der er vist tre eksempler på estimater med 95% konfidensintervaller: 1 og 2 indeholder den sande, ukendte værdi i deres interval. 3 indeholder ikke den sande værdi. 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 24
25 Lad os kigge på 3 kugler/estimater Der er vist tre eksempler på estimater med 95% konfidensintervaller: 1 og 2 indeholder den sande, ukendte værdi i deres interval. 3 indeholder ikke den sande værdi. Det kan indses, at de kugler /estimater, der ligger indenfor den sande middelværdi +/- 1,96sSE også vil have konfidensintervaller, der indeholder den sande, men ukendte middelværdi. Det er i alt 95% af kuglerne/estimaterne Ved 5% af kuglerne rammer konfidensintervallerne ved siden af den sande middelværdi. 2,5% ,5% SM 1,96 sse Sand middelværdi (SM) Kender vi ikke! SM + 1,96 sse Mikrokursus i biostatistik 25
26 Anden illustration, hvis den forrige var for langhåret! Dette konfidensinterval indeholder ikke den sande værdi Dette konfidensinterval indeholder ikke den sande værdi 3700 g 3600 g 3800 g Den sande gennemsnitlige fødselsvægt er her 3700 gram, svarende til den lodrette streg. Vi sampler 40 gange og udregner hver gang et nyt 95% konfidensinterval. Så vil 1 ud af 20 konfidensintervaller ikke indeholde den sande værdi!! Husk dette, når I læser en artikel Mikrokursus i biostatistik 26
27 Hvad sker der, hvis vi øger stikprøvestørrelsen? Fordeling over middelværdier på fødselsvægt ved stikprøvestørrelse på 400 Fordeling over middelværdier på fødselsvægt ved stikprøvestørrelse på 100 Fra 100 til 400 SD = SE n Når man øger stikprøvestørrelsen, vil middelværdierne på estimaterne sprede mindre, dvs. SE bliver mindre. - Man får en mindre samplingsfejl Mikrokursus i biostatistik 27
28 OPSUMMERING, KONFIDENSINTERVALLER Vi er nødt til at regne med, at vores resultat er påvirket af tilfældigheder. Denne usikkerhed prøver vi at udtrykke ved at opgive resultatet som et interval. Et bredt konfidensinterval indikerer lav præcision, medens et smalt konfidensinterval indikerer høj præcision. Et 95% konfidensinterval (sikkerhedsinterval) udtrykker det interval, hvor om det gælder:! At gentages dataindsamlingen 100 gange, hvor der hver gang beregnes et nyt konfidensinterval, vil dette interval i 95 ud af de 100 gange indeholde den sande, men ukendte, værdi.! Det vil sige man kan regne med, at 1 ud af 20 konfidensintervaller er misvisende, det vil sige indeholder ikke den sande, men ukendte, værdi Mikrokursus i biostatistik 28
29 Hvad er sandsynligheden for,at man i et 95% konfidensinterval har ramt den sande værdi? Forestil jer en cowboy med bind for øjnene. Han har 100 af de der lassoer med sten i enden (konfidensintervaller) at kaste efter en hest (=sandheden). Vi ved, at ud fra tilfældighedsprincippet vil 95 af lassoerne ramme hesten, medens 5 vil ramme ved siden af. Når han kaster den første lasso, er der 95% sandsynlighed for at han vil ramme. Dette er at ligestille med vores beregning af et konfidensinterval på et estimat i vores stikprøve: Vi kaster altid kun den første lasso, de andre eksisterer kun matematisk. Vi kan derfor tillade os at sige, at der er 95% sandsynlighed for, at vi rammer den sande værdi. Nærbillede af lassoen Sandheden 1SE O,96SE 1SE O,96SE Mikrokursus i biostatistik 29
30 Hvad fortæller et konfidensinterval på +/- 1 Standard Error? De røde kugler repræsenterer estimater, der nu er påhæftet korte konfidensintervaller på +/- 1 SE (68% konfidensinterval) De kugler/estimater, der ligger indenfor den sande middelværdi +/- 1 SE vil også i konfidensintervaller på +/1 SE indeholde den sande, men ukendte middelværdi. Det er i alt 68% af kuglerne/estimaterne Konklusion: At gentages dataindsamlingen 100 gange, hvor der hver gang beregnes et nyt 68% konfidensinterval, vil dette interval i 68 ud af de 100 gange indeholde den sande, men ukendte, værdi. 16% Ved 32% af kuglerne rammer de korte konfidensintervaller ved siden af den sande middelværdi. 16% 1 sse 1 sse Sand middelværdi (SM) Kender vi ikke! Mikrokursus i biostatistik 30
31 Hvad er sandsynligheden for,at man i et konfidensinterval på +/- 1 SE har ramt den sande værdi? Forestil jer igen en cowboy med 100 lassoer, som nu er blevet kortet ned til +/- 1 Standard Error. Han kaster igen efter hesten (=sandheden) og har stadigvæk bind for øjnene. Vi ved, at ud fra tilfældighedsprincippet vil 68 af lassoerne ramme hesten, medens 32 vil ramme ved siden af. Når han kaster den første lasso, er der 68% sandsynlighed for at han vil ramme. Dette er at ligestille med vores beregning af et konfidensinterval på et estimat i vores stikprøve: Vi kaster altid kun den første lasso, de andre eksisterer kun matematisk. Der er derfor 68% sandsynlighed for, at vi rammer den sande værdi med dette afkortede konfidensinterval. Sandheden Nærbillede af lassoen 1SE 1SE Mikrokursus i biostatistik 31
32 Kan vi komme tættere på, hvor vi har den sande værdi i et 95% konfidensinterval? Sandsynligheden for at ramme den sande værdi med en +/-1,96 SE-lasso var 95%. Sandsynligheden for at ramme den sande værdi med en +/- 1 SE-lasso var 68%. Hvor stor er sandsynligheden for, at den sande værdi ligger i de yderste SE er i 2 SE-lassoen? Nærbillede af lassoen O,96SE 1SE 1SE O,96SE Vi skiller den ad! Inderste 2 SE Yderste 2 SE Alle 4 SE = ca. 95% Inderste 2 SE = 68% Yderste 2 SE = 95% - 68% = 27% Sandsynligheden for at den sande værdi ligger i de to yderste SE= 27%. Hvor meget højere er sandsynligheden for, at den sande værdi ligger i de inderste 2 SE i forhold til sandsynligheden for, at den ligger i de to yderste SE? = 68 % / 27% = 2,5 gange højere. Altså er sandsynligheden for, at den sande værdi ligger i de inderste 2 SE over dobbelt så stor som sandsynligheden for, at den ligger i de to yderste SE. HUSK DET NÅR I VURDERER ET KONFIDENSINTERVAL!! Sandsynligheden er ikke ens overalt i intervallet, men højest i nærheden af jeres punktestimat. Den er faktisk normalfordelt omkring jeres punktestimat Mikrokursus i biostatistik 32
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1
Mikro-kursus i statistik 2. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er hypotesetestning? I sundhedsvidenskab:! Hypotesetestning = Test af nulhypotesen Hypotese-testning anvendes til at vurdere,
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Susanne Ditlevsen Institut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susanne
Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susanne 5. undervisningsuge, onsdag
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale
Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,
Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi
Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
1. februar Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele
Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002
Epidemiologi og Biostatistik Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 1 Statestik Det hedder det ikke! Statistik 2 Streptomycin til behandling af lunge-tuberkulose?
Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version
university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,
Perspektiver i Matematik-Økonomi: Linær regression
Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: [email protected] Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium
Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens
Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve
Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Kvantitative Metoder 1 - Forår 2007. Dagens program
Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe
ØVELSER // SVAR Statistik, Logistikøkonom Konfidensintervaller for én middelværdi og én andel
! ØVELSER // SVAR Statistik, Logistikøkonom Konfidensintervaller for én middelværdi og én andel Opgave 1 Når populationens varians er kendt En virksomhed har udviklet en proces til at producere mursten,
Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul
Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract
Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet
Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Vejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)
Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt
Statistisk beskrivelse og test
Statistisk beskrivelse og test 005 Karsten Juul Kapitel 1. Intervalhyppigheder Afsnit 1.1: Histogram En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid
Kvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/
Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial
Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Besvarelse af opgavesættet ved Reeksamen forår 2008
Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie
Kvadratisk regression
Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Hvad er meningen? Et forløb om opinionsundersøgelser
Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004
Valgkampens og valgets matematik
Ungdommens Naturvidenskabelige Forening: Valgkampens og valgets matematik Rune Stubager, ph.d., lektor, Institut for Statskundskab, Aarhus Universitet Disposition Meningsmålinger Hvorfor kan vi stole på
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Dig og din puls Lærervejleding
Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet
Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts
Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med
Beregning af usikkerhed på emissionsfaktorer. Arne Oxbøl
Beregning af usikkerhed på emissionsfaktorer Arne Oxbøl Fremgangsmåde for hver parameter (stof) Vurdering af metodeusikkerhed Datamaterialet er indsamlede enkeltmålinger fra de enkelte anlæg inden for
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1
Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke
Kapitel 4 Sandsynlighed og statistiske modeller
Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol
Personlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
for gymnasiet og hf 2016 Karsten Juul
for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen
Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.
Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte
Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?
Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden
for gymnasiet og hf 2017 Karsten Juul
for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen
F I N N H. K R I S T I A N S E N KUGLE SIMULATIONER MÅLSCORE I HÅNDBOLD G Y L D E N D A L
RÆSONNEMENT & 1BE V I S F I N N H. K R I S T I A N S E N GNING 2 EGNEARK KUGLE 5 MÅLING SIMULATIONER 3 G Y L D E N D A L MÅLSCORE I HÅNDBOLD Faglige mål: Håndtere simple modeller til beskrivelse af sammenhænge
Statistik kommandoer i Stata opdateret 22/ Erik Parner
Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ
Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.
Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder
Deskriptiv statistik for hf-matc
Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)
Institut for Folkesundhed Afdeling for Biostatistik Afdeling for Epidemiologi. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Udgangspunktet for de følgende spørgsmål er artiklen:
Module 1: Data og Statistik
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 1: Data og Statistik 1.1 Hvad er statistik?................................... 1 1.2 Datatyper.......................................
Temaopgave i statistik for
Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen
Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk
Deskriptiv statistik for matc i stx og hf
Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Signe, Helene, Marie, Amalie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt
for matematik pä B-niveau i hf
for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl
