Stata datafil Variables og Properties Data typer: Skalære, ordinale, nominelle og dikotome

Størrelse: px
Starte visningen fra side:

Download "Stata datafil Variables og Properties Data typer: Skalære, ordinale, nominelle og dikotome"

Transkript

1 1 Populationer og stikprøver 2 Data, indlæsning og editering i Stata Stata datafil Variables og Properties Data typer: Skalære, ordinale, nominelle og dikotome 3 Gruppering og frekvenstabeller Gruppering af skalære variable Frekvenstabeller Bargraf /søjlediagram Lagkagediagram 4 Histogram - skalær variabel Frekvensfunktion Logaritmetransformation 5 Percentiler, median, kvartiler og interkvartilbredde Boxplot - skalær variabel Kumuleret frekvensfunktion 6 2 skalære variable: Scatterplot PSE (I17) FSV StatSuppII 1 / 106

2 7 Gem din analyse 8 Centralitetsmål for skalære variable Median Middeltal og typetal 9 Spredningsmål for skalære variable Variations- og interkvartilbredde Varians, standardafvigelse og frihedsgrader STATA: Middeltal og standardafvigelse Variationskoefficient 10 Stikprøvevariation og standardfejl Middeltal og standardafvigelse for population. Standardfejl på middeltal for stikprøve Fordeling af stikprøvens middeltal - central grænseværdisætning 11 Normalfordeling z-score Øvre halesandsynlighed i normalfordelingen z-værdi svarende til øvre halesandsynlighed. PSE (I17) FSV StatSuppII 2 / 106

3 12 Konfidensinterval for populationens middeltal Stor stikprøve: Normalfordelingen Lille stikprøve: t-fordelingen Fortolkning af konfidensinterval Konfidensinterval i STATA 13 Sammenligning af 2 grupper Stikprøvefordeling af differens i middeltal Konfidensinterval: Store stikprøver - kendt standardfejl Konfidensinterval: Store stikprøver - ukendt standardfejl z-test for ingen effekt p-værdi Konfidensinterval: Små stikprøver - ens standardafvigelser Uparret t-test (between subject design) Små stikprøver - forskellige standardafvigelser Parret t-test (within subject design) Parret t-test i STATA 14 Generelt om konfidensintervaller og p-værdier PSE (I17) FSV StatSuppII 3 / 106

4 Fortolkning af p-værdi En statistisk analyse 15 Sandsynlighed(risiko) Sandsynlighedsbegrebet Betinget sandsynlighed Uafhængighed af hændelser Bayes regel 16 Frekvenser: Binomialfordelingen Estimation af risiko Binomialfordelingen Normalapproksimation af binomialfordelingen Konfidensinterval for andel - normalapproksimation Hypotese om specifik værdi af andel 17 Sammenligning af 2 andele Test for ingen effekt - normalapproksimation Konfidensinterval for effekt PSE (I17) FSV StatSuppII 4 / 106

5 Populationer og stikprøver Målpopulation og stikprøvevariation Vi er interesseret i, hvad danske vælgere ville stemme til et folketingsvalg i morgen. I princippet kan vi spørge alle vælgere og få det sande billede af de politiske partiers opbakning, og hvordan de står ift sidste valg. I denne undersøgelse er alle vælgere vores målpopulation. I praksis indskrænker vi undersøgelsen til en stikprøve, hvor vi spørger eksempelvis 1500 tilfældigt udvalgte vælgere om deres holdning. Vi får således et sløret/usikkert billede af situationen, hvor vi ikke med sikkerhed kan drage konklusioner ift sidste valg. Den tilfældige udvælgelse af vælgere kan falde ud på mange måder og således give anledning til forskellige tal for vælgertilslutning. Vi kalder dette for stikprøvevariation. PSE (I17) FSV StatSuppII 5 / 106

6 Populationer og stikprøver Illustration af inferensproces Vi skal bruge statistik til - på trods af stikprøvevariation - at komme med nogle kvalificerede udsagn om populationen. Fex hvorvidt det er overvejende sandsynligt, at et parti har mistet mere end 3% tilslutning siden sidste valg. Inden vi kaster os over inferens vil vi bruge lidt tid på eksplorativ analyse af data. PSE (I17) FSV StatSuppII 6 / 106

7 Data, indlæsning og editering i Stata Stata datafil Dataeksempel Studie af lungefunktion hos 636 peruvianske børn i alderen 7-10 år. Undersøgelsen er foretaget i en fattig forstad til Lima. For hvert barn har man registreret variablene 1 id: identifikationsnummer 2 fev1: Forced expiratory volume i 1 sekund - antal liter målt vha et spirometer. 3 age: barnets alder i år. 4 height: barnets højde i cm. 5 sex: barnets køn. 6 respsymp: Barnets pårørende blev spurgt om respiratoriske symptomer de seneste 12 måneder (dikotom). PSE (I17) FSV StatSuppII 7 / 106

8 Data, indlæsning og editering i Stata Stata datafil Indlæsning af Stata-fil: PeruLungeData.dta File Open... Find den relevante sti og klik på filnavn og derefter Open. PSE (I17) FSV StatSuppII 8 / 106

9 Data, indlæsning og editering i Stata Variables og Properties Data Editor Data Data Editor Vi genkender variabelnavnene. Bemærk at kolonnen for variablen sex kun indeholder værdierne 0 og 1. Et 0 repræsenterer pige, mens et 1-tal repræsenterer dreng. Tilsvarende for variablen respsymptoms: 0=Nej og 1=Ja. PSE (I17) FSV StatSuppII 9 / 106

10 Data, indlæsning og editering i Stata Variables og Properties Variabel egenskaber i Stata Data Variables Manager Name: Vi genkender variabelnavnene, som bruges i den kode, som Stata skal eksekvere. Label: Mere informativt variabelnavn, som bruges i grafik, tabeller, mm. PSE (I17) FSV StatSuppII 10 / 106

11 Data, indlæsning og editering i Stata Variables og Properties Variabel egenskaber i Stata Klik på sex i vinduet Variables Manager. Man har nu mulighed for eksempelvis at ændre Label fra "Sex of the child(0 F 1 M)" til "Barnets køn". Klik dernæst på Manage... i Value label rækken. Dette giver et vindue, hvor der klikkes på Create label knappen. PSE (I17) FSV StatSuppII 11 / 106

12 Data, indlæsning og editering i Stata Variables og Properties Variabel egenskaber i Stata Angiv navn på label, fex sex lb Angiv betydning af de forkellige værdier, fex 0=pige etc. Vi kan nu associere sex lb med variablen sex PSE (I17) FSV StatSuppII 12 / 106

13 Data, indlæsning og editering i Stata Data typer: Skalære, ordinale, nominelle og dikotome Data typer Stata er ikke eksplicit omkring hvilken måleskala vi knytter til en given variabel. Men da det i mange sammenhænge er vigtigt at skelne, så introducerer vi Skalær: Angiver at skalaen er metrisk, dvs variable som højde, blodtryk, dagligt cigaretforbrug, osv. Ordinal: Deler populationen i kategorier, som har en naturlig ordning. Det kan være socialgruppe, men også grupperede metriske data - fex angivelse af blodtryk som lavt, middel eller højt. Nominel: Deler populationen i kategorier, som ikke har en naturlig ordning. Eksempelvis køn, blodtype, haplotype, etc. Vi vil også bruge termen kategorisk variabel, som enten er ordinal eller nominel. En kategorisk variabel med 2 mulige udfald - fex køn kaldes også dikotom. PSE (I17) FSV StatSuppII 13 / 106

14 Gruppering og frekvenstabeller Gruppering af skalære variable Skalær variabel til ordinal variabel Data Create or change data Create new variable(extended) 1 fevbin: Navn på grupperet(binned) variabel 2 fev1: Navn på variabel som skal binnes. 3 Cut: Den kommando som binner 4 Vi ønsker 4 grupper med ca 25% i hver gruppe. Alternativt: Angiv delepunkter. 5 Labels: Interval startpunkt. PSE (I17) FSV StatSuppII 14 / 106

15 Gruppering og frekvenstabeller Frekvenstabeller To vejs tabel Statistics Summaries,tables... Frequency tables Two-way... Vi vælger variablene respsymptoms og fevbin, hvor vi ønsker at se frekvenser(antal observationer) og relative frekvenser(procentuel rækkeandel) for hver kombination af de 2 variable. PSE (I17) FSV StatSuppII 15 / 106

16 Gruppering og frekvenstabeller Frekvenstabeller To vejs tabel Resultatet af krydstabuleringen kan ses i Stata s outputvindue, hvor det ses, at der er en relativ overvægt af børn med respiratoriske symptomer, som har lavt lungevolumen (mellem 0.64 og liter). PSE (I17) FSV StatSuppII 16 / 106

17 Gruppering og frekvenstabeller Bargraf /søjlediagram I stedet for tabellen kan vi illustrere denne ved for hver celle i tabellen at tegne en kasse hvis højde er proportional med frekvensen. Graphics Bar chart Under Type of data vælges Graph of frequencies within categories. Klik på Categories og gør som illustreret nedenfor. Der er mange andre optioner. Fex bør man tilføje en titel. PSE (I17) FSV StatSuppII 17 / 106

18 Gruppering og frekvenstabeller Lagkagediagram Et alternativ til søjlediagrammet er et lagkagediagram via Graphics Pie chart Gør som omstående illustreret i hhv Mainfanen og By-fanen. hvilket producerer PSE (I17) FSV StatSuppII 18 / 106

19 Histogram - skalær variabel Vi vil kigge på børnenes højde og stratificere efter køn. Graphics Histogram Gør som omstående illustreret i hhv Main-fanen og By-fanen. hvilket producerer et histogram: 1 Inddel intervallet fra Minimum til Maximum i et passende antal lige store delintervaller. 2 Tegn kasser over hvert delinterval med højde svarende til antal observationer i delintervallet. PSE (I17) FSV StatSuppII 19 / 106

20 Histogram - skalær variabel Frekvensfunktion Når observationsantallet vokser Når vi tegner et histogram, hvor arealet af hver kasse svarer til den relative frekvens, så vil det samlede areal af kasserne være en. Når observationsantallet vokser, så kan vi forfine inddelingen og får et mere glat forløb. I teorien kan vi forestille os uendeligt mange observationer, som giver en pæn glat kurve, hvor arealet under kurven er 1. En funktion hvis graf fremkommer på denne måde kaldes en frekvensfunktion. taethed Histogram af 50 observationer varvalue taethed Histogram af 500 observationer varvalue taethed Histogram af population varvalue PSE (I17) FSV StatSuppII 20 / 106

21 Histogram - skalær variabel Frekvensfunktion Former på frekvensfunktioner PSE (I17) FSV StatSuppII 21 / 106

22 Histogram - skalær variabel Logaritmetransformation Transformation Det er ikke usædvanligt at se højreskæve histogrammer, fex målinger af koncentrationer, inkubationstider, ratier, mm. Normalt foretrækker vi en symmetrisk og klokkeformet frekvenskurve. Hvis fordelingen er højreskæv kan vi ofte opnå symmetri ved at logaritmetransformere vore målinger. Eksempler på målinger på logaritmisk skala: ph: Måling af surhedsgrad. Når ph-værdien falder med 1 enhed, 10-dobles surhedsgraden. ph=7 svarer til vand, dvs en væske med ph=5 er 100 gange surere end vand. db: Decibelmåling af lydtryk. Når db-værdien vokser med 6 enheder, så fordobles lydtrykket. db=0 svarer til grænsen for den menneskelige hørelse, mens db=60 svarer til en normal samtale. PSE (I17) FSV StatSuppII 22 / 106

23 Percentiler, median, kvartiler og interkvartilbredde Percentiler Eksempler på percentiler for en stikprøve af en skalær variabel: 5-percentilen: 5% af målingerne ligger under eller er lig med denne værdi. 25-percentilen: 25% af målingerne ligger under eller er lig med denne værdi. Dette kaldes også nedre kvartil. 50-percentilen: 50% af målingerne ligger under eller er lig med denne værdi. Dette kaldes også medianen. 75-percentilen: 75% af målingerne ligger under eller er lig med denne værdi. Dette kaldes også øvre kvartil. Dette er den ideelle fortolkning af percentilbegrebet. I praksis er det lidt mere kompliceret. Betragt eksempelvis en aldersstikprøve med ordnede værdier givet ved 7, 9, 10, 11, 15 Hvad er den nedre kvartil? PSE (I17) FSV StatSuppII 23 / 106

24 Percentiler, median, kvartiler og interkvartilbredde Kvartiler Aldersstikprøve: 7, 9, 10, 11, 15 Det må være oplagt at 10 er medianen, som skal være den midterste observation. Midten mellem første og femte observation er observation nummer = 3. Generelt hvis vi har n observationer: medianen er observation nummer n+1 2 blandt de ordnede værdier. nedre kvartil er observation nummer n+1 4 blandt de ordnede værdier. øvre kvartil er observation nummer 3(n+1) 4 blandt de ordnede værdier. Aktuelt: = 1.5 er midt imellem observation 1 og 2, hvorfor nedre kvartil sættes til 8. Tilsvarende er øvre kvartil lig med 13. PSE (I17) FSV StatSuppII 24 / 106

25 Percentiler, median, kvartiler og interkvartilbredde Centralitets og spredningsmål Aldersstikprøve: 7, 9, 10, 11, percentilen kaldes som sagt medianen og er et såkaldt centralitetsmål, som angiver en værdi, som målingerne spreder sig omkring. 0-percentilen=7 er den mindste værdi, dvs minimum. 100-percentilen=15 er den største værdi, dvs maximum. Variationsbredde(Range): er forskellen på største og mindste værdi, 15-7=8, og er et såkaldt spredningsmål. Interkvartilbredde(IQR): er et andet spredningsmål givet ved forskellen på øvre og nedre kvartil: 13-8=5. PSE (I17) FSV StatSuppII 25 / 106

26 Percentiler, median, kvartiler og interkvartilbredde Percentiler for højde-målinger Statistics Summaries,tables... Summary and... Summary statistics, hvor Main-fanen ses nedenfor til venstre: Ovenstående til højre en del af output, som fex viser at 10% af børnene her en højde under cm. Medianen er 124 cm. Interkvartilbredden er = 8.1 cm. PSE (I17) FSV StatSuppII 26 / 106

27 Percentiler, median, kvartiler og interkvartilbredde Boxplot - skalær variabel Box plots with fences/whiskers 1 Beregn median, nedre og øvre kvartil. 2 Plot en linie ved medianen og tegn en kasse mellem øvre og nedre kvartil. 3 Beregn interkvartilbredden og kald det IQR. Beregn følgende værdier: L = nedre kvartil - 1.5*IQR U = øvre kvartil + 1.5*IQR 4 Tegn en linie fra nedre kvartil til det mindste datapunkt, som er større end L. Tilsvarende, Tegn en linie fra øvre kvartil til det største datapunkt, som er mindre end U. 5 Datapunkter under L og over U tegnes som cirkler. Disse betragtes ofte som ekstreme og bør som regel kontrolleres for tastefejl, fejlaflæsning, apparatfejl eller lignende. PSE (I17) FSV StatSuppII 27 / 106

28 Percentiler, median, kvartiler og interkvartilbredde Boxplot - skalær variabel Data: Børnenes højde Graphics Box plot Vi stratificerer efter køn, dvs et boxplot for både piger og drenge. Main fane: Categories fane: PSE (I17) FSV StatSuppII 28 / 106

29 Percentiler, median, kvartiler og interkvartilbredde Kumuleret frekvensfunktion For en given variabelværdi angiver den kumulerede frekvensfunktion (kff) andelen af målinger, som er mindre end eller lig med denne værdi. Omstående graf viser kff for 70 hæmoglobinmålinger. Fire målinger antager værdien 10g/100ml eller derunder, dvs y = 4/70 = 5.7% når x = 10. Den største værdi er 15.1g/100ml, dvs y = 100% når x = PSE (I17) FSV StatSuppII 29 / 106

30 2 skalære variable: Scatterplot Scatterplot - 2 skalære variable Graphics Twoway graph(scatter,...) Alder vælges som x-akse og Højde som y-akse. Ikke overraskende ser der ud til at være en sammenhæng. PSE (I17) FSV StatSuppII 30 / 106

31 Gem din analyse Gem dit projekt Alle de kommandoer, som du udfører gemmes i Review panelet. Hvis du højreklikker på panelet er der flere muligheder for at gemme eller editere udvalgte dele eller hele forløbet. Kommandoerne gemmes i en såkaldt.do-fil, som stata kan genkende. Hvis du senere åbner.do-filen i stata, så kan du genskabe din analyse. Dette er en vigtig pointe. PSE (I17) FSV StatSuppII 31 / 106

32 Centralitetsmål for skalære variable Median Median Histogrammet giver et godt visuelt indtryk af hvordan variablen fordeler sig. Ofte er det hensigtsmæssigt at beskrive fordelingen via nogle få talstørrelser. Vi har allerede stiftet bekendskab med medianen, som angiver et såkaldt centralitetsmål, dvs en værdi hvoromkring målingerne fordeler sig. Når vi har n målinger er medianen observation nummer n+1 2 blandt de ordnede værdier. Hvis n er ulige er det den midterste observation. Hvis n er lige tager vi gennemsnittet af de 2 midterste observationer. PSE (I17) FSV StatSuppII 32 / 106

33 Centralitetsmål for skalære variable Middeltal og typetal Middeltal(Mean) Middeltallet for en stikprøve er summen af målingerne divideret med antallet af målinger, og skrives kort på formen x = Σx n hvor Σx repræsenterer summen af x-målingerne og n er antallet af målinger. Σ er det græske store bogstav sigma og x udtales x-streg. Typetal(Mode) Typetallet er den værdi som forekommer oftest i stikprøven. Hvis alle målinger er forskellige, dvs lige hyppige kan vi ikke angive typetallet. PSE (I17) FSV StatSuppII 33 / 106

34 Centralitetsmål for skalære variable Middeltal og typetal Dataeksempel Måling af plasmavolumen på 8 raske mænd: Sum af målinger: 2.75, 2.86, 3.37, 2.76, 2.62, 3.49, 3.05, 3.12 liter Σx = = liter Antal målinger er n = 8, hvilket giver middeltallet x = Σx n = = 3.00 liter 8 Medianen er gennemsnittet af de to midterste værdier: Median = = 2.96 liter PSE (I17) FSV StatSuppII 34 / 106

35 Spredningsmål for skalære variable Variations- og interkvartilbredde Spredningsmål Udover et centralitetsmål, som angiver en værdi, som målingerne fordeler sig omkring, er det relevant at have et mål for hvor meget værdierne spreder sig omkring centralitetsmålet. Variationsbredde Har vi tidligere defineret som Variationsbredde=StørsteMåling minus MindsteMåling Interkvartilbredde Har vi også tidligere defineret som Interkvartilbredde=ØvreKvartil minus NedreKvartil PSE (I17) FSV StatSuppII 35 / 106

36 Spredningsmål for skalære variable Varians, standardafvigelse og frihedsgrader Varians I første omgang skal vi definere variansen på en stikprøve: s 2 = Σ(x x)2 n 1 x x er målingernes afvigelse fra middeltallet og disse kvadreres og lægges sammen(σ). Derefter divideres - stort set - med stikprøvestørrelsen. Så vi kan tænke på variansen som den gennemsnitlige kvadratiske afvigelse fra middeltallet. Frihedsgrader Der gælder at summen af afvigelser Σ(x x) = 0, dvs når vi kender n 1 afvigelser kan vi beregne den sidste. Dette forhold formuleres ved at sige at s 2 har (n 1) frihedsgrader. Derudover er s 2 et estimat(kvalificeret skøn) over variansen i hele populationen og det kan vises, at det er fornuftigt at dividere summen af kvadrerede afvigelser med frihedsgradstallet frem for n. PSE (I17) FSV StatSuppII 36 / 106

37 Spredningsmål for skalære variable Varians, standardafvigelse og frihedsgrader Standardafvigelse Variansen er den gennemsnitlige kvadratiske afvigelse. Det er hensigsmæssigt at udtrykke variationen på den oprindelige måleskala, så vi uddrager kvadratroden og beregner standardafvigelsen Σ(x x) s = 2 n 1 Sædvanligvis forventer vi at Ca 70% af målingerne ligger inden for en standardafvigelse af middeltallet. Ca 95% af målingerne ligger inden for to standardafvigelser af middeltallet. Ca 99.3% af målingerne ligger inden for 2.7 standardafvigelser af middeltallet. Dette svarer til whiskers i et boxplot. Forventningerne er baseret på den såkaldte normalfordeling, som vi vender tilbage til. PSE (I17) FSV StatSuppII 37 / 106

38 Spredningsmål for skalære variable Varians, standardafvigelse og frihedsgrader Dataeksempel - fortsat Summen af de kvadrerede afvigelser er Σ(x x) 2 = med 8 1 = 7 frihedsgrader, hvilket giver standardafvigelsen s = = 0.31liter PSE (I17) FSV StatSuppII 38 / 106

39 Spredningsmål for skalære variable STATA: Middeltal og standardafvigelse Dataeksempel - fortsat I STATA: Statistics Summaries,... Other tables Compact... på variablen PlasmaVol giver nedenstående output: Et forsigtigt skøn(det lave observationsantal giver usikkerhed) over de midterste 70% af volumenmålinger på raske mænd er da givet ved intervallet 3 ± 0.3 dvs mellem 2.7 og 3.3 liter. PSE (I17) FSV StatSuppII 39 / 106

40 Spredningsmål for skalære variable Variationskoefficient Variationskoefficient Spredningen er udtryk for en absolut afvigelse fra middeltallet. I visse sammenhænge er det relevant at kigge på relative(procentuelle) afvigelser fra middeltallet. Det mest almindelige mål er variationskoefficienten(coefficient of variation) cv = s x % I vores aktuelle datasæt kan vi beregne cv = = 10%, dvs vi forventer at 70% af raske mænd har et plasmavolumen, som højst afviger 10% fra middeltallet. PSE (I17) FSV StatSuppII 40 / 106

41 Stikprøvevariation og standardfejl Middeltal og standardafvigelse for population. Populationsparametre Vi er interesseret i en skalær størrelse fex hvordan BMI varierer i en målpopulation. Vi kan i princippet måle BMI på alle individer i populationen og bestemme µ(det græske bogstav my): Populationens middeltal. σ(det græske bogstav sigma): Populationens standardafvigelse. I praksis tager vi en tilfældig stikprøve, hvor x er et estimat(kvalificeret skøn) for µ. Det tilfældige valg af stikprøve har mange mulige udfald, dvs vi har en population af mulige x-værdier, hvor vi vælger en tilfældigt. PSE (I17) FSV StatSuppII 41 / 106

42 Stikprøvevariation og standardfejl Standardfejl på middeltal for stikprøve Standardfejl Hvis vi kigger på populationen af mulige middeltal for en stikprøve, så kan det vises at Denne har middeltal µ, dvs det samme som målpopulationen. Denne har standardafvigelse σ n og kaldes standardfejlen på stikprøvens middeltal. Mao vil x med ca 95% sikkerhed ligger i intervallet µ ± 2σ n. Dette kan omformuleres til at µ med ca 95% sikkerhed ligger i intervallet x ± 2σ n, et såkaldt konfidensinterval, som vi skal studere nærmere senere hen. Som regel er målpopulationens standardafvigelse σ ukendt. På basis af stikprøven estimerer vi σ ved stikprøvens standardafvigelse s og har således den estimerede standardfejl se = s n Bemærk at standardfejlen falder når n vokser, dvs jo større stikprøve, jo kortere er konfidensintervallet for µ, hvilket virker rimeligt. PSE (I17) FSV StatSuppII 42 / 106

43 Stikprøvevariation og standardfejl Standardfejl på middeltal for stikprøve En illustrativ leg Betragt nedenstående histogram af blodtrykket for 250 piloter. Vi skal betragte disse piloter som vores målpopulation, dvs µ og σ er som angivet på figuren. Vi ser at blodtrykket varierer mellem ca 58 og 98 mmhg. PSE (I17) FSV StatSuppII 43 / 106

44 Stikprøvevariation og standardfejl Standardfejl på middeltal for stikprøve En illustrativ leg Vi tager nu et stikprøve med 10 observationer og beregner stikprøvens middeltal. Dette eksperiment udføres 30 gange, dvs vi kan lave nedenstående histogram for de 30 stikprøvegennemsnit. Middeltallene er stort set centreret om µ = 78.2mmHg, men standardafvigelsen er ift populationen faldet fra σ = 9.4mmHg til 3.01mmHg, hvilket svarer meget godt til σ/ 10 = 2.97mmHg. Hvor populationsværdierne varierer mellem 58 og 98 mmhg, så varierer gennemsnittene mellem 72 og 86 mmhg. PSE (I17) FSV StatSuppII 44 / 106

45 Stikprøvevariation og standardfejl Fordeling af stikprøvens middeltal - central grænseværdisætning Fordeling af stikprøvens middeltal Vi er givet en stikprøve x 1, x 2,..., x n af størrelse n fra en population med middeltal µ og standardafvigelse σ. Stikprøvens middeltal har da en fordeling hvor Fordelingen har middeltal µ. x = 1 n (x 1 + x x n ) Fordelingen har standardafvigelse σ x = σ n, der som sagt benævnes standardfejlen. Når n vokser, så nærmer fordelingen sig en såkaldt normalfordeling. Dette kaldes den centrale grænseværdisætning. Den centrale grænseværdisætning betyder, at normalfordelingen spiller en afgørende rolle, når vi laver statistisk inferens. PSE (I17) FSV StatSuppII 45 / 106

46 Normalfordeling Normalfordeling Der er en hel familie af frekvenskurver for normalfordelingen, som er bestemt af 2 parametre: µ er middeltallet, som bestemmer hvor fordelingen er centreret. σ er standardafvigelsen, som bestemmer hvor koncentreret fordelingen er omkring middeltallet. Frekvensfunktion: y = f (x; µ, σ) = 1 exp( 1 2πσ 2 2σ 2 (x µ)2 ) hvor exp er den såkaldte exponentialfunktion. Hvis µ = 0 og σ = 1, så taler vi om en standard normalfordeling. PSE (I17) FSV StatSuppII 46 / 106

47 Normalfordeling Normalfordelingens udstrækning PSE (I17) FSV StatSuppII 47 / 106

48 Normalfordeling z-score Standardisering af variabel En normalfordelt variabel er stadig normalfordelt selv om vi ændrer måleenhed og/eller nulpunkt. Det er blot middeltal/standardafvigelse som ændrer sig. Fex skift fra Fahrenheit til Celcius: y = 5 9 (x 32), hvor et middeltal på fex 41 F ændres til 5 9 (41 32) = 5 C, mens en standardafvigelse på fex 4.5 F ændres til = 2.5 C, idet sidstnævnte kun afhænger af skalaændringen. Betragt en normalfordelt population med middeltal µ og standardafvigelse σ. Når x er en tilfældig måling fra denne population vil vi betragte den standardiserede måling z = x µ σ som også kaldes for z-scoren. Denne har med middeltal µ = 0 og standardafvigelse σ = 1, dvs standard normal fordelt. PSE (I17) FSV StatSuppII 48 / 106

49 Normalfordeling Øvre halesandsynlighed i normalfordelingen Ex: Normalfordelte højdemålinger Hvor hyppigt forekommer højdemålinger over 175cm? z = = I tabel A1 kan man aflæse denne såkaldte øvre halesandsynlighed til at være 29.46%. PSE (I17) FSV StatSuppII 49 / 106

50 Normalfordeling z-værdi svarende til øvre halesandsynlighed. Ex: Normalfordelte højdemålinger Hvilken z-score svarer til øvre kvartil - dvs at øvre hale skal have sandsynlighed 25%? I tabel A1 kan vi se, at denne ligger ca midtvejs mellem 0.67 og 0.68, dvs z = er øvre kvartil i standard normal fordelingen. Da x = µ + σz vil øvre kvartil for den tilsvarede højde være = 175.9cm PSE (I17) FSV StatSuppII 50 / 106

51 Konfidensinterval for populationens middeltal Stor stikprøve: Normalfordelingen 95% konfidensinterval for middeltal Når stikprøvestørrelsen n er stor - typisk n > 15 - er x normalfordelt. 95% af standardnormalfordelingen ligger indenfor ±2 eller mere præcist ±1.96. Dette betyder at stikprøvens middeltal med 95% sikkerhed ligger mellem µ ± 1.96 σ n, dvs middeltallet plus/minus 1.96 standardfejl. Vi kan omformulere dette til et konfidensinterval, når σ er kendt og n > 15 Med 95% sikkerhed vil µ ligge mellem x ± 1.96 σ n I praksis kender vi som oftest ikke σ og bruger i stedet den estimerede standardfejl se = s n Hvis n > 60 er dette et ret præcist estimat, så vi kan beregne et konfidensinterval, når σ er ukendt og n > 60 Med 95% sikkerhed vil µ ligge mellem x ± 1.96 s n PSE (I17) FSV StatSuppII 51 / 106

52 Konfidensinterval for populationens middeltal Stor stikprøve: Normalfordelingen Andre konfidensgrader Vi har ovenfor beregnet konfidensintervaller med såkaldt konfidensgrad 95%, hvor den tilhørende z = 1.96 svarer til en øvre halesandsynlighed på 2.5%. Andre konfidensgrader 90% konfidensgrad: z = 1.64 svarer til en øvre halesandsynlighed på 5%. 99% konfidensgrad: z = 2.58 svarer til en øvre halesandsynlighed på 0.5%. dvs når σ er ukendt og n > 60 Med 90% sikkerhed vil µ ligge mellem x ± 1.64 s n Med 99% sikkerhed vil µ ligge mellem x ± 2.58 s n PSE (I17) FSV StatSuppII 52 / 106

53 Konfidensinterval for populationens middeltal Lille stikprøve: t-fordelingen Konfidensinterval for middeltal Når 15 n 60 og σ er ukendt, så kan vi ikke bruge en z-værdi, men skal referere til en såkaldt t-værdi. Dette skyldes at stikprøvens standardafvigelse ikke er et tilstrækkeligt nøjagtigt estimat for σ. Hvis n < 15 skal der yderligere gælde at populationen er normalfordelt. t-værdien afhænger af frihedsgradstallet (n 1) og konfidensgraden. Hvis vi eksempelvis vil have konfidensgrad 95% - dvs vi udelader 0.05(kaldes 2-Sidet P-value i TabelA3) - og har 5 frihedsgrader så kan vi i TabelA3 aflæse t-værdien t = Når vi har bestemt t-værdien t kan vi beregne konfidensintervallet Med 95% sikkerhed vil µ ligge mellem x ± t s n PSE (I17) FSV StatSuppII 53 / 106

54 Konfidensinterval for populationens middeltal Fortolkning af konfidensinterval Fortolkning af konfidensinterval Nærliggende fortolkning når vi beregner et 95% konfidensinterval er at der er 95% chance for at populationens middelværdi ligger i dette interval, som altså er beregnet på basis af den aktuelle stikprøve. Dette er ikke helt rigtigt. Vi kan kun sige at 95% af alle beregnede konfidensintervaller vil indeholde populationens middelværdi µ Dvs når vi har beregnet 20 konfidensintervaller, så vil der - i middel - faktisk være et af disse, som ikke indeholder populationens middelværdi µ. Hvorvidt vi har ramt en af disse uheldige situationer kan ikke afgøres, hvilket for så vidt er kerneproblematikken, når man ikke har fuld information. PSE (I17) FSV StatSuppII 54 / 106

55 Konfidensinterval for populationens middeltal Konfidensinterval i STATA STATA beregninger Statistics Summaries,... Summary and.. Confidence intervals Per default vælges et konfidensinterval baseret på normalfordeling. Med en konfidensgrad på 95% siger vi at middeltallet for plasmavolumen blandt populationens raske mænd ligger mellem 2.74 og 3.26 liter. PSE (I17) FSV StatSuppII 55 / 106

56 Sammenligning af 2 grupper Terminologi I mange statistiske undersøgelser ønsker man at sammenligne 2 delpopulationer. Det kunne eksempelvis være mænd/kvinder, men er i medicinske sammenhænge ofte knyttet til eksponering/behandling. Eksempelvis Fødselsvægt, hvor vi ønsker at sammenligne middelvægten for børn af rygere - eksponeringsgruppen(gruppe1) - med middelvægten for børn af ikke-rygere - ikke eksponeringsgruppen(gruppe0). Blodtryk, hvor vi ønsker at sammenligne middeltrykket efter en ny behandlingsform - behandlingsgruppen(gruppe1) - med middeltrykket efter konventionel behandling - kontrolgruppen(gruppe0). Den interessante størrelse er således µ 1 µ 0, hvor µ 0 er populationens middeltal i gruppe0. µ 1 er populationens middeltal i gruppe1. PSE (I17) FSV StatSuppII 56 / 106

57 Sammenligning af 2 grupper Stikprøvefordeling af differens i middeltal Stikprøvefordeling af differens Efter indsamling af data kan vi beregne x 0 : Stikprøvens middeltal i gruppe0 baseret på n 0 målinger. x 1 : Stikprøvens middeltal i gruppe1 baseret på n 1 målinger. hvor vi fokuserer på differensen x 1 x 0, som er et estimat for µ 1 µ 0. For at beskrive stikprøvevariationen af den estimerede differens skal vi kende σ 0 : Stikprøvens standardafvigelse i gruppe0. σ 1 : Stikprøvens standardafvigelse i gruppe1. Det kan vises at populationen af stikprøvedifferenser har middeltal µ 1 µ 0 σ 2 standardafvigelse se = 0 n 0 + σ2 1 n 1 - også kaldet standardfejlen. Hvis der tillige gælder at både x 0 og x 1 er normalfordelte, så er x 1 x 0 normalfordelt. PSE (I17) FSV StatSuppII 57 / 106

58 Sammenligning af 2 grupper Konfidensinterval: Store stikprøver - kendt standardfejl Konfidensinterval baseret på normalfordelingen Hvis x 1 x 0 er normalfordelt med kendt standardfejl kan vi bruge den velkendte formel estimat±1.96 standardfejl til at fastlægge et 95% konfidensinterval. Mere generelt Antag at n 0 > 15 eller at kontrolpopulationen er normalfordelt. Antag at n 1 > 15 eller at behandlingspopulationen er normalfordelt. Antag at σ 0 og σ 1 er kendte og beregn se = σ 2 0 n 0 + σ2 1 n 1. Lad z angive z-værdien svarende til den ønskede konfidensgrad. Fex z = 1.64 ved konfidensgrad 90%. Konfidensintervallet er da bestemt af grænserne ( x 1 x 0 ) ± z se PSE (I17) FSV StatSuppII 58 / 106

59 Sammenligning af 2 grupper Konfidensinterval: Store stikprøver - ukendt standardfejl Konfidensinterval baseret på normalfordelingen Det typiske scenarie er at vi ikke kender populationernes standardafvigelse. I stedet estimeres disse ved stikprøvernes standardafvigelse. Dette giver anledning til følgende konstruktion. Antag at n 0 > 30 og n 1 > 30. Beregn stikprøvernes standardafvigelse - s 0 for gruppe0 og s 1 for gruppe1. Beregn den estimerede standardfejl se = s 2 0 n 0 + s2 1 n 1. Lad z angive z-værdien svarende til den ønskede konfidensgrad. Fex z = 2.58 ved konfidensgrad 99%. Konfidensintervallet er da bestemt af grænserne ( x 1 x 0 ) ± z se PSE (I17) FSV StatSuppII 59 / 106

60 Sammenligning af 2 grupper Konfidensinterval: Store stikprøver - ukendt standardfejl Eksempel: PeruLungeData Statistics Summaries,.. Other tables Compact tables... Vi kan aflæse x 0 = og x 1 = n 0 = 491 og n 1 = 145 s 0 = og s 1 = PSE (I17) FSV StatSuppII 60 / 106

61 Sammenligning af 2 grupper Konfidensinterval: Store stikprøver - ukendt standardfejl Eksempel: PeruLungeData Vi kan nu beregne differensen d = x 1 x 0 = = dvs gruppen med respiratoriske symptomer har en kapacitet som er ca 1.5 dl lavere end normalgruppen. Den estimerede standardfejl på forskellen estimeres via formlen s0 2 se = + s = n 0 n = Ved en konfidensgrad på 95% kan vi beregne intervallet d ± 1.96 se Dette giver nedre grænse og øvre grænse liter. Dvs vi vurderer at forskellen mellem populationernes middeltal ligger mellem 1 og 2 dl. PSE (I17) FSV StatSuppII 61 / 106

62 Sammenligning af 2 grupper z-test for ingen effekt z-score for differens Lad os et øjeblik antage at µ 0 = µ 1, dvs ingen effekt af behandling/eksponering. Hvis vi har store stikprøver gælder da, at hvis µ 0 = µ 1, så er stikprøvefordelingen af x 1 x 0 normal med middeltal nul Dvs når vi dividerer med standardfejlen har vi en størrelse som er standard normalfordelt. Dette leder frem til det såkaldte z-test, hvor vores test statistik er givet ved forskel på stikprøvernes middeltal z = = x 1 x 0 standardfejlen på forskellen se PSE (I17) FSV StatSuppII 62 / 106

63 Sammenligning af 2 grupper z-test for ingen effekt z-score for differens z = forskel på stikprøvernes middeltal standardfejlen på forskellen Ift standardfejlen har vi 2 scenarier: Kendt standardfejl hvor se = σ 2 0 n 0 + σ2 1 n 1 = x 1 x 0 se Tillige må vi antage normalfordelte delpopulationer eller stikprøvestørrelser over 15. Store stikprøver(n 0 > 30 og n 1 > 30) og ukendt standardfejl, som estimeres ved s0 2 se = + s2 1 n 0 n 1 PSE (I17) FSV StatSuppII 63 / 106

64 Sammenligning af 2 grupper p-værdi Eksempel: PeruLungeData I det aktuelle eksempel har vi beregnet differensen Differens: d = og estimeret standardfejl: se = Vi kan således beregne den observere z-score z = d se = = 4.88 HVIS µ 0 = µ 1, så er chancen for en z-score mellem ±1.96 lig med 95% og chancen for en z-score mellem ±3.29 lig med 99.9%, dvs chancen for en z-score udenfor grænserne ±3.29 er 0.1%. Vi har mao en z-score, som ligger usandsynligt langt væk fra nul. En indikation på at noget er galt, nemlig antagelsen µ 0 = µ 1. PSE (I17) FSV StatSuppII 64 / 106

65 Sammenligning af 2 grupper p-værdi p-værdi Lad z obs betegne den observerede z-værdi. Generelt vil vi definere den tosidede p-værdi, som chancen for at få en z-score, som ligger uden for intervallet bestemt af ±z obs. I nedenstående eksempel har vi beregnet z obs = 2.4. Da øvre og nedre halesandsynlighed er ens skal vi blot beregne en af disse og gange med 2. Den øvre halesandsynlighed kan findes i tabela1. Vi vender tilbage til p-værdier. PSE (I17) FSV StatSuppII 65 / 106

66 Sammenligning af 2 grupper Konfidensinterval: Små stikprøver - ens standardafvigelser Ens standardafvigelser I mange situationer er en rimelig antagelse at delpopulationerne har samme standardafvigelse σ, dvs σ 0 = σ 1 = σ hvilket giver standardfejlen på differensen 1 se = σ + 1 n 0 n 1 Hvis σ er ukendt estimeres denne ved en sammenvejning af s 0 og s 1 : (n 0 1)s0 2 s = + (n 1 1)s1 2 n 0 + n 1 2 som har df = n 0 + n 1 2 frihedsgrader. PSE (I17) FSV StatSuppII 66 / 106

67 Sammenligning af 2 grupper Konfidensinterval: Små stikprøver - ens standardafvigelser Konfidensinterval - ens standardafvigelser Når stikprøverne er små skal vi bruge t-score i stedet for z-score, hvorefter proceduren bliver 1 Vælg konfidensgrad. 2 bestem t-scoren t svarende til konfidensgrad og frihedsgradstallet df = n 0 + n Beregn den estimerede standardfejl 1 se = s + 1 n 0 n 1 4 Konfidensintervallet har da grænser givet ved ( x 1 x 0 ) ± t se PSE (I17) FSV StatSuppII 67 / 106

68 Sammenligning af 2 grupper Konfidensinterval: Små stikprøver - ens standardafvigelser Eksempel 7.2 Konfidensgrad 95% svarer til tosidet p-værdi=0.05 og med df = 27 fås t = PSE (I17) FSV StatSuppII 68 / 106

69 Sammenligning af 2 grupper Uparret t-test (between subject design) t-test I analogi med z-testet kan vi udføre et t-test ved små stikprøvestørrelser. Under antagelse af ens standardafvigelser i delpopulationerne bliver den standardiserede score t = x 1 x 0 se = x 1 x 0 s n0 n1 hvor s er det sammenvejede estimat for standardafvigelsen med frihedsgrader df = n 0 + n 1 2. Når t obs betegner den observerede t-værdi: Den tosidede p-værdi er chancen for at få en t-score, som ligger uden for intervallet bestemt af ±t obs. Vi forudsætter µ 0 = µ 1, hvilket betyder at sandsynligheden skal beregnes med reference til t-fordelingen med df frihedsgrader. PSE (I17) FSV StatSuppII 69 / 106

70 Sammenligning af 2 grupper Uparret t-test (between subject design) Eksempel 7.2 I eksemplet med fødselsvægt for eksponeringsgrupperne mor er stor-ryger og mor er ikke-ryger har vi beregnet x 1 x 0 = kg s = kg hvilket giver t obs = x 1 x 0 s n0 n1 = = 2.95 PSE (I17) FSV StatSuppII 70 / 106

71 Sammenligning af 2 grupper Uparret t-test (between subject design) Eksempel 7.2 p-værdien er den samme for ±t obs, dvs vi behøver kun have tabel for postive t-værdier. Aktuelt skal vi altså vurdere t obs = 2.95 med df = 27. Med reference til tabela4 kan vi se at p-værdien må ligge mellem 0.6% og 0.7%, dvs t obs er en ekstremt afvigende forskel. Dette indikerer at µ 0 og µ 1 er forskellige - eller mere konkret: Data viser temmelig stærk evidens for at storrygere får børn med lavere fødselsvægt end ikkerygere. PSE (I17) FSV StatSuppII 71 / 106

72 Sammenligning af 2 grupper Små stikprøver - forskellige standardafvigelser Forskellige standardafvigelser Vi skal ikke detaljeret behandle denne situation, men blot bemærke: Hvis delpopulationerne har samme variationskoefficient - dvs samme procentuelle afvigelse fra middeltallet - så kan vi med fordel lave en logaritmetransformation. Ofte vil det da være OK at antage ens standardafvigelser i de 2 delpopulationer, hvilket er standard i STATA. Hvis standardafvigelserne er forskellige laves ofte et såkaldt Welch-test. Test statistikken er den samme, som når stikprøverne er store, men i stedet for en normalfordeling approksimeres med en t-fordeling. I øvelserne skal I selv vha STATA prøve at udføre et Welch-test for storrygerdataene. PSE (I17) FSV StatSuppII 72 / 106

73 Sammenligning af 2 grupper Parret t-test (within subject design) Par af målinger I mange sammenhænge måler vi på den samme person, fex vægten før og efter en slankekur, dvs vi har en gruppe af før -målinger og en gruppe af efter -målinger. Disse målinger er dog uinteressante, idet de centrale målinger er effektmåling=eftermåling minus førmåling Vi er således tilbage i situationen med 1 stikprøve af effektmålinger. Denne stikprøve analyseres som tidligere beskrevet ift bestemmelse af konfidensintervaller. PSE (I17) FSV StatSuppII 73 / 106

74 Sammenligning af 2 grupper Parret t-test (within subject design) Teststatistikker Givet stikprøve af effektmålinger med Estimeret middeltal x Estimeret standardafvigelse s med (n 1) frihedsgrader. Hvis µ er populationens middeltal er vi interesseret i at teste H 0 : µ = 0. Teststatistik når n > 60: z = x se = x s/ n hvor p-værdien bestemmes vha standard normalfordelingen. Teststatistik når 15 n 60 eller populationen er normalfordelt: t = x se = x s/ n hvor p-værdien bestemmes vha t-fordelingen med (n 1) frihedsgrader. PSE (I17) FSV StatSuppII 74 / 106

75 Sammenligning af 2 grupper Parret t-test i STATA Eksempel 7.3 Data vedrører effekt af sovemiddel. For 10 forsøgspersoner måles søvn i timer - dels med drug og del med placebo, hvilket også er navnet på de 2 variable, som for hver person angiver målingen. Statistics Summaries,.. Classical... t test(mean... PSE (I17) FSV StatSuppII 75 / 106

76 Sammenligning af 2 grupper Parret t-test i STATA Eksempel 7.3 Vi kan aflæse en t-score på , som har en tilhørende p-værdi på 17.31%. Dvs vi kan ikke påvise en signifikant forskel - selv om den estimerede forskel er 1 time. PSE (I17) FSV StatSuppII 76 / 106

77 Generelt om konfidensintervaller og p-værdier Hypotesebegrebet Vi skal primært beskæftige os med erkendelsesmæssige/videnskabelige hypoteser. I modsætning til kontrollerende hypoteser, hvor man fex i forbindelse med medicinproduktion vil undersøge om produktet opfylder givne myndigheds/produktions-krav. Vi skal især koncentrere os om, hvordan mennesker responderer på behandling/eksponering. Den gængse statistiske tilgang til denne problemstilling er at opstille en nulhypotese H 0 : behandling/eksponering har INGEN indflydelse på responsen. Statistik drejer sig i denne sammenhæng om, hvorvidt man kan fæste lid til nulhypotesen eller ej. Som illustreret i forbindelse med vores analyse af respons på 2 typer af behandling/eksponering. PSE (I17) FSV StatSuppII 77 / 106

78 Generelt om konfidensintervaller og p-værdier Konfidensinterval og teststatistik Nulhypoten kan som oftest formuleres som en hypotese om en populationsparameter. I eksemplet med 2 delpopulationer med middeltal µ 0 og µ 1 er vi interesseret i forskellen δ = µ 1 µ 0, hvor hypotesen H 0 : δ = 0 svarer til ingen behandlings/eksponeringseffekt. Vores analyse baserer sig på en stikprøve, hvor vi kan beregne et estimat for parameteren. Tillige kan vi beregne en standardfejl på estimatet. Med disse i hånden kan vi bestemme 95% konfidensinterval(store stikprøver): estimat ± 1.96 standardfejl Når nulhypotesen siger at parameteren er nul definerer vi test statistikken : estimat TestStatistik = standardfejl PSE (I17) FSV StatSuppII 78 / 106

79 Generelt om konfidensintervaller og p-værdier Fortolkning af p-værdi p-værdi Teststatistikken måler antal standardfejl som estimatet afviger fra nul. Når vi har en observeret værdi z obs af teststatistikken beregner vi p-værdien(tosidet) som chancen for - når H 0 er sand - at få en teststatistik, som ligger uden for intervallet bestemt af ±z obs. PSE (I17) FSV StatSuppII 79 / 106

80 Generelt om konfidensintervaller og p-værdier Fortolkning af p-værdi fortolkning af p-værdi En lille p-værdi indikerer et usandsynligt fund, hvis nulhypotesen er sand. Dvs jo mindre p-værdi, jo større evidens for at nulhypotesen er forkert. PSE (I17) FSV StatSuppII 80 / 106

81 Generelt om konfidensintervaller og p-værdier En statistisk analyse Eksempel på analyse Vores 1. forsøg tester præparat A med 30 personer i både behandlingsgruppe og kontrolgruppe. Umiddelbart estimeres en kraftig effekt af behandling, da middeltallet i behandlingsgruppen ligger 40mg/deciliter under kontrolgruppens middeltal. Der er dog stor variation, hvilket afspejles i en standardfejl på 40mg/deciliter, dvs vi ligger kun z obs = = 1 standardafvigelse fra nul. Så der er ikke evidens mod hypotesen om ingen effekt. PSE (I17) FSV StatSuppII 81 / 106

82 Generelt om konfidensintervaller og p-værdier En statistisk analyse Eksempel på analyse Den estimerede effekt i 1. forsøg ser dog lovende ud, så vi gentager eksperimentet, men nu med 3000 personer i både behandlingsgruppe og kontrolgruppe. Vi iagttager samme estimerede effekt på 40mg/deciliter. Når samplestørrelsen 100-dobles falder standardfejlen med en faktor 100 = 10, dvs se = 4mg/deciliter. Med z obs = 40 4 = 10 er der nu særdeles kraftig evidens mod hypotesen om ingen effekt. Konfidensintervallet viser, at vi kan forvente en effekt over 30mg/deciliter. PSE (I17) FSV StatSuppII 82 / 106

83 Generelt om konfidensintervaller og p-værdier En statistisk analyse Eksempel på analyse Et andet præparat B testes i 3. forsøg med 40 personer i hver gruppe. Der estimeres en rimelig effekt af behandling, da middeltallet i behandlingsgruppen ligger 20mg/deciliter under kontrolgruppens middeltal. Der er dog stor variation, hvilket afspejles i en standardfejl på 33mg/deciliter, dvs vi ligger kun z obs = = 0.6 standardafvigelse fra nul. Så der er ikke evidens mod hypotesen om ingen effekt. PSE (I17) FSV StatSuppII 83 / 106

84 Generelt om konfidensintervaller og p-værdier En statistisk analyse Eksempel på analyse Den estimerede effekt i 3. forsøg ser lovende ud, så vi gentager eksperimentet, men nu med 4000 personer i både behandlingsgruppe og kontrolgruppe. Vi iagttager nu en estimeret effekt på 2mg/deciliter, som er klinisk uinteressant. Når samplestørrelsen 100-dobles falder standardfejlen med en faktor 100 = 10, dvs se = 3.3mg/deciliter. Med z obs = = 0.6: Ikke evidens mod hypotesen om ingen effekt. Vi konkluderer at præparat B på ingen måde er et alternativ til A. PSE (I17) FSV StatSuppII 84 / 106

85 Generelt om konfidensintervaller og p-værdier En statistisk analyse Eksempel på analyse Sidste eksperiment tester præparat C med 5000 personer i hver gruppe. Vi iagttager en estimeret effekt på 5mg/deciliter, som er klinisk uinteressant. Med en standardfejl på se = 2mg/deciliter fås z obs = 5 2 = 2.5, hvilket giver en p-værdi på 1.2%. p-værdien fortæller at der er en forventelig effekt af præparat C. Men 95% konfidensintervallet indikerer at effekten ligger mellem 1.1 og 8.9mg/deciliter. Dette er klinisk set en meget svag effekt, og da C samtidig er dyrt vil det næppe være et alternativ til A. PSE (I17) FSV StatSuppII 85 / 106

86 Sandsynlighed(risiko) Sandsynlighedsbegrebet Eksempel: Aktuelt eksperiment John Kerrich, a South African mathematician, was visiting Copenhagen when World War II broke out. Two days before he was scheduled to fly to England, the Germans invaded Denmark. Kerrich spent the rest of the war interned at a camp in Jutland and to pass the time he carried out a series of experiments in probability theory. In one, he tossed a coin 10,000 times. His results are shown in the graph. (The horizontal axis is on a log scale). PSE (I17) FSV StatSuppII 86 / 106

87 Sandsynlighed(risiko) Sandsynlighedsbegrebet Frekvensfortolkning Kerrichs eksperiment illustrerer den såkaldt frekventistiske tilgang til sandsynlighedsbegrebet. Lad A repræsentere en hændelse, som kan observeres i forbindelse med et eksperiment. Fex A= Kerrich slår krone. Vi gentager eksperimentet nogle gange og kan beregne relativ frekvens af A = Vi definerer så sandsynligheden for A: antal gange vi ser A antal eksperimenter Prob(A)=relativ frekvens af A, når antal eksperimenter er mega stort PSE (I17) FSV StatSuppII 87 / 106

88 Sandsynlighed(risiko) Betinget sandsynlighed Sandsynlighed givet en hændelse Betragt ovenstående krydstabel fra sundby. Relativ frekvens af Meget god: Rf (Meget god) = = 28.7% Relativ frekvens af Meget god givet der er tale om en kvinde: antal Meget god og kvinde Rf (Meget god givet kvinde) = = 405 antal kvinder 1448 = 28.0% Vi betinger med hændelsen kvinde, dvs vi indskrænker os til delpopulationen af kvinder og beregner den relative frekvens. PSE (I17) FSV StatSuppII 88 / 106

89 Sandsynlighed(risiko) Betinget sandsynlighed Betinget sandsynlighed Generelt hvis A og B er 2 hændelser, som kan indtræffe i et gentaget eksperiment - fex svarer A til køn=kvinde og B til helbred=meget god - så er den relative frekvens af B givet A Rf (B givet A) = antal gange vi ser A og B antal gange vi ser A Når antal eksperimenter er mega stort, så oversættes dette til den betingede sandsynlighed af B givet A: Prob(B givet A) = Prob(A og B) Prob(A) En simpel omskrivning giver så Prob(A og B) = Prob(A) Prob(B givet A) også kaldet produktreglen. PSE (I17) FSV StatSuppII 89 / 106

90 Sandsynlighed(risiko) Uafhængighed af hændelser Uafhængighed af hændelser Antag at der vores population gælder at Prob(Meget god givet kvinde) = Prob(Meget god) Dvs sandsynligheden for Helbred=Meget god afhænger ikke af om vi har informationen køn=kvinde. Eller ækvivalent: Kvinder og mænd har samme sandsynlighed for Helbred=Meget god. Vi siger at hændelserne A og B er uafhængige hvis Prob(B givet A) = Prob(B) Indsættes dette i produktreglen fås den alternative formulering af uafhængighed: Prob(A og B) = Prob(A) Prob(B) PSE (I17) FSV StatSuppII 90 / 106

91 Sandsynlighed(risiko) Bayes regel Bayes regel Anvendes produktreglen for B givet A og A givet B ses at Prob(A og B) = Prob(A) Prob(B givet A) = Prob(B) Prob(A givet B) hvilket betyder at vi kan udlede Bayes regel Prob(B givet A) = Prob(A givet B) Prob(B) Prob(A) PSE (I17) FSV StatSuppII 91 / 106

92 Sandsynlighed(risiko) Bayes regel Eksempel: Yngre piger i Indien Antag at vi kender følgende sandsynligheder: Prob(fejlernæring)=0.1 Prob(anæmi)=0.05 Prob(fejlernæring givet anæmi)=0.5 Vi kan så beregne - hvad der ofte kaldes posterior sandsynligheden: Prob(anæmi givet fejlernæring)= Prob(anæmi) Prob(fejlernæring givet anæmi) Prob(fejlernæring) = = 0.25 Den såkaldte prior sandsynlighed Prob(anæmi) er lig med 5%. Når sundhedspersonalet vurderer at pigen er fejlernæret, så ændres sandsynligheden til Prob(anæmi givet fejlernæring), som er 25%. Et vigtigt hjælpemiddel i diagnostistik. PSE (I17) FSV StatSuppII 92 / 106

93 Frekvenser: Binomialfordelingen Estimation af risiko Antalstællinger af dikotom variabel Vi skal studere et eksperiment, hvor målingen er dikotom(binær), dvs der er 2 mulige udfald. Vi vil kode de 2 mulige udfald med D: Som kunne betyde syg(desased) H: Som kunne betyde rask(healthy) Vi indsamler nu en stikprøve af størrelse n, hvor vi optæller d: Antal individer, som viser status lig med D. h: Antal individer, som viser status lig med H. Vi er interesseret i Prob(status=D): Andel af populationen, som har status lig med D. Denne såkaldte risiko estimeres naturligt ved stikprøvens andel p = d n Populationens andel vil vi betegne med det græske bogstav π(pi), dvs p er et estimat for π. PSE (I17) FSV StatSuppII 93 / 106

94 Frekvenser: Binomialfordelingen Binomialfordelingen Eksempel Et ægtepar er bærere af en arvelig sygdom, hvor de begge har genotype AS, hvor A er et normalt gen og S er et sygdomsgen. Chancen for at de videregiver sygdomsgenet til et barn er 0.5. Hvis begge videregiver S til barnet,så vil barnet være sygt, dvs type D. Da forældrene videregiver uafhængigt af hinanden siger produktreglen: π = Prob(D) = = 0.25 Forældrene får 4 børn. Hvad er sandsynlighederne for henholdsvis 0,1,2,3,4 syge børn? d=0 syge: Chancen for rask er hver gang Da hændelserne er uafhængige siger produktreglen: Prob(d = 0) = = = PSE (I17) FSV StatSuppII 94 / 106

95 Frekvenser: Binomialfordelingen Binomialfordelingen Eksempel d=1 syg: 1. barn syg og de 3 sidste raske giver sandsynligheden Da der er 4 muligheder for hvilket barn, der er sygt får vi Prob(d = 1) = = d=2 syge: 1. og 2. barn syg og de 2 sidste raske giver sandsynligheden Der er 6 forskellige muligheder for hvilke 2 børn der er syge, dvs Prob(d = 2) = = Prob(d = 3) = = Prob(d = 4) = = PSE (I17) FSV StatSuppII 95 / 106

1 Populationer og stikprøver 4

1 Populationer og stikprøver 4 Indhold 1 Populationer og stikprøver 4 2 Data, indlæsning og editering i Stata 4 2.1 Stata datafil........................................ 4 2.2 Variables og Properties..................................

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver Hvad skal vi lave? 1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver 2 Sammenligning af 2 middelværdier Uafhængige stikprøver Uafhængige stikprøver -

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2 Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 Epidemiologi og Biostatistik Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 1 Statestik Det hedder det ikke! Statistik 2 Streptomycin til behandling af lunge-tuberkulose?

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test 1 Kontingenstabeller Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test 2 Logaritme- og eksponentialfunktion 3 Logistisk regression Sammenligning af odds for 2 grupper

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning Statistik Introduktion Deskriptiv statistik Sandsynslighedregning Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software:

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

2 Logaritme- og eksponentialfunktion 6

2 Logaritme- og eksponentialfunktion 6 Indhold 1 Kontingenstabeller 2 1.1 Krydstabeller....................................... 2 1.2 Forventede under nulhypotesen............................. 4 1.3 Ki-kvadrat test......................................

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Oversigt over emner I 1 Dataformater, indlæsning og editering

Oversigt over emner I 1 Dataformater, indlæsning og editering Oversigt Oversigt over emner I 1 Dataformater, indlæsning og editering Data Indlæsning af tekstfil i Rcmdr Data typer Omkodning af variable Hjælpesider 2 Stikprøvebegrebet 3 Gruppering og frekvenstabeller

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen. 1 Levetidsanalyse Overlevelsesfunktionen Censurering Kaplan-Meier estimatoren Hazard funktionen Proportionale hazards Multipel regression PSE (I17) FSV1 Statistik - 5. lektion 1 / 19 Overlevelsesfunktionen

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Signe, Helene, Marie, Amalie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40 Statistisk test Et statistisk test er en konfrontation

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Øvelser til basalkursus, 2. uge

Øvelser til basalkursus, 2. uge Øvelser til basalkursus, 2. uge Opgave 1 Vi betragter igen Sundby95-materialet, og skal nu forbedre nogle af de ting, vi gjorde sidste gang. 1. Gå ind i ANALYST vha. Solutions/Analysis/Analyst. 2. Filen

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere