IDRÆTSSTATISTIK BIND 1

Størrelse: px
Starte visningen fra side:

Download "IDRÆTSSTATISTIK BIND 1"

Transkript

1 IDRÆTSSTATISTIK BIND 1

2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN Bd.1

3 iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.

4 iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer

5 v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt

6 vi

7 INDHOLD vii Indhold 1 Data og beskrivende statistik Prik- og pindediagrammer Histogrammer Empiriske størrelser Grupperede data Kvalitative data Flerdimensionale data Anneks til Kapitel Opgaver til Kapitel Begreber fra sandsynlighedsteorien Sandsynlighedsrum Definition af sandsynlighedsmål Regneregler for sandsynligheder Betingede sandsynligheder og uafhængighed Stokastiske variable Diskrete stokastiske variable Kontinuerte stokastiske variable Stokastiske vektorer Diskrete stokastiske vektorer Kontinuerte stokastiske vektorer Marginale fordelinger Uafhængighed Betingede fordelinger Middelværdi og varians Opgaver til Kapitel

8 viii INDHOLD 3 Specielle fordelinger Normalfordelingen og relaterede fordelinger Normalfordelingen Den todimensionale normalfordeling χ 2 -fordelingen t-fordelingen F-fordelingen Diskrete fordelinger Binomialfordelingen Multinomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Den negative binomialfordeling Opgaver til Kapitel Normalfordelte data Fraktilsammenligning Ugrupperede observationer Grupperede data Transformation Anneks til Afsnit Én observationsrække med kendt varians Anneks til Afsnit Hovedpunkter til Afsnit Én observationsrække med ukendt varians Anneks til Afsnit Hovedpunkter til Afsnit To observationsrækker Test for varianshomogenitet Ens varians Forskellig varians Parrede observationer Anneks til Afsnit Hovedpunkter til Afsnit k observationsrækker Test for varianshomogenitet

9 INDHOLD ix Test for ens middelværdier Forskelle og ligheder i behandlingen af to og k observationsrækker Notation og test i forbindelse med en følge af modeller Anneks til Afsnit Hovedpunkter til Afsnit Lineær regression Lineær regression uden gentagelser Lineær regression med gentagelser Hypoteser om regressionsparametrene Korrelation og/eller regression Anneks til Afsnit Hovedpunkter til Afsnit Tosidet variansanalyse Anneks til Afsnit Hovedpunkter til Afsnit Opgaver til Kapitel Indeks I.1 5 Statistisk analyse Data Modelopstilling Modelkontrol Statistisk inferens Likelihood inferens Begreber fra generel testteori Approksimativ likelihood teori Afsluttende bemærkninger Opgaver til Kapitel Multinomialfordelte data Eksempler Inferens i én multinomialfordeling Test af simpel hypotese Uafhængighed af inddelingskriterier Inferens i flere multinomialfordelinger

10 x INDHOLD Homogenitet af flere multinomialfordelinger Fishers eksakte test Test for goodness of fit Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Poissonfordelte data Eksempler Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen Én observationsrække Inferens i flere fordelinger Poissonmodellen med proportionale parametre Den multiplikative Poissonmodel Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Ikke-parametriske test Fortegnstestet Rangtest Wilcoxons test for én observationsrække Wilcoxons test for to observationsrækker Kruskal-Wallis test Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren A.1 A.2 Rækker A.3 A.3 Dobbeltintegraler og partiel differentiation A.4 A.3.1 Dobbeltintegraler A.5 A.3.2 Partiel differentiation A.5 B Simulerede fraktildiagrammer B.1

11 INDHOLD xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1

12 xii INDHOLD

13 1 Data og beskrivende statistik Data og beskrivende statistik Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan eksempelvis være bestemmelser af kondital, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af personer. Ofte foretages disse målinger på den samme gruppe personer til forskellige tidspunkter for at vurdere effekten på disse størrelser af træning, konkurrence eller andre påvirkninger. Data kan også være resultater af konkurrencer eller turneringer indsamlet med henblik på at sammenligne personers eller holds præstationer. Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot, at en sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, F, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i F. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk vektor X hvis fordeling er bestemt af sandsynlighedsmålet P. Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det vanskeligste i en statistisk analyse. Mange faktorer spiller ind, når en model for data skal opstilles, for eksempel måden data er indsamlet på, information om den faglige problemstilling data skal

14 1.2 belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra forskellige sammenfatninger af data, såsom tabelleringer og/eller grafiske repræsentationer af data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være tilstrækkelig simpel fra et matematisk synspunkt, således at den er til at håndtere, og samtidig tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at kunne anvendes i den videre analyse. Som det vil fremgå af de kommende kapitler, er grafiske undersøgelser relevante på så at sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende eller deskriptiv statistik. Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data, der fremkommer enten ved at tælle eller ved at måle. For sådanne datasæt består de relevante fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2. Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt består af n observationer, og hvis værdierne x 1,x 2,...,x n af alle n observationer kendes, siges datasættet at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunkte mængder A 1,...,A m og i stedet for at angive de n observationer x 1,x 2,...,x n angiver man kun a 1,a 2,...,a m, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I så tilfælde omtales a 1,a 2,...,a m som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m, vælges sædvanligvis som intervaller på den reelle akse. En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én observationsrække på n observationer forstår vi n uafhængige observationer x 1,x 2,...,x n fra den samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1 betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugrupperede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Afsnit 1.6 nogle få bemærkninger om flerdimensionale data. I et anneks til kapitlet gøres der rede for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet er der en lille samling af opgaver.

15 1 Data og beskrivende statistik 1.3 I kapitlet betragter vi blandt andet de 3 nedenstående eksempler. Eksempel 1.1 De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Undersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. december 1968 til 3. marts Der blev foretaget 14 forskellige målinger på hvert barn og blandt disse var målinger af højden. Blandt børnene var der 247 piger, der på undersøgelsestidspunktet var mellem 10 og 12 år. Målingerne af højden (i cm) af disse piger er angivet i Tabel 1.1. Højden er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev målt og angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet målt i mm og - som her - angivet i cm ville datasættet være grupperet Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen år. Eksempel 1.2 Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-

16 Prik- og pindediagrammer tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel Tabel 1.2 Kondital for 20 eliteidrætsudøvere. Eksempel 1.3 I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen For hvert af 12 hold er vist antal kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal mål for, antal mål imod og antal point (p) for henholdsvis hjemmebanekampe, udebanekampe og totalt. Samtlige variable er kvalitative. Tabel 1.3 Resultatet af Faxe Kondi Ligaen Prik- og pindediagrammer Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et koordinatsystem på følgende måde. For hver observation afsættes en prik over det punkt på førsteaksen, som svarer til værdien af observationen. (Af typografiske årsager bruger vi i stedet for til at repræsentere observationerne med.) Prikdiagrammet kan også benyttes til at ordne observationerne efter størrelse, hvis data ikke foreligger på elektronisk form.

17 1.5 Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1. Eksempel 1.1 (Fortsat) Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1. Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er antallet (eller det relative antal) af observationer i intervallet. Eksempel 1.1 (Fortsat) Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en intervallængde på 4 cm. Det tilsvarende pindediagram er vist i Figur Histogrammer Hvis data er kontinuerte, laver man ofte et histogram for at få et indtryk af, hvorledes tæthedsfunktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være af stor hjælp, når klassen af fordelinger i den statistiske model skal vælges. Et histogram konstrueres på følgende måde. De n observationer x 1, x 2,...,x n grupperes i

18 Histogrammer interval midtpunkt antal observationer ]112,116] ]116,120] ]120,124] ]124,128] ]128,132] ]132,136] ]136,140] ]140,144] ]144,148] ]148,152] ]152,156] ]156,160] ]160,164] ]164,168] Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm. Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.

19 1.7 et antal intervaller. Lad m betegne dette antal og lad t 1,t 2,...,t m og t 1, t 2,..., t m betegne henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af observationer i det j te interval og h j = a j /n den relative hyppighed af observationer i det j te interval, j = 1, 2,..., m, er histogrammet den trappefunktion h, der er givet ved h(t) = h j t j, hvis t ] t j t j 2, t j + t j 2 ]. (1.1) Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel, som har sidelængderne t j og h j / t j. Derfor er det totale areal under trappefunktionen h lig med 1, summen af de relative hyppigheder. Hvis de m intervaller har samme længde t, det vil sige hvis t 1 = t 2 = = t m = t, betragter man, for at lette beregningerne, ofte funktionen h(t) = n th(t) = a j, hvis t ] t j t 2, t j + t 2 ] (1.2) i stedet for h. En tegning af denne funktion kaldes også et histogram. Bemærk, at arealet under h er n t, og bemærk desuden lighedspunkterne mellem denne form for et histogram og pindediagrammet, som blev omtalt i Afsnit 1.1. Figurerne nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af figurerne, at det er vigtigt at vælge et passende antal intervaller for at få et indtryk af tæthedsfunktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk af tæthedsfunktionen og for få intervaller giver for groft et indtryk. De fleste statistiske programpakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller ofte n. For tallene i Tabel 1.1 er n 16, og antallet af intervaller i Figur 1.2 og 1.6 er henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende fordeling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret på normalfordelingen for højderne i Tabel Empiriske størrelser I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x 1, x 2,..., x n af størrelsen n af en kvantitativ variabel. Formålet med disse størrelser er at beskrive variationen af observationerne på forskellig måde. Først introduceres lidt notation vedrørende reference til observationerne og værdierne af observationerne.

20 Empiriske størrelser Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm. Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.

21 1.9 Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm. Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.

22 Empiriske størrelser Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm. Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.

23 1.11 Definition 1.1 Lad x 1,x 2,...,x n være en observationsrække af størrelsen n af en kvantitativ variabel. Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigende rækkefølge således at x (1) x (2) x (i) x (n). Rangen af observationerne defineres således: rang(x (i) ) = i, hvis x (i 1) < x (i) < x (i+1) rang(x (i) ) = = rang(x (i+k 1) ) = i+(k 1)/2, hvis x (i) = = x (i+k 1) (1.3) Rangen af observationen x (i) er altså i, hvis x (i) er den eneste observation med denne værdi, det vil sige hvis x (i 1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k 1) er lige store, det vil sige hvis x (i) = x (i+1) = = x (i+k 1), tildeles de alle rangen i + (k 1)/2, som er gennemsnittet af de k tal i,i+1,...,i+k 1. De ordnede værdier i stikprøven er de forskellige værdier y 1,y 2,...,y m, som observationerne i stikprøven antager, ordnet efter størrelse, det vil sige y 1 < y 2 < < y m. (1.4) For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede antal med k j, det vil sige at k j = a 1 + +a j. Bemærkning I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer, der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n af observationer i stikprøven. Eksempel 1.4 De forskellige størrelser i Definition 1.1 er illustreret i nedenstående tabel for 10 hypotetiske

24 Empiriske størrelser kondital. i x i x (i) rang(x (i) ) y i a i k i Definition 1.2 Den empiriske fordelingsfunktion F n svarende til observationerne x 1,x 2,...,x n er defineret ved F n (x) = #{i : x i x}, x R. (1.5) n Den empiriske fordelingsfunktion F n er altså en trappefunktion, hvis spring er multipla af 1/n og for ethvert x R er tallet F n (x) blot den relative hyppighed af observationer i datasættet som er mindre end eller lig med x. Helt præcist har F n spring i de m ordnede værdier y 1,y 2,...,y m og springet i y i er a i /n, i = 1,...,m, se Figur 1.9. Den empiriske fordelingsfunktion F n er fuldstændigt bestemt af sine fraktiler, der defineres således: Definition 1.3 For ethvert p [0,1] er p-fraktilen for den empiriske fordelingsfunktion F n mængden x p givet ved x p = {x R : F n (x ) p F n (x)}, hvor F n (x ) betegner grænseværdien fra venstre af F n i punktet x. Specielt kaldes x 0.50 ofte for den empiriske median, mens x 0.25 og x 0.75 kaldes henholdsvis nedre og øvre empiriske kvartil. Hvis vi supplerer notationen i Definition 1.1 med at sætte k 0 = 0 gælder der, at y j er p-fraktil for alle værdier af p i intervallet [ k j 1 /n,k j /n ]. I anvendelser er vi kun interesseret i at udpege

25 1.13 Figur 1.9 Den empiriske fordelingsfunktion F n for data i Eksempel 1.4. I den øverste figur er de valgte p-værdier antydet med og i den nederste figur er fraktilerne x p antydet med.

26 Empiriske størrelser nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) 2 y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) 3 y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n) j y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n) m y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt. én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet [ k j 1 /n,k j /n ], det vil sige p j = (k j 1 + k j )/(2n). Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5. Hvis p = k j /n, j = 1,...,m 1 er p-fraktilen et interval, nemlig x p = [ y j,y j+1 ], og vil vi blot udpege en enkelt værdi x p af x svarende til p forekommer det naturligt at vælge midtpunktet af dette interval, det vil sige x p = (y j + y j+1 )/2. Hvis k j /n < p < k j+1 /n, j = 0,...,m 1, er p-fraktilen x p blot punktet y j+1 og vi sætter x p = x p = y j+1. Beregningen af størrelserne x p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en værdi af p beregnes np. Hvis np = k j er x p = (y j + y j+1 )/2. og hvis k j < np < k j+1 er x p = y j+1. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur

27 og beregningsskemaet i Tabel 1.5 er nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % Vi viser nu beregningen af x p for udvalgte p-værdier: p = 0.10 np = 1 np = k 1 x 0.1 = (y 1 + y 2 )/2 = ( )/2 = 63.5 p = 0.25 np = 2.5 k 2 < np < k 3 x 0.25 = y 3 = 65.0 p = 0.50 np = 5 np = k 3 x 0.50 = (y 3 + y 4 )/2 = ( )/2 = p = 0.75 np = 7.5 k 5 < np < k 6 x 0.75 = y 6 = 69.8 p = 0.90 np = 9 np = k 6 x 0.90 = (y 6 + y 7 )/2 = ( )/2 = Definition 1.4 Fempunktsopsummeringen for en observationsrække x 1, x 2,..., x n af størrelsen n er angivelse af de fem fraktiler x p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil sige talsættet (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ). Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d = x 0.75 x Medianen x 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x 0.25 og x 0.75 afgrænser den centrale del. Kvartilafstanden er et mål for fordelingens spredning. Hvis vi kalder gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10% største observationer for fordelingens højre hale, angiver x 0.10 og x 0.90 hvor langt fordelingens haler ligger fra den centrale del. En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre for medianen, det vil sige hvis x 0.50 x p x 1 p x 0.50 for alle p ]0,0.5].

28 Empiriske størrelser I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er skikprøven venstreskæv, hvis den venstre hale ligger længst væk. Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som fremkommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den centrale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til x 0.10 og x 0.90 og endelig markeres observationer mindre end x 0.10 og eller større end x 0.90 med et. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er fempunktsopsummeringen (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (63.5,65.0,66.45,69.8,70.35) og kvartil afstanden er d = = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelingen højreskæv og dermed ikke er symmetrisk. Figur 1.10 Kassediagrammet for data i Eksempel 1.4. Den empiriske median og kvartilafstanden er mål for henholdsvis fordelingens position og bredde eller spredning. Alternative - og mere benyttede - mål for disse størrelser er: Definition 1.5 Den empiriske middelværdi x, den empiriske varians s 2 og den empiriske spredning s for en observationsrække x 1, x 2,..., x n af størrelsen n er: x = 1 n n i=1 x i, (1.6)

29 1.17 og s 2 = 1 n 1 s = s 2 = n i=1 1 n 1 (x i x ) 2 (1.7) n i=1 (x i x ) 2. (1.8) Bemærkning Som det ses er den empiriske middelværdi x blot gennemsnittet af observationerne. Den empiriske varians s 2 er et mål for variationen af observationerne. Det fremkommer ved at beregne en normeret sum af den kvadratiske afstand (x i x ) 2 mellem observationerne x i og gennemsnittet x, som et mål for hvor meget observationerne varierer omkring gennemsnittet. Hvis for eksempel målingerne x i er foretaget i enheden cm, er enheden for s 2, den empiriske varians, cm 2. Ved at betragte den empiriske spredning s fremkommer et mål for variationen der har samme enhed - i eksemplet cm - som de enkelte observationer. Den empiriske middelværdi x og den empiriske varians s 2 beregnes lettest ud fra S = n i=1 x i og SK = n i=1 Summen af observationerne og Summen af Kvadraterne af observationerne, idet x 2 i, x = S n (1.9) og n i=1 (x i x ) 2 = = n i=1 n i=1 (x 2 i + x2 2x i x ) x 2 i + n x 2 2 x = SK + n S2 n 2 2S n S = SK S2 n. n x i i=1 Idet størrelsen n i=1 (x i x ) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater - fås at s 2 = 1 n 1 SAK = 1 S2 (SK ). (1.10) n 1 n

30 Grupperede data Bemærk, at i denne formel optræder både S, som er summen af observationerne, og s, som er den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser bliver resultatet oftest katastrofalt forkert. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er S = og SK = , så ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimalers nøjagtighed - x = = 66.88, og s 2 = ( ) = s = = Grupperede data Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grupperede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af praktisk art, såsom at spare plads i tidsskrifter, bøger mm., og yderst sjældent videnskabelig. Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4 repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder den samme information som de oprindelige data. Statistiske procedurer bør benytte al information i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur, ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data også bliver omtalt her. Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 + a a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. Desuden lader vi t j = (y j + y j 1 )/2 betegne midtpunket af det j te interval, j = 1,...,m.

31 1.19 nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 y 1 t 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n 2 y 2 t 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n 3 y 3 t 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n j y j t j a j k j = a 1 + +a j p j = 100 k j /n m 1 y m 1 t m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n m y m t m a m k m = n p m = 100 Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data. For et grupperet datasæt kendes den empiriske fordelingsfunktion F n kun i de højre intervalendepunkter y 1,y 2,...,y m. Vi lader derfor p j = F n (y j ) = k j /n, j = 1,...,m, og for p = k j /n sætter vi x p = y j. Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6. Beregningerne af andre empiriske størrelser foretages ofte på grundlag af en ugrupperet version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j te interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelingsfunktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for den ugrupperede version, se Figur For k j /n < p < k j+1 /n sætter vi x p = t j+1. Størrelserne x p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j er x p = y j og hvis k j < np < k j+1 er x p = t j+1. Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende

32 Grupperede data størrelser for den ugrupperede version, det vil sige, at S = m m a j t j og SK = a j t 2 j, (1.11) j=1 j=1 hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil sige, at x = S n (1.12) og s 2 = 1 S2 (SK ). (1.13) n 1 n Eksempel 1.1 (Fortsat) Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11 ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske fordelingsfunktion for de grupperede data og den ugrupperede version af disse. Tabel 1.6 for de grupperede data i Tabel 1.4 ser således ud: nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % Fempunktsopsummeringen er (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (126,134,138,146,154).

33 1.21 Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse data. De valgte p-værdier antydet med.

34 Grupperede data Hvis for eksempel p = 0.75 er np = = , det vil sige at j = 8 og x 0.75 = t 9 = 146. Da bliver S = a j t j = og SK = a j t 2 j = j=1 j=1 x = = og s2 = ( ) = For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 således ud: nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (128,134,140,146,153). I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de grupperede data: data S SK x s 2 oprindelige (Tabel 1.1) grupperede (Tabel 1.4)

35 1.23 data x 0.10 x 0.25 x 0.50 x 0.75 x 0.90 oprindelige (Tabel 1.1) grupperede (Tabel 1.4) Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understreges igen, at når man som her har de oprindelige data til rådighed skal disse benyttes. Grunden til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede datasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til rådighed i denne situation. Det er - som nævnt indledningsvis - desværre ikke altid tilfældet. 1.5 Kvalitative data I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der foreligger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvantitativ - kontinuert - variabel idet navnene på kategorierne da svarer til de forskellige intervaller, som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt ordnes efter størrelse. Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppigheden - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis der er m kategorier og antallet af observationer i den j te kategori er a j, j = 1,...,m, er den relative hyppighed for den j te kategori h j = a j /n. Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategorier suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I et søjlediagram illustreres antallet af observationer a j i den j te kategori som søjler, der har en højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdiagram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne. Eksempel 1.3 (Fortsat)

36 Kvalitative data Tabellen nedenfor viser antallet af mål som de 12 superligaklubber har scoret på henholdsvis hjemme- og udebane. klub hjemme ude HB BIF AB VFF AAB SIF LCF FCK OB AGF VB EFB Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude),..., (EFB, ude). Søjlediagrammet for data er vist i Figur Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - pånær AGF - scorer relativt godt på udebane i modsætning til de to højest placerede klubber. For den enkelte klub har det måske større interesse at se påholdets præstationer på hjemmeog udebane. For AGF s vedkommende kan resultaterne i kampene resumeres således: AGF sejr uafgjort nederlag hjemme ude Her er der 6 kategorier med navne (hjemme, sejr),..., (ude, nederlag). Det tilsvarende søjlediagram i Figur 1.13 viser, at klubben er relativ stærk på hjemmebane men svag på udebane. Figur 1.14 viser blokdiagrammet, hvoraf det fremgår at små 80% (præcist 77.78%) af AGF s sejre er vundet hjemme. I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det har derfor ingen mening at regne empiriske størrelser såsom fraktiler, middelværdi og varians. Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og hvor beregning af numeriske størrelser er relevant.

37 !!" # $ % &'())( *+( 1.25,-. Figur 1.12 Antal mål scoret hjemme og ude af de 12 klubber i Superligaen / 40 / B76CC6D 9:;<7=8> Figur 1.13 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen

38 Kvalitative data Figur 1.14 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen i et blokdiagram. Eksempel 1.3 (Fortsat) Anden og tredje søjle i tabellen nedenfor viser fordelingen af mål i de 198 superligakampe i sæsonen Kategorierne 0, 1,..., 10 er numeriske. nummer antal antal kumulerede p mål kampe antal i % j x a k p Søjlediagrammet er vist i Figur De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet datasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan

39 ! "#$%& 1.27 Figur 1.15 Fordelingen af antal mål i de 198 kampe i superligaen fempunktsopsummeringen beregnes til (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (1,2,3,4,5). Da summen og kvadratsummen af antal scorede mål er S = a j x j = 573 og SK = a j x 2 j = 2265 j=1 j=1 er den empiriske middelværdi og empiriske varians for antal scorede mål henholdsvis x = = 2.89 og s 2 = ( ) = Flerdimensionale data Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observationerne betår af et enkelt tal. Ofte registreres mere end et tal for hver observation og vi taler da om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.

40 Flerdimensionale data Eksempel 1.5 Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt) for 8 forsøgspersoners venstre og højre ben. Forsøgsperson nummer venstre ben højre ben For hver af de 8 forsøgspersoner har vi to sammenhørende målinger af muskelglycogen i henholdsvis venstre og højre ben, så data er to-dimensionale. Lad (x 11,x 21 ),...,(x 1 j,x 2 j ),...,(x 1n,x 2n ) betegne en stikprøve af størrelse n af en to-dimensional variabel. Foruden at få et indtryk af de to stikprøver x 11,...,x 1 j,...,x 1n og x 21,...,x 2 j,..., x 2n bestående af henholdsvis første og anden komponenterne, er det også vigtigt at få et indtryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne (x 1 j,x 2 j ), j = 1,...,n, i et koordinatsystem. En numeriske størrelse, der angiver et mål for samvariationen af komponenterne i et todimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver vi noget notation. For i = 1,2 lader vi S i, SK i, SAK i, x i og s 2 i betegne henholdsvis Summen af observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater, den empiske middelværdi og den empiriske varians for den i te komponent af observationerne, det vil sige SAK i = S i = n j=1 n n x i j, SK i = x 2 i j, j=1 j=1 x i = S i n, (1.14) (x i j x i ) 2 = SK i S2 i n, s2 i = 1 n 1 SAK i. (1.15) Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes Produkter, det vil sige SP = n x 1 j x 2 j, SAP = j=1 n j=1 (x 1 j x 1 )(x 2 j x 2 ) = SP S 1S 2 n. (1.16)

41 1.29 Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som r = n n j=1 (x 1 j x 1 )(x 2 j x 2 ) = (x 1 j x 1 ) 2 n (x 2 j x 2 ) 2 j=1 j=1 SAP SAK1 SAK 2, (1.17) antager værdier i intervallet [ 1, 1]. Fortolkningen af r er, at for store værdier af r optræder store(små) værdier af første komponenten sammen med store(små) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med positiv hældning. Hvis omvendt r er lille optræder store(små) værdier af første komponenten sammen med små(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med negativ hældning. Hvis r er tæt på 0 er der ingen sammenhæng mellem første og anden komponenten. Eksempel 1.5 (Fortsat) Tegningen af data i Figur 1.16, antyder en positiv korrelation. For data her er venstre ben n 8 højre ben S SK SP Ved hjælp af formlerne (1.14) - (1.17) finder vi, x 1 = SAK 1 = s 2 1 = = , x 2 = = , = , SAK 2 = = , s 2 2 = = , = , og SAP = r = = =

42 Flerdimensionale data Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

IDRÆTSSTATISTIK BIND 2

IDRÆTSSTATISTIK BIND 2 IDRÆTSSTATISTIK BIND 2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-07-8 Bd.2 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Statistik i løb Supplerende opgaver

Statistik i løb Supplerende opgaver Statistik i løb Supplerende opgaver Preben Blæsild Lars Bo Kristensen 7 SUPPLERENDE OPGAVER Opgave 7.1 Fosforindholdet i letmælk angives til at være 170 µg/100g. I en stikprøve på 20 mælkekartoner blev

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag Jens Ledet Jensen på data, og statistik er derfor et nødvendigt værktøj i disse sammenhænge. Gennem konkrete datasæt og problemstillinger giver Statistik viden fra data en grundig indføring i de basale

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Introduktion til sandsynlighedsregning

Introduktion til sandsynlighedsregning Jens E. Overø Introduktion til sandsynlighedsregning Samfundslitteratur Jens E.Overø Introduktion til sandsynlighedsregning 1. udgave 1992 1. udgave, 2. oplag 2001 Samfundslitteratur 2001 Grafisk tilrettelæggelse:

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Juni 2013 Roskilde

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 4. november 23 Indhold 1 Elementære empiriske mål 1 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3.1 Grundlæggende

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin aug-juni 10/11 Institution Campus Vejle Handelsgymnasie Uddannelse Fag og niveau Lærer(e) Hold HHX Statistik

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 23 september 24 Indhold Elementære empiriske mål 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3 Grundlæggende

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Ventetider i en Poissonproces Beskrivelse af kontinuerte fordelinger: - Median og kvartiler - Middelværdi - Varians Simultane fordelinger 1 Ventetider i en Poissonproces

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

brikkerne til regning & matematik statistik preben bernitt

brikkerne til regning & matematik statistik preben bernitt brikkerne til regning & matematik statistik 2+ preben bernitt brikkerne til regning & matematik statistik 2+ 1. udgave som E-bog ISBN: 978-87-92488-33-6 2009 by bernitt-matematik.dk Kopiering af denne

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

2 Populationer. 2.1 Virkelige populationer

2 Populationer. 2.1 Virkelige populationer 2 Populationer I en statistisk sammenhæng er en population en samling af elementer, fx personer, virksomheder, lande, kunder eller mere abstrakte objekter. Fra en population kan man udtage en stikprøve.

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Statistik. Hjemmeside:  kkb. Statistik - lektion 1 p.1/22 Statistik Kursets omfang: 2 ECTS Inklusiv mini-projekt! Bog: Complete Business Statistics, AD Aczel & J. Sounderpandian Software: SPSS eller Excel?? Forelæser: Kasper K. Berthelsen E-mail: kkb@math.aau.dk

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m. 1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kvantitative Metoder 1 - Efterår 2006. Dagens program

Kvantitative Metoder 1 - Efterår 2006. Dagens program Dagens program Afsnit 1.7-1.8 Fødselsdagseksemplet, fra sidst Eksperimenterikkealleerligesandsynlige Diskrete sandsynlighedsfordelinger -Definition af sandsynligheder - Regneregler Hvad er sandsynligheder?

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave Noter til Statistik Lisbeth Tavs Gregersen 1. udgave 1 Indhold 1 Intro 3 1.1 HF Bekendtgørelsen........................ 3 1.2 Deskriptiv statistik......................... 3 2 Ikke-grupperet Talmateriale

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning Statistik Introduktion Deskriptiv statistik Sandsynslighedregning Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software:

Læs mere