statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

Størrelse: px
Starte visningen fra side:

Download "statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag"

Transkript

1 Jens Ledet Jensen på data, og statistik er derfor et nødvendigt værktøj i disse sammenhænge. Gennem konkrete datasæt og problemstillinger giver Statistik viden fra data en grundig indføring i de basale principper i en statistisk analyse. Bogen introducerer en række simple modeller og test inden for disse. Vægten ligger på baggrunden og på forståelse af metoderne, men bogen indeholder desuden en lang række opgaver, der kan bruges i et kursusforløb. Statistik viden fra data henvender sig til alle, der enten direkte i egen forskning eller gennem læsning af litteratur skal forholde sig til konklusioner baseret på data. Jens Ledet Jensen er professor i teoretisk statistik ved Aarhus Universitet. Aarhus Universitetsforlag a statistik statistik økonomisk-politiske diskussioner er i dag funderet statistik viden fra data Mange videnskabelige discipliner såvel som mange viden fra data Aarhus Universitetsforlag Omslag_StatistikViden.indd 1 10/01/

2 Statistik viden fra data

3

4 Statistik viden fra data JENS LEDET JENSEN Aarhus Universitetsforlag

5

6 Indhold Forord 1 Den basale statistiske tankegang 1 Mendels ærteeksperiment 1.1 Uddybning: Sandsynligheder og stokastiske variable Uddybning: Binomialfordelingen Proteinstruktur Poissonmodellen og konfidensinterval 11 Erlangs telefoncentral 2.1 Uddybning: Approksimation til poissonsandsynligheder Uddybning: Antal betydende cifre Testkatalog: Poissonfordelte data Binomialmodellen og p-værdi 23 Pige- og drengefødsler 3.1 Uddybning: Middelværdi og varians Testkatalog: Binomialfordelte data Normalfordelingen 37 Diffusion og brownsk bevægelse 4.1 Uddybning: Middelværdi og varians af kontinuert stokastiskvariabel Uddybning: Generel normalfordeling v i

7 ii Indhold 5 Goodness of fit test 49 Lamberts fejlkurve 5.1 Uddybning: χ 2 (f )-fordelingen Uddybning: Multinomialfordelingen Historien om de knapt så fede unge Testkatalog: Multinomialfordelte data Ét normalfordelt observationssæt 69 Cavendishs måling af jordens massetæthed 6.1 Fraktilsammenligning Skøn over middelværdi og varians Test og konfidensinterval for middelværdien Uddybning: t-fordelingen Konfidensinterval for variansen Testkatalog: Ét normalfordelt datasæt To normalfordelte observationssæt med samme varians 87 Placeboeffekten 7.1 Placeboeffekten Uddybning: Konfidensinterval for forskel i middelværdien Uddybning: Konfidensinterval for fælles varians Uddybning: Parret sammenligning To normalfordelte observationssæt med forskellig varians 99 Måling af lysets hastighed 8.1 Målte Michelson og Newcomb den samme lyshastighed? Uddybning: Konfidensinterval for forskel i middelværdien Uddybning: Udbredelse af fejl Kombination af to middelværdiskøn Testkatalog: To normalfordelte datasæt Lineær regression 121 Hubbles lov 9.1 Estimation og modelkontrol Uddybning: Udledning af bedste rette linje Uddybning: Fordeling af estimater Test og konfidensintervaller Regression med kendt skæring Linjens værdi i t Misbrug af den lineære sammenhæng

8 Indhold iii 9.6 Multipelregression Testkatalog: Lineær regression Generel lineær model 139 Diamonds are forever 10.1Data Faktorer Generel middelværdimodel Estimater Har jeg råd til en diamant med et højere karattal? Generel lineær model: Hypotese og test Statistik-programpakke Output fra programpakke Parameterestimater Tosidetvariansanalyse Afsluttende bemærkninger Testkatalog: Generel lineær model Appendikser 165 A Udregninger i R 167 B Fordelinger i R, MATLAB og Excel 179 C Tabeller 181 C.1 Standard normalfordelingsfunktion C.2 Fraktiler i standard normalfordeling C.3 Fraktiler i χ 2 -fordeling C.4 Fraktiler i t-fordeling C.5 Fraktiler i F-fordeling D Opgaver 191 Indeks 239 Oversigt over testkataloger Poissonfordeltedata Binomialfordeltedata Multinomialfordeltedata Étnormalfordeltdatasæt Tonormalfordeltedatasæt Lineærregression Generellineærmodel...164

9

10 Forord Denne bog er beregnet til et syv-ugers introducerende kursus i statistik. Kurset består af forelæsninger og øvelser, hvor opgaverne i bogen regnes. Det forudsættes, at deltagerne har haft et indledende matematikkursus. Bogen beskriver en række simple statistiske modeller og inferens i disse. Hver model introduceres gennem et datasæt og en lille baggrundshistorie. De fleste af kapitlerne afsluttes med et afsnit med titlen Testkatalog, hvor de test, der er indført i kapitlet, gengives på tabelform. Bogen blev første gang trykt i 2007 og har gennemgået flere mindre revisioner. Bogen afviger på ét punkt fra normal dansk typografi: decimaladskillelsen er punktum i stedet for komma. Endvidere anvendes til at markere afslutningen af eksempler. Gennem hele processen med at skrive denne bog har Lars Madsen været en stor støtte gennem sin kompetente og kontante hjælp vedrørende alle LATEX-aspekter, såvel som ved sit skarpe blik for udseende og stil. Bogen er tilegnet mine døtre Elise og Thea. v

11

12 Kapitel 1 Den basale statistiske tankegang Mendels ærteeksperiment Synopsis 1.1. Den basale statistiske tankegang præsenteres gennem et eksempel. Undervejs introduceres sandsynligheder og binomialfordelingen. Gregor Mendel ( ) (portræt i Figur 1.1) var en østrigsk præst, der i en stor del af sit liv virkede som lærer og i den sidste del af sit liv fungerede som abbed på Sankt Thomas klosteret i Brunn (Tjekkiet). Derudover dyrkede han ærteplanter! I dag anses Mendel som grundlæggeren af genetik, selvom hans arbejde ikke blev anerkendt af samtiden. Mendel blev født den 22. juli 1822, og hans forældre var bønder. I 1843 begyndte han at studere ved Augustinerordenen i Brunn og blev præst i Han arbejdede derefter som lærer afbrudt i perioder af lærerstudier ved Wiens Universitet i matematik og biologi. I 1868 blev han abbed. I sit arbejde med ærteplanter fandt han blandt Figur 1.1: Gregor Mendel ( ) 1

13 2 Kapitel 1. Den basale statistiske tankegang andet, at egenskaber kan være styret af to alleler af et gen, hvor den ene allel kan være dominant, og den anden kan være recessiv. I artiklen Versuche über Pflanzenhybriden, Verhandlungen des naturforschenden Vereines in Brünn, 1865, studerede Mendel syv egenskaber ved ærteplanten, se Tabel 1.1. Tabel 1.1: Egenskaber ved ærteplanter. Karaktertræk Dominant Recessiv Form af modent frø Glat Rynket Farve af frøhvide Gul Grøn Farve af frøskal Grå Hvid Form af moden bælg Udspilet Indsnævret Farve af umoden bælg Grøn Gul Position af blomster Midtplaceret Topplaceret Længde af stængel Lang Kort Specifikt betragtede Mendel farven på den umodne ærtebælg. Hvis farven styres af de to alleller A og a, hvor A er dominant og a er recessiv, vil genotyperne AA og Aa give grønne bælge, og genotypen aa vil give gule bælge. Hvis man krydser grønne med grønne i mange generationer, vil man få en population, der næsten udelukkende består af genotypen AA. Krydser man nu grønne AA-er med gule aa-er, vil man få en population af grønne Aa-er. Hvis denne forståelse er rigtig, mente Mendel, at en krydsning af Aa-er med sig selv skulle give cirka lige mange af de fire genotyper AA, Aa, aa og aa og dermed en udspaltning i forholdet 1:3 af gule i forhold til grønne. I et af sine forsøg fik Mendel 580 nye planter, der fordelte sig som: Gule Grønne Total (1.1) Det spørgsmål, vi skal overveje, er, om data bekræfter Mendels hypotese om en 1:3 udspaltning. Hvis vi gentager forsøget og krydser 580 andre Aa med Aa, forventer vi ikke at få præcist det samme resultat som i (1.1). Vi kalder sådanne udsving for tilfældige variationer. Vi kan tydeliggøre dette ved at sammenligne med møntkast. Vi forventer at få cirka lige så mange krone som plat. Dette betyder dog ikke, at hvis vi kaster mønten 10 gange, så får vi krone 5 gange og plat 5 gange. Vi ved godt, at på grund af tilfældigheder vil vi i 10 kast nogle gange få 5 krone, andre gange 4 krone, atter andre gange få 6 krone, og så videre. Faktisk er det muligt, at vi ved 10 kast slet ikke får nogen krone. Hvis vi skal

IDRÆTSSTATISTIK BIND 2

IDRÆTSSTATISTIK BIND 2 IDRÆTSSTATISTIK BIND 2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-07-8 Bd.2 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

En Introduktion til Sandsynlighedsregning

En Introduktion til Sandsynlighedsregning En Introduktion til Sandsynlighedsregning 4. Udgave Michael Sørensen 26. juni 2003 0 Forord Til 2. udgave Disse forelæsningsnoter trækker i betydelig grad på noter udarbejdet af en række kolleger. Det

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Unges valg og fravalg i ungdomsuddannelserne

Unges valg og fravalg i ungdomsuddannelserne Unges valg og fravalg i ungdomsuddannelserne kvantitativt perspektiveret Peter Allerup, Lars Klewe & André Torre AARHUS UNIVERSITET INSTITUT FOR UDDANNELSE OG PÆDAGOGIK (DPU) www.forlag1.dk Unges valg

Læs mere

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp.

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp. Udarbejdet af Thomas Jensen og Morten Overgård Nielsen Indhold Introduktion til materialet. s. 2 Introduktion til chi i anden test. s. 4 Et eksempel hastighed og ulykker på motorveje s. 8 Sådan udregnes

Læs mere

SKRIFTLIGHED I DE N TURVIDENSKABELIG FAG

SKRIFTLIGHED I DE N TURVIDENSKABELIG FAG SKRIFTLIGHED I DE N TURVIDENSKABELIG FAG Indholdsfortegnelse INDLEDNING... 3 1. FORMLER... 4 2. FIGURFORKLARING... 5 3. FIGURFREMSTILLING... 7 4. ORDFORKLARING... 8 5. REGRESSION... 9 6. SAMMENHÆNGE I

Læs mere

KURSUSMATERIALE TIL DET NYE STATISTIKPENSUM

KURSUSMATERIALE TIL DET NYE STATISTIKPENSUM KURSUSMATERIALE TIL DET NYE STATISTIKPENSUM Det foreliggende udkast til kursusmateriale er lagt ud til orientering for kollegerne med henblik på at indhente kommentarer til materialet. Sammen med Susanne

Læs mere

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring

matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring 7. april 2011 Indhold 1 Undersøgelsesdesign 5 1.1 Kausalitet............................. 5 1.2 Validitet og bias......................... 6 1.3

Læs mere

Statistik for ankomstprocesser

Statistik for ankomstprocesser Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden

Læs mere

F I N N H. K R I S T I A N S E N KUGLE SIMULATIONER MÅLSCORE I HÅNDBOLD G Y L D E N D A L

F I N N H. K R I S T I A N S E N KUGLE SIMULATIONER MÅLSCORE I HÅNDBOLD G Y L D E N D A L RÆSONNEMENT & 1BE V I S F I N N H. K R I S T I A N S E N GNING 2 EGNEARK KUGLE 5 MÅLING SIMULATIONER 3 G Y L D E N D A L MÅLSCORE I HÅNDBOLD Faglige mål: Håndtere simple modeller til beskrivelse af sammenhænge

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 20. juni 2011 Indhold 1 Anvendelse af R på Databar-systemet på DTU 5 1.1 Adgang......................................

Læs mere

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4 Indholdsfortegnelse INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF OULATIONEN... 4 DELOGAVE 1...5 BEGREBSVALIDITET... 6 Differentiel item funktionsanalyser...7 Differentiel item effekt...10 Lokal

Læs mere

GRUNDLÆGGENDE STATISTIK

GRUNDLÆGGENDE STATISTIK Stephan Skovlund APRIL 2013 GRUNDLÆGGENDE STATISTIK Statistik med fokus på anvendelighed i erhvervslivet Statistik Excel - Dataanalyse Statlearn.com Indholdsfortegnelse FORORD... 6 KAPITEL 1: STATISTIKKENS

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Sandsynlighedregning

Sandsynlighedregning MOGENS ODDERSHEDE LARSEN Sandsynlighedregning + = - P(A B) = P(A) + P(B) P(A B). 1. udgave 2007 FORORD Dette notat giver en kort gennemgang af de grundlæggende begreber i sandsynlighedsregning. Det forudsættes,

Læs mere

Anvendelse af genetiske algoritmer til simulering af biologiske systemer

Anvendelse af genetiske algoritmer til simulering af biologiske systemer Anvendelse af genetiske algoritmer til simulering af biologiske systemer Projekt udarbejdet af: Glennie Helles Datalogisk vejleder: Peter Johansen Biologisk assistance: Leif Søndergaard Indholdsfortegnelse

Læs mere

χ 2 test Formål med noten... 2 Goodness of fit metoden (GOF)... 2 1) Eksempel 1 er stikprøven repræsentativ for køn? (1 frihedsgrad)...

χ 2 test Formål med noten... 2 Goodness of fit metoden (GOF)... 2 1) Eksempel 1 er stikprøven repræsentativ for køn? (1 frihedsgrad)... χ Indhold Formål med noten... Goodness of fit metoden (GOF)... 1) Eksempel 1 er stikprøven repræsentativ for køn? (1 frihedsgrad)... ) χ -fordelingerne (fordelingsfunktionernes egenskaber)... 6 3) χ -

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Allan C. Malmberg LÆR OM CHANCER! Sanne og Malene går på opdagelse med computeren

Allan C. Malmberg LÆR OM CHANCER! Sanne og Malene går på opdagelse med computeren Allan C. Malmberg LÆR OM CHANCER! Sanne og Malene går på opdagelse med computeren INFA 2005 Forord Denne INFA-publikation giver en indføring i arbejdet med begreber fra sandsynlighedernes verden. Den henvender

Læs mere

Copenhagen Business School

Copenhagen Business School Copenhagen Business School Hd. Finansiering Analyse af garanti obligationen Grøn Energi 2012-2016 Forfatter: Don Fischer Vejleder: Jesper Lund Afleveret d. 15. maj 2012 Indholdsfortegnelse Side 1. Indledning

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Uafhængighed et eksempel på en rød tråd i statistikken

Uafhængighed et eksempel på en rød tråd i statistikken Uafhængighed et eksempel på en rød tråd i statistikken Statistiknoter til TI-Nspire CAS version 3.1 Bjørn Felsager Revideret November 2011 329 Uafhængighed et eksempel på en rød tråd i statistikken Chi-i-anden-testen

Læs mere

Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of 117 05/02/10 13.49

Noter i statistik. Indholsfortegnelse. 2 - Beskrivende statistik. 3 - Fordelinger. 4 - Variation. 1 of 117 05/02/10 13.49 Noter i statistik Thomas Bendsen 2008 VIA University College Bioanalytikeruddannelsen Indholsfortegnelse 1 - Introduktion 1.1 - Introduktion 1.2 - Brug af disse sider 1.3 - Analysenavne 1.4 - DANAK 1.5

Læs mere

NATIONAL TEST MATEMATIK 3. OG 6. KLASSE

NATIONAL TEST MATEMATIK 3. OG 6. KLASSE NATIONAL TEST MATEMATIK 3. OG 6. KLASSE 10 10 331,25 22,75 1 1 08,50 Inspiration og vejledning Testen i matematik De nationale test i matematik er it-baserede test, der tegner et billede af, hvad elever

Læs mere

- Vejledning til brug af beregner af læseudvikling

- Vejledning til brug af beregner af læseudvikling Beregneren - progression i de nationale læsetest Læsevejledning og praktiske spørgsmål Vejledning indeholder 3 dele: 1. En indledning, som overordnet giver baggrunden for projektet Øget pædagogisk anvendelighed

Læs mere

Matematik for lærerstuderende Omega 4.-10. klassetrin

Matematik for lærerstuderende Omega 4.-10. klassetrin Matematik for lærerstuderende Omega 4.-10. klassetrin 71190_omega_4k.indd 1 27-06-2008 10:13:42 71190_omega_4k.indd 2 27-06-2008 10:13:42 John Schou, Jeppe Skott, Kristine Jess og Hans Christian Hansen

Læs mere

HD Finansiering. Copenhagen Business School. Afgangsprojekt forår 2012. Alternativer til VaR

HD Finansiering. Copenhagen Business School. Afgangsprojekt forår 2012. Alternativer til VaR HD Finansiering Copenhagen Business School Afgangsprojekt forår 2012 Alternativer til VaR Afleveringsdato: 14. maj 2012 Vejleder: Udarbejdet af: Robert Neumann Mie Birck Jensen Indholdsfortegnelse 1 Indledning...

Læs mere

Opgave nr. 5 og 31. Værdiansættelse af stiafhængige bermuda optioner, ved Least Squares Monte Carlo simulation.

Opgave nr. 5 og 31. Værdiansættelse af stiafhængige bermuda optioner, ved Least Squares Monte Carlo simulation. H.D.-studiet i Finansiering Hovedopgave - forår 2009 ---------------- Opgaveløser: Martin Hofman Laursen Joachim Bramsen Vejleder: Niels Rom-Poulsen Opgave nr. 5 og 31 Værdiansættelse af stiafhængige bermuda

Læs mere

På 2. forelæsning lavede vi test og resultatet blev 8,5 i gennemsnit i fejl på 10 ord.

På 2. forelæsning lavede vi test og resultatet blev 8,5 i gennemsnit i fejl på 10 ord. Øvelsen med afledninger og sammensætninger På 2. forelæsning lavede vi test og resultatet blev 8,5 i gennemsnit i fejl på 10 ord. Vi lavede herefter øvelse, hvor I havde læst en lille idealtekst og studeret

Læs mere