Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

R / RStudio. Intro til R / RStudio

Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Kvantitative Metoder 1 - Forår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Definition. Definitioner

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Normalfordelingen og Stikprøvefordelinger

Produkt og marked - matematiske og statistiske metoder

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo


Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Deskriptiv statistik for hf-matc

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kvantitative Metoder 1 - Forår 2007

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

4 Oversigt over kapitel 4

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Deskriptiv statistik for matc i stx og hf

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik II 1. Lektion. Analyse af kontingenstabeller

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Konfidensintervaller og Hypotesetest

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Tema. Dagens tema: Indfør centrale statistiske begreber.

Sandsynlighedsregning og statistik

Løsning til eksamen d.27 Maj 2010

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Note om Monte Carlo metoden

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Nanostatistik: sandsynligheder Kursushjemmeside: kurser/nanostatistik/

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Elementær sandsynlighedsregning

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Kapitel 3 Centraltendens og spredning

Indblik i statistik - for samfundsvidenskab

MM501 forelæsningsslides

Nanostatistik: Opgaver

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Dagens program. Afsnit Eksperimenter med usikkerhed Sandsynlighedsmodel - Udfaldsrum - Hændelser - Sandsynligheder Eksempler

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Statistik (deskriptiv)

Elementær sandsynlighedsregning

Basal statistik. 30. januar 2007

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Module 1: Data og Statistik

Løsning eksamen d. 15. december 2008

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kapitel 7 Forskelle mellem centraltendenser

Hvorfor er det lige at vi skal lære det her?

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Beskrivende statistik

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistiske modeller

2 Populationer. 2.1 Virkelige populationer

Nanostatistik: Stokastisk variabel

Basal statistik. 2. september 2008

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Statistik og Sandsynlighedsregning 2

Personlig stemmeafgivning

Nanostatistik: Stokastisk variabel

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

WORKSHOP 2C, DLF-kursus, Krogerup, 26. november 2015

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Transkript:

Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden Start 8:15?? Kursusgang: 2 x 45 min forelæsning + opgaveregning Indhold: Groft sagt kapitel 1 til 11 i Newbold Eksamen: Individuel mundtlig efter 7-trins skala Eksamen tager udgangspunkt i et antal opgaver. Software: R

Nogle definitioner Population: Mængden af alle individer vi er interesserede i. fx alle virksomheder i DK Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte Stikprøve (sample): Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Typisk statistisk problemstilling Vi ønsker at udtale os om en population (alle flyrejsende) ud fra en stikprøve (et udsnit af de flyrejsende). Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven). Parameteren for population er aldrig kendt! (i praksis) Vigtigt: Vi er ligeglade med medlemmerne af stikprøven! Det er populationen vi vil udtale os om!

Lidt om stikprøver Simpel tilfældig stikprøve: Alle medlemmer i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven Notation: N : Størrelsen af populationen (alle vælgere) n : Størrelsen af stikprøven (antal adspurgte vælgere) Population Stikprøve:

Deskriptiv versus inferential statistik Deskriptiv statistik: Metoder til at organisere og præsentere data på en informativ måde. Inferential statistik Omhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse. Eksempel: Hvad er middel-indkomsten i region nord? Er den større en 300.000?

Deskriptiv Statistik Data består af en eller flere variable, fx højde, køn, alder, favoritfarve for hvert medlem i stikprøven. Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas natur. Hovedopdeling: Kategorisk eller numerisk variabel Kvalitativ variabel: Variablens værdier er beskrivende, kategorisk variabel, forskelle giver ikke mening. Kvantitative variable: Variablens værdier er målinger, numerisk variabel, forskelle giver mening.

Kategoriske variable Variable hvis værdi er en kategori, fx. Ryger: Ja, Nej Godt vejr: Meget enig, devis enig,, meget uenig Favoritfarve: Rød, grøn, anden Ordinal kategorisk variabel (ordinal = ordnet) Kategorierne har en rækkefølge (Godt vejr) Nominal kategorisk variabel (nominal = navngiven) Kategorierne har ikke en rækkefølge (Favoritfarve)

Deskriptiv statistik: Kategoriske variable Kategorisk variable opsummeres typisk i et bar plot Højden af baren svarer til frekvensen (dvs. antallet) af medlemmer af hver kategori. 0 5 10 15 20 25-3 0 2 4 7 10 12

Numerisk Variabel Variabel der tager en talværdi. Diskret numerisk variabel Variabel kan tage et tælleligt antal værdier Typisk udtryk for et antal Fx. antal forsikring-anmeldelser på en uge Kontinuert numerisk variabel Variabel kan tage alle værdier i et interval Typisk udtryk for noget man kan måle. Fx. Højde, vægt, tid, afstand. Indkomst?

Histogram Numeriske data præsenteres typisk med et histogram Histogrammet inddeler et interval i et passende antal delintervaller For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval. Frequency 0 100 300 500 700 Histogram of mitdata$va 40 60 80 100 120 140 mitdata$vaegt

Percentiler Det P te percentil er den værdi, hvor P% af data ligger under. Antag vi har en stikprøve med n observationer. Antag observationerne er sorterede. Den P te percentil er (ca) givet ved den (n+1)p/100 te observation. Eksempel: Antag n = 75 og P = 25. Find en værdi, så 25% af data ligger under denne værdi. Løsning: Vælg data punkt nr. 76*25/100 = 19

Kvartiler Kvartiler inddeler data i kvarte. 1., 2. og 3. kvartil svarer til 25., 50., og 75. percentiler. 25% af data ligger under 1. kvartil (Q 1 ) 50% af data ligger under 2. kvartil (Q 2 ) 75% af data ligger under 3. kvartil (Q 3 ) Frequency 0 100 300 500 700 Histogram for vægt 40 60 80 100 120 140 mitdata$vaegt

Boxplot Et boxplot er en grafisk repræsentation af bl.a. kvartiler. Kassen angiver, hvor de midterste 50% af data ligger. Højden på kassen er forskellen mellem 3. kvartil og 1. kvartil, den såkaldte Inter Quartile Range (IQR). Knurhårene strækker sig ud til observationer, der ligger maks 1.5*IQR væk fra kassen. 3. kvartil Observationer, der ligger mere end 1.5*IQR borte kaldes Medianen outliers. 40 60 80 100 120 140 1. kvartil Outlier max 1,5*IQR IQR

Centralitet og Variation χ χ χ χχ χ χ χ χ χ χχχ χ χ χ 0 0 Centralitet: Mål for hvor data ligger Fx: Median, middelværdi, toppunkt (mode) Variation: Mål for hvor meget data er spredt ud Fx spænd (range), varians, standard afvigelse

Centralitet: Median Medianen er værdien af den midterste observation. Medianen er 50% percentilen og 2. kvartil. n = antal observationer n ulige : Medianen = midterste observation n lige : Medianen = gennemsnit af to midterste obs. medianen medianen? 0 χ χ χχχ χ χ 0 χ χ χχχ χ χ Data: 7, 9, 11, 12, 13, 15, 17 n = 7

Gennemsnit / Middelværdi Populationsgennemsnit (ukendt) (mean) N x x + x + = = 1 1 2 µ = N N i i + x i er værdien for i te medlem i populationen. μ = my Stikprøve-gennemsnit (sample mean) x x + x + x = = 1 1 2 = n n = x streg. x n i i + Bemærk: Græske bogstaver betegner det ukendte. x x n N

Gennemsnit: Eksempel Stikprøve-gennemsnittet x n x x + x + = = 1 1 2 = n n i i + x n Stikprøve-gennemsnittet x = 7 + 9 + 11+ 12 + 13+ 15 + 17 7 = 12 x =? 0 χ χ χχχ χ χ 0 χ χ χχχ χ χ

Eksempel: Vægt Histogram for vægt Minimum 1. kvartil Median Gennemsnit 3. kvartil Maksimum Antal manglende svar Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen hælder til højre. Frequency 0 100 300 500 700 40 60 80 100 120 140 mitdata$vaegt

Variansen Variansen er et mål for variationen. Populationsvariansen (ukendt) σ σ = sigma Stikprøve-variansen s ( x ) N 2 i = 1 i µ 2 = 2 De n-1 sikrer at s 2 i gennemsnit er lig σ 2. n N ( x x) i 1 = i= n 1 2

Varians: Eksempel Stikprøve-gennemsnit Stikprøve-gennemsnit s 2 n ( x x) 1 = i= n 1 i 2 s 2 2 2 2 (7 12) + (9 12) + (11 12) + (12 12) = 7 1 11,67 2 + (13 12) 2 + (15 12)? 2 + (17 12) 2 0 χ χ χχχ χ χ? 0 χ χ χχχ χ χ 0 χ χ χχχ χ χ

Standardafvigelsen Standardafvigelsen er kvadratroden af variansen Populationens standard afvigelsen (ukendt) σ Stikprøve-standard afvigelsen ( x ) N 2 i = i µ 2 1 = σ = N ( x x) 2 i 1 s = s = = n 1 n i 2

R Intro til R

R Ifølge wikipedia: R er et open source statstikprogram og programmeringssprog introduceret i 1993. Seneste version er 2.12.1 R kan downloades på www.r-project.org R er i udgangspunktet uden peg-og-klik Mere end 2000 pakker (udvidelser a la et plugin) Senere skal vi bruge en pakke specielt til økonometri I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux.

Start R Inden man starter R er det en god ide at lave en arbejdsmappe, hvor man samler datafiler og.r-filer (kommer vi til senere). Når R så er startet, så brug File Change dir til at vælge arbejdsmappen. Nu er vi klar!

Ændre default arbejdsmappe Tilføj --sdi

Se data I min arbejdsmappe har jeg en data-fil der hedder Sundby95.dat liggende. Hvis jeg åbner data-filen i Notepad ser den sådan ud: Data består af 6 kolonner, der hver svarer til en variabel. Bemærk: Variabelnavnet står øverst i række! Luk Notepad igen ellers går det bare galt ;-)

Hent data ind i R Vi er nu klar til vores første kommando! På kommandolinjen skriv: mitdata = read.table( Sundby95.dat, header=true) Dette læser data-filen ind i en tabel med navnet mitdata. Med tilføjelsen header=true har vi angivet at variabel navnet er angivet i øverste række i data-filen. Man kan se indholdet af tabellen mitdata, med flg. kommando: fix(mitdata) Man kan få hjælp ved at skrive?read.table

Sådan ser data ud Tænk på tabellen som en matrix med navngivne søjler. Luk Data Editor vinduet for at komme videre

Et hurtigt overblik Man kan få en opsummering af tabellen vha. summary(mitdata) Resultat: For kategoriske variable: Frekvenser for hver kategori. For kvalitative variable: Mindste værdi, 1. kvartil, median, middelværdi, 3. kvartil, største værdi, og antal manglende værdier. NA = Not Available manglende observationer.

Den enkelte variabel. Man kan se hvilke variable tabellen indeholder vha: Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med navnet vaegt frem vha. mitdata$vaegt. Gør man det får man listet BMI for alle 2742 deltagere lidt uoverskueligt! Vi kan få et overblik over vægt vha.

Et par plot Histogram Frequency 0 100 300 500 700 Histogram of mitdata$va 40 60 80 100 120 140 mitdata$vaegt Boxplot 40 60 80 100 120 140

Numeriske opsummeringer Middelværdi R vil ikke udregne gennemsnittet, når der mangler observationer. Percentiler (0%, 25%, 50%, 75%, 100%) Andre percentiler, fx. 5% og 95% Standardafvigelsen

Sandsynligheder Hændelser Sandsynligheder Regler for sandsynligheder

Udgangspunktet Eksperiment: Handling, der leder frem til et af flere mulige udfald Fx. Kast med en terning Vælg 10 tilfældige virksomheder. Udfald: Observation eller måling Fx: Antal øjne på en terning 10 navngivne virksomheder.

Udfaldsrum Udfaldsrummet er mængden af mulige udfald af eksperimentet, S = {O 1,O 2,,O k } Udfaldene skal være udtømmende Eksempler: (exhaustive) Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur ikke! Møntkast: S={plat, krone} S={plat} dur ikke O i er i te udfald af k mulige. Udfaldene må ikke overlappe Terningkast: S={1,2,3,4,5,6} S={1-2,2-3,3-4,4-5,5-6} dur ikke!

Hændelser En simpel hændelse er ett udfald i udfaldsrummet Eksempel: Terningkast en 6 er er en simpel hændelse En hændelse er en delmængde af udfaldsrummet. En hændelse består typisk af mange udfald. Eksempel: Terningkast : A={1,4,6} er en hændelse Hændelser kan indtegnes i et Venn diagram Venn Diagram A 1, 4, 6 2,3,5 S

Sandsynlighed En sandsynlighed er et kvantitativt mål for usikkerhed et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. Sandsynligheden for en hændelse, A, betegnes P(A) En sandsynlighed er et reelt tal mellem 0 og 1. P(A) = 0 : Hændelsen A sker aldrig P(A) = 1 : Hændelsen A sker altid Ex: Sandsynligheden for regn i morgen er 0,5 Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001

Klassisk Sandsynlighed Antag at alle udfald forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet ved: hvor N A er antal udfald i hændelsen A. N er antal udfald i udfaldsrummet S. P ( A) = N N A Eksempel: Terningkast lige sandsynlighed for alle udfald. Lad A={1,2,4} N A = 3 N = 6 P(A) = 3/6 = 0.5

Regler for sandsynlighed Givet et udfaldsrum S={O 1, O 2,, O k } da skal sandsynlighederne opfylde: 1) For enhver hændelse A i udfaldsrummet S 0 P( A) 1 Dvs. sandsynligheden for en hændelse er et tal mellem 0 og 1. 2) For enhver hændelse A i udfaldsrummet S P ( A) = P( O ) O A Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A. 3) P(S) = 1 Dvs summen af sandsynlighederne for alle simple hændelser i ufaldsrummet er 1. i i

Komplimentærmængden Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} A 1, 4, 6 Ā 2,3,5 S Spørgsmål: Antag vi kender P(A). Find P(Ā) =

Fællesmængden Fællesmængden af A og B, A B, er mængden, der indeholder de elementer, der er i både A og B A A B 1, 2 3 4, 5 B 6 S Eksempel: A = {1,2,3}, hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5}, hændelsen at vi slår 3,4 eller 5 øjne. A B, hændelsen at både A og B indtræffer. A B = {3}

Foreningsmængden Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge S A 1, 2 3 4, 5 B 6 A U B Eksempel: A = {1,2,3}, hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5}, hændelsen at vi slår 3,4 eller 5 øjne. A B, hændelsen at A og/eller B indtræffer. A B = {1,2,3,4,5}

Spørgsmål Antag vi kender følgende sandsynlighed P(A) P(B) P(A B) Hvad er sandynligheden for A B P(A B ) = A A B 1, 2 3 4, 5 B 6 S

Den tomme mængde Den tomme mængde betegnes Ø P(Ø) = To mængder er disjunkte, hvis fællesmængden A B=Ø A={1,2,3} B={4,5} A B={Ø} A 1, 2, 3 4, 5 6 B S Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive). Antag A B=Ø. Hvad er da P(A B) =?