Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning



Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Kvantitative Metoder 1 - Forår Dagens program

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Basal statistik. 30. januar 2007

Kapitel 3 Centraltendens og spredning

Definition. Definitioner

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Susanne Ditlevsen Institut for Matematiske Fag susanne

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Normalfordelingen og Stikprøvefordelinger

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Forelæsning 1: Intro og beskrivende statistik

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Indblik i statistik - for samfundsvidenskab

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.


Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Sandsynlighedsregning Stokastisk variabel

Produkt og marked - matematiske og statistiske metoder

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

4 Oversigt over kapitel 4

Hvad skal vi lave i dag?

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Repetition Stokastisk variabel

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Module 2: Beskrivende Statistik

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Kapitel 3 Centraltendens og spredning

Undervisningsbeskrivelse

Matematikkens mysterier - på et obligatorisk niveau. 9. Sandsynlighedsregning

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Nanostatistik: sandsynligheder Kursushjemmeside: kurser/nanostatistik/

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Tema. Dagens tema: Indfør centrale statistiske begreber.

MM501 forelæsningsslides

Allan C. Malmberg. Terningkast

Kvantitative Metoder 1 - Forår 2007

Monotoniforhold Der gælder følgende sætninger om en differentiabel funktions monotoniforhold:

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Note til styrkefunktionen

Kvantitative Metoder 1 - Forår 2007

Løsninger til kapitel 1

Statistiske modeller

Fig. 1 Billede af de 60 terninger på mit skrivebord

for gymnasiet og hf 2016 Karsten Juul

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.


Statistik og Sandsynlighedsregning 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Eksempel 1.1: kvalitetskontrol

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Statistik i basketball

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Konfidensintervaller og Hypotesetest

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistiske data. Datamatricen. Variable j. ... X ij = x ij... Anonymiserede og ækvivalente dataindivider. Datamodellen

Statistik og Databehandling N: sandsynligheder Kursushjemmeside: statdatabehandling/f06/

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Elementær sandsynlighedsregning

Transkript:

Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden Start 8:15!!!! Kursusgang: 2 x 45 min forelæsning + opgaveregning Indhold: Groft sagt kapitel 1 til 11 i Newbold Eksamen: Individuel mundtlig efter 7-trins skala Eksamen tager udgangspunkt i et antal opgaver. Software: SPSS

Flyskræk! Passer overskriften? Politiken 6/12-07 Er du tryg ved at flyve? Ja: 86% i 2005 83% i 2007 Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? Svaret kommer til sidst i kurset ;-)

Nogle definitioner Population: Mængden af alle individer vi er interesserede i. fx alle virksomheder i DK Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte Stikprøve (sample): Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Typisk statistisk problemstilling Vi ønsker at udtale os om en population (alle flyrejsende) ud fra en stikprøve (et udsnit af de flyrejsende). Vi vil udtale os om en parameter for populationen (andelen af trygge flyrejsende) ud fra en stikprøve statistik (andelen af trygge flyrejsende i stikprøven). Parameteren er aldrig kendt! Vigtigt: Vi er ligeglade med medlemmerne af stikprøven! Det er populationen vi vil udtale os om!

Lidt om stikprøver Simpel tilfældig stikprøve: Alle medlemmer i populationen har lige stor sandsynlighed for at blive udvalgt til stikprøven Notation: N : Størrelsen af populationen (alle vælgere) n : Størrelsen af stikprøven (antal udvalgte) Population Stikprøve:

Deskriptiv versus inferential statistik Deskriptiv statistik: Metoder til at organisere og præsentere data på en informativ måde. Inferential statistik Omhandler: Estimation, test af hypoteser, analyse af sammenhæng og forudsigelse. Eksempel: Hvad er middel-indkomsten i region nord? Er den større en 300.000?

Deskriptiv Statistik Data består af en eller flere variable, fx højde, køn, alder, favoritfarve for hvert medlem i stikprøven. Hvordan data (de enkelte variable) opsummeres / beskrives afhænger bl.a. datas natur. Hovedopdeling: Kategorisk eller numerisk variabel Kvalitativ variabel: Kategorisk variabel, forskelle giver ikke mening. Kvantitative variable: numerisk variabel, forskelle giver mening.

Kategoriske variable Variable hvis værdi er en kategori, fx. Ryger: Ja, Nej Godt vejr: Meget enig, devis enig,, meget uenig Favoritfarve: Rød, grøn, anden Ordinal kategorisk variabel Kategorierne har en rækkefølge (Godt vejr) Nominal kategorisk variabel Kategorierne har ikke en rækkefølge (Favoritfarve)

Deskriptiv statistik: Kategoriske variable Kategorisk variable opsummeres typisk i et bar plot Højden af baren svarer til frekvensen (dvs. antallet) af medlemmer af hver kategori. Antal Andele Kumulative andele: Andelen af observationer der tilhører denne eller tidligere kategorier.

Numerisk Variabel Variabel der tager en talværdi. Diskret numerisk variabel Variabel kan tage et tælleligt antal værdier Typisk udtryk for et antal Fx. antal forsikring-anmeldelser på en uge Kontinuert numerisk variabel Variabel kan tage alle værdier i et interval Typisk udtryk for noget man kan måle. Fx. Højde, vægt, tid, afstand. Indkomst?

Histogram Numeriske data præsenteres typisk med et histogram Histogrammet inddeler et interval i et passende antal delintervaller For hvert del interval er en kasse, hvis areal er proportional med frekvensen (dvs. antallet) af data i det interval.

Percentiler Det P te percentil er den værdi, hvor P% af data ligger under. Antag vi har en stikprøve med n observationer. Antag observationerne er sorterede. Den P te percentil er (ca) givet ved den (n+1)p/100 te observation. Eksempel: Antag n = 75 og P = 25. Find en værdi, så 25% af data ligger under denne værdi. Løsning: Vælg data punkt nr. 76*25/100 = 19

Kvartiler Kvartiler inddeler data i kvarte. 1., 2. og 3. kvartil svarer til 25., 50., og 75. percentiler. 25% af data ligger under 1. kvartil (Q 1 ) 50% af data ligger under 2. kvartil (Q 2 ) 75% af data ligger under 3. kvartil (Q 3 )

Centralitet og Variation χ χ χ χχ χ χ χ χ χ χχχ χ χ χ 0 0 Centralitet: Mål for hvor data ligger Fx: Median, middelværdi, toppunkt (mode) Variation: Mål for hvor meget data er spredt ud Fx spænd (range), varians, standard afvigelse

Centralitet: Median Medianen er værdien af den midterste observation. Medianen er 50% percentilen og 2. kvartil. n = antal observationer n ulige : Medianen = midterste observation n lige : Medianen = gennemsnit af to midterste obs. medianen medianen? χ χ χχχ χ χ χ χ χχχ χ χ 0 0 Data: 7, 9, 11, 12, 13, 15, 17 n = 7

Gennemsnit / Middelværdi Populationens gennemsnit (ukendt) (mean) N x x + x + = = 1 1 2 L μ = N N i i + x i er værdien for i te medlem i populationen. μ = my Stikprøve-gennemsnit (sample mean) x x + x + x = = 1 1 2 L = n n = x streg. x n i i + Bemærk: Græske bogstaver betegner det ukendte. x x n N

Gennemsnit: Eksempel Stikprøve-gennemsnit x n x x + x + = = 1 1 2 L = n n i i + x n Stikprøve-gennemsnit x = 7 + 9 + 11+ 12 + 13 + 15 + 17 7 = 12 x =? 0 χ χ χχχ χ χ 0 χ χ χχχ χ χ

Eksempel: Vægt Bemærk at vægt-fordelingen er lidt højre-skæv, dvs. fordelingen hælder til højre.

Variansen Variansen er et mål for variationen. Populationensvariansen (ukendt) σ σ = sigma Stikprøve-varians s ( x ) N 2 i = 1 i μ 2 = 2 De n-1 sikrer at s 2 i gennemsnit er lig σ 2. n N ( x x) i 1 = i= n 1 2

Varians: Eksempel Stikprøve-gennemsnit Stikprøve-gennemsnit s 2 n ( x x) 1 = i= n 1 i 2 s 2 2 2 2 (7 12) + (9 12) + (11 12) + (12 12) = 7 1 11,67 2 + (13 12) 2 + (15 12)? 2 + (17 12) 2 0 χ χ χχχ χ χ? 0 χ χ χχχ χ χ 0 χ χ χχχ χ χ

Standardafvigelsen Standardafvigelsen er kvadratroden af variansen Populationens standard afvigelsen (ukendt) σ Stikprøve-standard afvigelsen ( x ) N 2 i = i μ 2 1 = σ = N ( x x) 2 i 1 s = s = = n 1 n i 2

Sammen middelværdi og varians (ca.)

Chebychevs Sætning Antag vi har en population med middelværdi μ standard afvigelse σ For enhver konstant k > 1 gælder at intervallet μ ± kσ indeholder mindst 100[1-(1/k 2 )]% af populationen. Eksempel: k = 2 100[1-(1/k 2 )]% = 100[1-1/4]% = 75% Dvs. intervallet μ ±2 σ indeholder mindst 75%. For forrige slide (ca.) 0 ± 2* 5 = [ -4.48 ; 4.48 ]

Tommelfinger regel For mange (store) populationer gælder μ ± σ indeholder 68% af populationen μ ±2 σ indeholder 95% af populationen μ -2 σ μ + 2 σ 0 χ χ χχχ χ χ μ

Eksempel: Vægt x 2s x + 2s x ± 2s = 71,05 ± 2 13,92 [43,21; 98.92] x

Sandsynligheder Hændelser Sandsynligheder Regler for sandsynligheder

Udgangspunktet Eksperiment: Handling, der leder frem til et af flere mulige udfald Fx. Kast med en terning Vælg 10 tilfældige virksomheder. Udfald: Observation eller måling Fx: Antal øjne på en terning 10 navngivne virksomheder.

Udfaldsrum Udfaldsrummet er mængden af mulige udfald af eksperimentet, S = {O 1,O 2,,O k } Udfaldene skal være udtømmende Eksempler: Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} dur ikke! Møntkast: S={plat, krone} S={plat} dur ikke O i er i te udfald af k mulige. Udfaldene må ikke overlappe Terningkast: S={1,2,3,4,5,6} S={1-2,2-3,3-4,4-5,5-6} dur ikke!

Hændelser En simpel hændelse er et udfald i udfaldsrummet Eksempel: Terningkast en 6 er er en simpel hændelse En hændelse er en mængde af en eller flere simple hændelser i et udfaldsrummet Eksempel: Terningkast A={1,4,6} er en hændelse Hændelser kan indtegnes i et Venn diagram Venn Diagram A 1, 4, 6 2,3,5 S

Sandsynlighed En sandsynlighed er et kvantitativt mål for usikkerhed et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. Sandsynligheden for en hændelse, A, betegnes P(A) En sandsynlighed er et reelt tal mellem 0 og 1. P(A) = 0 : Hændelsen A sker aldrig P(A) = 1 : Hændelsen A sker altid Ex: Sandsynligheden for regn i morgen er 0,5 Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001

Klassisk Sandsynlighed Antag at alle udfald forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet ved: hvor ( A) N N N A er antal udfald i hændelsen A. N er antal udfald i udfaldsrummet S. P = A Eksempel: Terningkast lige sandsynlighed for alle udfald. Lad A={1,2,4} N A = 3 N = 6 P(A) = 3/6 = 0.5

Regler for sandsynlighed Givet et udfaldsrum S={O 1, O 2,, O k } da skal sandsynlighederne opfylde: 1) For enhver hændelse A i udfaldsrummet S 0 P( A) 1 Dvs. sandsynlighden for en hændelse er et tal mellem 0 og 1. 2) For enhver hændelse A i udfaldsrummet S r P ( A) = P( O ) O A Dvs. sandsynligheden for en hændelse er summen af sandsynlighederne for de simple hændelser indeholdt i A. 3) P(S) = 1 i Dvs summen af sandsynlighederne for alle simple hændelser i ufladsrummet er 1. i

Komplimentærmængden Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} A 1, 4, 6 Ā 2,3,5 S Spørgsmål: Antag vi kender P(A). Find P(Ā) =

Fællesmængden Fællesmængden af A og B, A B, er mængden, der indeholder de elementer, der er i både A og B A A B 1, 2 3 4, 5 B 6 S Eksempel: A = {1,2,3}, hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5}, hændelsen at vi slår 3,4 eller 5 øjne. A B, hændelsen at både A og B indtræffer. A B = {3}

Foreningsmængden Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge S A 1, 2 3 4, 5 B 6 A U B Eksempel: A = {1,2,3}, hændelsen at vi slår 1,2 eller 3 øjne. B = {3,4,5}, hændelsen at vi slår 3,4 eller 5 øjne. A B, hændelsen at A og/eller B indtræffer. A B = {1,2,3,4,5}

Spørgsmål Antag vi kender følgende sandsynlighed P(A) P(B) P(A B) Hvad er sandynligheden for A B P(A B ) = A A B 1, 2 3 4, 5 B 6 S

Den tomme mængde Den tomme mængde betegnes Ø P(Ø) = To mængder er disjunkte, hvis fællesmængden A B=Ø A={1,2,3} B={4,5} A B={Ø} A 1, 2, 3 4, 5 6 B S Dvs to disjunkte hændelser ikke kan indtræffe på samme tid (mutually exclusive). Antag A B=Ø. Hvad er da P(A B) =?