Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Relaterede dokumenter
Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Kvantitative Metoder 1 - Forår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/


Nanostatistik: sandsynligheder Kursushjemmeside: kurser/nanostatistik/

Sandsynlighedsregning

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Definition. Definitioner

Sandsynlighedsregning og statistik

4 Oversigt over kapitel 4

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Normalfordelingen og Stikprøvefordelinger

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Hvorfor er det lige at vi skal lære det her?

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Elementær sandsynlighedsregning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Løsninger til kapitel 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Personlig stemmeafgivning

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Statistik II 1. Lektion. Analyse af kontingenstabeller

Elementær sandsynlighedsregning

Kapitel 3 Centraltendens og spredning

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Indblik i statistik - for samfundsvidenskab

Basal statistik. 30. januar 2007

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Eksempel 1.1: kvalitetskontrol

Nanostatistik: Stokastisk variabel

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Module 1: Data og Statistik

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Konfidensintervaller og Hypotesetest

Nanostatistik: Stokastisk variabel

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Produkt og marked - matematiske og statistiske metoder

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

INSTITUT FOR MATEMATISKE FAG c

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

MM501 forelæsningsslides

Program dag 2 (11. april 2011)

Løsning til eksaminen d. 14. december 2009

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik (deskriptiv)

En Introduktion til SAS. Kapitel 5.

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Løsning eksamen d. 15. december 2008

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Basal statistik. 2. september 2008

Statistiske modeller

Aarhus Universitet 5. februar Meddelelse 2

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Løsning til eksamen d.27 Maj 2010

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Deskriptiv statistik for hf-matc

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori - Sandsynlighedsregning - Lektion 1

Deskriptiv statistik for matc i stx og hf

Dagens program. Afsnit Eksperimenter med usikkerhed Sandsynlighedsmodel - Udfaldsrum - Hændelser - Sandsynligheder Eksempler

MM501/MM503 forelæsningsslides

Generelle lineære modeller

Hvad skal vi lave i dag?

Meddelelse 2. Forelæsningerne i uge 6 ( ) Gennemgangen af BPT fortsættes. Vi afslutter Kapitel 4 og når sikkert et godt stykke ind i Kapitel 5.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Transkript:

Statistik Introduktion Deskriptiv statistik Sandsynslighedregning

Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software: SPSS I kan hente en CD hos

Flyskræk! Passer overskriften? Politiken 6/12-07 Er du tryg ved at flyve? Ja: 86% i 2005 83% i 2007 Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? Svaret kommer til sidst i kurset ;-)

BMI blandt mænd og kvinder (i Kbh) BMI = vægt/højde 2 Er der en signifikant forskel i middel BMI for mænd og kvinder?

Deskriptiv versus inferential statistik Deskriptiv statistik: Metoder til at organisere og præsentere data på en informativ måde. 40 30 KARAKTER Inferential statistik Metoder til at konkludere noget ud fra data. Eksempel: Hvad er middel-længden af en hugorm? Er den større en 50? 20 Frequency 10 0 0 3 5 6 7 8 9 10 11 13 KARAKTER

Nogle definitioner Population: Mængden af alle individer vi er interesserede i. fx alle virksomheder i DK Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte Sample/stikprøve: Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Diskrete og kontinuerte data Diskrete data Kontinuerte data Katagoriske data, for eksempel: Hvilken øjenfarve? 1. Brun 2. Blå 3. Grøn 4. Grå Data, der er reelle tal, eks: Højde Vægt Temperatur Hastighed Osv...

Data hierarki Interval skala fx. højde. Data kan placeres på en skala, hvor man kan sammenligne afstande mellem data punkter. Kan også behandles som ordinale eller nominale data Ordinal skala fx. løngruppe (lav, middel, høj) Data kan ordnes på en skala. Beregninger kan baseres på ordningen. Kan opfattes som nominale data. Nominal skala fx. farve (rød,grøn,blå) Kun beregninger baseret på antal obs. i hver kategori må udføres. Kan ikke opfattes som ordnede eller interval data.

Percentiler og kvartiler Den P te percentil af en mængde data punkter, er den værdi hvor P % af dataene ligger under. Positionen af den P te percentil er givet ved (n+1)p/100, hvor n er antallet af data punkter. Kvartiler er de procent point, der inddeler data i kvarte. 1. kvartil er 25 percentilen. Under denne ligger 25 % af data. 2. kvartil er 50 percentilen. Under denne ligger 50 % af data. Kaldes også medianen. 3. kvartil er 75 percentilen. Under denne ligger 75 % af data. Den interkvartile range defineres som afstanden mellem den første og den tredje kvartil.

Ordinale data - karakterer Karakter Valid 0 3 5 6 7 8 9 10 11 13 Total Cumulative Frequency Percent Valid Percent Percent 14 10,9 10,9 10,9 36 28,1 28,1 39,1 9 7,0 7,0 46,1 9 7,0 7,0 53,1 10 7,8 7,8 60,9 9 7,0 7,0 68,0 11 8,6 8,6 76,6 14 10,9 10,9 87,5 11 8,6 8,6 96,1 5 3,9 3,9 100,0 128 100,0 100,0

Central lokation i stikprøve Stikprøvens størrelse: n Gennemsnit: 1 n x = x i Interval data n i= 1 Median: Den midterste observation Interval og ordinal Mode: Den observation, der forekommer med størst frekvens Interval, ordinal og nominal Statistics KARAKTER N Valid Missing Mean Median Mode 128 0 6,05 6,00 3 Frekvens = antal gange en observation forekommer SPSS: Analyze Descriptive Statistics Frequencies

Variation (interval data) Range: største mindste observation Stikprøve varians s 2 = n i= 1 ( x i n 1 x) 2 = n i= 1 x 2 i n x i= 1 n 1 i 2 / n Standard afvigelse s = 2 s Bemærk: n-1 og ikke n. KARAKTER N Std. Deviation Variance Statistics Valid Missing 128 0 3,686 13,588

Populations parametre Deskriptive mål for populationen Populationens størrelse: Populations middelværdi: N N = x i μ = 1 N i Populations varians: Populations spredning: N = ( x i i μ) 2 1 σ = N σ = 2 σ 2 Bemærk: N og ikke N-1.

Grafik præsentation: Histogram Antal $ brugt af 184 kunder i en butik. 31 kunder brugte for mellem 350$ og 450 $ SPSS: Graphics

Box Plot Et Box Plots Anatomi Et Box Plots Anatomi Ekstrem Smallest data point not below inner fence Largest data point not exceeding inner fence Outlier * X X o Outer Fence Inner Fence Q Median 1 Q 3 Inner Fence Outer Fence Q 1-1.5(IQR) Q 1-3(IQR) Interquartile Range (IQR) 50% af data Q 3 +1.5(IQR) Q 3 +3(IQR)

Box Plots for BMI

Sandsynligheder Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Sandsynligheder En sandsynlighed er et kvantitativt mål for usikkerhed et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. En sandsynlighed er et reelt tal mellem 0 og 1. 0 = sker aldrig 1 = sker altid Ex: Sandsynligheden for regn i morgen er 0,5 Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001 I modsætning til deterministiske hændelser: Det er juleaften den 24. december I morgen står solen op kl. 8.04 Forskellige statistiske retninger: Klassisk Frekventistisk (jeres, fortrinsvist) Subjektiv (Bayesiansk) Den klassiske sandsynlighedsteori blev udviklet i 1600 tallet inspireret af Casino spil!

Lidt om mængder En mængde er en samling af elementer Eksempel: A={1,2,3,4} eller A={plat, krone} Den tomme mængde A=Ø, indeholder ingen elementer Den universelle mængde S, indeholder alle elementer Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} Venn Diagram A 1, 4, 6 Ā 2,3,5 S

Mere om mængder Fællesmængden af A og B, A B, er mængden, der indeholder de elementer, der er i både A og B A={1,2,3} B={3,4,5} A B={3} A A B 1, 2 3 4, 5 Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge S B 6 S A={1,2,3} B={3,4,5} A U B={1,2,3,4,5} A 1, 2 3 4, 5 B 6 A U B

Den tomme mængde To mængder er disjunkte, hvis fællesmængden A B=Ø A={1,2,3} B={4,5} A B={Ø} A 1, 2, 3 4, 5 6 B S

Mere om sandsynlighed Eksperiment: Handling, der leder frem til et af flere mulige udfald Fx. Kast med en terning eller Vælg 10 tilfældige virksomheder. Udfald: Observation eller måling Fx: Antal øjne på en terning eller 10 navngivne virksomheder.

Mere om sandsynlighed Udfaldsrum: En liste af mulige udfald af eksperimentet, lig med den universelle mængde S={o1,o2,,ok} Udfaldene skal være udtømmende Eksempler: Terningkast: S={1,2,3,4,5,6} S={1,2,3,4,5} duer ikke! Møntkast: S={plat, krone} S={plat} duer ikke Udfaldene skal være disjunkte O i er i te udfald af k mulige. Terningkast S={1,2,3,4,5,6} S={1-2,2-3,3-4,4-5,5-6} dur ikke!

Hændelser En simpel hændelse er et udfald i udfaldsrummet Eksempel: Terningkast en 6 er er en simpel hændelse En hændelse er en mængde af en eller flere simple hændelser i et udfaldsrummet Eksempel: Terningkast A={2,3,4} er en hændelse Sandsynligheden for en hændelse, A, betegnes P(A) P(A) er summen af sandsynlighederne for de simple hændelser i A Eksempel: P(A)=P(2)+P(3)+P(4)=1/6+1/6+1/6=3/6

Hændelser Antag at alle simple hændelser forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet ved: P( A) = n( A) n( S) n( A) = antal elementer i A n(s) = antal elementer i S Eksempel: Terningkast lige sandsynlighed for alle udfald. Lad A={1,2,4} n(a) = 3 n(s) = 6 P(A) = 3/6 = 0.5

Regler for sandsynlighed Givet et udfaldsrum S={o1,o2,,ok} da skal sandsynlighederne opfylde: 1) 0 P(o ) 1 for alle i 2) k i= 1 P(o i i ) = 1 og dermed også 0 P(A) 1, for enhver hændelse A Eksempel: Terningkast lige sandsynlighed for alle udfald: S = {1,2,3,4,5,6} P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 6 P(o ) = 1 6 + 1 6 i i= 1 6 + 1 6 + 1 6 + 1 6 + 1 = 1 1 6

Flere regler Sandsynligheden for Ā: P(Ā)=1-P(A) Sandsynligheden for Ø: P(Ø)=0 Sandsynligheden for S: P(S)=1 Fællesmængden for hændelserne A og B, A B, er hændelsen, der forekommer, når både A og B forekommer Sandsynligheden for A B, P(A B), kaldes den simultane sandsynlighed (joint probability)

Betinget sandsynlighed Den betingede sandsynlighed P(A B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet: P(A B) = P(A IB) P(B) og P(B A) = P(B I A) P(A) eller ligeledes P(A IB) = P(A B)P(B) = P(B A)P(A)

Eksempel (Kontingenstabel) Frekvenser AT& T IBM Total Telecommunication 40 10 50 Computers 20 30 50 Total 60 40 100 Sandsynligheder AT& T IBM Total Telecommunication.40.10.50 Computers.20.30.50 Sandsynligheden for at et projekt udføres af IBM givet at det er et telekommunikationsprojekt: P ( IBM T ) = = P ( IBM 0.10 0.50 P ( T = I ) 0.2 T ) Total.60.40 1.00

Additionsreglen Sandsynligheden for foreningen mellem to mængder A og B, A U B, er givet som: P(A U B) = P(A) + P(B) P(A B) Hvis A og B er disjunkte hændelser, er P(A B) = 0 og dermed: P(A U B) = P(A) + P(B) Eksempel: Sansynlighed for at et projekt er IBM eller Telekom: P(IBM U T) = P(IBM) + P(T) - P(IBM I = 0,40 + 0,50 0,10 = 0,80 T)