Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik



Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Normalfordelingen og Stikprøvefordelinger

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Beskrivende statistik

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Forelæsning 1: Intro og beskrivende statistik

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Program dag 2 (11. april 2011)

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Konfidensintervaller og Hypotesetest

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik for hf-matc

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kvantitative Metoder 1 - Forår 2007

Deskriptiv statistik for matc i stx og hf

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Løsninger til kapitel 1

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Modul 1: Beskrivende dataanalyse

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Fagplan for statistik, efteråret 2015


Definition. Definitioner

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Indblik i statistik - for samfundsvidenskab

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Basal statistik. 30. januar 2007

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Behandling af kvantitative data

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Kapitel 3 Centraltendens og spredning

Kvantitative Metoder 1 - Forår 2007

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

for gymnasiet og hf 2016 Karsten Juul

Module 1: Data og Statistik

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

MPH specialmodul Epidemiologi og Biostatistik

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Introduktion til SPSS

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Schweynoch, Se eventuelt

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Løsning eksamen d. 15. december 2008

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Undervisningsbeskrivelse

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Dag 1: 1) Fra problemformulering til spørgeskema-tematikker; 2) Hvordan hører data sammen; 3) Overvejelser om datas egenskaber; 4) Hvad kan man

Kapitel 12 Variansanalyse

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Transkript:

Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale kursusgange, dvs. 2x45 minutter forelæsning efterfulgt af opgaver Derefter en kursusgang uden forelæsning, hvor i regner på en eksamensopgave Eksamen: Individuel mundtlig efter 7-trins skala Eksamen tager udgangspunkt i de 5 opgaver. Software: SPSS

Statistik Disciplinen statistik består af tre dele Design (i dag) Planlægning af hvordan data skal indsamles Deskriptive (i dag) Opsummering af de indsamlede data Inferens (resten af kurset) Drage generelle konklusioner på baggrund af data

Population & Stikprøve Population En population er mængden af alle individer/enheder, som er af interesse. Fx. Alle danskere, nordjyske produktionsvirksomheder, alle målinger af lysets hastighed. Stikprøve En stikprøve er den delmængde af populationen. Population Stikprøve:

Deskriptiv og Inferentiel Statistik Deskriptiv statistik Deskriptiv statistik er en opsummering af data, fx. vha. tabeller og grafer. Inferentiel statistik Statistisk inferens handler om at drage konklusioner om hele populationen på baggrund af en stikprøve.

Parameter og Statistik Parameter En parameter er en numerisk opsummering af en population Fx. andelen af folk, der vil stemme på retsforbundet. Statistik En statistik er en numerisk opsummering af en stikprøve. Fx andelen af folk, der angiver at de vil stemme på retsforbundet i forbindelse med en rundringning. Central problemstilling: VI vil gerne kende en parameter, men har kun en statistik. Hvor pålideligt kan vi udtale os om parameteren på baggrund af statikken?

Data Data består af en række variable. Variabel En variabel er en egenskab der kan variere blandt de individer/enheder vi studerer. Fx. højde, antal søskende, omsætning, hastighed, farvoritparti osv. Variabeltyper Vi håndterer variable forskelligt alt efter hvilken type de er.

Data i SPSS Variable view Data view

Kvantitative vs Kvalitative variable Kvantitativ variabel En kvantitativ variabel er en variabel, der kan måles. Fx. højde, hastighed, omsætning, antal søskende Kvalitativ / kategorisk variabe En variabel der tilhører en af flere kategorier Fx. Hjemkommune, farvoritfarve, indkomstgruppe Ordinal kategorisk Kategorierne kan ordnes efter rækkefølge Nominal kategorisk Kategorierne har ikke en naturlig rækkefølge.

Diskret vs Kontinuert Variabel Diskret variabel En variabel, der kan tage en antal separate værdier. Fx Antal biler = 0,1,2,3, Kontinuert variable Variabel, der kan tage alle værdier i et interval. Fx. højden [0, ) Spørgsmål: Hvad med indtægt?

Tilfældige Stikprøver Vi skal bruge en stikprøve, men hvordan skal vi udtage vores stikprøve? Stikprøvestørrelse Stikprøvestørrelsen er antallet af individer/enheder i stikprøven En simpel tilfældig stikprøve I en (simpel) tilfældig stikprøve har alle individer lige stor sandsynlighed for at blive udvalgt.

Stikprøve Fejl og Bias Stikprøve fejl Stikprøvefejlen er den fejl vi begår når vi bruger en statistik baseret på stikprøven til at udtale os om populationen Fx forudsige valgresultat på baggrund af tilfældig stikprøve Stikprøve bias Stikprøve bias er en systematisk fejl i statistikken pga. den måde stikprøven bliver udtaget. Pga. ukendt sandsynlighed: Fx. vores stikprøve stammer fra en webpoll på retsforbundets hjemmeside Pga. manglede svar: Fx. er det kun brokhoveder, der udfylder spørgeskemaet. Pga. ledende spørgsmål.

Andre Stikprøvestrategier Systematisk stikprøve Fx udtage systematisk hver 4. individ. Stratificeret stikprøve Inddel populationen i delpopulationer, og udtag (lige store) stikprøver fra hver. Fx. sammenligning af hjemløs og resten. Klynge stikprøve Fx udvælg tilfældige gader i Aalborg og spørg så alle der.

Deskriptiv statistik Deskriptiv statistik handler om at præsentere data vha. Diverse tabeller, grafer og plot Barplot, histogrammer, boxplot, krydstabeller, scatterplot Numeriske opsummeringer, dvs. opsummere data ved få talværdier. De primære Centralitet Hvor ligger data? Typetal, middelværdi, median Variation - Hvor meget varierer data? Standardafvigelse, varians, spænd, IQR

Relative Frekvenser Relative frekvenser Relative frekvenser for en kategori, er andelen af observationerne, der falder i den kategori. Kan opsummeres vha. en tabel. SPSS: Analyze Descriptive statistics Frequencies Eksempel: Typer af husholdninger i USA

Bar-plot De relative frekvenser, kan også opsummeres grafisk med et bar-plot SPSS: Graphs Chart builder... Vælg: Bar Simple Bar Træk Type ned på x-aksen

Frekvens-fordeling: Kvantitative data For kvantitative data inddeler vi observationerne i intervaller. Derefter opsummere vi, hvor mange observationer, der falder i hvert interval. Eksempel: Mord pr. 100,000 inddelt efter stater i USA SPSS: Graphs Chart builder Vælg: Histogram Simple histogram Flyt murder rate over på x-aksen

Histogram for to grupper Histogram af antal mord pr. 100,000 indbyggere fordelt på stater grupperet efter land (USA og Canada)

Fordelingen i data og population Efterhånden som stikprøven vokser, vil histogrammet ligene den sande populationsfordeling mere og mere

Faconer U-formet 0.00 0.10 0.20 Klokkeformet Aka Normalfordelt Aka Gauss 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x Højreskæv 0.00 0.05 0.10 0.15 Venstreskæv 0.00 0.05 0.10 0.15 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x

Hvor ligger data? Der flere mål for, hvor data ligger: Middelværdien - tyngdepunktet Medianen - midten Typetallet Det tal, der oftest forekommer i data.

Middelværdi / Gennemsnit Gennemsnit Gennemsnittet er summen af observationer divideret med antallet af observationer Notation: n betegner antallet af observationer (stikprøvestørrelsen) y 1, y 2, y 3,, y n betegner de n observationer y betegner gennemsnittet, og er givet som: y y y y 1 + 2 + + n i i y = = n n Gennemsnittet er følsomt overfor ekstreme observationer. Gennemsnittet er tyngdepunktet for data.

Medianen Medianen Medianen er den midterste observation i en sorteret stikprøve. Hvis der et lige antal observationer, er medianen gennemsnittet af de to midterste observationer. Medianen kan bruges for kvantitative data og ordinale kategoriske data. I symmetriske fordelinger er gennemsnit og median ens. Medianen er ikke følsom overfor ekstreme observationer.

Eksempel Antag vi følgende data: 7, 9, 11,12,13,15,17 Hvad er gennemsnittet? Hvad er medianen? Hvad sker der med medianen og gennemsnittet, hvis vi erstatter 17 med 27?

SPSS Der er flere måde at får middelværdi, median osv udregnet. Fx: Analyze Descriptive Frequencies

SPSS: Resultat

Standardafvigelsen Afvigelse Forskellen mellem observation y i og gennemsnittet betegnes afvigelsen. y Standardafvigelsen (for en stikprøve) Standardafvigelsen s for en stikprøve med n observationer er: 2 ( yi y) summen af kvaderede afvigelser s = = n 1 stikprøvestørrelse 1 Variansen s 2 for en stikprøve af størrelse n er s 2 2 2 2 ( yi y) ( y y) + ( y y) + + ( y y) = 1 2 = n 1 n 1 n 2

Eksempel Antag vi følgende data: 7, 9, 11,12,13,15,17 Hvad er variansen og standardafvigelsen? Hvad sker der med standardafvigelsen og variansen hvis vi lægger 5 til alle observationer? Hvad sker der med standardafvigelsen og variansen hvis vi ganger alle observationer med 10?

Fortolkning af s Tommelfingerregler Hvis histogrammet er ca. klokkeformet, så Ca 68% af observationerne ligger mellem y s og y + s Ca 95% af observationerne ligger mellem y 2 s og y + 2s Alle eller næsten alle observationer ligger mellem y 3 s og y + 3s y 3s y 2s y s y y + s y + 2s y + 3s

Kvartiler og fraktiler Fraktiler p% fraktilen er den observation, hvor p% af data falder under. Bemærk at medianen svarer til 50% fraktilen er Kvartiler 25% fraktilen kaldes den nedre kvartil 75% fraktilen kaldes den øvre kvartil Afstanden fra nedre kvartil til øvre kvartil kaldes Inter Quatile Range (IQR) IQR er (endnu) et mål for variationen i data.

SPSS: Resultat

Boxplot Et boxplot er en grafisk præsentation af bla. kvartiler: SPSS: Chart Builder Boxplot 1-D boxplot Den grå kasse, angiver, hvor de midterste 50% af data ligger. Knurhårene strækker til observationer der ligger højst 1.5 gange kassens højde (IGQ) fra kassen. En observation mere end 1.5 IQR fra kassen kaldes en outlier. Øvre kvartil Medianen Ned kvartil Outlier max 1,5*IQR IQR

Mord i USA og Canada Vi kan sammenlige grupper vha. boxplot SPSS: Chart Builder Boxplot Simple boxplot