1 Statistik og erkendelse



Relaterede dokumenter
Indblik i statistik - for samfundsvidenskab

Fig. 1 Billede af de 60 terninger på mit skrivebord

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Meningsmålinger - hvad kan vi sige med sikkerhed?

Skriftlig eksamen i samfundsfag

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Må lsøgning i Excel (Goål Seek)

Start Excel Du skal starte med at åbne Excel. I Excel åbner du herefter en tom projektmappe.

Simulering af stokastiske fænomener med Excel

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Hvad er meningen? Et forløb om opinionsundersøgelser

Kvantitative Metoder 1 - Forår Dagens program

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

2 Populationer. 2.1 Virkelige populationer

Fagplan for statistik, efteråret 2015

IDAP manual Emission

Vejledning i download af programmet IHS Insight TM

Analyse af en lineær regression med lav R 2 -værdi

Løsning til eksaminen d. 14. december 2009

Measuring ability and aptitude. Forberedelsesguide

TILFREDSHEDSMÅLING PÅ SØHUSPARKEN. Notat til: Syddjurs Kommune

At lave dit eget spørgeskema

Statistik i GeoGebra

Vejledning i LPR-Avanceret (LPR-kuben)

Simulering af stokastiske fænomener med Excel

Normalfordelingen og Stikprøvefordelinger

Vejledende besvarelser til opgaver i kapitel 14

Løsning til eksaminen d. 29. maj 2009

Om at finde bedste rette linie med Excel

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang

Metoder og struktur ved skriftligt arbejde i idræt.

Deskriptiv statistik for matc i stx og hf

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Almen studieforberedelse. 3.g

Import / Eksport. Vejledning

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Flere ligninger med flere ukendte

Naturvidenskabelig metode

Åbn Paint, som er et lille tegne- og billedbehandlingsprogram der findes under Programmer i mappen Tilbehør. Åbn også Word.

Lineære sammenhænge, residualplot og regression

GECKO Booking Vejledning til spørgeskema-modul. Læsevejledning. Indholdsfortegnelse

SPAM-mails. ERFA & Søren Noah s A4-Ark Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag

ViKoSys. Virksomheds Kontakt System

Deskriptiv statistik for hf-matc

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

How to do in rows and columns 8

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kvantitative Metoder 1 - Efterår Dagens program

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Seksuel chikane på arbejdspladsen. En undersøgelse af oplevelser med seksuel chikane i arbejdslivet blandt STEM-ansatte

VALIDERINGSGUIDE MEDARBEJDER VALIDERING

Matematik og samfundsfag Gini-koefficienten

Brugervejledning. People Software Solutions Ltd. Version:

APPENDIX A INTRODUKTION TIL DERIVE

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

for matematik pä B-niveau i hf

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

KL S EFFEKTMÅLINGS- REDSKAB TIL KONTROLOMRÅDET

KL S EFFEKTMÅLINGS- REDSKAB TIL KONTROLOMRÅDET

Maple 11 - Chi-i-anden test

Produkt og marked - matematiske og statistiske metoder

Vejledning i udtræk af input-output data fra Statistikbanken

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

I. Deskriptiv analyse af kroppens proportioner

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

9 Statistik og sandsynlighed

Mobning på arbejdspladsen. En undersøgelse af oplevelser med mobning blandt STEM-ansatte

Der er ikke væsentlig niveauforskel i opgaverne inden for de fire emner, men der er fokus på forskellige matematiske områder.

1. Opbygning af et regneark

ipad for let øvede, modul 9 ipad og computer

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Kom godt i gang med DLBR Webdyr

SÅDAN BRUGER DU REGNEARK INTRODUKTION

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

Introduktion til Playmapping

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

3 Algebra. Faglige mål. Variable og brøker. Den distributive lov. Potenser og rødder

Behandling af kvantitative data

Grundlæggende metode og videnskabsteori. 5. september 2011

FOTO strategi Gem Udvælg Rediger Gem

AARHUS KOMMUNE BRUGERTILFREDSHEDSUNDERSØGELSE 2017 BOSTØTTE, BOFÆLLESSKABER OG BOTILBUD I VOKSENHANDICAP

Økogården. Virksomheds- og situationsbeskrivelse. Problemformuleringer. Økogården

Transkript:

1 Statistik og erkendelse Er det tilfældighedernes spil, eller eksisterer der en underliggende systematik? Dette spørgsmål gennemsyrer hele denne bog. Statistik giver os mulighed for at besvare spørgsmålet, fordi statistik er en metode til at opnå erkendelse i situationer med usikkerhed. Man kan således anvende statistik til at undersøge sammenhænge og komme med forudsigelser. Ofte indgår der elementer af begge dele i en statistisk analyse. For at kunne forudsige efterspørgslen efter bærbare computere er det fx væsentligt at have kendskab til forbrugernes indkomst samt sammenhængen mellem indkomst og forbrug. Statistiske analyser hjælper os med at forbinde vores idéer (teorier) med den virkelige verden gennem observationer fra denne. I tilfældet med bærbare computere har man måske en teori omkring sammenhængen mellem indkomst og efterspørgsel efter computere. Med observationer af forbrugeres indkomst og køb af computere kan statistikken hjælpe os med at kvantificere sammenhængen, eller for den sags skyld afvise, at der er en sammenhæng. Sådanne analyser må nødvendigvis tage hensyn til mange former for usikkerhed. For eksempel er der usikkerhed, fordi man kun observerer nogle af forbrugerne. Men der er også usikkerhed, fordi andre forhold, som man ikke nødvendigvis observerer, også påvirker efterspørgslen efter computere, fx forbrugernes socioøkonomiske baggrund og livsstil. Derfor er det nødvendigt med redskaber til at håndtere usikkerhed. Sandsynlighedsteorien giver os disse. Denne bog handler derfor både om sandsynlighedsteori og statistik. I afsnit 1.1 ser vi på en række konkrete problemstillinger, som vi vil udvikle redskaber til at analysere. Metoderne til erkendelse ved brug af statistik sætter vi i et mere filosofisk (videnskabsteoretisk) lys i afsnit 1.2, mens vi i afsnit 1.3 giver en kort overordnet gennemgang af bogens indhold. Endelig giver vi i afsnit 1.4 en kort introduktion til Excel, som vi anvender gennem hele bogen. 1.1 Eksempler på problemstillinger Ovenfor havde vi et eksempel, hvor man ønskede at forudsige efterspørgslen efter bærbare computere ved at bestemme en sammenhæng mellem Statistik og erkendelse 15

indkomst og efterspørgsel. Dette afsnit rummer en række andre eksempler på problemstillinger, hvor statistiske analyser kan hjælpe os med at give svar. Eksempel 1.1: En lottotrækning Eksempel 1.2: Pakning af skruer Eksempel 1.3: Defekte biler Eksempel 1.4: En markedsundersøgelse Til brug ved en lottotrækning er der 36 kugler nummereret fra 1 til 36 i en stor bowle. Af bowlen udtrækkes syv kugler. Det koster 4 kr. at spille en række lotto, dvs. gætte på syv tal. Jens Spillemand er meget interesseret i at vide, hvad sandsynligheden er for, at han vinder den helt store præmie på fem millioner, hvis han køber to lottokuponer. Han er også nysgerrig efter at finde ud af, hvor meget han kan forvente at vinde. En virksomhed producerer 35 mm skruer på et nyindkøbt produktionsanlæg. Skruerne pakkes automatisk i pakker med 500 stk. Det viser sig, at selvom pakkemaskinen indstilles til 500 skruer, så rummer pakkerne ikke altid 500 stk. Det resulterer i klager fra kunderne. Ledelsen kræver derfor, at maksimalt 1 % af pakkerne må indeholde mindre end 500 skruer. Pakkemaskinen skal indstilles til at overholde dette krav. Spørgsmålet er derfor, hvor mange skruer, pakkemaskinen skal indstilles til at putte i hver pakke. På en bilfabrik ved man af erfaring, at 0,8 % af de færdigproducerede biler har alvorlige fejl. Fabrikken står i øjeblikket over for en ordre på 1000 biler til en førende autoforhandler. Ledelsen af fabrikken er bange for, at forhandleren vil opsige samarbejdet, hvis for stor en del af de leverede biler har alvorlige fejl. Den ønsker således at kende risikoen for, at mere end 10 af bilerne har alvorlige fejl. Fabrikken har også netop sat en ny produktionslinje i gang for deres seneste model. For at kunne iværksætte eventuelle forbedringer af produktionen vil ledelsen derfor gerne vide, hvor stor en del af de producerede biler på denne linje, der viser sig at være defekte. Mere præcist vil ledelsen gerne vide, om der er samme fejlprocent som på den eksisterende produktionslinje. En isproducent overvejer at gå ind på det svenske marked og har derfor sat strategiafdelingen til at analysere mulighederne. Denne har brug for at kende efterspørgslen efter is i Sverige for kunne vurdere, om det vil være rentabelt at starte salg og markedsføring. Derfor vil den iværksætte en markedsundersøgelse for at bestemme den svenske efterspørgsel. Den er dog i tvivl om, hvor mange personer, den skal inkludere i undersøgelsen og hvordan den skal udvælge disse, så omkostningerne ikke bliver for store, og der alligevel opnås en tilfredsstillende grad af præcision. Fra et omkostningsmæssigt synspunkt vil det være billigst at interviewe folk på gaden i Malmø, men strategiafdelingen er i tvivl om brugbarheden af det resultat, den derved opnår. 16 Indblik i statistik for samfundsvidenskab

Eksempel 1.5: En menings måling Danmark står over for endnu en EU-afstemning, og der er stor offentlig interesse om udfaldet af afstemningen. Et analyseinstitut foretager en prognose for udfaldet. Analyseinstituttet har valgt at spørge 1000 personer og ønsker i den forbindelse at vide, hvor stor en usikkerhed der er på resultatet, både på procentdelene af nej- og ja-stemmer og på det samlede udfald af afstemningen. Analyseinstituttet vil også gerne vide, hvor mange personer, det skal spørge for at kende resultatet med 1 procentpoints nøjagtighed. Problemstillingerne i disse eksempler involverer alle en form for usikkerhed. I eksempel 1.1 er det usikkert, hvordan lottotrækningen vil falde ud, og i eksempel 1.5 er det usikkert, hvor stor en del af danskerne, der stemmer ja. I begge situationer kan statistiske metoder hjælpe os med at håndtere denne usikkerhed. De to typer af analyser, der skal anvendes for at besvare spørgsmålene i henholdsvis eksempel 1.1 og 1.5, er dog forskellige. Det næste afsnit uddyber denne metodiske forskel og forklarer den overordnede opbygning af denne bog. 1.2 Deduktion og induktion Det grundlæggende set-up er fælles for alle problemstillinger og analyser i denne bog: Der er en population af elementer. Fra denne population udtrækkes en stikprøve. Populationen kan fx være de stemmeberettigede i Danmark. Ved at foretage en meningsmåling udtager vi en stikprøve fra populationen af stemmeberettigede. Populationen kan også være de 36 kugler i en lottomaskine, hvor stikprøven er de 7 kugler, der udtrækkes. Figur 1.1: Det grundlæg gende set-up Udtrækning Udt ræknin g Stikpr ve Stikprøve Population Population I et sådant set-up kan man lave to overordnede typer af analyser: Induktive og deduktive. Deduktion anvendes i det tilfælde, hvor vi kender populationen og ønsker at vide noget om stikprøven. Et eksempel på en analyse af denne type er lottotrækningen i eksempel 1.1. Her kender vi populationen ned til mindste de Statistik og erkendelse 17

talje. Vi ved, at den består af 36 lige store kugler, og vi ved, hvad der står på hver enkelt af dem. Imidlertid ved vi ikke, hvordan stikprøven kommer til at se ud. Spørgsmålet er derfor, hvordan vi kan bruge vores viden om populationen og udtrækningsmetoden til at forudsige noget om stikprøven, dvs. de syv bolde, der udtrækkes. Hvad er fx sandsynligheden for at udtrække de 7 bolde med numrene 1, 2, 3, 4, 5, 6 og 7? Induktion anvendes i det tilfælde, hvor man ønsker at lære noget om populationen ved hjælp af en stikprøve. Et eksempel på dette er meningsmålingen i eksempel 1.5. Her kender man ikke andelene af nej- og ja-sigere blandt de stemmeberettigede. For at få denne viden foretager man en meningsmåling: Man udtrækker en stikprøve blandt alle de stemmeberettede (populationen) og observerer indholdet af denne. Man bruger dernæst ja-andelen i stikprøven til at skønne over ja-andelen i populationen, dvs. ja-andelen blandt alle de stemmeberettigede. Med andre ord: Ved deduktion udnytter vi vores viden om det generelle (populationen) til at lære om det specifikke (stikprøven). Ved induktion bruger vi derimod vores viden om det specifikke (stikprøven) til at lære om det generelle (populationen). Figur 1.2: Deduktion og induktion Deduktion Udtrækning Stikprøve Population Induktion Alle problemstillinger i denne bog falder ind under én af disse kategorier. Når vi laver deduktion, så anvender vi sandsynlighedsteori, fx hvis vi skal sige noget om sandsynligheden for at slå en treer med en terning eller at vinde i lotto. Ved induktion anvender vi statistik, som når vi skal bestemme andelen af jastemmer blandt de stemmeberettigede ud fra en stikprøve. Som vi skal se, er der en meget tæt sammenhæng mellem de to typer af analyser, men det er vigtigt at holde fast i den begrebsmæssige forskel. Forskellen på induktive og deduktive analyser har dog forvirret selv den induktive analyses mester: I have a turn both for observation and deduction, 18 Indblik i statistik for samfundsvidenskab

siger Sherlock Holmes på et tidspunkt til Dr. Watson. 1 Dette må man nødvendigvis undre sig lidt over, idet detektivarbejde er et oplagt eksempel på induktion og ikke deduktion. Sherlock Holmes bruger jo de få spor, han finder (stikprøven) til at slutte sig til det bagvedliggende (forbrydelsen). Samspillet mellem de to typer af analyser opstår, fordi de statistiske metoder bygger på sandsynlighedsteorien. Vi bruger stikprøven til at udtale os om populationen, men for at kunne dette, må vi vide noget om, hvordan og med hvilken sandsynlighed, stikprøven er fremkommet. Til dette skal vi bruge sandsynlighedsteorien. Derfor er vi nødt til først at lære om sandsynlighedsteorien, før vi kan tage fat på de statistiske metoder. Kapitlerne 2 til 7 omhandler de redskaber fra sandsynlighedsteorien, som vi bruger i deduktive analyser. Udstyret med disse redskaber vender vi os mod situationer, som man ofte møder i praksis, hvor vi mangler viden om populationen og forsøger at opnå denne ved at udtrække en stikprøve. Kapitel 8 til 18 omhandler derfor de statistiske metoder, vi bruger til sådanne induktive analyser. 1.3 Et kort overblik over kapitlerne Kapitel 2 giver en uddybende introduktion til populationsbegrebet, herunder en introduktion til, hvordan man beskriver en population og dens elementer. Kapitel 3 viser, hvordan man kan formalisere usikkerhed i forbindelse med populationer og stikprøver. For at muliggøre mere komplicerede analyser af usikkerhed viser vi i kapitel 4, hvordan man modellerer usikkerhed ved hjælp af såkaldte stokastiske variabler og deres sandsynlighedsfordelinger. Ved at modellere usikkerhed på denne måde kan man faktisk analysere komplicerede problemer med usikkerhed ved hjælp af velkendte og simple matematiske teknikker som addition og multiplikation. Indholdet i kapitel 3 og 4 er absolut nødvendigt for at forstå de øvrige kapitler i bogen. Usikkerhed repræsenterer man med en sandsynlighedsfordeling. Men ligesom et meget detaljeret landkort ikke giver et godt overblik over de vigtigste store veje, kan en sandsynlighedsfordeling være forvirrende, når man skal have et overblik over de vigtigste aspekter af usikkerheden. I kapitel 5 introducerer vi derfor beskrivende mål for sandsynlighedsfordelinger, som med enkelte tal giver et overblik over usikkerheden. I kapitel 6 beskriver vi forskellige udvalgte sandsynlighedsfordelinger, som har vist sig at være meget anvendelige til at løse praktiske problemer. I kapitel 7 går vi et skridt videre og intro- 1. A study in Scarlett, kapitel 2, i: Arthur Conan Doyle: The Penguin Complete Sherlock Holmes, Penguin Books Ltd, London, 1981. Kapitlet, hvor ovenstående citat stammer fra, hedder ironisk nok The Science of Deduction. Statistik og erkendelse 19

ducerer såkaldte stokastiske processer, som er nyttige i mange praktiske problemstillinger, der strækker sig over tid. Kapitlet er mere teknisk end de øvrige og kan springes over, uden at sammenhængen mellem de øvrige kapitler ødelægges. Kapitel 8 er en introduktion til den induktive analyse, som de resterende kapitler omhandler. I den induktive analyse er formålet at lære om en given populations egenskaber. Det første vigtige skridt i denne proces er indsamlingen af en stikprøve. I kapitel 9 diskuterer vi derfor forskellige måder at udtrække stikprøver på. Kapitlerne 10-14 omhandler induktiv analyse i det tilfælde, hvor vi ønsker at lære noget om et enkelt karakteristikum i populationen. Vi viser, hvordan man konstruerer en estimator, som er et skøn på et beskrivende mål udregnet på baggrund af en stikprøve. Konstruktionen af en estimator afhænger af den måde, hvorpå stikprøven er udtrukket. I kapitel 10 ser vi på en estimator for en middelværdi, når stikprøven er udtrukket simpelt tilfældigt, mens vi i kapitel 11 ser på tilfælde, hvor stikprøven er udtrukket på andre, ofte mere omkostningsbesparende måder. I kapitel 12 behandler vi estimatorer for andre beskrivende mål end middelværdien. I kapitel 13 viser vi, hvordan man kan opstille et konfidensinterval for en ukendt populationsstørrelse. Konfidensintervaller er en måde, hvorpå man kan beskrive den usikkerhed, der knytter sig til en estimator, eftersom denne er baseret på en stikprøve. Før man udarbejder en statistisk analyse, har man ofte en (mere eller mindre konkret) teori om populationen. For at teste en sådan teori kan man opstille hypoteser, som man kan teste ved hjælp af en stikprøve. Dette gennemgås i kapitel 14. Fra kapitel 15 og fremefter fokuserer vi på metoder til at undersøge sammenhænge mellem karakteristika i en population. I samfundsvidenskaberne er man ofte interesseret i at analysere sådanne sammenhænge, fx mellem indkomst og forbrug eller hvordan en persons adfærd relaterer sig til hans/hendes erfaringer. I kapitlerne 15 og 16 introducerer vi metoder til at teste hypoteser om sammenhænge, både med kvantitative data (kapitel 15) og kvalitative data (kapitel 16). I kapitlerne 17-18 går vi skridtet videre og formulerer specifikke sammenhænge. I kapitel 17 kigger vi på den mest almindelige brugte specifikation af en sådan sammenhæng: Den simple lineære regressionsmodel. I kapitel 18 udvides dette til den multiple lineære regressionsmodel. 20 Indblik i statistik for samfundsvidenskab

1.4 Introduktion til Excel 2007 Inden vi starter med at bruge Excel, skal vi sikre os, at programkomponenten Data Analysis er tilføjet dit Excel program. Dette kontrolleres ved at klikke på Data i den øverste vandrette menu i skærmbilledet. På den menu, der nu fremkommer, skal der yderst til højre stå Data Analysis. Hvis ikke der gør det, klikker du på Office-knappen i øverste venstre hjørne af skærmen og derefter på Excel-indstillinger nederst. Herefter vælger du Tilføjelsesprogrammer til venstre i den menu, der dukker op og klikker herefter på Udfør nederst. Nu popper skærmbilledet nedenfor op. Her skal du klikke til venstre ud for Analysis Toolpack og Analysis Toolpack VBA, så der fremkommer to flueben. Når du derefter trykker OK, installeres programkomponenten Dataanalyse automatisk. Statistik og erkendelse 21

Et regneark i Excel består af en masse celler i kolonner og rækker. Kolonnerne benævnes A, B, C, osv., mens rækkerne benævnes 1, 2, 3, osv. Når vi skriver A2, så mener vi den celle, der findes i den første kolonne i række nummer 2. Tilsvarende er E4 den fjerde celle i kolonne E. Dette er også den måde, hvorpå man refererer til celler inde i programmet. Hvis du fx skriver et femtal i celle A3 og et total i celle A5 og dernæst stiller cursoren i celle D2 og skriver =A3+A5 og trykker return, så fremkommer der et syvtal i cellen D2. Prøv selv! 22 Indblik i statistik for samfundsvidenskab