Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Størrelse: px
Starte visningen fra side:

Download "Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008"

Transkript

1 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Velkommen til tre dage med Dataopsamling Databehandling Datafremlæggelse Som vignetten antyder er kan den naturvidenskabelige metode bl.a. struktureres efter tre stadier i arbejdet med data: Dataopsamling: Indsamling af data Databehandling: Bearbejdning og strukturering af data Datafremlæggelse: Formidling og fortolkning af data De samme tre stadier findes i den statistiske metode, som nok er den metode der kommer den naturvidenskabelige metode nærmest indenfor de matematiske fag: Også her er det helt centralt at indsamle statistiske data på forsvarlig vis, at kunne bearbejde de statistiske data med numeriske og grafiske metoder samt at kunne drage passende konklusioner af de statistiske data. Det er også karakteristisk for den statistiske metode at man kan arbejde med dataene på forskellige niveauer: Det beskrivende niveau: EDA (Explorative Data Analysis deskriptiv statistik) Det bekræftende niveau: Deduktive/induktive analyser (skøn/hypotesetest) På det laveste beskrivende niveau interesserer man sig alene for hvordan de rent faktisk indsamlede data opfører sig. Her benyttes først og fremmest forskellige grafiske fremstillinger suppleret med udregningen af de vigtigste deskriptorer. Man har altså indsamlet en stikprøve og undersøger med passen- 1

2 de grafiske og numeriske metoder hvordan den pågældende stikprøve er struktureret. Det er dette niveau vi underviser i på C-niveau. På det højeste bekræftende niveau går man nu et skridt videre og vurderer dels om stikprøven kan opfattes som en repræsentativ stikprøve for en større population, dels om hvilke af de fundne karakteristika, det i givet fald er rimeligt at udstrække til hele populationen. Det er langt mere kompliceret at holde styr på denne problemstilling, der bygger på en blanding af deduktive og induktive metoder, og det er dette niveau som resten af noten kommer til at beskæftige sig med. Det er dette niveau vi underviser i på B- og A-niveau. Men før vi kaster os over det bekræftende niveau er det vigtigt at gøre sig klart at det forudsætter en fortrolighed med det foregående beskrivende niveau, dvs. et rimeligt kendskab til simple deskriptorer som middelværdi, median og kvartiler, og en rimelig fortrolighed med brug af passende grafiske fremstillinger, som punktplot, histogrammer og boksplot. Først ser vi igen overordnet på den naturvidenskabelige metode. I bogen 'Naturvidenskabeligt grundforløb en introduktion til den naturvidenskabelig metodik' af Hans Marker, Lars Andersen, Carsten Ladegaard Pedersen og Steffen Samsøe (forlag Malling Beck nu L&R uddannelse) formuleres den naturvidenskabelige metode også kaldet den hypotetisk-deduktive metode således (se diagram næste side). Den naturvidenskabelige metode kan selvfølgelig formuleres på mange tilsvarende måder, men det afgørende er at man som udgangspunkt har en formodning om hvordan tingene hænger sammen, en såkaldt arbejdshypotese, og at man på basis af eksperimenter/observationer, når frem til et empirisk resultat. Det er dette resultat, der så skal sammenholdes med arbejdshypotesen. Her skal man derfor på basis af hypotesen foretage en udledning/deduktion af hypotesens konsekvenser, der efterfølgende kan sammenholdes med de empiriske resultater. Denne diskussion af overensstemmelsen mellem hypotese og resultater har så ideelt to mulige udfald: 1) Hypotesen bekræftes, idet der er en klar overensstemmelse mellem resultatet og hypotesen 2) Hypotesen forkastes, idet der er en klar modstrid mellem resultatet og hypotesen. I praksis kan diskussionen ofte vise sig at være mudret og sammenhængen mellem resultatet og hypotesen er derfor uklar. Processen må så gå om igen. Hvis hypotesen bekræftes tilstrækkeligt mange gange dvs. ved induktion - kan den til sidst ophøjes til en teori. Dette er et eksempel på anvendelsen af slutningsformen abduktion, hvor man slutter tilbage fra bekræftelsen af en påstands konsekvens til gyldigheden af selve påstanden. Som med induktionen er det ikke nogen sikker slutningsmetode (idet konsekvensen kunne være sand af andre årsager), men i praksis er det en særdeles anvendelig metode. Hvis hypotesen forkastes, må man i stedet opstille en ny hypotese, der så kan gøres til genstand for afprøvning osv. 2

3 Noter til DASG-kursuss i statistik den 4. september 2009 I den statistiske metode går man nu frem på tilsvarende vis: Vi observerer et stokastisk fænomen (fx ved at kaste med terninger eller ved at indsamle svar til en spørgeskemaundersøgelse osv. Det karakteristiske for ob- servationerne i et stokastisk fænomen er at de varierer tilfældigt for hver gangg eksperimentet/ indsamlingen gentages. Derefter sammenligner vi de observerede resultater med de forventedee resulta- ter fremkommet ud fra en arbejdshypotese (nul-hypotesen)observered de og forventede resultat er så lille at det med rimelighed kan tilskrivess tilfældigheder, eller om afvigelsen er så stor at det er mere rimeligt at tro på det er resultatet af en systematisk ten- dens, der bryder med nul-hypotesen. Det afgørende e spørgsmål er da m afvigelsen mellem det 3

4 Noter til DASG-kursus at vi har en standard for hvad det vil sige at afvi- i statistik den 4. september 2009 Det forudsætter selvfølgelig, gelsen er lille henholdsvis stor! I den statistiske metodee afgøres det ved hjælp af en teststørrelse, idet forskellen mellem det observere ede resultat benyttes som teststørrelse. Det er fordelingen af denne teststørrelse, der leverer standarden for hvornår afvigelsen er lille og hvornår den er stor. Eksperimentel simulering Nulhypotese Fordelingen af teststørrelsen Teoretisk deduktion Som det ses er der nu to principielt forskellige metoder vi kan benyttee til at fastlægge fordelingen af teststørrelsen. Begge metoder har fordele og ulemper: 1) I den eksperimentelle metode foretager man en simulering af nulhypo- tesen H 0 og på basis af simuleringen opstiller man et skøn over sandsyn- som ligheden for at man vil opnå et udfald, der er mindst lige så skævt det observerede. Det kræver et indgående kendskab til de metoder, man udnytter i simulering af stokastiske fænomener. 2) I den teoretiske metode opstiller man en sandsynlighedsteoretisk beman vil regning på basis af nulhypotesen H 0 af sandsynlighedenn for at opnå et udfald, der er mindst lige så skævt som det observerede. Det kæ- til ver et indgående kendskab til de sandsynlighedsfordelinger, der ligger grund for nulhypotesen. Den eksperimentellee metodee - er en fælles metode, der kan bruges for alle slags statistiske test. Den bygger på en vigtig modelleringskompetence: kom- petencen til at modellere et stokastisk fænomen. Den teoretiskee metodee - kræver et godt kendskab til et antal teo- normalfordelingen, t-fordelingen, χ2-for- 2 retiske fordelinger: Binomialfordelingen, delingen osv. Den underliggende metode har en tendens til at forsvinde i den vold- somme dosis teori. 4

5 - er kun praktisk mulig gennem brugen af computere. Den har nu opnået status som industristandard. Men der kræves en gennemregning af mange simuleringer ( ) for at kunne træffe en pålidelig slutning. - bygger på velkendte gennemprøvede eksakte matematiske metoder. Men resultatet af de teoretiske beregninger er ikke nødvendigvis mere præcist end resultatet af de eksperimentelle simuleringer. Den teoretiske metode bygger i praksis på adskillige tilnærmelser: de grundlæggende stokastiske variable er typisk kun approksimativt normalfordelte ligesom den teoretiske fordeling for teststørrelsen er ofte kun en asymptotisk fordeling. I undervisningsmæssig sammenhæng er det vigtigt at fastslå at der er fuldstændig valgfrihed mellem at bruge de forskellige metoder. Det er lærerens ansvar i samspil med klassen at udvælge undervisningsstrategien for den bekræftende statistik, og derved afgøre om den alene skal bygge på en af de ovennævnte metoder eller på en passende blanding af de to metoder. Susanne Christensens noter bygger på den teoretiske metode, mens den foreliggende note præsenterer den eksperimentelle metode. Også i eksamenssammenhæng er der fuldstændig valgfrihed om man vil løse opgaverne ude fra den eksperimentelle metode ved simulering af nulhypotesen eller ud fra en teoretisk beregning. 5

6 Hvad skal et program kunne for at kunne udføre en eksperimentel statistisk test? Med udgangspunkt i TI-Nspire CAS vil vi nu diskutere, hvad det er for egenskaber ved et regneark, der er væsentlige for at man kan udføre en eksperimentel test. Da TI-Nspire CAS deler fælles teknologi med DataMeter (Fathom) gælder de samme betragtninger for DataMeter. Ser vi på regnearket i TI- Nspire CAS er der fire ingredienser, der er afgørende: 2. Genberegn: CTRL R Regnearket opdateres løbende, men de tilfældige rutiner rand() osv. genberegnes kun hvis man vælger Genberegn! 3. Datafangst: Automatisk eller manuel Hvis man har oprettet en navngivet variabel (en måling) kan man fange dens værdier automatisk, når de ændres, og manuelt (CTRL.) når som helst. De indfangne værdier gemmes i en liste. 4. Hurtig-graf: Hvis man sværter en enkelt eller to kolonner kan man automatisk få oprettet et grafrum med et prikdiagram ved hjælp af Hurtig-graf. Faciliteten kendes fx fra TI-Interactive. 1. Dynamisk stikprøve: Ved hjælp af kommandoen randsamp() kan man udtrække en tilfældig (random) stikprøve (sample) fra en liste (population) med eller uden tilbagelægning (replacement). 1) Det skal være muligt at udtage dynamiske stikprøver. I TI-Nspire CAS sker det ved hjælp af kommandoen randsamp(). I DataMeter er det et menupunkt for skattekisten (Udtag stikprøve). Kommandoen Rand- Samp() findes også i TI-89, men den findes ikke i TI-Interactive, hvor den derfor må tilføjes som et brugerdefineret program. I fx Excel er det kompliceret at udtage stikprøver det sker ved hjælp af udvidelsesmodulet Dataanalyse - og de er ikke dynamiske. Uden dynamiske stikprøver er man i stedet nødt til at strikke en simulering sammen ved hjælp af tilfældighedsgeneratorer. I fx Excel har man umiddelbart kun adgang til tilfældighedsgeneratorerne SLUMP() og SLUMP.MELLEM(). Men der findes gode muligheder for at lave gentagne lister udregnet med diverse tilfældighedsgeneratorer, herunder en, der bygger på en brugerdefineret sandsynlighedsfordeling, ved hjælp af udvidelsesmodulet Dataanalyse. 2) Det skal være muligt at genberegne regnearket, så man får opdateret simuleringen, hvad enten den bygger på tilfældighedsgeneratorer eller tilfældige stikprøver. I TI-Nspire CAS sker der det ved hjælp af menupunk- 6

7 tet Genberegn (CTRL R). I DataMeter er det et menupunkt (Gentag simulering CTRL U) eller en knap på skattekisten. I TI-89 og TI-Interactive kan man ikke automatisk genberegne. Man må så i stedet gentage beregningen manuelt fx ved hjælp af nestede sekvens-kommandoer. I Excel virker funktionstasten F9. 3) Det skal være muligt at samle målinger op for en valgt teststørrelse knyttet til simuleringen. I TI-Nspire CAS gøres det ved hjælp af menupunktet Datafangst i Data-menuen. I DataMeter er det et menupunkt for skattekisten (Udtag gentagne målinger). Beregningen af en teststørrelse er triviel i alle former for regneark. Det er oprettelsen af en måling, der kan gentages, der er ikke-triviel. Både i TI-Nspire CAS og DataMeter skal man oprette målingen via en speciel teknik: I TI-Nspire CAS sker det ved at gemme formlen som en variabel man kan linke til (CTRL L), i DataMeter sker det ved at åbne for inspektøren i skattekisten og vælge fanebladet måling. I TI-89 henholdsvis TI-Interactive er det ikke umiddelbart muligt at oprette en måling og man må i stedet gennem den væk i en sekvens-kommando. Noget tilsvarende gælder for Excel. 4) Hurtig graf: Det skal være simpelt at oprette grafer for de optagne målinger. De fleste regneark har indbygget simple rutiner, der tillader hurtig oprettelse af grafer for udvalgte grafer. I TI-Nspire CAS kan man fx sværte kolonnen med målinger til, hvorefter menupunktet hurtig-graf automatisk opretter et Data og Statistik værksted hvorefter målingerne vises som et prikdiagram. Det giver allerede en hurtig fornemmelse for fordelingen. Derefter kan man bearbejde grafen på forskellig vis, fx skifte til histogram osv. Også TI-89 og TI-Interactive har tilsvarende faciliteter til automatisk hurtig oprettelse af grafer. Men også Datameter, Excel osv. gør det nemt at oprette grafer over udvalgte lister. Med disse fire faciliteter til rådighed kan man bruge dynamiske stikprøver til at opbygge en simulering af nulhypotesen, genberegning af regnearket til at gentage simuleringen mange gang og opsamling af målinger til at samle teststørrelsen for de mange simuleringer i en særskilt liste, så man kan undersøge fordelingen af teststørrelsen nøjere, herunder vurdere P-værdien, og endelig udnytte hurtig-grafen til at danne sig et visuelt indtryk af fordelingen og derved få en første fornemmelse for hvor signifikant resultatet er. Resten er tekniske detaljer, hvor vi nu vil prøve at gennemarbejde et antal cases, der kan vise den statistiske metode i praksis og også illustrere nogle af faciliteter, der er i de dynamiske statistikprogrammer. Da det er nemmest at simulere en kendt fordeling starter vi med at se på goodness-of-fit testen. Bagefter diskuterer vi så hvordan man kan simulere uafhængigheden for to stokastiske variable. 7

8 Eksempel 1: Noter til DASG-kursus i statistik den 4. september 2009 I Susannes noter finder vi det følgende eksempel: Danmarks statistiks opgørelse af indkomstfordelingen for personer over 15 år i Danmark år 2007 viser følgende billede: I=Indkomst i 1000 kr. % af befolkning I<50 50 I< I< I< I< I< I< I En markedsanalytiker har foretaget en undersøgelse af 1000 personers kendskab til et særdeles kostbart fladskærmsprodukt, men efterfølgende er der opstået tvivl om udvælgelsen af stikprøven, der er forgået som interviewundersøgelse over et par dage i et lokalt supermarked. Det frygtes, at stikprøven har fået for mange respondenter med i de lavere indkomstklasser. Heldigvis er der blevet spurgt om folks indkomst, så man kan lave et test for, om indkomstfordelingen i stikprøven synes at komme fra et specielt segment af befolkningen og altså dermed ikke at have den samme fordeling som indkomstfordelingen i Danmark. Hvis det er tilfældet, kan man nemlig ikke generalisere undersøgelsens resultat til hele befolkningen. Indkomstfordelingen i stikprøven var: Observerede antal: I=Indkomst i 1000 kr. I<50 50 I< I< I< I< I< I< I Antal i stikprøven Disse to tabeller overføres nu til et Lister og regneark værksted, idet de forventede hyppigheder i en stikprøve på 1000 adspurgte findes ved at gange procenterne med 10: 8

9 Læg mærke til at kategorierne, dvs. indkomstintervallerne, indtastes med gåseøjne! Det sker for at de skal opfattes som tekststrenge og ikke som formler. Opretter vi frekvensplot for de to hyppighedslister kan vi nu se at den mest markante forskel optræder i den laveste indkomstkategori. Så måske er lavindkomstgrupperne overrepræsenteret i interviewundersøgelsen! 9

10 Vi lægger nu ud med et mål for afvigelsen mellem de observerede og forventede hyppigheder. Som udgangspunkt er det naturligt at benytte summen af de kvadratiske afvigelser som et sådant mål: Det er jo det centrale mål for afvigelser i mindste kvadraters metode. Men som påpeget af Karl Pearson i 1900 er det smart at ændre udtrykket til den vægtede sum chi 2 Vi vil senere se på hvorfor det er smart at vægte de enkelte kvadratled på denne måde. Foreløbigt inkluderer vi afvigelsen, det såkaldte chi-kvadrat i et regneark (hvor vi ganger med 1. for at tvinge resultatet til at fremstå i decimaler): Spørgsmålet er så blot om er en stor afvigelse, som er svær at forklare ud fra tilfældige fluktuationer i stikprøven, eller om det er en lille afvigelse, der sagtens kan tilskrives tilfældige udsving i stikprøven. Det kan man ikke umiddelbart sige noget om, da et tal i sig selv ikke har nogen absolut størrelse. Vi må først fastlægge en standard for den forventede størrelse af afvigelsen, hvis den kan tilskrives tilfældige udsving, dvs. vi må først simulere nul-hypotesen, før vi kan udtale os om hvorvidt teststørrelsen er stor eller lille. Denne simulering af nulhypotesen foregår nu ved at vi udtrækker stikprøver fra superpopulationen, dvs. fra den samlede danske befolkning. Heldigvis behøver vi ikke konstruere en superpopulation, der indeholder alle danskere. Vi skal bare konstruere en ideel population, der afspejler den danske befolkning i den forstand at de forskellige indkomstgrupper netop forekommer med de samme andele som i den samlede befolkning. Denne ideelle population kan vi så trække stikprøver fra. 10

11 Da frekvensfordelingen for indkomstgrupperne er opgivet i procenter med 1 decimal (svarende til promiller) er det smart at konstruere en ideel population bestående af 1000 mennesker, dvs. bruge de forventede hyppigheder som udgangspunkt for den ideelle population. Vi benytter nu en meget nyttig kommando freqtable list(), der netop konverterer en hyppighedstabel til én lang liste med de rigtige forekomster af de enkelte kategorier: Denne superpopulation kan vi så afbilde som et histogram i et almindeligt data og statistik værksted og får med et søjlediagram netop adgang til en afbildning af hyppighederne (se figuren på næste side). Men hvis vi nu trækker en tilfældig person fra denne ideelle liste så vil sandsynligheden for at vedkommende har en lav indkomst mellem 0 og 50 kilokroner jo netop være 6.4 % og tilsvarende for de andre indkomstkategorier. Hvis vi ydermere laver udtrækningen MED tilbagelægning, så vil hver eneste person være trukket med de rigtige sandsynligheder, og indkomsten for to forskellige personer vil være uafhængige af hinanden. Vi kan nu med andre ord simulere nul-hypotesen, ifølge hvilken indkomstfordelingen for de udtrukne følger landsfordelingen! 11

12 Det sker ved hjælp af kommandoen randsamp() (en forkortelse af random sampling): Her er ejsvar en fejloversættelse af norep, dvs. no replacement. Så standarden er følgende valgfri parameter = 0 stikprøven udtages med tilbagelægning valgfri parameter = 1 stikprøven udtages uden tilbagelægning Da standarden netop foregår MED tilbagelægning kan vi bare ignorere den! Vi trækker da 1000 tilfældige indkomstgrupper fra den ideelle fordelinger, idet vi jo skal matche de 1000 personer i den oprindelige interviewundersøgelse. Dermed simulerer vi netop nulhypotesen, dvs. vi kan nu afbilde stikprøven og se hvordan den opfører sig, når vi gentager stikprøven ved at taste CTRL-R mange gange i regnearket! 12

13 Hver gang blafrer søjlerne i stikprøven så op og ned som udtryk for den naturlige variation i en stikprøve! Det ændrer ikke på det overordnede mønster, men det er tydeligt at de enkelte hyppigheder varierer ganske pænt og at der derfor godt kan være en vis afstand til den ideelle fordeling repræsenteret af de forventede hyppigheder. 13

14 For at kunne undersøge variationen nærmere får vi nu brug at finde de simulerede hyppigheder. Det kan gøres på forskellig vis. Der findes en indbygget kommando for at finde hyppighederne, frequency(), men den tæller desværre også de tilfælde med, der falder udenfor de oplyste kategorier (også selv om der jo ingen er i vores tilfælde). Det er desværre en arv fra Excel, som er helt overflødig: Derved passer listelængden ikke med den tilsvarende for kategorier. Det kan man som vist sno sig ud af ved at skære listen til med en left-kommando: left('sim_hyp,8) Hvis man ikke kan lide denne løsning må man i stedet bygge hyppighederne op med en celle-kommando, som trækkes ned gennem de 8 celler. I celle F1 skriver man da formlen countif(stikprøve,a1) der tæller hvor mange gange den første kategori forekommer i stikprøven osv. 14

15 Vi kan nu køre simulationen et antal gange fx 20 og lægger mærke til at der dukker chi2-tesstørrelser op i tyverne men ikke i trediverne. Så det synes ikke helt nemt at fange en teststørrelse på ! Vi bygger nu fordelingen af teststørrelsen op. Det kræver at vi lagrer dem som variable, dvs. vi højreklikker på cellerne B1 og B2 og lagrer dem som Chi2_obs og Chi2_sim: 15

16 Læg mærke til at cellerne nu er grå som tegn på at de er sat på lager! Men når vi først har lagret dem kan vi også gå på jagt efter dem med en datafangst. I fanger dem i søjle C, hvor vi sætter en måling op. Først giver vi søjle C et navn, i dette tilfælde måling og derefter vælger vi menupunktet Datafangst i Datamenuen. Det resulterer i en kommando capture(var,1) hvor vi selv skal udfylde variabelnavnet. Der er ikke tale om en kommando i sædvanlig forstand. Den kan kun bruges i lister og regneark og den står derfor ikke i kataloget! Resultatet er en første fangst af den nuværende værdi for teststørrelsen chi2_sim. Vi har også tilføjet en tæller i B3, der skal holde øje med hvor mange vi har fanget. Det sker ved celleformlen = dim(måling) 16

17 Endelig opretter vi en data- og statistikgraf, hvor vi kan se fordelingen af den simulerede teststørrelse og også sammenholde den med den observerede teststørrelse Chi2_obs, der derfor plottes som en værdi: Herefter er det bare at gå i gang med simuleringen ved at taste CTRL-R i det oprindelige regneark, hvor simuleringen foregår! Til at begynde med ser man punkterne tilføjes et for et, men efterhånden foregår det i større og større ryk, hvor programmet regner på livet løs, mens CTRL-R tasten holdes nede. Og når vi når op til 2500 målinger, går målingen i stå, fordi regnearket ikke kan rumme søjler/lister med over 2500 elementer: 17

18 Efter 2500 forsøg er det ikke lykkedes os en eneste gang at nå op til de og kun to gange er det lykkedes at nå over 25. Det er altså meget svært at simulere sig til en værdi, der er lige så ekstrem som den observerede og nulhypotesen er derfor ikke troværdig! Den bør forkastes. Men inden vi forlader eksemplet vil vi lige illustrere nogle flere karakteristiske egenskaber ved fordelingen. Først plotter vi middelværdien: Middelværdien ligger meget tæt ved 7. Det er ikke noget tilfælde: 18

19 Det vægtede gennemsnit i Pearsons teststørrelse er netop valgt, så fordelingen af teststørrelsen får en middelværdi, der ligger tæt på antallet af frihedsgrader (og som er lig med antallet af frihedsgrader, når vi regner på den forventede teoretiske fordeling af teststørrelsen). Antallet af frihedsgrader i en goodness-offit test svarer til antallet af hyppigheder, der kan vælges frit. I en stikprøve på 1000 elementer med 8 kategorier er der netop 7 frihedsgrader, for når vi har valgt 7 hyppigheder fastlægges den sidste af kravet om at summen af hyppighederne skal være Det giver en første fornemmelse for hvornår en observeret teststørrelse er lille eller stor. Den skal i hvert fald et stykke over middelværdien, dvs. antallet af frihedsgrader, før der kan blive tale om at den er stor! For nu at præcisere det har man truffet et valg af det såkaldte signifikansniveau, som typisk er 5% eller 1%. Her vil vi illustrere det med 1%. For at en teststørrelse kan regnes for stor og nulhypotesen dermed for utroværdig, skal den være mindst lige så stor om de største 1% i fordelingen af den simulerede teststørrelse. Eller sagt med andre ord: Sandsynligheden for at den er fremkommet ved et tilfælde ud fra nulhypotesen skal være mindre end 1% før vi forkaster nulhypotesen. Nu svarer 1% til 25 observationer ud af de 2500 målinger, så vi skal have fat i de 25 største målinger. Det kan man nemt finde ud af ved at ordne målingerne efter størrelse, men da målingerne er fremkommet ved en datafangstkommando skal den slettes først før vi får lov til at ordne målingerne! Det tager selvfølgelig et stykke tid at ordne de 2500 målinger efter aftagende størrelse, men til sidst falder det på plads: Vi ser da at man skal over 19 før en teststørrelse kan karakteriseres som stor. Man kan også udregne den kritiske sandsynlighed, dvs. sandsynligheden for at simulere en teststørrelse, der er mindst lige så skæv som den observerede. Vi skal da tælle hvor mange af de simulerede teststørrelser, der er større end eller lig med den observerede. I vores tilfælde er der ingen, så vi kan vurdere den 19

20 kritiske sandsynlighed p til at være mindre end 1/2500 = 0.04%, som ligger langt under signifikansniveauet, dvs. der er tale om en meget sjælden begivenhed, når man observerer , og dermed er nulhypotesen meget utroværdig. I almindelighed finder man antallet af skæve teststørrelser med en countifkommando: countif(måling,?>=chi2_obs) der derefter divideres med det samlede antal målinger. Men vi kan også kigge på den teoretiske fordeling af teststørrelsen. Vi vil da først omforme prikdiagrammet til et histogram med søjlebredden 1 og skalaen til densitet, dvs. der er tale om tæthedshistogram med det samlede areal 1: Vi ser da netop den karakteristiske form af chi2-fordelingen med 7 frihedsgrader (den topper lidt før 7, men er til gengæld højreskæv!). Vi kan tegne den teoretiske fordeling ved at plotte funktionen chi2pdf(x,7) hvor Pdf står for pointdistribution. Vi ser da at den følger tæthedshistogrammet meget nøje. Vi kan derfor i praksis godt erstatte den eksperimentelle simulering med den teoretiske fordelingskurve. Det vil give samme resultat! 20

21 Hvis vi højreklikker på grafen og vælger Skraver under funktion kan vi endda finde den kritiske sandsynlighed ved at klikke på chi2_obs og på boksen med +. Vi finder da resultatet helt ned til højre som Det er i overensstemmelse med vores tidligere skøn, idet det er det samme som %. Vi kan også finde den kritiske teststørrelse svarende til signifikansniveauet 1%. Igen skraverer vi under funktionen, men denne gang starter vi i - og trækker musen indtil vi passer de 99% (så der kun er 1% tilbage). Vi ser da at den kriti- 21

22 ske teststørrelse ligger meget tæt på 18.5, dvs. alt over 18.5 er statistisk signifikant! Hvis man først er blevet rigtig fortrolig med testen kan man endda regne direkte på den teoretiske fordeling i grafregneren: Men så kan man såmænd lige så godt udføre testet som et indbygget test! Det kan fx gøres i lister og regneark-værkstedet: 22

23 Læg mærke til at vi selv skal anføre antallet af frihedsgrader. Det er godt, for der er mere avancerede eksempler på goodness-of-fit test, hvor man først skal estimere parametre for fordelingen, og derfor mister yderligere frihedsgrader. Læg også mærke til at man kan få plottet data! Vi får da netop oplyst teststørrelsen χ 2, den kritiske sandsynlighed Pval, antallet af frihedsgrader (som vi selv har oplyst) og endelig en liste over de enkelte kategoriers bidrag til teststørrelsen (der viser at det især er den første kategori, der bidrager kraftigt!). På grafplottet ses tilsvarende teststørrelsen og den kritiske sandsynlighed (som med fire decimaler er 0, dvs. den er meget lille). Endelig vil området under grafen være skraveret, men det kan man i dette ekstreme tilfælde først se, når man har pillet ret så kraftigt ved skalaen! 23

24 24

25 Et uafhængighedstest Som det sidste eksempel vil vi se på et uafhængighedstest, der samtidigt giver os mulighed for at demonstrere, hvordan man kan simulere uafhængighed af to stokastiske variable. Vi lægger ud med et fiktivt talmateriale 1 der skal forestille resultatet af en spørgeskemaundersøgelse, hvor man vil belyse en eventuel sammenhæng mellem unges tøjforbrug og deres køn: Adskiller kvinder og mænd sig i deres tøjforbrug? Her er et lavt forbrug sat til at udgøre højst 1500 kr. om måneden og et højt forbrug er sat til at udgøre mindst 1500 kr. om måneden. køn\forbrug lavt højt i alt kvinder mænd i alt Disse tal udgør altså vores observation. Som udgangspunkt vil vi nu teste nulhypotesen, der udsiger at der ingen sammenhæng er mellem køn og forbrug. Vi lægger da ud med at konstruere et datasæt ud fra de givne observationer. Det er dette datasæt, vi vil basere vores simulering af nulhypotesen på, men først skal det opbygges. Vi lægger ud med to kategorilister, der tilsammen dækker kombinationerne i vores krydstabel (dvs. krydstabellen repræsenteres af to krydslister). Derefter skriver vi de observerede hyppigheder ind, som de fremgår af den ovenstående tabel: På basis af disse krydslister kan vi nu opbygge vores rådata, dvs. de faktiske lister med køn og forbrug. Det sker ved hjælp af kommandoen FreqTable List(kategoriliste, hyppighedsliste), der omdanner en kategoriliste med tilhørende hyppigheder til en liste af rådata. Vi opretter altså nu to nye variable en for køn og en for forbrug, som er i overensstemmelse med de oplyste data: 1 Hentet fra et udkast til noter om chi-i-anden fordelingen af E. Susanne Christensen. Lektor i statistik. Institut for Matematiske Fag. Aalborg Universitet. 25

26 Vi kan nu checke rådata ved at oprette søjlediagrammer for køn henholdsvis forbrug: Bortset fra at vi har fået byttet om på rækkefølgen af højt forbrug og lavt forbrug, har vi genskabt tabellen i grafisk form. Vi ser også at mænd har et noget højere forbrug end kvinder, men spørgsmålet er om det er nok til at være signifikant? For at undersøge det vil vi simulere uafhængigheden af de to variable ved at røre rundt i den ene variabel, dvs. permutere rækkefølgen helt tilfældigt, så vi bryder enhver sammenhæng mellem værdien for køn og værdien for forbrug. Vi vælger at røre rundt i køn og benytter derfor kommandoen randsamp(population, antal, uden = 1) til at udtrække en stikprøve fra køn uden tilbagelægning med det samme antal elementer: Her ser vi resultatet af de 5 første omrøringer: 26

27 Vi kan også oprette en krydslister som før for omrøringen ved at foretage optællinger med sim(iffn(kritere,1,0))-kommandoen, der efterfølgende trækkes ned gennem cellerne i krydslisten: Læg mærke til at randværdierne, dvs. rækketotalerne og søjletotalerne er de samme som i vores observationer. Det er kun kombinationerne, der skifter værdier. Med udgangspunkt i simuleringen skal vi nu opbygge teststørrelsen, dvs. chikvadratet. Vi må da først finde de forventede værdier. Under antagelse af nulhypotesen må vi nu forvente at fordelingen af forbruget for kvinder følger den generelle fordeling af forbruget (som ses i søjletotalerne), dvs. at 202 ud af de 360 har et højt forbrug. Det forventede antal kvinder med højt forbrug er derfor givet ved Søjletotal Rækketotal 200 = = Det samlede antal og tilsvarende for de andre kombinationer. Vi kan derfor udregne de forventede antal ud fra denne formel: Som det ses ligger de omrørte hyppigheder og de forventede hyppigheder rimeligt tæt på hinanden. Med udgangspunkt i disse værdier kan vi nu udregne chi-teststørrelsen givet ved ( observeret forventet) chikvadrat = forventet 2 27

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

The lady tasting tea

The lady tasting tea The lady tasting tea En eksperimentel indføring i hypotesetest Bjørn Felsager Foredrag ved Regionalmødet i Herning den 19. januar 2012 Indholdsfortegnelse 1. Indledning s. 2 Nye læreplaner og undervisningsvejledning

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING MANDATFORDELING Dette materiale er lavet som supplement til Erik Vestergaards hjemmeside om samme emne. 1 http://www.matematiksider.dk/mandatfordelinger.html I dette materiale er en række øvelser der knytter

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Spørgeskemaundersøgelser og databehandling

Spørgeskemaundersøgelser og databehandling DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle.

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. Af E. Susanne Christensen. Lektor i statistik. Institut for Matematiske Fag. Aalborg Universitet. I mange tilfælde og

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Behandling af kvantitative data 19.11.2012

Behandling af kvantitative data 19.11.2012 Behandling af kvantitative data 19.11.2012 I dag skal vi snakke om Kvantitativ metode i kort form Hvordan man kan kode og indtaste data Data på forskellig måleniveau Hvilke muligheder, der er for at analysere

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

At lave dit eget spørgeskema

At lave dit eget spørgeskema At lave dit eget spørgeskema 1 Lectio... 2 2. Spørgeskemaer i Google Docs... 2 3. Anvendelighed af din undersøgelse - målbare variable... 4 Repræsentativitet... 4 Fejlkilder: Målefejl - Systematiske fejl-

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

J E T T E V E S T E R G A A R D

J E T T E V E S T E R G A A R D BINOMIALT EST J E T T E V E S T E R G A A R D F I P B I O L O G I M A R S E L I S B O R G G Y M N A S I U M D. 1 3. M A R T S 2 0 1 9 K A L U N D B O R G G Y M N A S I U M D. 1 4. M A R T S 2 0 1 9 HVEM

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment

Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment Indhold 1. Modellering af fald med papirhelikopter: Et eksempel på lineær regression... 2 Empiri... 2 Helikoptereksperimentet...

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Man kan skifte mellem tekst- og matemamatikmode ved at trykke på F5. I øjeblikket er jeg i tekstmode.. 2. lektion.

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

9 Statistik og sandsynlighed

9 Statistik og sandsynlighed 9 Statistik og sandsynlighed Faglige mål Kapitlet Statistik og sandsynlighed tager udgangspunkt i følgende faglige mål: Enkeltobservationer: kunne skabe overblik over statistisk materiale og anvende udvalgte

Læs mere

Introduktion til SPSS

Introduktion til SPSS Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger

Læs mere

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Vi ønskede at planlægge og afprøve et undervisningsforløb, hvor anvendelse af

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2013 Institution Roskilde Handelsskole Uddannelse Fag og niveau Lærer(e) Hold Hhx Matematik B Henrik Laursen

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Metoder og struktur ved skriftligt arbejde i idræt.

Metoder og struktur ved skriftligt arbejde i idræt. Metoder og struktur ved skriftligt arbejde i idræt. Kort gennemgang omkring opgaver: Som udgangspunkt skal du når du skriver opgaver i idræt bygge den op med udgangspunkt i de taksonomiske niveauer. Dvs.

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

MODELSÆT 2; MATEMATIK TIL LÆREREKSAMEN

MODELSÆT 2; MATEMATIK TIL LÆREREKSAMEN MODELSÆT ; MATEMATIK TIL LÆREREKSAMEN Forberedende materiale Den individuelle skriftlige røve i matematik vil tage udgangsunkt i følgende materiale:. En diskette med to regnearks-filer og en MathCad-fil..

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1

Formål & Mål. Ingeniør- og naturvidenskabelig. Metodelære. Kursusgang 1 Målsætning. Kursusindhold. Introduktion til Metodelære. Indhold Kursusgang 1 Ingeniør- og naturvidenskabelig metodelære Dette kursusmateriale er udviklet af: Jesper H. Larsen Institut for Produktion Aalborg Universitet Kursusholder: Lars Peter Jensen Formål & Mål Formål: At støtte

Læs mere

q-værdien som skal sammenlignes med den kritiske Chi-i-Anden værdi p-værdien som skal sammenlignes med signifikansniveauet.

q-værdien som skal sammenlignes med den kritiske Chi-i-Anden værdi p-værdien som skal sammenlignes med signifikansniveauet. Introduktion: Chi-i-Anden test (Goodness of Fit) på computeren fungerer som en "black-boks"- kommando, hvor eleverne med udgangspunkt i en nulhypotese (H ) taster de forventede og de observerede talværdier

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

Statistisk modellering og regressionsanalyse

Statistisk modellering og regressionsanalyse Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not

Læs mere

Uafhængighed et eksempel på en rød tråd i statistikken

Uafhængighed et eksempel på en rød tråd i statistikken Uafhængighed et eksempel på en rød tråd i statistikken Statistiknoter til TI-Nspire CAS version 2.0 Bjørn Felsager Marts 2010 Indholdsfortegnelse: Forord side 1 1. Unges alkoholforbrug som funktion af

Læs mere

Dagens program. Praktisk information:

Dagens program. Praktisk information: Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere