Maja Tarp AARHUS UNIVERSITET

Relaterede dokumenter
Maja Tarp AARHUS UNIVERSITET

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Opgaver til kapitel 3

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kapitel 4 Sandsynlighed og statistiske modeller

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Eksamen i Statistik for biokemikere. Blok

Vejledende løsninger kapitel 8 opgaver

Markovkæder og kodesprog

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Kapitel 4 Sandsynlighed og statistiske modeller

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kapitel 7 Forskelle mellem centraltendenser

Løsninger til kapitel 9

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Normalfordelingen og Stikprøvefordelinger

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Modelkontrol i Faktor Modeller

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Kapitel 12 Variansanalyse

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Konfidensintervaller og Hypotesetest

for matematik pä B-niveau i hf

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Løsninger til kapitel 6

Personlig stemmeafgivning

Vejledende besvarelser til opgaver i kapitel 14

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kapitel 12 Variansanalyse

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Løsning til eksamen d.27 Maj 2010

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

En Introduktion til SAS. Kapitel 5.

Statistik i basketball

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Produkt og marked - matematiske og statistiske metoder

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Stastistik og Databehandling på en TI-83

Statistik og Sandsynlighedsregning 2

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Matematisk Modellering 1 Cheat Sheet

1 Hb SS Hb Sβ Hb SC = , (s = )

Dig og din puls Lærervejleding

Transkript:

AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET

HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjylland Student år 005 fra Dronninglund Gymnasium Efter gymnasiet: Militæret Australien Startede på matematik på Aarhus Universitet i 007 Sommeren 00: BSc i matematik Nu: Stud.cand.scient i statistik

STUDIERNES OPBYGNING Her er jeg

HVORDAN SER EN UGE UD?

JOBMULIGHEDER Private erhvervsliv et hav af muligheder: Handel Banker Konsulent- og rådgivningsvirksomhed Medicinalindustri Sundhed Forskning: Universiteter Interesseorganisationer Private virksomheder Undervisning: Gymnasier Handelsskoler Seminarer Ikke Gallup!

Hvorfor statistik? Kan forudsige fremtiden Kan bruges som beslutningsgrundlag: Politik Aktiekurser Medicinske forsøg Risikovurdering Spilteori

Statistik og virkeligheden I perioden 960-970 faldt antallet af fødsler samtidig med at antallet af storkepar i Danmark faldt. Klar sammenhæng mellem drukneulykker og issalg! Når der sælges mange is, er der mange der drukner! Bør der investeres mere i rynkecreme? Der er en overdødelighed blandt folk med rynker!

Normalfordeling

Normalfordeling Måske den vigtigste fordeling overhovedet. Har toppunkt i sin middelværdi, og er symmetrisk fordelt her omkring. Model for hvordan et stort antal statistiske elementer fordeler sig omkring deres middelværdi.

Eksempler Højde, vægt Kvalitetstest Blodtryksændring IQ

En normalfordelt observation Vi vil nu betragte normalfordelt data. Dvs. data, som er nf ( µ ; σ) Hvor µ er middelværdien og σ er standardafvigelsen.

En normalfordelt observation Vi betragter altså nf ( µ ; σ ) x Vi beregner ofte som er det bedste gæt på den sande værdi af. µ Og som er det bedste gæt man kan komme på den sande værdi af. s σ

Normalfordelingen, grafisk Den normerede normalfordeling, dvs. nf(0;) Grafen viser tæthedsfunktionen. Areal

Normalfordelingen, grafisk En tilsvarende graf kan laves for enhver normalfordeling, nf( µ ; σ) Samme form som før, blot anden placering. Arealet stadig.

Fordelingsfunktionen Fordelingsfunktionen Φ(x) angiver sandsynligheden for, at X er mindre end et tal x, dvs Φ(x) Sandsynlighed for at x Dvs. at Φ(x) er en voksende funktion, med værdier mellem 0 og.

Eksempler: Fordelingsfunktionen Vi betragter altså hvor middelværdien er 30 og spredningen 4. Bestem fordelingsfunktinen. Dvs. find sandsynligheden for at x To metoder: Bestem sandsynligheden som arealet under grafen for tæthedsfunktionen fra - til 33. nf (30;4) Bestem fordelingsfunktionens værdi i 33.

Eksempler: Fordelingsfunktionen Bestem sandsynligheden som arealet under grafen for tæthedsfunktionen fra - til 33.

Eksempler: Fordelingsfunktionen Bestem fordelingsfunktionens værdi i 33.

Eksempler: Fordelingsfunktionen Eksempel : Intelligenskvotient scorer nf(00,5) regn selv

Eksempler: Fordelingsfunktionen Eksempel : En maskine på en fabrik nf(0, 0.) regn selv

Eksempel: Fluer og gift 6 fluer udsættes for nervegift, der måles hvor lang tid der går, før fluerne besvimer.

6 5 4 3 0 9 8 7 6 5 4 3 Flue nummer i.86 4.9 40.3 4. 58.0 3.8 46 0.78 3.8 43 0.58 3.5 34 0.40 3. 4 0.4 3. 4 0.08 3.0 0-0.08.5-0.4.3 0-0.40. 9-0.58. 9-0.78.9 7 -.0.6 5 -.3.6 5 -.86. 3 Φ^(-) ((i-0.5)/6) Ln(tid) Tid

N(0,)-fraktil - - 0 0 0 40 60 80 00 0 40 tid Hvis vores målinger er normalfordelte forventer vi at kunne indtegne dem som en ret linje i fraktilplottet. Dette er ikke tilfældet, men målingerne ser ud til at de kunne være logaritme fordelt. Derfor tages logaritmen til tiden og vi indtegner igen.

N(0,)-fraktil - - 0 3 4 5 Målingerne ligger om en pæn ret linje, hvorfor vi kan antage, at logaritmen til tiden er normalfordelt. Dvs. vi betragter modellen: nf lntid ( µ ; σ )

Vi beregner efterfølgende skøn for standardafvigelsen og middelværdien vha. formlerne:.05 ) 6 44.9 (4.6 5 ) ( 4.6 4.9....6.....8 44.9 6 44.9 4.9)....6 (.... 6 6 n S USS n s x x x USS S n x x x x S

Eksempel: Læseevner Der betragtes to 3. klasser. Den ene klasse modtager ekstra læsetræning, mens den anden klasse er en kontrolklasse med almindelig læseundervisning. Efter 8 uger får eleverne en læsetest. Klasse Træning Testresultat 4 43 7 58 43 49 6 44 67 49 53 56 59 5 6 54 57 33 46 43 57 Kontrol 4 43 55 6 6 37 33 4 9 54 0 85 46 0 7 60 53 4 37 4 55 8 48

Læseevner Fraktilplots viser at målinger i hver klasse kan beskrives med en normalfordeling, dvs:. Klasse Klasse træning kontrol følger en følger en nf nf ( µ ( µ træning kontrol ; σ ; σ træning kontrol ) ) Vi ønsker nu at finde estimater for middelværdi og standardafvigelse i hver af de to klasser.

Først beregnes: 463 48... 43 4... 58069 57... 43 4... 955 48)... 43 (4... 08 57)... 43 (4... 3 3 x x USS x x USS x x S x x S kontrol træning kontrol træning

463 955 3 Kontrol 58069 08 Træning USS S n Klasse 7. ) 3 955 (463 ) ( 0 ) 08 (58069 0 ) ( 4.5 955 3 5.5 08 n S USS n s n S USS n s S n x S n x kontrol træning kontrol træning

Vi ønsker nu at teste hypotesen H :σ σ træning kontrol altså et test for samme standardafvigelse i de to klasser. Dette gøres ved teststørrelsen: F P obs s s træning kontrol 0 7. ( x) ( F F( f 0.4, )( )) ( (0,)(0.4)) f F F F 0.057 Hvor vi finder FF(0,) findes ved fcdf(-,0.4, 0, )0.05

Da p-værdien er større end 5 % accepterer vi hypotesen, dvs vi har modellen: Klasse Klasse træning kontrol følger en følger en nf nf ( µ ( µ træning kontrol Den fælles standardafvigelse kan estimeres ved: ; σ) ; σ) s f træning s f træning træning f f kontrol kontrol s kontrol 0 0 0 7. 4.6

Vi ønsker nu at teste hypotesen H : µ µ træning kontrol altså et test for samme middelværdi i de to klasser. Dvs. et test for om den ekstra læsetræning har en effekt.

Dette gøres ved teststørrelsen: t( x) s x træning ( n træning x kontrol n kontrol ) 5.5 4.6 ( 4.5 ) 3.7 P obs ( x) ( F t( f ) ( t( x))) ( F t(4) (.7)) 0.07 Hvor vi finder Ft(4) findes ved tcdf(-,.7, 4)0.9858

Da p-værdien er mindre end 5 % forkaster vi hypotesen om ens middelværdier. Dvs den ekstra læsetræning har en effekt.

Hvorfor er det godt at kunne sin statistik???

TV-quiz Antag, at du medvirker i et tv-program, og du får givet muligheden for at vælge mellem tre døre: Bag en af dørene er der en bil; bag de to andre en ged. Du vælger en dør, lad os sige nr., og tv-værten, som ved, hvad der er bag dørene, åbner en anden dør, lad os sige nr. 3, bag hvilken der befinder sig en ged. Han spørger dig nu: "Vil du hellere vælge dør nr.?" Er det nu en fordel af vælge om?

Sandsynligheden for at man vælger døren med bilen ved det første valg er /3, hvilket også vil være chancen for at vinde bilen, hvis man holder fast på sit første valg. På den anden side er sandsynligheden for at vælge en dør, som skjuler en ged /3, og en spiller, som oprindeligt har valgt en ged, vinder bilen ved at vælge om.

Vi har altså 3 mulige udfald.. 3.

I to ud af tre tilfælde kan det betale sig at skifte dør, og i et ud af tre tilfælde kan det ikke betale sig. Ens chance for at vinde fordobles altså ved at vælge om, når spilstyreren tilbyder det.

Er mænd klogere end kvinder?

Professor i psykologi ved Aarhus Universitet, Helmuth Nyborg påstod at have opdaget mænd gennemsnitligt er 7 % klogere end kvinder. Senere opdagede han en regnefejl, så forskellen kun var 5 %... Men kan dette resultat være rigtigt?

Problemer med Nyborgs resultat: - Lille datamateriale (5 personer) - Hvordan er disse udvalgt - Hvordan måles intelligensen? - Statistisk metode

Nyborg modellerede hvert køns intelligens ved en normalfordeling. Han anvendte et test, der ikke gav mulighed for kvinder kunne være klogere end mænd. Havde han i stedet anvendt et ganske almindeligt t-test for at middelværdien var den samme i de to grupper (de to køn), ville han have fået accept. Men der er flere problemer

Nyborg hævdede: for hver kvinde med en IQ på over 45 vil der være mænd Er Nyborgs 5 testpersoner repræsentative (og ellers giver undersøgelsen ingen mening!) må de fleste ligge nær middelværdien. Et så lille datasæt kan derfor ikke sige noget om hvordan fordelingen er i de mere ekstreme tilfælde.

Statistiker på prøve Klinisk Epidemiologisk Afdeling (KEA) Undersøge patient-populationers prognose Adgang til: CPR-registret Receptdatabase Operationsdatabase Cancerregister Fødsels- og dødsregister

Statistiker på prøve Immunforsvarets rolle i forbindelse med brystkræft-recidiv Herpes Zoster og kræft?

Spørgsmål og kommentarer