STATISTIK x-klasserne Gammel Hellerup Gymnasium

Størrelse: px
Starte visningen fra side:

Download "STATISTIK x-klasserne Gammel Hellerup Gymnasium"

Transkript

1 STATISTIK x-klassere Gammel Hellerup Gymasium Jui 209 ; Michael Szymaski ; mz@ghg.dk

2 Idholdsfortegelse INDLEDNING...3 DESKRIPTIV STATISTIK...4 Skemaer...5 Diagrammer...8 Statistiske deskriptorer... 0 Typetal og typeiterval... 2 Middelværdi / Geemsit... 2 Kvartilsæt og udvidet kvartilsæt (media, edre kvartil, )... 3 Fraktiler... 7 Varias og spredig (stadardafvigelse)... 8 Skævhed... 8 Boksplot / Boxplot NORMALFORDELINGER Om areal og eheder i histogrammer og tæthedsfuktioer Nogle vigtige værdier for ormalfordeliger Fordeligsfuktioer:... 3 De Cetrale Græseværdisætig... 3 Biomialformle vs. ormalfordeligskurve Er mit kokrete eksperimetelle datasæt ormalfordelt? QQ-plot STIKPRØVEUDTAGNING OG EKSPERIMENTELT ARBEJDE Oversigt over og kort forklarig på cetrale begreber Begrebere avedt ide for aturvideskabere... 4 Estimater af deskriptorer ud fra stikprøver Kofidesitervaller Kofidesiterval for hældig Kofidesiterval for sadsyligheder TEST Biomialtest test test (chi-i-ade-test) GOF test (chi-i-ade-test) Uafhægighedstest t-test (Studet's t-test) t-test: Oe-Sample-t-test... 7 t-test: Two-Sample-paired-differece-t-test (parvise observatioer) t-test: Two-Sample-t-test (ikke-parvise observatioer) z-test BILAG A: Biomialfordelig BILAG B: Sigifikasiveauer

3 INDLEDNING Det er umuligt at komme med e fyldestgørede beskrivelse af, hvorda ma ide for aturvideskabere er kommet frem til de eorme mægde vide, der til stadighed udbygges, justeres, glemmes og forkastes. Vide ka være opstået geem gode ideer, tilfældigheder, opmærksomme iagttagelser af uvetede hædelser, forkerte udregiger og fejl, der udliger hiade, gruppers systematiske arbejde og ekeltpersoers vedholdede fokuserig på problemer. Ide for videskabsteorie forsøger ma at give e slags ideal for, hvorda videskab burde bedrives, og hvorda ma udgår forkert vide. Ide for aturvideskabe avedes de såkaldt hypotetisk-deduktive metode koblet samme med falsifikatiospricippet. Det går kort fortalt ud på, at ma har e hypotese (også kaldet e teori), som ma udleder ogle kosekveser af. Disse kosekveser skal ifølge falsifikatiospricippet testes med heblik på at få forkastet hypotese. Hvis dette mislykkes, er hypotese ikke blevet forkastet, me derimod styrket. Det er i testige af e hypotese, at matematikke - eller mere præcist statistikke - kommer id i billedet. Statistik går ud på at: ) Idsamle datamateriale. 2) Orgaisere det idsamlede materiale, så det ka behadles. 3) Aalysere og/eller teste det idsamlede materiale i forhold til e hypotese. 4) Vurdere aalyse eller testresultatet. 5) Præsetere data og koklusioer på e overskuelig måde. I dette hæfte behadles først puktere 2) og 5), der er de såkaldte deskriptive statistik. Så geemgås pukt ). Og edelig puktere 3) og 4). Bemærk, at det er beskrivede statistik. Deskriptiv statistik ideholder ige aalyse eller vurderig. Aalysere og vurderigere kommer, år vi er færdige med at opstille vores data. Vi har allerede ærmet os deskriptiv statistik i forbidelse med fuktiosbegrebet, år vi har set på modeller, regressio og residualer. I de del af de deskriptive statistik, som vi u skal beskæftige os med, og som ormalt er det, ma forbider med deskriptiv statistik, hadler det om at udrege ogle karakteristiske størrelser (deskriptorer), der fortæller oget cetralt om et datamateriale, samt at få opstillet datamaterialet på e overskuelig måde, så ma efterfølgede ka vurdere det. Deskriptorere, vi skal se på, er: Observatiossættets størrelse, typetal, middelværdi, media, skævhed, midste og største observatio, fraktiler, kvartiler, varias og spredig. 3

4 Når vi arbejder ide for deskriptiv statistik, aveder vi frekveser i stedet for sadsyligheder, fordi vi idsamler oget datamateriale og foretager beregiger på dette ude iddragelse af oge teori, hvorudfra vi kue have ræsoeret os frem til ogle sadsyligheder. Frekvesere bereges ud fra de observerede hyppigheder. Når vi seere skal se på hypotesetest, arbejder vi både med hyppigheder og sadsyligheder, da vi tager udgagspukt i e såkaldt ulhypotese, der giver os ogle sadsyligheder, som vi ka avede til at berege forvetede hyppigheder, der skal sammeliges med observerede hyppigheder. Vores skema fra Sadsylighedsregig og kombiatorik vil derfor blive omformet til følgede: DESKRIPTIV STATISTIK Grupperede og ikke-grupperede observatiossæt Vi tager u udgagspukt i, at ma har idsamlet oget datamateriale. Det kue være: Ma har målt højde af alle de uge mæd, der var til sessio i 204. Ma har registreret atallet af sygedage i 208 for alle ladets gymasielærere. Ma har registreret karakterere til de skriftlige sommereksame for matematik A-elever på stx i 207. Ma har målt de geemsitlige årlige edbørsmægde i Damark i periode Ma har registreret atallet af biler for hver husstad i Damark. Hele poite med deskriptiv statistik er som ævt, at ma skal have opstillet sie data på e så overskuelig måde som muligt, samt at ma skal have bereget ogle størrelser, der fortæller oget om datamaterialet. I forbidelse med opstillige af data, skal ma som det første afgøre, om ma skal gruppere sit datamateriale eller ej. Hvis ma, som det f.eks. er tilfældet med højde af uge mæd på sessio, har foretaget e tilsvarede idsamlig tidligere, eller hvis det, som f.eks. i tilfældet med karakterere, giver sig selv fra start, ka afgørelse være foretaget ide idsamlige. Me ellers skal ma kigge på sit materiale og se, hvad der vil være mest hesigtsmæssigt med heblik på de mest overskuelige opstillig. Bemærk, at dette er e væsetlig forskel fra hypotesetest, hvor det er e dødssyd først at vælge sit statistiske test efter at have set på datamaterialet. 4

5 Ikke-grupperede observatiossæt: Dette vælges, hvis de observerede størrelse er af e såda art, at de ku ka atage et ikke for stort atal veldefierede værdier. F.eks. hvis ma observerer elevers karakterer. Her er mulighedere -3, 0, 2, 4, 7, 0 og 2. Eller hvis ma observerer atal hudehvalpe ved e fødsel med mulighedere, 2, 3, 4,, 5 (hvor det veldefierede maksimum ka sættes ud fra det højest observerede). I vores eksempler fra før vil det være oplagt ikke at gruppere observatiossættet i tilfældee med karakterer og atal biler. Hvis ma har et meget stort datasæt med mage forskellige værdier, ka ma også udlade at gruppere, hvis ma ku er iteresseret i at udrege deskriptorer og opstille diagrammer, der alee er baseret på deskriptorer (f.eks. et såkaldt boksplot, som vi seere skal se på). Grupperet observatiossæt: Her grupperes observatioere i passede itervaller. Atallet af itervaller må ikke være for småt, da ma så mister for meget iformatio om det idsamlede materiale. Det må heller ikke være for stort, hvis det går ud over overskuelighede. Selve itervalstørrelse skal ma også selv vælge. De fleste itervaller bør for overskuelighedes skyld være lige store, me sommetider ka ma med fordel gøre itervallere i edere større, da ma så udgår flere itervaller med få eller ige observatioer. Ma ka evt. også gøre de cetrale itervaller midre, hvis ma i dette område øsker ikke at miste for meget iformatio. Det er vigtigt at bemærke, at ma grupperer for overskuelighedes skyld, me at det sker på bekostig af oget tabt iformatio. Ma har vedtaget, at itervallere er lukkede mod højre og åbe mod vestre, dvs. f.eks. ]5,0]. Skemaer Observatiossættets størrelse (): *** Observatio (f.eks. Karakter/Højde i cm) -3 / ]40;50] 0 / ]50;55] Hyppighed / Itervalhyppighed (h) 2 8 Frekves / Itervalfrekves (%) (f ) 3% 2% Kumuleret frekves / itervalfrekves (%) 3% 5% 00% Frekveser udfyldes ved at rege på hyppighedere: Hyppighed: Atallet af de pågældede observatio. Dvs. at ovefor har 2 elever fået målt e højde mellem 4 cm og 50 cm (begge iklusive). Hyppighed h Frekves: Bereges som: Frekves = dvs. f = Observatiossættets størrelse Ma får så et decimaltal mellem 0 og, der ka agives i procet. Kumulerede frekveser udfyldes ved hjælp af frekvesere: Kumuleret frekves: Frekvesere til og med de pågældede observatio lægges samme. Dvs. at ovefor viser de kumulerede frekves, at 5% af elevere har højder på 55 cm eller midre. Kotrol: De kumulerede frekves skal ved sidste observatio give 00% (evt. ka der være e decimal til forskel pga. afrudiger udervejs). 5

6 Eksempel a (Ikke-grupperet): Matematik A-iveau skriftlig eksame 208. = 0657 Karakter Hyppighed Frekves 0,8% 0,2% 6,8% 8,% 30,0% 24,% 0,% Kumuleret frekves 0,8%,0% 7,8% 35,9% 65,9% 90,0% 00,% Regeeksempler: h 927 Frekves for karaktere 4: f = = = 0, = 8,% 0657 Kumuleret frekves for karaktere 4: 0,8% + 0,2% + 6,8% + 8,% = 35,9% Dvs. at 35,9% af elevere fik karaktere 4 eller deruder. Det bemærkes, at de kumulerede frekves pga. afrudiger giver 00,% i stedet for 00% for karaktere 2. Eksempel 2a (Ikke-grupperet): Matematik B-iveau skriftlig eksame 208. = 35 Karakter Hyppighed I Maple ka værdiere idtastes i e matrix. I dette tilfælde 7 rækker og 2 søjler: Med Gym-pakkes frekvestabel ka ma derefter få udreget skemaet: 6

7 Eksempel 3a (Grupperet): Bestemmelse af højde af Det Skæve Tår i Pisa. 24 elever er med samme metode kommet frem til følgede værdier agivet i meter ( = 24 ): Her skal ma gruppere observatioere, hvis ma øsker at lave et skema. Hvis ma ikke grupperede observatiossættet, ville ma få 20 forskellige observatioer med hyppighede for alle observatioer bortset fra 48,4 (3), 49,2 (2) og 52,5 (2). Et sådat skema ville ikke kue bruges. Ma skal u vælge ogle passede itervaller, og her skal ma bl.a. bemærke de med gult fremhævede måliger. 0,9 er midste observatio, 27,5 er største observatio og 69, er e målig, der afviger markat fra hovedparte af måligere. Itervallere skal (selvfølgelig) ideholde disse måliger, me der må heller ikke være for mage itervaller (så opstår samme problem, som hvis ma ikke grupperede observatioere). Og hvis itervallere bliver for store, fordi ma skal have 27,5 med, mister ma meget iformatio i området 30-80, hvor 2 ud af 24 måliger ligger. I dette tilfælde er ma derfor ødt til at avede itervaller med forskellig itervalbredde. Ma kue f.eks. vælge: Højde ]0,20] ]20,30] ]30,40] ]40,50] ]50,60] ]60,70] ]70,80] ]80,00] ]00,200] ]200,300] Itervalhyppighed Itervalfrekves 4,2% 0,0% 6,7% 37,5% 20,8% 4,2% 8,3% 0,0% 4,2% 4,2% Kum. itervalfre. 4,2% 4,2% 20,9% 58,4% 79,2% 83,4% 9,7% 9,7% 95,9% 00,% Itervalfrekvesere og de kumulerede itervalfrekveser er bereget på samme måde som frekveser og kumulerede frekveser (se Eksempel a). Eksempel 4a (Grupperet): Bestemmelse af lægde af bymure i Lucca (agivet i meter). = 54 De midste værdi er 3090, og de største er Variatiosbredde (forskelle mellem max og mi) er altså 290. Ma ka godt avede es itervalbredde i dette tilfælde, da måligere er fordelt tilpas jævt mellem max og mi. Ma kue f.eks. vælge 2 itervaller med itervalbredde 200 eller 8 itervaller med itervalbredde 300. Her er valgt 8 itervaller: Lægde ]3000,3300] ]3300,3600] ]3600,3900] ]3900,4200] ]4200,4500] ]4500,4800] ]4800,500] ]500,5400] It. Hyp I Maple idtastes itervaller på de sædvalige måde med.. : 7

8 Kumuleret frekves Frekves Diagrammer Skemaere ka bruges til at tege kurver eller diagrammer, der skal gøre det observerede talmateriale overskueligt for læsere. I alle tilfælde agives observatioere ud af. akse. Husk, at skalae på. akse skal være jæv (med midre der er e god grud til f.eks. at gøre de logaritmisk eller adet). Så hvis f.eks. karakterere -3, 0, 2, 4, 7, 0 og 2 skal agives, skal afstade mellem 4 og 7 være ½ gag så stor som afstade mellem 2 og 4. Med grupperede observatiossæt afsættes itervaledepuktere. Og husk edu egag, at skalae skal være jæv, dvs. store itervaller kommer til at fylde mere på akse. Ma ka for både grupperede og ikke-grupperede observatiossæt afbilde frekveser og kumulerede frekveser, og der er derfor 4 forskellige typer af diagrammer, der ka teges. Ikke-grupperede Grupperede observatiossæt observatiossæt Pide-, søjle- eller stolpediagram Hyppighede eller frekvese agives op ad 2. akse (ofte agivet i %). Trappediagram /Trappekurve 2. Akse går fra 0% til 00%. De kumulerede frekves for hver observatio afsættes som et pukt, og fra hvert pukt teges lijestykker lodret ed og vadret mod højre, så der daes e trappe. Histogram Ofte vælger ma ikke at have e 2. akse. I stedet avedes et rektagel (kvadrat eller aflag) til at agive, hvorda der omreges fra areal til %. F.eks. 5% Frekvese for hvert iterval omreges til et areal, der afsættes som e søjle, hvor grudflade i søjle bestemmes af itervalbredde, og hvor søjles højde skal afsættes, så arealet af søjle kommer til at passe. Hvis to itervaller, hvor det ee er dobbelt så bredt som det adet, ideholder lige mage observatioer, vil søjlehøjde i det bredeste altså blive halvt så stor som i det adet. Udtagelse: Hvis alle itervaller er lige store, ka der godt laves e 2. akse med ehede %, hvor ma så ikke lægere skal agive et areal, me hvor søjlehøjde direkte agiver frekvese. Dee ehed er dog stregt taget forkert. Geerel 2. akse: Ma ka i alle tilfælde avede e 2. akse, hvis ma beytter sig af de rigtige ehed. Hvis ehede på. akse er kg, skal ehede på 2. akse være % kg, og hvis ehede på. akse er m2, skal ehede på 2. akse % være. Så vil frekvese kue aflæses som arealet af søjle. 2 m Dee geerelle metode gør det emmere at sammelige histogrammer med de klokkeformede ormalfordeliger. Sumkurve 2. akse går fra 0% til 00%. Der sættes først et pukt på. akse ved første itervals vestre edepukt. Derefter afsættes de kumulerede frekves for alle itervallere som et pukt ved højre itervaledepukt. Puktere forbides med rette lijestykker. 8

9 Eksempel b og 2b: Pidediagrammer og trappekurver Når ma har idtastet sie måliger i e matrix (se Eksempel a), ka Gym-pakkes plotpidediagram tege pidediagrammer med ete atallet (tilføj y_akse=atal) eller frekveser: Med kommadoe plottrappekurve, ka ma få teget trappekurver: Eksempel 4b: Lægde af bymure i Lucca: Med kommadoere plothistogram og plotsumkurve får ma: 9

10 Udover at tege diagrammere udreger Gym-pakkes kommadoer også ogle deskriptorer (middelværdi, media, spredig, kvartilsæt), som vi skal se ærmere på i æste afsit. Bemærk, at ma i Eksempel 4b ka afsætte itervalfrekvese ud ad 2. akse, fordi itervalbreddere er lige store. I edeståede eksempel er itervalbreddere forskellige, og derfor ædres ehede på 2. akse: Eksempel 3b: Højde af Det Skæve Tår i Pisa Bemærk, at søjlere for itervallere ]0,20] og ]60,70] er meget højere ed søjlere for itervallere ]00,200] og ]200,300], selvom de alle hver især ideholder målig. Dette skyldes som ævt itervalbreddere, da målige fordeles jævt ud på hele itervallet. Statistiske deskriptorer Ud fra skemaet eller diagrammere ka ma aflæse eller udrege de statistiske deskriptorer (se æste side). Bemærk, at ogle af deskriptorere allerede kedes fra sadsylighedsregig: 0

11 Ikke-grupperede observatiossæt Grupperede observatiossæt Observatiossættets størrelse (beteges i edeståede med ) Atallet af observatioer. Hvis ma f.eks. har målt lægde af præriehudes fortæder, er atallet af observatioer det atal præriehude, ma har målt på. Typetal Typetallet er observatioe med de største hyppighed. Der ka godt være mere ed ét typetal. Middelværdi/Geemsit Agives som eller x. Når xi beteger de i te observatio og hi hyppighede og fi frekvese af dee, bereges middelværdie ved: k xi hi i= = eller = x f k i= Media De midterste observatio. Ekstreme værdier påvirker middelværdie, me ikke mediae. Derfor er mediae et bedre udtryk for hovedtedese i et observatiossæt. Nedre og øvre kvartil De midterste observatio i de edre halvdel af observatiossættet og de midterste observatio i de øvre halvdel. (Fraktiler) Hvis ma vil aflæse fraktiler, skal ma avede samme metode som med grupperede observatiossæt bare avedt på trappediagrammet i stedet for på sumkurve. Midste observatio og største observatio Variatiosbredde = max - mi Varias Med de samme betegelser som for middelværdie bereges variase: k var( x) = ( x ) 2 i hi i= Stadardafvigelse/Spredig Bereges som ( x) = var ( x) i i Typeiterval Observatiositervallet med de største hyppighedstæthed. Det ses emmest på histogrammet, hvor det er itervallet med de højeste søjle. Der ka godt være mere ed ét typeiterval. Middelværdi/Geemsit (Agives som eller x ). Når m i beteger midtpuktet af det i te observatiositerval og h i hyppighede og f i frekvese for itervallet, bereges ved: k mi hi i= = eller = mi f k i= Bemærk: Dee udregede middelværdi vil som udgagspukt afvige e smule fra de middelværdi ma ville fide, hvis ma fadt de for alle observatioere, år de IKKE var grupperede. Media De midterste observatio. Aflæses på sumkurve ved at gå vadret ud fra 2. akse ved 50% idtil kurve rammes, hvorefter ma går lodret ed til aflæses af mediae. Bemærk, at mediae IKKE er observatiositervallet, me et tal i itervallet (evt. med decimaler). Nedre og øvre kvartil De midterste observatio i de edre halvdel af observatiossættet og de midterste observatio i de øvre halvdel. Aflæses ligesom mediae blot skal ma gå ud fra heholdsvis 25% og 75%. Fraktiler (agives altid med e % fora) Agiver afgræsige af e vis adel observatioer. F.eks. er 0%-fraktile de observatio, hvor 0% af observatioere ligger uder. Fraktilere aflæses ligesom mediae, der bare er et adet ord for 50%-fraktile, ligesom edre kvartil er 25%-fraktile og øvre kvartil 75%-fraktile. Midste observatio og største observatio Bemærk, at hvis ma ikke keder de opridelige data (og dermed mi og max, skal ma bruge vestre itervaledepukt for det første iterval og højre edepukt for sidste iterval. Varias Med de samme betegelser som for middelværdie, bereges variase: k var( ) ( ) 2 k x = mi hi eller var( x) = ( m ) 2 i fi i= i i= Stadardafvigelse/Spredig ( x) var ( x) =

12 Typetal og typeiterval Typetal optræder ved ikke-grupperede observatiossæt, og typeitervaller optræder ved grupperede observatiossæt. Vi husker defiitioe fra sadsylighedsregig: Defiitio: I følgede defiitio avedes etalsbetegelser. Hvis der er flere størrelser, der opfylder betigelsere, er der flere typetal eller typeitervaller. a) Ide for statistik er typetallet observatioe med de største hyppighed. b) Ide for statistik er typeitervallet observatiositervallet med de største tæthed. c) Ide for sadsylighedsregig er typetallet de værdi af de stokastiske variabel, der har størst sadsylighed. Typetal er et meget simpelt begreb, der ikke plejer at volde problemer. Det er simpelthe det (eller de) tal i observatiossættet, der optræder flest gage, dvs. observatioe (eller observatioere) med de største hyppighed/frekves. Som det fremgår af oveståede formulerig, ka der godt være flere typetal, emlig hvis der er mere ed é observatio med de egeskab, at ige ade observatio har e større hyppighed. Et typeiterval er et lidt mere kompliceret begreb. I hvert fald skal ma passe lidt på, da ma i sjælde tilfælde ka gå i e "fælde". Der ka ligesom med typetal godt være flere typeitervaller, me forskelle mellem de to begreber er, at typeitervallet ikke ødvedigvis er itervallet (eller itervallere) med de største itervalhyppighed. Typeitervallet er det (eller de) iterval(ler), der har de største itervalhyppighedstæthed, dvs. der hvor itervalhyppighede delt med itervalbredde giver det største tal. Dette ses emmest i et histogram, hvor typeitervallet er itervallet med de højeste søjle. Hvis ma arbejder med itervaller med kostat itervalbredde, ka ma godt øjes med at se på itervalhyppighede, me hvis ma arbejder med forskellige itervalbredder, er det vigtigt at avede de rigtige defiitio. Ma ka godt avede Gym-pakkes kommado typetal, me der er fejl i kommadoe typeiterval, da de ikke tager hesy til forskellige itervalbredder. Eksempel c, 2c, 3c og 4c: Typetal og typeitervaller. Matematik A-iveau: Typetallet (typekaraktere) er 7 (399 er de største hyppighed) Matematik B-iveau: Typetallet er 7 (2786 er de største hyppighed) Højde af Det Skæve Tår: Typeitervallet er ]40,50] Lægde af bymure i Lucca: Typeitervallet er ]3900,4200] Middelværdi / Geemsit Middelværdie udreges ete med formle kedt fra sadsylighedsregig, hvor ma blot erstatter sadsyligheder med frekveser, eller ved hjælp af hyppigheder og. Eksempel d: Middelværdi matematik A: k Formle = x f beyttes. Der er avedt flere decimaler i udregige, ed ma ka se i i= skemaet i Eksempel a: Dvs. middelværdie er 6,6 i i 2

13 Eksempel 2d: Middelværdi for matematik B: k i i Formle = x h beyttes: i= Middelværdie ka også bestemmes med Gym-pakkes kommadoer middel og geemsit: Ved grupperede observatioer skal ma avede itervalmidtpuktere som observatioer. Da itervalopdelige ikke er etydig, er der heller ikke oget etydigt svar på de udregede middelværdi. Hvis ma keder det opridelige datasæt (før grupperige), ka ma selvfølgelig udrege middelværdie på dette sæt. Eksempel 3d: Middelværdi for højde af Det Skæve Tår: k i i Formle = m h beyttes. Bemærk altså, at det er itervalmidtpuktere, der idgår i i= udregige. Desude ka ma ige beytte Gym-pakkes middel og geemsit: Hvis ma bereger middelværdie ud fra de opridelige data (ide grupperig), får ma 62,8. Eksempel 4d: Middelværdi for lægde af bymure i Lucca: Her bruges Gym-pakkes kommado: Beregig på de opridelige data giver 4252 meter. Der er altså e forskel, me afvigelse vil i de fleste tilfælde være ubetydelig. Kvartilsæt og udvidet kvartilsæt (media, edre kvartil, ) Kvartilsættet består af mediae (m eller Q 2 ), edre kvartil ( Q ) og øvre kvartil ( Q 3 ). Et udvidet kvartilsæt består udover oveævte også af midste observatio (mi) og største observatio (max). Kvartilsættet agives ( Q, m, Q ) 3 Det udvidede kvartilsæt agives ( mi, Q, m, Q,max ) 3 Kvartilbredde, IQR (Iterquartile rage) er afstade mellem edre og øvre kvartil: IQR = Q3 Q For grupperede observatioer bestemmes kvartilsættet ved hjælp af sumkurve. For ikke-grupperede observatioer fides der (midst) to forskellige metoder til at bestemme kvartilsættet, og faktisk ka de to metoder i ogle tilfælde give (oftest ku lidt) forskellige resultater. De slags er aturligvis total uhørt i "rigtig" matematik, me det er ikke oget problem i lige etop dee sammehæg. 3

14 Sumkurvemetode (grupperede observatioer): Eksempel 4e: Sumkurvemetode er illustreret i Eksempel 4b, da Gym-pakkes plotsumkurve automatisk aflæser kvartilsættet: Ma går vadret id til grafe fra 25%, 50% og 75%, og derefter lodret ed og aflæser heholdsvis edre kvartil, media og øvre kvartil. Disse tal fortæller, at: 25% af elevere har målt lægder midre ed 4003 m. 50% af elevere har målt lægder midre ed 427 m. 75% af elevere har målt lægder midre ed 4442 m. Da ma med e sumkurve har fået smurt måligere jævt ud over hvert iterval, er der ikke lægere oge måliger for de ekelte værdier. Ma taler u ku om itervaller. F.eks. ka ma sige, at 50% af måligere ligger mellem 4003 m og 4442 m. Derfor kue ma også ovefor have sagt, at 25% af elevere har målt lægder på højst 4003 m. Kvartilsættet er (4003 m, 427 m, 4442 m) Det udvidede kvartilsæt er (3090 m, 4003 m, 427 m, 4442 m, 5280 m) IQR = 444,7 m 4002,6m = 439,m Variatiosbredde = 5280 m 3090 m = 290 m (Midste og største observatio er fudet i det opridelige datasæt i Eksempel 4a) 4

15 Ordet-følge-metode (ikke-grupperede observatioer): Det er dee metode, som TI 'spire, Excel og Gym-pakkes kvartiler aveder (og som vist ok er de mest avedte iteratioalt set). Observatioere stilles op i e ordet følge (dvs. efter størrelse med de midste først): F.eks., 2, 2, 3, 5, 5, 5, 6, 7, 7, 7, 7, 9,, 4, 4, 4, 5, 8 Hvis der er et ulige atal observatioer, er mediae det midterste tal i følge. Hvis der er et lige atal observatioer, er mediae geemsittet af de to midterste tal. Mediae deler observatiossættet i to lige store dele (hvis der er et ulige atal observatioer, og mediae derfor rammer et tal i følge, fjeres dette tal og idgår altså ikke i oge af delee). De edre kvartil bestemmes efterfølgede som mediae af de edre halvdel, mes de øvre kvartil er mediae af de øvre halvdel. Eksempel 5: Vi ser ige på, 2, 2, 3, 5, 5, 5, 6, 7, 7, 7, 7, 9,, 4, 4, 4, 5, 8 I oveståede følge er der 9 observatioer. Det tiede tal, der er 7, er derfor mediae. Dette tal fjeres og deler u observatiossættet i:, 2, 2, 3, 5, 5, 5, 6, 7 edre halvdel ; 7, 7, 9,, 4, 4, 4, 5, 8 øvre halvdel. Der er et ulige atal observatioer i disse halvdele emlig 9 så de edre kvartil er det femte tal i de edre halvdel (dvs. 5) og de øvre kvartil er det femte tal i de øvre halvdel (dvs. 4). Desude er de midste observatio og de største observatio 8. Hermed er kvartilsættet (5,7,4) Det udvidede kvartilsæt er (,5,7,4,8) IQR = 4 5 = 9 Variatiosbredde = 8 = 7 Eksempel 6a: Et yt observatiossæt er 0, 0, 2, 2, 4, 7, 7, 0, 2, 2 Der er et lige atal observatioer emlig 0 og derfor er mediae geemsittet af de femte og de sjette observatio (der er 4 og 7). Mediae er altså 5,5, selvom der ikke er oge observatio, der har dee værdi. Mediasittet ligger mellem 4 og 7, så ige observatioer fjeres, år observatiossættet deles i to lige store dele: 0, 0, 2, 2, 4 edre halvdel ; 7, 7, 0, 2, 2 øvre halvdel Der er et ulige atal observatioer i disse halvdele emlig 5 så de edre kvartil er det tredje tal i de edre halvdel (dvs. 2) og de øvre kvartil er det tredje tal i de øvre halvdel (dvs. 0). Desude er de midste observatio 0 og de største observatio 2. Hermed er kvartilsættet (2,5.5,0). E ade skrivemåde er (2;5,5;0) Det udvidede kvartilsæt er (0,2,5.5,0,2) IQR = 0 2 = 8 Variatiosbredde = 2 0 = 2 Gym-pakke har kommadoere media og kvartiler: Eksempel e og 2e: Ma ka sammelige med trappediagrammere i Eksempel b og 2b. 5

16 Trappediagramsmetode: Dee metode svarer til sumkurvemetode for grupperede observatioer. Kvartilere (edre kvartil, media og øvre kvartil) bestemmes ved at gå vadret ud fra 2. akse ved frekvesere 25%, 50% og 75%, idtil ma rammer trappe. Derfra går ma lodret ed på. akse og aflæser edre kvartil, media og øvre kvartil. Såda gør Gym-pakkes plottrappekurve (se Eksempel b og 2b). Dee metode ka give kvartilsæt, der afviger fra ordet-følge-metode, da de altid ku vil give værdier fra observatiossættet, mes ordet-følge-metode sommetider giver geemsitsværdier, der ikke optræder i observatiossættet. Eksempel 6b: Med tallee fra Eksempel 6a giver trappediagramsmetode: Fra Eksempel 6a ved vi, at ordet-følge-metode giver kvartilsættet (2,5.5,0). Forskelle opstår, år de vadrette lije, der udgår fra 2. akse, ikke rammer e lodret del af et trappetri, me derimod flugter med e vadret del af et trappetri (se figure ovefor). Når ma skal sætte ord på kvartilsættet, er det trappediagramsmetode, der giver bedst meig: De 25% laveste måliger er på 2 eller deruder. De 50% laveste måliger er på 4 eller deruder (4 ka evt. erstattes af 5,5). De 75% laveste måliger er på 0 eller deruder. Bemærk, at ma med trappekurver IKKE ka avede formulerige har fået midre ed 2, da der her er måliger med værdie 2. Om middelværdier og mediaer Middelværdie og mediae for et datasæt vil typisk ligge tæt på hiade. Hvis tæthedsfuktioe (evt. et pidediagram eller et histogram) er symmetrisk omkrig de lodrette lije geem middelværdie, vil media og middelværdi være es. Me der ka også være store eller væsetlige forskelle på de to. Selve værdiere af de ekelte observatioer idgår i beregige af middelværdie, mes mediae ku er baseret på ordige af de ekelte observatioer. F.eks. vil observatiossættee,2,3,4,5 og,2,3,4, have es mediaer (3), mes middelværdiere vil være vidt forskellige (3 og ). Mediae er altså ikke påvirket af ekstreme værdier, og derfor vil de i e del situatioer være et bedre mål for e søgt værdi. Lad os se på e oversigt over vores 4 observatiossæt: 6

17 Observatiossæt Middelværdi Media Rigtig værdi Matematik A 6, Matematik B 4, Højde af Det Rådata 62,8 m 49,2 m 55,9 m Skæve Tår Lægde af bymure i Lucca Grupperet 60,4 m 47,8 m Rådata 4252 m 4223 m Grupperet 4244 m 427 m 4223 m I matematik A og B ligger mediae (stort set) så tæt på middelværdie, som det er muligt. I disse tilfælde giver det ikke meig at tale om e rigtig værdi, for her er 6,6 de rigtige middelværdi, mes 7 er de rigtige media. Vi ser i bestemmelse af højde af Det Skæve Tår, at grupperige (som forvetet) har ædret lidt på værdiere for middelværdi og media. Det bemærkes også, at middelværdie er væsetlig højere ed mediae, hvilket skyldes de to ekstreme måliger 27,5 m og 69, m (der slet ikke opvejes af de ekstremt lille værdi 0,9 m). I dette tilfælde er mediae dog ku e aelse tættere på de rigtige værdi ed middelværdie. Ved lægde af bymure i Lucca bemærkes det, at der ku er e relativ lille forskel på middelværdi og media. Det er tilfældigt, at mediae lige præcis rammer de rigtige værdi (Og det ka være svært at tale om e præcis rigtig værdi, da det ikke er klart, hvorda ma skal måle lægde af bymure. E agivelse på 4,2 km er ok mere rimelig). Vi skal sart se på begrebet skævhed, der forsøger at sætte tal på de asymmetri, der også ka give forskel på middelværdi og media. Fraktiler Kvartilere er ogle særlige fraktiler, dvs. fraktil er et mere overordet begreb ed kvartil. p%-fraktile er de værdi på førsteakse, hvorom ma ka sige, at de p% laveste måliger har dee værdi eller deruder. De edre kvartil er 25%-fraktile, mediae er 50%-fraktile og øvre kvartil er 75%-fraktile. Fraktilere aflæses på trappekurver eller sumkurver på samme måde som kvartilere. Eksempel f, 2f, 3f og 4f: I Gym-pakke fides kommadoe fraktil: Til matematik A-eksame har de 7% af elevere med laveste karakterer fået karaktere 02 eller deruder. De 83% af elevere med laveste karakterer har fået karaktere 0 eller deruder. Hermed ka ma også sige, at de 7% med de højeste karakterer har fået karaktere 0 eller derover. De 7% af matematik B-elevere med laveste karakterer har fået karaktere 00 eller deruder. 40% af elevere har målt Det Skæve Tår til at være midre ed 45, m. 60% af elevere har målt Det Skæve Tår til at være større ed 45, m. 90% af elevere har målt bymure i Lucca til at være kortere ed 4776 m. 7

18 Varias og spredig (stadardafvigelse) Begrebere varias og spredig keder vi allerede fra sadsylighedsregig, og formlere er de samme, bortset fra at sadsyligheder er erstattet af frekveser. Vi skal seere se på formlere i forbidelse med stikprøver fra e populatio, hvor de ser lidt aderledes ud. Gym-pakke har kommadoere varias og spredig, som ma ka bruge: Eksempel g, 2g, 3g og 4g: Med vores velkedte datasæt får ma: k var( x) = ( x ) 2 i hi x = ( ) var ( x) i= Spredige ved B-iveau-eksame var altså større ed ved A-iveau-eksame. Spredige ved målige af højde på Det Skæve Tår er 46,3 m Spredige ved målige af lægde af bymure er 370 m Skævhed Med begrebet skævhed forsøger ma at idfage asymmetrier i tæthedsfuktioere. I de forbidelse beytter ma begrebet hale (se edefor). Hvis hale ligger til højre, er fordelige højreskæv, og hvis hale ligger til vestre, er fordelige vestreskæv. Begrebet ka bruges på alle former for tæthedsfuktioer. Grupperede observatiossæt Ikke-grupperede observatiossæt 8

19 Kotiuerte tæthedsfuktioer Ma ka godt berege e værdi for skævhede (beteget med et lille gamma, ). Vores formelsamlig arbejder ikke med et mål for skævhede, me ku kvalitative betegelser, der bestemmes ud fra middelværdie og mediae m: Skævhed Korrekt: Formelsamlig: 0 : Vestreskæv m : Vestreskæv = 0 : Ikke-skæv ( x ) 3 k i h 3 i = m : i= = Ikke-skæv 0 : Højreskæv m : Højreskæv Problemet med begrebet skævhed er, at der vist ikke er oge eighed om defiitioe. På wikipedia fadt jeg hurtigt 7 forskellige formler. Formelsamliges beskrivelse repræseterer e formel, der i bedste fald er gammeldags. I værste fald forkert. m Formelsamliges tommelfigerregel ser ud til at være baseret på e af formlere = og m = 3. Disse formler udytter, at e hale løst sagt påvirker middelværdie mere ed mediae. ( ) 3 k xi Formle = h 3 i er med kubere tydeligvis baseret på de idé, at afvigelsere fra i= middelværdie skal vægte højere, jo større de er. Og så vil jeg tro, at ekspoete 3 er lidt vilkårlig, me at de blot skal sikre, at forteget på afvigelsere fra middelværdie beholdes (hvor ma jo med variases ekspoet 2 sikrer sig, at alle afvigelser reges positive). Ma ka med de rigtige formel komme ud for, at middelværdie ligger til højre for mediae i e vestreskæv fordelig (dvs. tommelfigerregle fra formelsamlige holder i så fald ikke). Eksempel h, 3h og 4h: Udregigere i det følgede er foretaget med formlere: ( ) 3 k m xi Formel : = 3 Formel 2 (rigtige): = h 3 i Eksame A-iveau: Formel : = 0,36 Formel 2: = 0,0049 (vestreskæv) Højde af Det Skæve Tår: Formel : = 0,80 Formel 2: = 3,0 (højreskæv) Lægde af bymure: Formel : = 0,24 Formel 2: = 0,5 (højreskæv) i= 9

20 I vores tre tilfælde eder ma med de samme kvalitative koklusio med de to formler (og dermed også med tommelfigerregle). Me som sagt gælder det ikke altid. Det bemærkes, at de rigtige formel giver e højere værdi for skævhede ed Formel i tilfældet med højde af Det Skæve Tår, hvor der er to ekstremt høje måliger, mes de rigtige formel giver e midre værdi ed Formel i tilfældet med bymure, hvor der ikke er oge ekstreme værdier. Boksplot / Boxplot Media, edre kvartil, øvre kvartil, midste observatio og største observatio er fem deskriptorer, der fortæller e del om selve observatiossættet, og de ka opstilles overskueligt i et såkaldt boksplot (opfudet i 969). Først teges e. akse, præcis som hvis det var et pidediagram eller histogram (dvs. husk, at skalae som udgagspukt skal være jæv). Der er ige 2. akse. I e vilkårlig højde over. akse teges 5 lodrette lijer, der agiver heholdsvis midste observatio, edre kvartil, media, øvre kvartil og største observatio. De to yderste lijer teges lidt midre ed de adre. Derefter teges 4 vadrette streger, så ma får e boks med udseedet: Et boksplot ka også teges lodret (hvor.akse altså også agives lodret), og ma vil ofte afbilde flere bokse i samme diagram, så boksee ka sammeliges: På figure ovefor er der oget, der ser mystisk ud. Der er tilsyeladede måliger, der ligger ude for midste og største observatio (se de små cirkler). Det skyldes dog blot, at agivelse af de yderste lijer ka være baseret på forskellige regler. Som sagt bruger vi midste og største observatio, me ma ka godt vælge at frasortere ekstreme måliger, eller ma ka beytte adre deskriptorer til fastsættelse. 20

21 Med Gym-pakke ka ma tege boksplot. Nogle gage giver det meig at tege to bokse i samme diagram, så ma ka sammelige dem (f.eks. matematik A og matematik B), mes det adre gage ville være meigsløst (f.eks. højde af Det Skæve Tår og lægde af bymure i Lucca). Eksempel i, 2i, 3i og 4i: Gym-pakke har kommadoe boksplot: De 50% bedste på matematik A ligger i samme karakterområde som de 25% bedste på matematik B. Og de 50% svageste på matematik B ligger i samme karakterområde som de 25% svageste på matematik A. Dette ka sammeliges med boksplottet baseret på rådata: Der er forskel på de to, me forskelle er ikke væsetlig, år ma blot skal overskue data. Højde af Det Skæve Tår og lægde af bymure giver begge boksplot med relativt smalle bokse, dvs. kvartilbredde er væsetlig midre ed variatiosbredde. Det er e vigtig observatio, så vi skal se på u. 2

22 Kvartilbredde ka beyttes til at defiere ekstreme måliger, som ma kalder outliers. Outlier: Hvis e observatio ligger mere ed,5 IQR over øvre kvartil, kaldes de e outlier. uder edre kvartil eller mere ed,5 IQR Eksempel j, 2j, 3j og 4j: Vi ser på, om der fides outliers i vores 4 datasæt: Der er ige observatioer ude for de stiplede røde lijer, så der er ige outliers i karakterere for matematik A og B. For observatiossættet med højde af Det Skæve Tår ser det aderledes ud: Det er outliers til begge sider. Det ka være svært at vurdere ud fra figure, hvor mage af de høje værdier, der er outliers, me hvis det er vigtigt, ka ma rege på det. Kvartilsættet er (44.5, 49.2, 58) Dermed er: IQR = 58 44,5 = 3,85 44,5,5 3,85 = 23, ,5 3,85 = 78, 775 Dvs. alt uder 23,375 m og alt over 78,775 m er outliers (altså 0,9 m, 69, m og 27,5 m) Her er der også outliers. Fid selv ud af hvilke. 22

23 Ma ka omsætte ormalfordeliger til følgede boksplot (midste og største observatio er erstattet af græsere for outliers, da ormalfordeliger ikke har midste og største observatioer): Hvis e størrelse følger e ormalfordelig, vil ma altså have 0,7% outliers, hvis ma aveder dee regel fra boksplottet. Tallet,5 er ikke oget eksakt udreget tal. Joh Tukey, der opfadt boksplottet, skulle have udtalt, at tallet,5 kommer fra, at er for lidt og 2 for meget. Geerelt er der ikke oge fast regel for, hvad er outlier er. I det daske gymasium skal du bruge: Outlier: E observatio, der er mere ed,5 IQR fra ærmeste kvartil. Exceptioelt udfald: Et udfald, der er mere ed 3 sprediger fra middelværdie. Media og IQR er robuste begreber, da de ikke påvirkes af ekstreme udfald. Middelværdi og spredig er ikke robuste begreber. Begrebet outlier er altså kyttet til de robuste begreber. Vigtigt: Outliers (og exceptioelle udfald) er mere ed bare ord. Begrebere ka fugere som e regel for, hvorår e målig skal smides væk. Dvs. efter at have udført e hel måleserie (hvilket er ødvedigt, da ma skal kede kvartilsættet for at kue bestemme IQR og dermed afgøre, hvilke måliger der er outliers), ka ma vælge at smide alle outliers væk, ide ma udreger de statistiske deskriptorer (middelværdi, spredig,...), da de vil give et misvisede billede. Til grud for dee hadlemåde ligger de take, at outliers er e slags fejl (f.eks. målefejl) eller udtryk for e effekt, der vil være misvisede, hvis de iddrages (Skal dværges højde iddrages, hvis ma vil bestemme meeskers geemsitshøjde? Skal ådssvage iddrages, hvis ma skal bestemme de geemsitlige IQ?...) MEN ma skal være meget varsom med bare at smide outliers væk, for de kue jo ideholde oget "virkelig" iformatio. F.eks. opdagede ma hullet i ozolaget ogle år seere, ed ma kue have gjort, fordi software i de satellitter, der målte på ozolaget, smed disse ekstreme, me rigtige, måliger væk. Det var først, da ogle forskere målte fra jorde, at ma blev opmærksom på dee fejl. Joh Tukey opfadt boksplottet som e måde at opstille resultater visuelt på, og for at ma kue sammelige forskellige observatiossæt (f.eks. kviders lø vs. mæds lø). Dette var tækt som et alterativ til de test, vi seere skal beskæftige os e hel del med. Tukey mete, at disse test blot var e jagt på tal, der fører til koklusioer, og at det oftest ikke er hesigtsmæssig, da sådae test tit forudsætter, at datamaterialet følger e bestemt fordelig (oftest e ormalfordelig). Vi skal seere se på disse test, der giver os ogle tal, som vi skal lære at forholde os til. 23

24 Som opsamlig på de deskriptive statistik ses her et eksempel, der bl.a. viser, hvad ma ka gøre, hvis matricere får mere ed 0 rækker, og som har e meget vigtig poite til sidst. Eksempel 7 (grupperet observatiossæt): Årlig edbørsmægde i Damark. Vi ser på følgede idsamlede data: Egetlig har ma allerede avedt deskriptiv statistik på datamaterialet, da ma har idsat edbørsmægde som fuktio af tide, hvilket viser e klar tedes til øget edbørsmægde. Vi vil u beskrive datamaterialet på e ade måde, emlig ved at gruppere materialet og lave histogram og sumkurve. Vi skal først have vurderet ogle passede itervaller for edbørsmægde. Det virker oplagt med e itervalbredde på 50 mm, me vi ka se, at der ligger mage måliger i området mm, og derfor iddeler vi i itervaller på 25 mm i dette område. Desude gøres de to yderste itervaller 00 mm brede (observatiossættets størrelse blev 36, så jeg må have overset et par år): Nedbørsmægde ]450,550] ]550,600] ]600,625] ]625,650] ]650,675] ]675,700] ]700,725] ]725,750] ]750,800] ]800,850] ]850,950] Itervalhyppighed Her skulle have været itervalfrekves og kumuleret itervalfrekves, me jeg aveder Gym-pakke til udregigere. Bemærk, hvorda ma idtaster grupperede observatiossæt i Maple. Det bliver e x2-matrix, da der står e lodret streg efter agivelse af de itervaller. 24

25 Vi ka u avede Gym-pakke til at tege et histogram: Vi ka her aflæse, at typeitervallet er ]625,650], da det er de højeste søjle. Bemærk, at det IKKE er itervallet med de største itervalhyppighed, der er ]550,600]. Middelværdie er bereget ved at avede itervalmidtpuktere: = mi hi = ( , , , ) = i= Der er altså geemsitligt faldet 682 mm edbør om året i Damark i periode Bemærk, at dette tal højst sadsyligt vil afvige lidt fra e værdi, der var bereget som et geemsit af hvert ekelt år. På samme måde ka variase udreges ud fra itervalmidtpuktere. Edelig ka ma med Gym-pakke få teget e sumkurve: Vi har her fået oplyst kvartilsættet, der bl.a. fortæller os, at i de 25% mest edbørsrige år faldt der midst 745 mm edbør, og i halvdele af åree i periode er der faldet højst 670 mm edbør. 25

26 Lige som med de ikke-grupperede observatiossæt, ka ma desude bestemme fraktiler ved: Dvs. at i de 0% midst edbørsrige år faldt der højst 566 mm edbør. Ma ka også være iteresseret i at svare på de modsatte type spørgsmål, f.eks. I hvor stor e del af åree faldt der over 700 mm edbør? eller I hvor stor e del af åree faldt der mellem 600 og 700 mm edbør?. For at kue besvare dee type spørgsmål skal ma arbejde med sumkurve som et fuktiosudtryk. Dette ordes med Gym-pakke ved: Hvis ma vil se, hvorda e sumkurve ser ud som fuktio (ved e gaffelforskrift), skriver ma : Vi ser først, hvorda vi med fuktiosudtrykket fider 0%-fraktile: Vi ser, at det stemmer med det tidligere udregede resultat. Spørgsmålet: I hvor stor e del af åree faldt der over 700 mm edbør? Vi skal huske, at fuktiosværdie agiver hvor stor e procetdel af observatioere, der ligger på eller uder de idsatte værdi, så vi skal have: Dvs. at i 4% af åree faldt der midst 700 mm edbør. Spørgsmålet: I hvor stor e del af åree faldt der mellem 600 og 700 mm edbør? Vi skal her have procetdele mellem de to værdier, dvs: Dvs. at i 40% af åree faldt der mellem 600 og 700 mm reg. Ma ka gøre præcis det samme med ikke-grupperede observatiossæt ved at erstatte sumkurve med trappekurve. Vores behadlig af datamaterialet i oveståede eksempel leder he til det vigtige spørgsmål, som ma altid bør stille sig, år ma arbejder med deskriptiv statistik: Hvad er det egetlig, jeg vil illustrere, og har jeg valgt de rette redskaber til dette? 26

27 I vores eksempel ser det temmelig tåbeligt ud, hvad jeg har foretaget mig. Bemærk i eksemplet, at vi begyder med e grafisk fremstillig, der tydeligt viser e tedes til øget edbørsmægde. Dee iformatio går fuldstædig tabt, år vi går over til at tege et histogram og e sumkurve. Og edu værre: Vores diagrammer og deskriptorer er misvisede, for vi ka f.eks. ikke lægere forvete, at vi ku hvert fjerde år får e edbørsmægde over 745 mm (øvre kvartil). Lagt de fleste år efter år 2000 har haft edbørsmægder over 745 mm, fordi edbørsmægde er steget. Hvis vi ville illustrere dee tedes til øget edbørsmægde ved histogrammer, sumkurver eller boksplot, kue vi have iddelt vores iterval i to (f.eks. før og efter 940) og så f.eks. teget boksplot for begge disse itervaller. NORMALFORDELINGER Opgavere 400* Deskriptiv statistik har meget lidt med sadsylighedsregig at gøre, me hvis ma beskæftiger sig tilpas læge med deskriptiv statistik og får teget e masse pidediagrammer og histogrammer over mage forskellige tig, vil ma bemærke, at ma temmelig ofte får afbildiger, der ka tilærmes med e klokkeform, der stammer fra sadsylighedsregig. Dee klokkeform er e ormalfordeligskurve også kaldet e gausskurve og de er grafe for e tæthedsfuktio med fuktiosforskrifte: f( x) = e 2 Her er middelværdie, og er spredige. ( x ) 2 Eksempel 8: Normalfordeligskurver med middelværdie 0 og forskellige sprediger: 2 Spredige Spredige 2 2 Spredige 0,5 Spredige 3 27

28 Eksempel 9: Et par ormalfordeliger med middelværdie 50: Middelværdi 50 og spredig 0 Middelværdi 50 og spredig 20 Om areal og eheder i histogrammer og tæthedsfuktioer Det samlede areal uder e ormalfordeligskurve er (00%). På samme måde har ma i et histogram, at summe af alle søjleres areal er (00%). Med udgagspukt i dette ka ma ræsoere sig frem til ehede på 2. akse - hvis der er e 2. akse. Det abefales ofte ikke at agive e 2. akse, år ma laver et histogram, me i stedet tege et rektagel et sted på figure og agive, hvor mage procet det pågældede areal svarer til: Oftest begrudes dette med, at ma vil få forkerte resultater, hvis ma arbejder med forskellige itervalbredder, som det ses i figure ovefor til højre. Der er flere persoer med højder mellem 65 og 75, ed der er mellem 75 og 80, selvom søjle for er de laveste af de to. Det afgørede er arealere af de to søjler. Hvis ma havde haft frekvese op ad 2. akse, ville ma altså have fået et forkert resultat. MEN ma ka slippe helt ude om dette problem ved at avede de rigtige ehed på 2. akse. % Ehede skal være, dvs. i vores tilfælde: ehede på. akse Hvis ma aveder dee ehed, får det ige betydig, år ma slår itervaller samme eller deler itervaller. 28

29 Aflæsiger fugerer ved, at hvis ma vil vide hvor stor e procetdel af persoere, der har e % højde mellem 75 cm og 80 cm, aflæser ma for dee søjle værdie 4, på 2. akse, og cm procetdele udreges så ved: % % 4, ( 80 cm 75cm) = 4, 5cm = 20,5%. cm cm Procetdele af persoer med e højde mellem 65 cm og 75 cm udreges ud fra histogrammet til højre: % % 3, 7 ( 75cm 65cm) = 3, 7 0 cm = 37% cm cm Ma ka også udrege procetdele for dele af itervaller, f.eks cm. Her aflæses værdie,5 på 2. akse, så de samlede procetdel bliver: % %,5 ( 63cm 6cm) =,5 2 cm = 3%. cm cm For ormalfordeligskurver gælder præcis det samme som for histogrammer, år ma skal have e ehed på 2. akse. Arealet uder grafe er 00%, og det opår ma ved på 2. akse at avede ehede %, dvs. hvis ma f.eks. har målt på kræfter og derfor har ewto (N) ud af. ehed på. akse akse, skal ehede på 2. akse være "pr. N", "N - "eller % N. Bemærk forskelle mellem histogrammer og ormalfordeligskurver. Histogrammer er baseret på et edeligt atal itervaller, der giver aledig til et edeligt atal rektagler, der hver har et areal. Normalfordeligskurver er baseret på differetiable tæthedsfuktioer, hvor der til ethvert argumet er kyttet e fuktiosværdi, me hvor ma ikke har et eeste rektagel med et areal (eller også ka ma løst sige, at ma har uedelig mage rektagler hvert med arealet 0, me her er det cetrale ord løst ). Ovefor så vi, hvorda ma med histogrammer bestemmer hvilke procetdel af observatioere, der ligger i et iterval. Ma ka gøre det samme med ormalfordeliger, me her foregår det hele med fuktiosværdier. Vi atager u, at vores edbørsmægder fra Eksempel 7 med grupperede observatiossæt var ormalfordelt med middelværdie 68,6 mm og spredige 96,9 mm (dvs. de beregede værdier fra eksemplet). Vi stiller u de samme spørgsmål, som vi stillede i Eksempel 7: Spørgsmålet: I hvor stor e del af åree faldt der over 700 mm edbør? Vi defierer først fuktioe i Maple og fider derefter de del af arealet uder grafe, der ligger lægere ude ed 700 mm: Ifølge ormalfordeligsmodelle skulle det altså være i 42% af åree, at edbørsmægde var over 700 mm (det rigtige tal var 4%). 29

30 Spørgsmålet: I hvor stor e del af åree faldt der mellem 600 og 700 mm edbør? Dvs. ormalfordeligsmodelle giver, at i 38% af åree var edbørsmægde mellem 600 mm og 700 mm (det rigtige tal var 40%). Nogle vigtige værdier for ormalfordeliger Ma ka med Gym-pakkes ormalpdf berege ogle vigtige, geerelle tal: Dvs. vi har fudet tallee i edeståede oversigt. Tjek, at du ka se sammehæge mellem det idtastede i Maple (ovefor) og edeståede tal, og prøv selv at foretage ogle af idtastigere. Oversigt over vigtige værdier i forbidelse med ormalfordeliger: Det samlede areal uder gausskurve er. Arealet uder kurve i itervallet, + er 0,683. Arealet uder kurve i itervallet,95996 ; +,95996 er 0,95. Arealet uder kurve i itervallet 2, + 2 er 0,954. Arealet uder kurve i itervallet 2,57583 ; + 2,57583 er 0,99. Arealet uder kurve i itervallet 3 ; + 3 er 0,9973. Dvs. at 68,3% af observatioere i et ormalfordelt observatiossæt ligger ide for é stadardafvigelse af middelværdie. Tilsvarede ligger 95,4% af observatioere ide for to stadardafvigelser (og disse beteges som ormale udfald), mes 99,73% ligger ide for tre stadardafvigelser. De 0,27% af udfaldee, der ligger mere ed tre stadardafvigelser fra middelværdie, kaldes exceptioelle udfald. 5% ligger mere ed,96 stadardafvigelser fra middelværdie. % ligger mere ed 2,58 stadardafvigelser fra middelværdie. 30

31 Fordeligsfuktioer: Som vi ved fra sadsylighedsregig, kaldes arealfuktioe af e tæthedsfuktio for e fordeligsfuktio. Dvs. e fordeligsfuktio kumulerer sadsylighedere: x ( x) ( ) = f t dt Et par eksempler på fordeligsfuktioer for ormalfordeliger ka teges med Gymkommadoe ormalcdf: Middelværdi 0 og spredig Middelværdi 50 og spredig 0 Eftersom fordeligsfuktioe agiver arealet uder grafe for tæthedsfuktioe i itervallet, x, ka ma besvare vores u velkedte spørgsmål fra Eksempel 7 på følgede måde: Spørgsmålet: I hvor stor e del af åree faldt der over 700 mm edbør? Spørgsmålet: I hvor stor e del af åree faldt der mellem 600 og 700 mm edbør? Øvelse : Beyt Maple til at bestemme ogle af edeståede udvalgte værdier. ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( x) 3 = 0, = 0,84 2 = 0, = 0,977 = 0, = 0,99865 = 0,5 for x Opgavere 40* De Cetrale Græseværdisætig Normalfordeliger er helt cetrale ide for statistiske test. Alle de test, vi sart skal beskæftige os med, er baseret på e atagelse om, at de udersøgte størrelser (tilærmelsesvis) er ormalfordelte. Det skyldes De Cetrale Græseværdisætig, der i e meget kort, upræcis og ikke korrekt versio lyder: Alt er tilærmelsesvis ormalfordelt. Ordet cetral heviser til sætiges vigtighed ide for sadsylighedsregig og statistik. Som sagt er oveævte ordlyd ikke korrekt, me de giver et meget godt billede af ormalfordeliges betydig. De Cetrale Græseværdisætig fides i mage forskellige mere eller midre stærke versioer. 3

32 X+ X X De Cetrale Græseværdisætig: Lad S = være e stokastisk variabel, der agiver det aritmetiske geemsit for idetiske stokastiske variable X ( i=,2,3,..., ) med edelig middelværdi og spredig. Så vil S tilærmelsesvis være ormalfordelt med i middelværdie og spredig, år er tilpas stor, og tilærmelse bliver bedre, jo større er. Eksempel 0: Vi ved fra tidligere, at hvis ma måler baggrudsstrålige ide for 0 sekuder, vil de stokastiske variabel X, der agiver tælletallet, være poissofordelt. Poissofordelige med middelværdie har spredige, og vores stokastiske variabel X opfylder altså betigelse om edelig middelværdi og spredig. X + X X00 Se u på de stokastiske variabel S00 =, der svarer til, at ma 00 gage har 00 målt baggrudsstrålige i 0 sekuder og taget geemsittet af tælletallee. Dee stokastiske variabel vil tilærmelsesvis være ormalfordelt med middelværdie og spredige =. Dvs. at hvis du masser af gage 00 gage måler baggrudsstrålige i sekuder (det bliver til rigtig mage måliger) og laver et histogram baseret på de målte værdier S, så vil dette histogram dae ormalfordeligeres klokkeform. for 00 Der er flere væsetlige tig at bemærke her: Selve tælletallet er poissofordelt, me hvis du måler tilpas mage gage og tager geemsittet af måligere, så vil dette geemsit tilærmelsesvis være ormalfordelt. Og dette gælder ikke bare for poissofordeliger. Det gælder for alle fordeliger med edelig middelværdi og spredig. Spredige for de pågældede ormalfordelig bliver midre, jo flere måliger, der foretages, da spredige er. Dvs. at sadsylighede for at ramme ide for et fastsat iterval omkrig middelværdie bliver større, jo flere måliger, der foretages. Det er meget vigtigt at skele mellem observatiossættets spredig (de ædrer sig ikke - bortset fra tilfældige udsvig - uaset hvor mage observatioer, der er i sættet) og spredige på middelværdie (de bliver midre, jo flere observatioer, der er i sættet). Vi har ovefor taget De Cetrale Græseværdisætig i si skrappeste versio. Vi har f.eks. forlagt, at de stokastiske variable X skulle være idetiske (og dermed uafhægige). i Faktisk er det ikke altid ødvedigt. Sætige gælder som udgagspukt også, selvom de stokastiske variable ikke er idetiske. De skal bare være uafhægige og have veldefierede, edelige middelværdier og sprediger. Og faktisk gælder de også for visse tilfælde med uedelige sprediger. Sadsylighedere skal bare falde hurtigt ok. Opgavere 402* 32

33 Biomialformle vs. ormalfordeligskurve Biomialfordelige er som set uder forløbet om sadsylighedsregig og kombiatorik e sadsylighedsfordelig, hvor sadsylighede for at få r succeser er: r ( = ) = (, ) ( ) p X r K r p p, hvor er atalsparametere og p successadsylighede for é udførelse af det pågældede eksperimet. Middelværdie og spredige er: = E( X ) = p ( ) = ( X ) = p p Dvs. biomialfordelige har veldefieret middelværdi og spredig. Derfor ved vi fra De Cetrale Græseværdisætig, at hvis ma udfører tilpas mage forsøg og tager geemsittet af disse, vil dette geemsit tilærmelsesvis følge e ormalfordelig. Naturligvis ka det aldrig helt blive e ormalfordelig, for ormalfordelige er e kotiuert fordelig, og vores geemsit ka uaset hvor mage gage forsøget udføres ku give ratioelle værdier. Me ligesom et irratioelt tal ka være græseværdie for e følge af ratioelle tal, så ka e kotiuert fordelig også være græse for e følge af diskrete fordeliger. Tæk på følgede: Når ma som beskrevet i De Cetrale Græseværdisætig tager e fordelig og daer sit geemsit ved at udføre sit eksperimet gage, ka ma som ævt ovefor få brøker som resultat, selvom de bagvedliggede fordelig ku ka give hele tal (hvilket f.eks. er tilfældet for bl.a. biomialfordelige, poissofordelige, de egative biomialfordelig, de hypergeometriske fordelig og de egative hypergeometriske fordelig). Og de mulige brøker bliver flere og flere, jo større er, så ma så at sige udfylder områdere mellem de hele tal med flere og flere mulige værdier. På de måde ka ma godt se, at det giver meig, at e diskret fordelig ka ærme sig de kotiuerte ormalfordelig. Me biomialfordelige er i sig selv såda set bare et opskaleret geemsit af e række biomialeksperimeter. Ma lægger atal succeser fra hvert ekelt biomialeksperimet samme, me udlader at dividere med atal biomialeksperimeter () og får dermed S (jf. De Cetrale Græseværdisætig). Derfor vil biomialfordelige i sig selv også ærme sig ormalfordelige, år bare bliver tilpas stor (og for midre værdier: Jo tættere p er på 0,5). Umiddelbart ka det lyde helt forkert at prøve at sammelige e diskret fordelig, der ku ka give heltallige værdier, med de kotiuerte ormalfordelig. Og det bliver edu værre, år ma bemærker, at udfaldee i biomialfordelige er begræset i begge eder ( 0 r ), mes ormalfordeliges tæthedsfuktio har hele som defiitiosmægde. Hvis ma imidlertid vælger at se bort fra disse grudlæggede forskelle og sammeliger biomialfordelige med de ormalfordelig, der er fremkommet ved at avede middelværdi og spredig fra biomialfordelige, så gælder det, at biomialfordelige tilærmelsesvis følger ormalfordelige forstået på de måde, at pidediagrammet over biomialfordelige tilærmelsesvis får ormalfordeliges karakteristiske klokkeform. Tilærmelse bliver som sagt bedre, jo større er, og jo tættere successadsylighede p er på 0,5. Se bilag A for eksempler. r 33

34 Ma ka udersøge, om et datamateriale ka beskrives ved e lieær model, ved at afbilde det i et almideligt koordiatsystem og se, om puktere tilærmelsesvis daer e ret lije. Og ved at afbilde data i et ekeltlogaritmisk koordiatsystem og se, om puktere daer e ret lije, ka ma vurdere, om ma ka avede e ekspoetiel udviklig som model. Potesfuktioer gekedes som rette lijer i et dobbeltlogaritmiske koordiatsystem. Ma har også lavet ormalfordeligspapir med e specielt kostrueret ordiatakse, der avedes til at tjekke, om e fordelig ka tilærmes med e ormalfordelig. Ma plotter sumkurve (grupperet) og ser, om puktere tilærmelsesvis ligger på e ret lije. Biomialfordelige er jo ikke grupperet, me ma aveder så itervaller med bredde symmetrisk omkrig stedet, dvs. i stedet for f.eks. 7 avedes [6.5,7.5]. Dette ormalfordeligspapir fremkommer i Maple, år ma aveder Gym-pakkes NormReg. Bemærk, at puktere med bedre og bedre tilærmelse ligger på e ret lije, år successadsylighede kommer tættere på 0,5. De største afvigelser ses i edere. Samme møster ses edefor, hvor tilærmelsere bare er bedre, da er større. 34

35 Er mit kokrete eksperimetelle datasæt ormalfordelt? Vi har lige set, hvorda ma med NormReg ka se, at biomialfordelige med god tilærmelse følger e ormalfordelig, og at tilærmelse er bedre, jo større er, og jo tættere p er på 0,5. Det var lidt kustigt, da vi var ødt til at dae itervaller omkrig de ekelte steder, me det slipper vi jo for, år vi ser på eksperimetelle datasæt, der helt aturligt skal grupperes. Vi ser på datasættet fra Eksempel 7 (Årlig edbørsmægde i Damark): Puktere ligger ogelude på e ret lije. Dvs. edbørsmægde ka med rimelig tilærmelse beskrives som ormalfordelt (jf. histogrammet i Eksempel 7, der ogelude følger klokkeforme). Egetlig burde ma forvete e bedre tilærmelse, for edbørsmægde er e størrelse, der burde være ormalfordelt, og datasættet er stort, me som tidligere omtalt ses e systematisk forøgelse af edbørsmægde over tid, hvilket slører billedet. De stiplede blå lijer markerer procetere for e og to sprediger omkrig middelværdie i ormalfordelige, og de ka samme med e vadret lije fra 50% som vist ovefor avedes til at aflæse middelværdi og spredig (hvilket selvfølgelig er overflødigt, år de allerede er udreget, me hvis ma ku har e graf, er det fremgagsmåde). QQ-plot Ma ka dog også udersøge, om et datamateriale er ormalfordelt, ude først at gruppere det. Det gøres med et såkaldt QQ-plot (fraktilplot). Gym-kommadoe er QQplot. Ige er idee, at ma skal se på, om puktere tilærmelsesvis ligger på e ret lije. Hvis de gør det, er datamaterialet ormalfordelt. Et QQ-plot fremkommer ved, at pukteres førstekoordiat er selve måletallet fra datasættet, mes adekoordiate er de tilsvarede fraktil i stadardormalfordelige (alias u-fordelige alias ormalfordelige med middelværdi 0 og spredig ). Fremgagsmåde er (æste) følgede: 35

36 Atag, at ma har e måleserie på 200 måliger, der er stillet op i ordet rækkefølge, og at tal ummer 60 i dee række er 729. Tallet 729 er så 30%-fraktile i datasættet ( 60 = 0,30 = 30% ). 729 er 200 førstekoordiate i det pukt, vi skal have placeret i koordiatsystemet. 30%-fraktile i u-fordelige er -0,52 (se udregige med Maple edefor) Dvs. -0,52 er adekoordiate for puktet, der altså er (729,-0.52). I edeståede eksempel ses på tallee, 2, 3, 4, 5, 6,, 00. Dette datasæt er oplagt ikke ormalfordelt, da tallee er fuldstædig jævt fordelt. Pidediagrammet ville give 00 lige høje pide (højde ), dvs. ikke oge klokkeform. Og i koordiatsystemet edefor ses det også, at puktere afviger systematisk fra de rette lije: De stiplede røde lijer opdeler koordiatsystemet med udgagspukt i u-fordelige. Så vi ka rege ud, hvor mage pukter der vil være i hver del: Der vil altså være 2 pukter i de ederste del, 4 i de æste (tæl selv efter) og 34 i området lige uder midte. Bemærk, at disse procetdele altid gælder for områdere opdelt på dee måde. Ma ka ku lave e tilsvarede opdelig med lodrette, ækvidistate lijer, HVIS datasættet er ormalfordelt. Ma skal så bruge middelværdi og spredig til opdelige. Vi ka også se på de ekelte pukter. Tallet 30 er 30%-fraktile, og vi ved fra før, at i u- fordelige er 30%-fraktile -0,52. Derfor har ma puktet (30,-0.52). Og dog ku æste. For der er lige det problem, at ma jo ikke har e 00%-fraktil i ormalfordeliger, da de er ubegræsede. Ma er derfor ødt til at lave ogle tricks for at få alle tal med, og det rykker altig e lille smule. Se f.eks. det pukt, der skulle være (2,-2.05). Jeg ved ikke, hvorda det kokret er gjort i Gym-pakke. Der er forskellige metoder, og ige af dem er de rigtige, for det er et problem, der ikke ka løses rigtigt, da ormalfordelige er ubegræset. Lige som ma ikke ka stemme et klaver rigtig, me f.eks. veltempereret, ligesvævede eller pythagoræisk. 36

37 Eksempel : Vi ser på vores velkedte bestemmelser af højde af Det Skæve Tår i Pisa og lægde af bymure i Lucca: Bymure: Der er ogle systematiske afvigelser, så der er ku atydiger af e ormalfordelig. Det Skæve Tår: Her ses det, at ma for det fulde datasæt får oget, der absolut ikke er ormalfordelt. Outliere ødelægger fuldstædig billedet. Når de tre outliers er fjeret, ser ma, at puktere med god tilærmelse ligger på e ret lije (afvigelsere er ikke systematiske), så disse måliger er ormalfordelte. Ma ka her se betydige af at fjere outliers, HVIS der er belæg for at betragte dem som fejlmåliger. Opgavere 403* STIKPRØVEUDTAGNING OG EKSPERIMENTELT ARBEJDE Ide for aturvideskabere idsamler ma typisk data ved at måle eller iagttage ogle størrelser i opstillede forsøg eller f.eks. ide for astroomie - i forbidelse med hædelser, ma ikke selv kotrollerer. Adre eksempler på idsamliger kue være spørgeskemaudersøgelser, iterviews eller opslag i et tabelværk, hvis data allerede er idsamlet. Hovedtake bag stikprøveudtagig og måliger og beregiger på dee er, at ma har et begreb eller e mægde af størrelser, som ma gere med e vis øjagtighed vil kue tilskrive e værdi eller e række egeskaber, og det vil ma gøre ved at slutte iduktivt fra stikprøve (iduktivt forstået i de versio af ordet, at ma slutter fra det specielle til det geerelle). I forbidelse med bestemmelse af e fysisk størrelse er et af problemere måleusikkerheder, der gør det umuligt at bestemme e værdi præcist. Og geerelt gælder om fysiske love, at de skal gælde til alle tider og alle steder og i alle forbidelser, hvilket ma selvsagt ikke ka måle. Ma foretager derfor et begræset atal måliger (svarede til at udtage e stikprøve), og ud fra disse måliger slutter ma sig til oget agåede de fysiske størrelse eller de fysiske lov. Bemærk, at dette er e iduktiv slutig. Både forstået som e slutig fra det specielle til det geerelle og som at forsøgee yder støtte, me ikke sikkerhed, for koklusioe. Der er altså ikke oget logisk gyldigt i selve slutige, og ma eder også "ku" med at kue agive resultatet med e vis usikkerhed agivet med avedelse af sadsyligheder. 37

38 Der er altså to grudlæggede vilkår, vi ikke ka komme ude om: ) Vores slutiger fra stikprøve til populatio er iduktiv og derfor ikke logisk gyldig. 2) Vi må avede sadsyligheder i agivelse af vores koklusio. Oversigt over og kort forklarig på cetrale begreber Populatio: De mægde af størrelser, om hvilke ma øsker at kue drage ogle koklusioer. Eksempler på mulige populatioer: a) Daske gymasieelever. b) Verdes befolkig. c) Beviser for matematiske sætiger i daske udervisigsbøger geem tidere. d) 3 mm skruer fra firmaet Jermad. e) Lysets hastighed som de optræder i alle sammehæge i ature. f ) Newtos 2. lov til beskrivelse af ehver kraftpåvirkig af ethvert legeme. Stikprøve: E stikprøve er e delmægde af e populatio. Det er ud fra stikprøve, at der skal kue drages koklusioer vedrørede populatioe. Styrke af koklusioere vil vokse, år stikprøvestørrelse øges, me de vil vokse lagsommere og lagsommere, så der efterhåde skal e stor forøgelse af stikprøvestørrelse til at give e lille forøgelse af styrke. Og hvis stikprøve udtages med heblik på hypotesetest, skal ma f.eks. ved e biomialtest sikre sig, at stikprøves størrelse er så meget midre ed populatioe, at ma ka se bort fra, at ma ikke arbejder med tilbagelægig (uafhægige eksperimeter), der er karakteristisk for biomialfordelig (og ellers må ma teste med de hypergeometriske fordelig). Eksempler på stikprøver (i tilkytig til oveståede populatioer): a) 00 elever fra købehavske gymasier, 00 elever fra århusiaske gymasier og 00 elever fra fyske gymasier (vi skal seere se, at dette er e dårlig stikprøve, bl.a. fordi der ikke går lige mage elever de tre steder, hvorfor atallee i stikprøve heller ikke skal være de samme). b) 5 tilfældigt valgte kvider fra hvert lad i verde. c) Samtlige matematiske beviser i 4 tilfældigt udvalgte matematikbøger på et bibliotek. d) 00 tilfældigt udvalgte skruer fra firmaet Jermad. e) Bestemmelse af lysets hastighed ved getagelse af det samme forsøg 20 gage. f) Målig af acceleratioe af 0 forskellige gestade udsat for hver 5 forskellige kraftpåvirkiger. Opgavere 40* 38

39 Bias: E stikprøve siges at være biased, hvis ogle af elemetere i populatioe har haft midre sadsylighed for at komme med i stikprøve ed adre (jf. eksemplere a) og b) ovefor). Bias betyder skævhed. E biased stikprøve er ikke repræsetativ for populatioe, dvs. de ka ikke bruges til at estimere de statistiske deskriptorer for populatioe. ) De daske befolkigs tv-forbrug udersøges ved e telefoudersøgelse med fastetumre (det er ved at være et forældet eksempel). Stikprøve bliver biased, fordi meesker, der oftere er hjemme og ka tage telefoe, ok ser mere fjersy ed dem, der sjældere er hjemme (og derfor har haft midre sadsylighed for at komme med i stikprøve ed adre ). 2) I 936 idsamlede The Literary Digest mere ed to millioer tilkedegivelser fra læsere om, hvem de ville stemme på, og kom frem til e kæmpe sejr til republikaere Alf Lado over demokrate Frakli Roosevelt. Stikprøve var biased, da bladets læsere var mere højreorieterede ed befolkige geerelt. 3) E forsker øsker at udersøge vægte på skovmus og fager dem i fælder ved at lokke dem med mad. Stikprøve bliver biased, fordi skovmusee skal overvide frygte for fælde for at gå i de, hvilket er mere sadsyligt for e sulte mus, der altså som udgagspukt er tydere ed e geemsitsmus. 4) Alle udersøgelser, hvor persoer selv ka vælge at deltage, bliver biased, da motivatioe for at deltage på e eller ade måde ka hæge samme med svaree. Korrelatio: For at forstå beskrivelse af æste begreb skal ma forstå udtrykket at korrelere. Kort sagt siges to størrelser (variable) at korrelere, hvis de (gesidigt) afhæger af hiade. Lidt lægere sagt korrelerer to variable, der observeres i par, hvis ma, år ma kigger på de par, hvor de første variabel er større ed si geemsitsværdi oftest også har, at de ade variabel er større ed si geemsitsværdi (positiv korrelatio) eller midre ed si geemsitsværdi (egativ korrelatio). E oget lægere (og helt præcis) formulerig kræver formler. I tilfælde 3) med skovmusee er variable vægt egativt korreleret med variable sult, hvis det oftest er såda, at år ma har e mus, der vejer midre ed geemsittet, så er de mere sulte ed geemsittet. I samme eksempel er de to variable sult og vovemod positivt korrelerede, hvis det er såda, at e mus, der er mere sulte ed geemsittet også vover mere ed geemsittet. 39

40 Skjulte variable: E skjult variabel er e uvedkommede variabel, der korrelerer ete positivt eller egativt med både de uafhægige og de afhægige variabel. Begrebere uafhægig og afhægig variabel skal i dee sammehæg forstås som følgede eksempler viser: ) Udersøgelse af tv-forbrug: Her er de uafhægige variabel sadsylighede for at få fat på e perso (dvs. at få foretaget telefoiterviewet), mes de afhægige variabel er tv-forbruget. De skjulte variabel er så ophold i hjemmet, fordi de korrelerer positivt med både sadsylighede for at få fat på folk (jo mere tid der bruges i hjemmet, jo større er chace for at være hjemme år fastettelefoe riger) og med tv-forbruget (jo mere ma er i hjemmet, jo mere fjersy vil ma som oftest se). 2) Meigsmålige: Her er de uafhægige variabel sadsylighede for at få e tilkedegivelse fra e stemmeberettiget amerikaer, mes de afhægige variabel kue være sadsylighede for at stemme på Frakli Roosevelt. Her er de skjulte variable højreorieterethed, da de korrelerede positivt med sadsylighede for at tilkedegive si stemme (fordi avise appellerede til højreorieterede) og korrelerede egativt med det at stemme på Frakli Roosevelt (da e højreorieteret sjældere ville stemme på Frakli Roosevelt ed e geemsitsamerikaer ). (Hvis Frakli Roosevelt var erstattet med Alf Lado, havde korrelatioe været positiv.) 3) Skovmusee: Her er de uafhægige variabel sadsylighede for at fage de ekelte mus, mes vægte af de ekelte mus er de afhægige variabel. De skjulte variabel er sult, da de korrelerer positivt med sadsylighede for at muse fages (jo mere sult, jo større sadsylighed) og korrelerer egativt med muses vægt (jo mere sult, des midre vægt). Systematiske fejl: Afvigelsere mellem de statistiske deskriptorer i e model opstillet ud fra e biased stikprøve og de statistiske deskriptorer for selve populatioe. Da der grudet usikkerheder som udgagspukt altid vil være afvigelser mellem e model og virkelighede, kræver overståede korte formulerig e uddybig. Hvis ma forestiller sig, at ma ka tage stikprøver, der ikke er biased, fra e populatio, vil værdiere for deskriptorere for de ekelte stikprøver godt ok afvige fra populatioes sade værdier, me ved at tage geemsittet af stikprøvere og øge disses atal, vil ma komme tættere og tættere på de sade deskriptorer. Dette er ikke tilfældet, hvis de ekelte stikprøver er biased. Så vil geemsitsværdiere for de ekelte deskriptorer ikke ærme sig de sade værdier, år atallet af stikprøver øges, me derimod ogle bestemte falske værdier for deskriptorere. De systematiske fejl er altså i pricippet afvigelsere mellem de sade værdier og oveævte falske værdier, der fås ved at tage geemsittet af uedelig mage biased stikprøver (hvor det er uderforstået, at stikprøvere udtages på samme måde hver gag, så der altså er tale om de samme form for bias). E kvalitativ beskrivelse af de systematiske fejl i vores eksempler er: 40

41 ) Her bliver de systematiske fejl, at udersøgelse viser et for stort tv-forbrug, fordi de skjulte variabel ophold i hjemmet korrelerer positivt med både sadsylighede for at få fat på folk og med tv-forbruget. 2) Her er de systematiske fejl, at udersøgelse viser e for lille vælgertilslutig til Roosevelt, fordi de skjulte variabel højreorieterethed korrelerede positivt med sadsylighede for at tilkedegive si stemme og egativt med det at stemme på Roosevelt. 3) Her bliver de systematiske fejl, at udersøgelse viser e for lille geemsitsvægt af musee, fordi de skjulte variabel sult korrelerer positivt med sadsylighede for at muse fages og egativt med muses vægt. Stratifikatio: Iddelig af populatioe i disjukte delmægder (dvs. at alle elemeter i populatioe placeres i e og ku e delmægde). Stratifikatio betyder lagiddelig (strata ~ lag). For at sikre sig mod, at e stikprøve bliver biased, ka ma iddele populatio i ogle dele baseret på e forhådsvurderig eller efter at have oteret sig e skævhed i stikprøve (poststratifikatio). Ved e vælgerudersøgelse ka ma f.eks. vurdere, at mæd og kvider stemmer forskelligt, uge, midaldrede og ældre stemmer forskelligt og uderklasse, middelklasse og overklasse stemmer forskelligt. Ma skal så opdele i = 8 forskellige disjukte delmægder. Stratifikatiosregel: Hver delmægde skal være repræseteret med samme procetdel i stikprøve som i populatioe. E opsummerede sætig: Hvis stikprøveudtagige ideholder e skjult variabel, bliver stikprøve biased, og dermed ideholder udersøgelse e systematisk fejl. Begrebere avedt ide for aturvideskabere Skjulte variable - fejlkilder: Begrebet skjult variabel kaldes ide for aturvideskabere for e fejlkilde. Fejlkilder vil påvirke forsøgsresultatere, så der ikke kommer overesstemmelse mellem teorie og eksperimetet, uaset hvor mage gage ma udfører forsøget. Dette ka illustreres med følgede figur: Vi skal måle på e fysisk størrelse og atager, at der er e "sad" værdi af dee (agivet med de lille lodrette sorte streg), som vi skal bestemme. Vi udfører forsøget 8 gage, og som de røde cirkler agiver, får vi forskellige resultater hver gag, me de fordeler sig ogelude ligeligt på hver side af de sade værdi. Vores eksperimetelle værdi er agivet med usikkerheder, dvs. vi agiver et iterval, hvor midte er vores eksperimetelle værdi, og som vi hævder, at de sade værdi med e vis sadsylighed skal ligge ide for (hvilket de gør på vores illustratio). 4

42 Me hvis der er e fejlkilde i forsøget, vil vores eksperimetelle værdier ikke fordele sig ogelude ligeligt omkrig de sade værdi. Alle eller e klar overvægt af værdier vil placere sig på de ee side, og de sade værdi vil derfor ikke ligge ide for det iterval, der er bestemt eksperimetelt. Når et forsøg udføres mage gage, svarer det til at øge stikprøves størrelse, og det vil midske de relative usikkerheder, me det vil ikke hjælpe os til at komme ærmere de sade værdi, hvis der er fejlkilder i eksperimetet (se illustratioe): Fejlkilder er størrelser eller fæomeer, der er e (væsetlig) del af det fysiske system, ma forsøger at beskrive, me som ikke idgår i de formel eller teori, ma aveder til at beskrive systemet. 2 Eksempel: Ma vil udersøge faldlove s( t) = g t ved at lade e gestad falde fra forskellige 2 højder over jordoverflade og måle de tid, faldet tager. Luftmodstade er e skjult variabel (fejlkilde), da de ka siges at korrelere med både strækige og tide. Jo større luftmodstad, jo kortere strækig (på e fast tid), og jo større luftmodstad, jo lægere tid (med e fast strækig). Hvis det er strækige, ma vil behadle som uafhægig variabel, ka ma sige, at ma vil måle for store tider. Ma ka sige, at stikprøve (forsøgee) er biased, da sadsylighede for at måle for korte tider er (meget) midre ed sadsylighede for at måle for store tider. Og dermed får ma e systematisk fejl (ma måler for store tidsrum, og formle ser altså ud til at skulle forkastes). 42

43 Estimater af deskriptorer ud fra stikprøver Formålet med stikprøver er som ævt at avede dem til at kue sige oget om hele populatioe. Me slutige fra stikprøve til populatio er e iduktiv slutig, og vi ka altså ikke være sikre på, at vores værdier fra stikprøve er rigtige. Ma taler derfor om estimater af værdiere i stedet for om bestemmelse af værdiere. F.eks. er der et geemsitligt atal stykker slik pr. pose i e kokret produktio, og dette geemsit kue ma bestemme ved at tælle atal stykker slik i hver pose i produktioe. Dette geemsit er de sade værdi for geemsittet. Me hvis ma udtager e stikprøve på f.eks. 50 poser og fider et geemsit ved at rege på disse 50 poser, så fider ma et estimat for geemsittet, og dette estimat ka godt afvige (lidt) fra de sade værdi. Formler for estimatere af geemsit og spredig er: Stikprøve-estimater: De ud fra stikprøve x, x2, x3,..., x bestemte estimater x og s for heholdsvis middelværdie og spredige for populatioe er: x = xi = i= i= x + x + x x 2 3 ( i ) s = x x Med Gym-pakke bestemmes estimatet for spredige med e af kommadoere stadardafvigelse og stikprøvespredig Bemærk ævere i brøke uder kvadratrodsteget. Det er de eeste forskel fra vores tidligere formler. Vi skal altså ikke dele med stikprøves størrelse, me med é midre ed stikprøves størrelse. Estimatet for spredige (som er vores bedste bud på populatioes spredig) bliver altså (lidt) større ed de værdi, vi ville have fået, hvis vi avedte vores tidligere formel for spredige. Nævere ( ) skyldes, at vores sum uder kvadratrodsteget vil give e lidt for lille værdi, fordi vi udreger afvigelser for værdier i forhold til e størrelse, der er bereget ud fra disse værdier. HVIS vi af e eller ade årsag allerede keder middelværdie for populatioe og ku er iteresseret i spredige, skal vi avede de kedte middelværdi og vores tidligere formel for spredig. Nogle tal ide for statistik er lidt vilkårlige (f.eks.,5 i forbidelse med bestemmelse af outliers), me ( ) er IKKE e tilfældig æver. Det ka bevises (hvilket vi ikke kaster os ud i), at det giver det bedste bud på populatioes spredig. Egetlig dækker begrebere spredig og stadardafvigelse over præcis det samme (de er syoymer). Når Gym-pakke skeler mellem de to, er det altså blot for at kue avede to forskellige formler: 2 Opgavere 42* 43

44 Vigtigt Kofidesitervaller Ma ka bruge stikprøver til at estimere parametre for e populatio og agive disse ved m puktagivelser, f.eks. Vi har målt tygdeacceleratioe til 9,8 eller Ifølge s 2 meigsmålige vil 3,4% af vælgere stemme på partiet X. Me e såda puktagivelse fortæller itet om, hvor sikre vi er på resultatet. Vi ved, at det er et estimat, me der er forskel på, om tallet 9,8 er fremkommet ved at foretage to måliger på heholdsvis 7,8 og,8 eller 00 måliger, der alle lå mellem 9,7 og 9,9. Det er klart, at hvis vores stikprøve er repræsetativ, er 9,8 et bedre estimat i sidstævte tilfælde. For at kue iddrage dette aspekt beytter ma sprediger til at kostruere såkaldte kofidesitervaller, dvs. vi agiver vores resultat ved et iterval. For at kue gøre det, skal vi først have idført ogle begreber: : Sigifikasiveau Et tal mellem 0 og (mellem 0% og 00%). Ofte avedes = 5%. Det er egetlig et begreb, vi først skal avede uder test, me det hæger direkte samme med : Kofidesiveau Et tal mellem 0 og (mellem 0% og 00%). Ofte avedes = 95% : Kritisk værdi Et tal direkte kyttet til kofidesiveauet. Hver fordelig har si ege omregig fra kofidesiveau til kritisk værdi. Vi vil ku rege på situatioer, hvor vi aveder ormalfordeliger, og her har vi set omregigsmetode i afsittet Nogle vigtige værdier for ormalfordelige, så de gule boks i afsittet har allerede givet os ogle af følgede værdier: For ormalfordeliger 68,3% 90%,645 95%,960 95,4% 2 98% 2,326 99% 2,576 99,73% 3 De kritiske værdi fortæller os altså, hvor mage gage spredige vi skal gå ud til begge sider fra middelværdie for at fide e procetdel svarede til kofidesiveauet i itervallet. v, v+ : ( ) Kofidesiterval v : Vores estimat af de parameter for populatioe, vi vil bestemme. : Spredige på estimatet. Dee spredig ka være kedt eller estimeret med ( ) - formle, me e væsetlig poite er, at det er spredige på v, og hvis v er e middelværdi, skal vi også iddrage De Cetrale Græseværdisætig efter ( ) -formle. Alt, hvad vi siger om kofidesitervaller, forudsætter, at vores stikprøve er repræsetativ. Hvis vores stikprøve er biased, ka vi slet ikke sætte proceter på. Kofidesiveauet skal vælges, ide ma idsamler sie data. Dvs. ide ma har oge oplysiger om de kokrete data, skal ma sige f.eks. Jeg vælger at arbejde med et 95%- kofidesiterval. 44

45 Eksempel 2: Ma har valgt at arbejde med et 95%-kofidesiterval og dermed de kritiske værdi,960 (fordi vi øsker at fide et geemsit, og ifølge De Cetrale Græseværdisætig ved vi, at dette geemsit tilærmelsesvist vil være ormalfordelt). Der foretages derefter 6 måliger af m tygdeacceleratioe (målt i ehede ) svarede til at udtage e stikprøve med størrelse 6. 2 s Gym-pakke beyttes til at bestemme stikprøve-estimatere (bemærk, at det er kommadoe stadardafvigelse, der beyttes ma kue også have brugt stikprøvespredig): Vi beyttede stikprøve til at estimere middelværdi og spredig for populatioe. Da vi jo går ud fra, at tygdeacceleratioe det pågældede sted har é sad værdi, ka det lyde uderligt, at der skulle være e spredig, me her skal populatioe forstås som e uedelig mægde måliger af tygdeacceleratioe, hvor ma pga. måleusikkerhed vil få forskellige værdier, me hvor vi går ud fra, at geemsittet af dee uedelige mægde måliger er de sade værdi for tygdeacceleratioe. Vi er dog ikke iteresserede i spredige på måligere, me på spredige på middelværdie, og derfor skal vi tage De Cetrale Græseværdisætig i brug: Med middelværdi, kritisk værdi og spredig på middelværdie, har vi så fudet: m 95%-kofidesitervallet (med ehede 9.75, s ): Opgavere 44* Da De Cetrale Græseværdisætig fortæller os, at spredige på det estimerede geemsit fides ved, hvor er stikprøves størrelse, vil e større stikprøve give et smallere kofidesiterval. Og da et højere kofidesiveau giver e højere kritisk værdi, vil et højere kofidesiveau give bredere kofidesitervaller. Vi har altså: Alt adet lige : E større stikprøve giver et smallere kofidesiterval. Et højere kofidesiveau giver et bredere kofidesiterval. Me hvad fortæller vores kofidesitervaller os? Lad os begyde med fælde og se på, hvad de IKKE fortæller os. Når ma har udreget et kofidesiterval, vil de sade værdi ete ligge ide for itervallet eller ude for. Dvs. ete det ee eller det adet. Derfor ka ma IKKE sige, at år ma har fudet et 95%-kofidesiterval, så er der 95% chace for, at de sade værdi ligger ide for itervallet. For år ma har kofidesitervallet, er der ikke lægere tale om sadsyligheder. Me det, som ma KAN sige, er (udtrykt med kofidesiveauet 95%): Ækvivalete betydiger af kofidesitervaller: Ide jeg udtager mi (repræsetative) stikprøve, er der 95% chace for, at det 95%- kofidesiterval, som jeg vil berege ud fra stikprøve, vil ideholde de sade værdi. 95% af de 95%-kofidesitervaller, der bereges ud fra stikprøver, ideholder de sade værdi. 45

46 Kofidesiterval for hældig I Eksempel 2 målte vi samme størrelse mage gage. Med et QQplot afgjorde vi, om måligere var ormalfordelte. Me ofte måler ma på størrelser, der afhæger af hiade (f.eks. i opvarmig af vad de afhægige variabel T og de uafhægige variabel Q). Hvis der er tale om lieære sammehæge, vil hældige direkte eller idirekte kue fortælle os oget om e cetral størrelse (f.eks. de specifikke varmekapacitet for vad). Ma vil så gere kue sige oget om øjagtighede af de fude værdi. Vi skal derfor u se på kofidesitervaller for hældiger. Sætig : Kofidesiterval for hældig baseret på måliger (Gym-pakke: testli) Forudsætiger: ) Det er e lieær sammehæg (puktere daer e ret lije i et almideligt koordiatsystem). 2) Ete er atallet af målepukter tilpas stort eller residualere er ormalfordelt (ka testes med et QQplot - Gym-pakke har kommadoe residualqqplot). Bestemmelse af kofidesitervallet v, v+ (brug testli) v : Estimatet er vores hældig bestemt ved lieær regressio (midste kvadraters metode). : De kritiske værdi skal bestemmes ud fra e såkaldt t-fordelig med 2 frihedsgrader (se afsittet om test). Værdie afviger lidt fra værdie bestemt ud fra ormalfordelige. sres : =, hvor sx er spredige på de uafhægige variabel, og sres er residualspredige. s Residualspredige: x s res = 2 ri i= 2, r i ere er residualere. (Gym-pakke: residualspredig) E løs forklarig på formlere (dvs. ikke et bevis): Udtrykket ( 2) i ævere på residualspredige skyldes, at 2 frihedsgrader er gået til bestemmelse af hældig og skærig. Formle for spredige på hældige giver meig, år ma ser på, at tællere er spredige på residualere, dvs. spredige på y-værdier, mes de ee faktor i ævere er spredige på x- y værdiere ( a = ). Jeg vil tro, at kommer fra De Cetrale Græseværdisætig. x Residualspredige er ligesom forklarigsgrade (r-kvadratet) et udtryk for pukteres afstad til regressioslije. Jo tættere værdie er på 0, jo tættere ligger puktere på lije. Me residualspredige er ikke dimesiosløs, så des størrelse skal sammeliges med de kokrete y- værdier, hvis det skal give meig. Eksempel 3a: Et datasæt med 6 sammehørede værdier af vægt (i kg) og tempo (mi. pr. km) for e løber er hetet id fra Excel, hvor kommaer med søg - erstat er ædret til puktummer, og gemt i Maple i de lodrette lister Vægt og Løbetid, som pga. pladse ikke agives her. Vi ka så bestemme hældige på sædvalig vis ved hjælp af lieær regressio: Dvs. hældige er 0,04, hvilket fortæller os, at løbere ka lægge 0,04 miutter pr. km. til si løbetid pr. kg. kropsvægte øges. Dette har vi set før. Me vi skal u se på, hvor præcist vi meer, at disse 0,04 miutter er bestemt 46

47 Eksempel 3b: Vi vil u bestemme et 95%-kofidesiterval for hældige. For det første skal vi derfor sikre os, at der ret faktisk er tale om e lieær sammehæg. Det ka gøres ved at se på, om puktere daer e ret lije i et almideligt koordiatsystem, eller om residualere ligger usystematisk omkrig 0: Vestre: Puktere daer e ret lije. Afvigelsere virker usystematiske. Der er ige buet tedes. Så e lieær model er e passede model. Højre: Residualere ligger usystematisk spredt omkrig 0, så de lieære model er e god model. Kommetar: Faktisk fugerer ekspoetielle udvikliger og potesfuktioer lige så godt. Det skyldes, at datasættet dækker så lille et vidue (8 kg ud af 83 kg og 0,4 miutter ud af godt 6,6 miutter), at alt groft sagt vil virke lieært. Vi vil u udersøge, om residualere er ormalfordelt, og bruger derfor residualqqplot. Da vi allerede har foretaget de lieære regressio, ka vi bruge idtastige til vestre edefor, og ellers ka ma altid klare sig med idtastige til højre (som det ses, er de idetiske): Puktere ligger meget tæt på de rette lije, så residualere er helt klart ormalfordelte. Forudsætigere er altså opfyldt for, at ma må agive et kofidesiterval. Vi beytter Gym-pakkes testli: Vores kofidesiterval for hældige er derfor: [0.037,0.046]. Opgavere 46* 47

48 Kofidesiterval for sadsyligheder Kofidesitervaller for sadsyligheder møder vi ofte i forbidelse med meigsmåliger. Situatioe er: Ma går ud og spørger persoer, hvad de vil stemme på. Hvis ma så tager ét parti ad gage, her partiet X, ka svaret omfortolkes til, at ma har svaret på et spørgsmål med to svarmuligheder: Persoe stemmer på parti X (succes) eller persoe stemmer ikke på parti X (fiasko). Hvis r persoer svarer, at de stemmer på parti X, har vi estimeret successadsylighede p for, at e tilfældig perso vil stemme på parti X, til: r p = Hvis vi u veder situatioe om og tager udgagspukt i vores estimerede successadsylighed, så giver formle os samtidig, at hvis vi går ud og spørger persoer, om de vil stemme på partiet X, vil vi i geemsit kue forvete, at r = p vil svare ja (middelværdi for biomialfordelig). Spredige på middelværdie for biomialfordelig er = p ( p). p ( p) p ( p) p ( p) De relative spredig (%-vis spredig) er så = = = 2 Sætig 2: Kofidesiterval for sadsyligheder baseret på stikprøver p sp, p + s p Gym-kommadoe: kofidesiterval r p : De estimerede successadsylighed. p = : De kritiske værdi. Aved værdiere for ormalfordelig. Nogle gage avedes 2 i stedet for,96 for kofidesiveauet 95% (bl.a. i formelsamlige) s p : Spredige på de estimerede successadsylighed.,96 s p eller 2 s p kaldes for de statistiske usikkerhed. s p = p ( p) Eksempel 4: Vi vælger at arbejde med kofidesiveauet 95% (dvs. =,96 ) I e stikprøve på 2734 persoer svarer 845, at de vil stemme på partiet X. 845 De estimere successadsylighed er: p = = 0, = 30,9% 2734 s p ( ) 0, ,30907 = = 0, Kofidesitervallet: 0,30907,96 0,00884 ; 0, ,96 0,00884 = 29, 2% ;32,6% Statistisk usikkerhed:,96 0, = 0, =, 7% Gym-pakke: Opgavere 48* 48

49 TEST Ide for statistik har ma valgt at sige, at ma udfører et test. Dee (korrekte) sprogbrug er dog ikke slået helt igeem, så ma ka stadig masser af steder læse, at der er foretaget e statistisk test. Selve takegage og fremgagsmåde er: Et test består altid i, at ma vælger to hypoteser og et test som forklarigsmodel i de pågældede situatio. Hypotesere skal holdes op imod hiade, år ma har idsamlet data. De ee hypotese kaldes ulhypotese og beteges H0. De ade hypotese kaldes de alterative hypotese og beteges H. Desude vælger ma et såkaldt sigifikasiveau (ofte 5%), der er et mål for, hvorår vi uder atagelse af, at ulhypotese er rigtig får usadsylige resultater. Hvis = 5%, betyder det, at HVIS ulhypotese er rigtig, er der 5% risiko for, at vi kommer til at forkaste de. Derefter udtager ma si stikprøve, så ma har e række måleresultater. På baggrud af ulhypotese og det korrekt valgte test (vi skal lære om biomialtest, to slags 2 - test, tre slags t-test og lidt om z-test), udreger ma e teststørrelse, og dee ka omreges til e sadsylighed p for uder forudsætig af, at ulhypotese er sad, at få det pågældede måleresultat eller et måleresultat, der (edu) mere ed det pågældede måleresultat støtter de alterative hypotese frem for ulhypotese. Jo midre p er, des midre sadsyligt er det pågældede resultat uder forudsætig af ulhypotese, dvs. at hvis p bliver tilstrækkelig lille, vil ma forkaste ulhypotese. Ma sammeliger så p og. Hvis p forkastes ulhypotese. Hele testmetode ka føre til to typer af fejl: Fejl af type : E sad ulhypotese forkastes. Fejl af type 2: E falsk ulhypotese forkastes ikke. Hypotesere Det er ulhypotese, der udersøges, dvs. det er ulhypotese, ma ka ede med at forkaste eller ikke forkaste. Ma ka aldrig bevise e teori, og det er derfor vigtigt at bemærke, at di koklusio altid skal omhadle forkastelse eller ikke forkastelse af ulhypotese. Nulhypotese er altid de hypotese, der beskriver situatioe, som de forvetes at være ifølge e teori eller e tabel, eller som siger, at der ikke er oge sammehæg mellem forskellige størrelser. De alterative hypotese siger, at teorie ikke holder, at tabelværdie ikke er de rigtige (evt. at de er større/midre) eller at der ret faktisk er e sammehæg mellem de forskellige størrelser. Det er meget vigtigt ikke at blade dit/forskeres øske id i valget af hypoteser. Ifølge vores geemgag af videskabelig praksis, bør ma forsøge at opstille forsøg, der ka forkaste e teori, og oftest vil ma ide for f.eks. samfudsvideskabere forsøge at fide sammehæge mellem forskellige størrelser. Da ulhypotese er vores udgagspukt, ka det føre til de grudlæggede fejl, at ma får formuleret e forkert ulhypotese, emlig de hypotese, der er i overesstemmelse med es øske. 49

50 Eksempel 5: Ved hjælp af et svigede pedul vil ma bestemme tygdeacceleratio ved jordoverflade. Vi har e tabelværdi på g = 9,82 m, og derfor bliver vores hypoteser: 2 s m m H0: g = 9,82 H 2 : g 9,82 2 s s Eksempel 6: På et optisk gitter står der, at atallet af spalter pr. mm i et gitter (dvs. d ) er 200. Vi har e mistake om, at dette tal er forkert. Vores hypoteser bliver: H0: = 200 mm H: 200 mm d d Eksempel 7: Vi øsker at vise, at der er e sammehæg mellem lektielæsig og opået fagligt iveau. Vores hypoteser bliver derfor: H0: Der er ige sammehæg mellem lektielæsig og opået fagligt iveau. H: Der er e sammehæg mellem lektielæsig og opået fagligt iveau. Eksempel 8: Ma øsker at udersøge, om vælgertilslutige til partiere har ædret sig side seeste valg. Hypotesere bliver derfor: H0: Vælgertilslutige har ikke ædret sig side seeste valg. H: Vælgertilslutige har ædret sig side seeste valg. Eksempel 9: Ma øsker at udersøge, om et bestemt stof virker mod hovedpie: H0: Stoffet virker ikke mod hovedpie. H: Stoffet virker mod hovedpie. Eksempel 20: Vi vil teste faldlove som vi ikke tror på - med e bold i frit fald. H0: Faldlove gælder. H: Faldlove gælder ikke. Eks. 2: Vi øsker i et forsøg med opvarmig at bestemme vads specifikke varmekapacitet. H0: Vads specifikke varmekapacitet har de værdi, der ka slås op i databoge. H: Vads specifikke varmekapacitet har e ade værdi ed de, der ka slås op i databoge. Oversigt over begreber i forbidelse med statistiske test Et statistisk test er e procedure til at vurdere, om et datamateriale er i overesstemmelse med e fremsat hypotese. Bemærk ordet vurdere. Ma ka ikke afgøre, om der er overesstemmelse, me ku give e (velbegrudet) vurderig. 50

51 Nulhypotese H0: De hypotese, der afprøves i et statistisk test. De ka i mage situatioer agives i form af de atage værdi for de parameter, der testes på, f.eks. e middelværdi: H : =. 0 0 De alterative hypotese H: De hypotese, som ulhypotese holdes op imod. Med oveståede ulhypotese ka de alterative hypotese være: a) H : Tosidet test 0 b) H : Vestresidet test 0 c) H : Højresidet test 0 Sigifikas: Et resultat siges at være statistisk sigifikat, hvis det er usadsyligt, at det er idtruffet ved et tilfælde. Det ka også udtrykkes ved, at der foreligger sigifikas. Sigifikasiveauet er de sadsylighed, der fastsætter, hvad der skal reges som usadsyligt. Dette iveau er ikke fast. Det oftest beyttede er = 0,05. Hvis resultatet er usadsyligt (dvs. hvis p-værdie er midre ed sigifikasiveauet), forkastes ulhypotese. Acceptområde A: Det område (de mægde), ide for hvilket de målte parameter skal ligge, hvis ulhypotese ikke skal forkastes. Det kritiske område K: Det område (de mægde), ide for hvilket de målte parameter skal ligge, hvis ulhypotese skal forkastes. Ved et tosidet test ligger det kritiske område på hver si side af acceptområdet. Hvis ma f.eks. arbejder ud fra e atagelse om, at de målte parameter er ormalfordelt med middelværdi og spredig og har fastsat et sigifikasiveau på 5%, vil det kritiske område være K ;,96,96 ; mes acceptområdet er A =,96 ; +,96. = +, Ved et vestresidet test ligger det kritiske område til vestre for acceptområdet. Med samme atagelse som ovefor fås det kritiske område K ;,645 A,645 ; = og acceptområdet =. Tallet,645 er fudet ud fra, at der skal være 5% chace for at have i det kritiske område. Detalje: Ved ormalfordeliger og adre kotiuerte fordeliger ka sittet lægges præcist ved de 5%. Dette er ikke tilfældet ved diskrete fordeliger (f.eks. biomialfordelige). Så her er der brug for e mere præcis formulerig, der siger, at sigifikasiveauet er de maksimale sadsylighed, der fastsætter, hvad der skal reges som usadsyligt. Ma 'favoriserer' altså ulhypotese. Dvs. at med sigifikasiveauet 5% ka ma f.eks. være ødt til at vælge e kritisk mægde, som der måske ku er,3% sadsylighed for at ramme ide for (bemærk, at de,3 bare er et eksempel på et tal midre ed 5). Fejltyper: 5

52 Meget væsetlig poite i forbidelse med valg af alterativ hypotese: Som agivet tidligere ka ma vælge 'tosidet test', 'vestresidet test' og 'højresidet test'. Dvs. at hvis ma f.eks. vil udersøge, om drege og piger laver lige mage lektier i gymasiet, bliver ulhypotese, at drege og piger laver lige mage lektier i gymasiet, og ma skal så afgøre, hvilke af følgede tre alterative hypoteser, de skal holdes op imod: a) Drege og piger laver ikke lige mage lektier i gymasiet (tosidet test). b) Drege laver flere lektier ed piger i gymasiet (højresidet). c) Drege laver færre lektier ed piger i gymasiet (vestresidet). De væsetlige poite er, at ma skal træffe sit valg uafhægigt af sie data, dvs. som udgagspukt allerede ide idsamlig af data. Årsage til dette er, at ma ellers eder med at begå dobbelt så mage type-i-fejl, dvs. ma får forkastet dobbelt så mage sade ulhypoteser, som hvis ma gjorde det på de rigtige måde. Atag emlig, at ulhypotese om, at drege og piger laver lige mage lektier i gymasiet, er sad. Hvis ma udersøger dette i e hel række udersøgelser, vil ma som udgagspukt (da ma arbejder med stikprøver) aldrig opå præcis samme resultat for drege og piger, me ma ka rege med, at omkrig 50% af udersøgelsere viser, at drege laver flest lektier, mes 50% viser, at piger laver flest lektier. Hvis ma u i e kokret udersøgelse kiggede på tallee og så, at dregee i stikprøve lavede flere lektier ed pigere, og derfor valgte et højresidet test, ville ma placere hele det kritiske område på f.eks. 5% ude til højre i stedet for at fordele de 5% på 2,5% yderst til højre og 2,5% yderst til vestre. Hvis stikprøve havde vist, at dregee lavede færre lektier ed pigere, ville ma med dee forkerte metode vælge et vestresidet test og placere de 5% yderst til vestre. Hvis ma altså først kigger på data, kommer ma i dette tilfælde til reelt at placere 0% (5% i hver side), år det kritiske område skal agives, og dermed har ma (ubevidst) fordoblet sigifikasiveauet. Biomialtest I Maples Gym-pakke: biomialtest Vi idleder med biomialtest, selvom dette som det eeste af vores test ikke ideholder e bereget teststørrelse, der skal omreges til e p-værdi. Til gegæld ka vi i modsætig til de adre test være med hele veje matematisk. Der ligger altid e fordelig til grud for et test. Til grud for biomialtest ligger biomialfordelige, der som bekedt beskæftiger sig med getagelser af et forsøg med to mulige udfald (succes og fiasko) med kostat successadsylighed p. Biomialfordelige er så sadsylighedsfordelige for de stokastiske variabel, der agiver atallet r af succeser. Fordelige ka beskrives ved både e diskret tæthedsfuktio og e fordeligsfuktio. Ide vi ser på eksempler på biomialtest, skal vi derfor lige geemgå ogle beregiger på biomialfordelige. De diskrete tæthedsfuktio f ( r) agiver sadsylighede for r succeser: r ( ) = ( = ) = (, ) ( ) f r p X r K r p p r I Maples Gym-pakke hedder kommadoe bipdf (pdf ~ probability desity fuctio). 52

53 Eksempel 22: Udregig med = 50, p = 0,7 og r = 9 : Dvs. ved 50 getagelser af et forsøg med successadsylighede 0,7 er sadsylighede 4,3% for at få etop 9 succeser. Maple ka tege et pidediagram som graf for tæthedsfuktioe: Det er sadsylighede, der er ud ad 2. akse, så vi ka se, at det passer fit med de 4,3% for 9 succeser. Vi ka desude se, at sadsylighedere for at få mere ed 20 succeser er forsvidede lille. Fordeligsfuktioe agiver sadsylighede for højst r succeser: r i ( ) = ( ) = ( ) = (, ) ( ) F r p X r f i K i p p i= 0 i= 0 Bemærk, at fordeligsfuktioe her aveder sumteg, da biomialfordelige er diskret, mes ma for de kotiuerte ormalfordelig aveder itegralteg i fordeligsfuktioe. I Maples Gym-pakke hedder kommadoe bicdf (cdf ~ cumulative distributio fuctio). Udregig med = 50, p = 0,7 og r = 9 : r i Dvs. at sadsylighede for at få højst 9 succeser er 66,0%. Dette kue også være udreget ved: Vi ka også bede Maple om at afbilde fordeligsfuktioe: De stiplede blå lije er sat for at vise, at sadsylighede for at få højst 9 succeser er 66%. 53

54 Ma ka også avede fordeligsfuktioe, hvis ma skal fide sadsylighede for at få midst et bestemt atal succeser. Ma skal i så fald udytte: ( ) = ( ) p X r p X r Dee formel udytter, at ma er (00%) sikker på at få ete midst r succeser eller højst r succeser. I eksemplet med = 50 og p= 0,7 får ma: Dvs. der er 34% chace for at få midst 0 succeser. Edelig ka ma også bruge fordeligsfuktioe til at bestemme sadsylighede for at ramme ide for et vist iterval ved at udytte: ( ) = ( ) ( ) = ( ) ( ) p r X t p X t p X r p X t p X r Eksempel 23: Sadsylighede for at få mellem 7 og 2 succeser (begge tal iklusive) er: Dvs. sadsylighede er 69,7%, hvilket også lidt mere besværligt kue være fudet ved: Det er u tid til at se på eksempler på biomialtest. Eksempel 24: Vi har købt e terig og vil udersøge, om det er e sydeterig, så ma ikke har de rigtige sadsylighed for at få e sekser. Oftest vil sydeteriger ok give for mage seksere, me hvis vi også holder mulighede åbe for, at det ka være e sydeterig bereget på modstadere, laver vi et ligesidet test. Dvs. vores hypoteser bliver: H0: Det er ikke e sydeterig, dvs. p succes = H: Det er e sydeterig, dvs. psucces 6 6 Vi vælger at arbejde med sigifikasiveauet 5% (dette skal også vælges ide forsøget udføres). Vi udfører et forsøg med 00 kast med terige og får 23 seksere. Vi ka hurtigt se, at frekvese af seksere er 23%, dvs. højere ed sadsylighedssuccese på 6,7%, me spørgsmålet er, om forskelle er sigifikat, dvs. om det er for usadsyligt med e ikke-sydeterig at få et sådat resultat eller oget, der er "værre". Vi har valgt et ligesidet test med sigifikasiveau 5%, så vi skal have placeret 2,5% i hver side. Vi ka u gribe det a på forskellige måder: Metode : Vi fider sadsylighede for uder forudsætig af at ulhypotese holder at få 23 eller flere seksere (dvs. midst 23): Da sadsylighede på 6,3% er større ed 2,5%, er afvigelse IKKE sigifikat, dvs. vi ka IKKE forkaste ulhypotese. Vi ka altså ikke hævde, at det er e sydeterig. 54

55 Metode 2: Vi vil først bestemme acceptområde og det kritiske område. Edu egag husker vi på, at det er et ligesidet (tosidet) test, så vi skal have placeret (højst) 2,5% i hver side. Vi skal desude lægge mærke til, at udregigere i vestre side og højre side skal foretages forskelligt. Vi ved, at ulhypotese forudsiger 6,7 seksere, så vestreside består af hædelsere 0-6 seksere, mes højreside er 7-00 seksere. Først vestreside: Vi skal her se på, hvor spriget forbi 2,5% sker, og vi ser på fordeligsfuktioes værdier: Dette viser, at sadsylighede for at få f.eks. højst 7 seksere er 0, %. Her ses det, at spriget forbi 2,5% sker fra 9 til 0 seksere. Højreside: Her skal vi se på sadsylighede for at få det på gældede atal seksere eller flere. Da dette udreges som P( X r) P( X r ) =, skal vores sekves agives aderledes: (Der er ku fortsat op til 50 seksere, da sadsylighedere for flere seksere er ekstremt små). Det væsetlige er, hvor spriget forbi 2,5% sker. Dette ses at ske fra 24 til 25 seksere. Vi får dermed følgede: Acceptmægde er A = 0,,2,...,24 De kritiske mægde er K = {0,,2,...,9} 25,26,27,...,00 Da udfaldet på 23 seksere ligger i acceptmægde, forkastes ulhypotese IKKE. Metode 3: Med Gym-pakke ka ma desude få: Når ma aveder 'biomialtest', skal ma udover og p agive sigifikasiveauet (her 0,05) samt om testet skal være 'vestre', 'højre' eller 'tosidet' (et adet ord for ligesidet eller dobbeltsidet). Bemærk, at det er tæthedsfuktioe, der er agivet, dvs. sadsylighede for de ekelte hædelser. Acceptmægde er agivet med grøt. 55

56 Eksempel 25: Vi har spillet med terig og fået e mistake om, at de er skæv og giver for mage 5'ere. Dette vil vi gere udersøge, og vi opstiller derfor hypotesere: H0: Terige er ikke skæv, dvs. p succes = 6 H: Terige giver for mage 5'ere, dvs. psucces 6 Vi vælger ige sigifikasiveauet 5% og udfører et forsøg med 300 kast, hvor vi får 67 5'ere. Det er jo flere ed de forvetede 50 5'ere, me spørgsmålet er, om forskelle er sigifikat. Da vi her har valgt at lave et højresidet test, skal alle 5% (de kritiske mægde) placeres til højre. Vi får u: Da sadsylighede for at få midst 67 5'ere med e 'ærlig' terig er uder 5%, har vi altså fået sigifikat flere 5'ere ed forvetet, og vi må forkaste ulhypotese til fordel for de alterative hypotese. Vi kokluderer altså, at terige er skæv og giver for mage 5'ere. Grafisk ses acceptmægde og de kritiske mægde ved: Som det ses er: Acceptmægde: A = 0,,2,...,6 Kritisk mægde: K = 62,63,64,...,300 De 67 5'ere ligger altså i de kritiske mægde. Meigsmåliger af tilslutige til politiske partier er et af de steder, hvor vi oftest møder statistiske tests præseteret, og det er også e situatio, hvor ma skal passe på ikke at gå i e fælde (jf. fremlæggelse 0 Multiple comparisos problem, side 63). For hvis der f.eks. er 0 partier, og ma kigger på tallee og får øje på et parti, hvor ma ser e stor foradrig af tilslutige og derfor beslutter at teste, om ædrige er statistisk sigifikat, skal ma korrigere for, at ma egetlig foretager 0 test (da ma udvælger bladt 0 resultater). Hvis vi f.eks. arbejder med et sigifikasiveau på 5%, skal vi teste, som om sigifikasiveauet var 5% 0,5% 0 = (Boferroi-korrektio). På de måde sikres, at sadsylighede for at begå e type-i-fejl i det samlede test (beståede af 0 ekelte test) er de samme, som hvis ma ku foretog ét test. Boferroi-korrektio er ku é bladt flere forskellige metoder til at forsøge at udgå type-i-fejl, år ma foretager mage test. Problemet er, at ma med dee metode øger risikoe for type-ii-fejl, dvs. at falske ulhypoteser IKKE forkastes. I det æste eksempel atages det altså, at vi af e eller ade årsag - fra start er iteresseret i tilslutige til Det Radikale Vestre, dvs. vi har IKKE kigget på meigsmålige, ide vi beslutter os for at se på etop Det Radikale Vestre. 56

57 Eksempel 26: Ved folketigsvalget i 20 fik Det Radikale Vestre 9,5% af stemmere. E meigsmålig i jauar 205 fortæller, at de u står til 7,5% af stemmere. Spørgsmålet er så, om dette er e sigifikat forskel. Ma ka ikke svare på dette, hvis ma ikke ved, hvor stor stikprøve er. Så u atager vi, at stikprøve består af 300 persoer. Vi skal u have valgt vores to hypoteser: H0: Det Radikale Vestre har samme tilslutig som ved folketigsvalget, dvs. p succes = 0,095. Vi skal u have bestemt os for vores alterative hypotese. Vi ka se, at tilslutige ser ud til at være gået ed og kue derfor være fristede til at lave et vestresidet test. MEN her er det ekstremt vigtigt at huske på, at ma aldrig må vælge alterativ hypotese efter at have set på tallee, da ma ellers får dobbelt så mage sigifikate resultater i forhold til det rigtige atal. Nu er det jo lidt for set at vælge alterativ hypotese ide at have set tallee, me vi lader derfor som om, vi ikke har set resultatet af meigsmålige og vælger derfor: H: Det Radikale Vestre har ikke samme vælgertilslutig som ved valget, dvs. psucces 0,095 Vi placerer altså 2,5% i begge sider (ligesidet test). 7,5% af 300 persoer svarer til 0, = 97,5, dvs. 98 persoer (det kue reelt godt have været 97 persoer, da det også ville give 7,5%). Da vi befider os på vestre side, skal vi fide sadsylighede for højst 98 persoer: Da sadsylighede er uder 2,5%, er vælgertilslutige i stikprøve sigifikat midre ed ved valget (ulhypotese forkastes). Det ses, at acceptmægde og kritisk mægde er: A = 03,04,05,...,45 K = 0,,...,02 46,...,300 Græsere 03 og 45 i acceptmægde ka omreges til procetere 7,9% og,2%. Dvs. at ide for 7,9%;,2% ville ma ikke have kuet sige, at vælgertilslutige var ædret. 57

58 2 -test Til grud for alle 2 -test ligger meget passede de såkaldte 2 -fordeliger, som vi ser på om lidt. 2 -fordeligere er baseret på ormalfordelige (og det er her, at De Cetrale Græseværdisætig for alvor bliver cetral), år ma aveder 2 -test. Ved et 2 -test udreger ma e såkaldt teststørrelse Q (sommetider avedes 2 lidt misvisede i stedet for Q): Q = i= ( O F) 2 i F i i Fi : De forvetede værdi (bereget på baggrud af ulhypotese) Oi : De observerede værdi : Atallet af observerede kategorier (celler) Poite er, at dee teststørrelse Q - HVIS ulhypotese er sad - med god tilærmelse følger e 2 -fordelig. Grafisk ser tæthedsfuktioere for e del af 2 -fordeliger ud som vist edefor. k-værdiere agiver atallet af frihedsgrader. Q-værdie skal sammeliges med et tal aflæst på førsteakse. Atallet af frihedsgrader er det atal kategorier (observerede værdier), der frit ka varieres, eller sagt med adre ord, atallet af celler ma skal kede observatioere i, før ma ka udrege reste af tabelle. Dee beskrivelse bliver emmere at forstå, år vi ser på eksemplere. Bemærk, at arealet uder hver af 2 -fordeligere (selvfølgelig) er (00%). Jo midre Q-værdie er, jo mere støtter det ulhypotese (se udregige af Q-værdie, hvor Q bliver midre, jo tættere de observerede værdier ligger på de forvetede værdier, der er bereget med udgagspukt i ulhypotese). 58

59 Med Maples Gym-pakke ka ma grafisk afbilde tæthedsfuktioere for 2 -fordeligere: Sigifikasiveauet ka omreges til e værdi på. akse ved at fide de værdi på.akse, hvor arealet uder grafe til højre for dee værdi svarer til Dette foregår emmest ved at avede 2 -fordeligsfuktioere: Husk, at det u er sadsylighedere for højst de pågældede værdi, der er agivet på 2. akse, dvs. med f.eks. 6 frihedsgrader, er sadsylighede for, at Q-værdie er 6 eller uder, ca. 58%. 59

60 I Gym-pakke teges det ved: frihedsgrad 2 frihedsgrader Det er vigtigt at huske på, at tæthedsfuktioere IKKE har sadsyligheder ud ad 2. akse, me at sadsylighedere fremkommer som arealer uder grafe. Dvs. ma ka på grafe med det passede atal frihedsgrader fide sadsylighede for at få højst e bestemt Q-værdi ved at berege arealet uder grafe i itervallet 0,Q Fordeligsfuktioere agiver derimod lige etop dee værdi. Dvs. vi ka direkte på 2. akse aflæse sadsylighede for højst at få de pågældede Q-værdi. Omregig mellem p og Q Vi har idtil videre kigget på sadsyligheder for at få højst e bestemt værdi. Me defiitioe på sigifikasiveau gør, at vi er iteresseret i sadsylighede for at få midst de pågældede værdi. Vi skal derfor ikke kigge på fordeligsfuktioere F( Q ), me på F( Q). Vi ser u på et eksempel med 4 frihedsgrader og sigifikasiveauet 5%: 60

61 De kritiske værdi for Q-værdie Bemærk, at jo større Q-værdie bliver, jo midre bliver sadsylighede p, da dee graf etop agiver sadsylighede for - uder forudsætig af ulhypoteses gyldighed - at få midst de pågældede Q-værdi. Du skal ud fra dee figur kue forstå følgede: p-værdi: Hvis p (sigifikasiveauet), forkastes ulhypotese. Q-værdi: Hvis Q Q kritisk (de kritiske værdi), forkastes ulhypotese. Ma ka rege frem og tilbage mellem p-værdie og Q-værdie ved: p = chicdf ( atal frihedsgrader, Q) Eksempel 27: Dvs. at hvis ma har 6 frihedsgrader, er sadsylighede 49% for - uder forudsætig af at ulhypotese er sad - at få e Q-værdi på midst 5,43. Eksempel 28: Dvs. hvis ma har 5 frihedsgrader og et sigifikasiveau på 5%, er de kritiske værdi for Q- værdie,07. E vigtig tabel Det sidste eksempel viser fremgagsmåde til at udrege edeståede vigtige tabel: Sigifikasiveau Tabelle viser, at hvis vi vælger sigifikasiveauet 5% ( = 0,05) og har 3 frihedsgrader, vil værdie 7,82 på. akse fugere som Q-værdies græse for, hvorår ulhypotese forkastes. Hvis Q-værdie er større ed 7,82, forkastes ulhypotese. Hvis Q-værdie er midre ed 7,82, forkastes ulhypotese ikke. 6

62 Med sigifikasiveauet 5% har ma ifølge tabelle følgede græser: Tallee på førsteakse (3.84, 5.99, 7.85, 9.49 og.07) agiver græse for vores Q-værdi, år vi arbejder med et sigifikasiveau på = 0,05 = 5%. Hvis sigifikasiveauet gøres større, bliver græse midre - og omvedt. Ma har altså to forskellige måder at komme frem til e koklusio på: p-værdi: Hvis p, forkastes ulhypotese. Q-værdi: Hvis Q Qkritisk, forkastes ulhypotese. 62

63 2 -test (chi-i-ade-test) GOF I Maples Gym-pakke: ChiKvadratGOFtest GOF står for Goodess Of Fit. Testet kaldes også sommetider Pearsos 2 -GOF-test (der fides også e masse adre 2 -test). I et GOF-test udersøger ma, om et observatiossæt er i overesstemmelse med e teoretisk eller forvetet fordelig. Ma arbejder altid ud fra hypotesere: H0: Observatiossættet er i overesstemmelse med de forvetede fordelig. H: Observatiossættet er ikke i overesstemmelse med de forvetede fordelig. Der er ikke oget med højresidet eller vestresidet test, da 2 -fordeligere er e slags "kvadreret u- fordelig", hvorfor ma ikke ka skele mellem positive og egative afvigelser fra middelværdie. Fremgagsmåde er så: a) Vælg sigifikasiveau og bestem atal frihedsgrader. b) Opstil e tabel med observerede og forvetede værdier (sidstævte på baggrud af ulhypotese). c) Udreg Q-værdie. d) Sammelig Q-værdie med tabelle og se, om ulhypotese skal forkastes (hvis Q-værdie er større ed de kritiske værdi, skal ulhypotese forkastes). Evt. ka p-værdie avedes i stedet for Q-værdie, hvor e p-værdi midre ed sigifikasiveauet fører til forkastelse af ulhypotese. Eksempel 29: Ved valget i 20 fordelte stemmere sig på følgede måde: Parti A B C F I K O V Ø %-del 24,8 9,5 4,9 9,2 5,0 0,8 2,3 26,7 6,7 E meigsmålig 29. jauar 205 med 682 repræsetativt udvalgte daskere viser u: Parti A B C F I K O V Ø %-del 22,9 7, 4,4 6,7 5,0 0,6 2,2 23,6 8,5 Vi vil gere udersøge, om vælgertilslutige har ædret sig. a) Vi sætter sigifikasiveauet til 5%, og da der er 9 partier, er atallet af frihedsgrader 8 (9 = 8 ), da vi frit ka vælge 8 %-dele, hvorefter de sidste procetdel er låst fast af betigelse om, at procetdelee summeres op til 00%. b) Det er vigtigt at bemærke, at ma ikke ka arbejde med %-satser i 2 -test, så disse skal omreges til forvetede og observerede værdier. De forvetede værdier udreges med udgagspukt i ulhypotese (dvs. valgresultatet), og de observerede værdier bereges ud fra meigsmålige. I begge tilfælde omreges fra % til atal ved hjælp af de 682 adspurgte: Eksempel: Forvetet F: 682 9, 2% = 682 0, 092 = 54, Eksempel: Observeret V: , 6% = 682 0, 236 = 396, Parti A B C F I K O V Ø Forvetet Observeret

64 c) 9 i= ( O F ) ( ) ( 9 60) ( 74 82) ( 3 55) i i Q = = F i ( 84 84) ( 0 3) ( ) ( ) ( 3 43) = 48, d) Vores vigtige tabel fortæller os, at med 8 frihedsgrader og sigifikasiveauet 0,05, er de kritiske værdi for Q 5,5. Da 48, ,5, forkastes ulhypotese. Eller med adre ord: Der er sigifikat forskel på valgresultatet og meigsmålige. Vi ka også berege e p-værdi (hvor det udyttes, at der er 8 frihedsgrader): Vi får altså et tal, der er så tæt på 0, at Maple ikke ka agive det. Da p 5%, forkastes ulhypotese. Bemærk: Ma skal selvfølgelig ikke ormalt avede både Q og p til at afgøre, om ulhypotese forkastes. Ma aveder é af dem (efter eget valg). I Maples Gym-pakke ka testet udføres, år ma har udreget tabellere i b): Her avedes betegelse 2 for teststørrelse Q, me ellers ka ma se, at værdiere er de samme. Edu e detalje: Teststørrelse Q er som ævt som udgagspukt med god tilærmelse 2 - fordelt. Dee tilærmelse er dog ikke så god, hvis ogle af de forvetede værdier er meget små. Ma har for de forvetede værdier fastsat værdie 5 som edre græse for, hvorår det er rimeligt at atage, at Q følger 2 -fordelige. I vores eksempel er de midste forvetede værdi 3 (partiet K ), så her er der ikke problemer. Me hvis ma i e eksamesopgave bliver "tvuget" til at lave et 2 -test i e situatio med e eller flere værdier uder 5, bør ma kommetere dette problem. 64

65 Eksempel 30: Vi vil udersøge, om vores yidkøbte terig er skæv, og kaster derfor terige 600 gage og får: Øjetal Atal Vores ulhypotese er altså, at terige ikke er skæv, dvs. at sadsylighede for hvert udfald er p =, mes de alterative hypotese er, at terige er skæv. 6 a) Vi vælger sigifikasiveauet % (hvilket vi selvfølgelig har gjort, ide vi foretog vores kast med terige), og atallet af frihedsgrader er 5, da vi ka udrege atallet af 6'ere, år vi keder atallet af de 5 adre øjetal og ved, at der var i alt 600 kast. b) Vi har allerede de observerede tabel, og de forvetede tabel er: Øjetal Atal c) Q i= ( O F) 2 6 i i = = F i ( 96 00) ( 98 00) ( 05 00) ( 0 00) ( 95 00) ( 05 00) = 0, d) Med 5 frihedsgrader og et sigifikasiveau på % fortæller tabelle os, at græse for Q- værdie er 5,09. Da 0,96 5,09, forkastes ulhypotese IKKE. Dvs. vi har ikke belæg for at hævde, at terige er skæv, da vores observatioer ikke afviger sigifikat fra det forvetede. Vi kue også have udreget p-værdie: Ma ka kort kokludere: "Da p 5%, forkastes ulhypotese IKKE." Med lidt flere ord ka ma sige, at hvis vores ulhypotese er sad (dvs. terige ikke er skæv), er der 96,6% chace for at få er resultat som vores eller et, der er værre (dvs. som peger mod e skæv terig). Vores resultat er altså på ige måde usædvaligt, og derfor forkastes ulhypotese ikke. 65

66 2 -test (chi-i-ade-test) Uafhægighedstest I Maples Gym-pakke: ChiKvadratUtest Dette er også et af Pearsos 2 -test. Det avedes til at teste, om to forskellige størrelser er uafhægige. Hypotesere er derfor altid: H0: De to størrelser er uafhægige af hiade. H: De to størrelser er afhægige af hiade. Eksempel 3: Ma øsker at udersøge, om der er e sammehæg mellem elevers præstatioer i matematik og fysik. Ma har e formodig om, at der er e klar sammehæg, og ma øsker at vise dette, hvorfor ma 'satser' og vælger et sigifikasiveau på 0,%. Ma udersøger derefter 528 studeters præstatioer og opdeler dem ide for hvert fag i 'høj karakter', 'mellem karakter' og 'lav karakter'. De observerede tabel bliver: Matematik Høj Mellem Lav I alt Fysik Høj Mellem Lav I alt Der er tilføjet e række og e søjle med 'I alt', hvor tallee er fudet ved at tage summe af tallee i de tilsvarede række/søjle. Nederst i højre hjøre fås det samlede atal studeter i udersøgelse både ved at lægge de tre røde tal oveover samme og ved at lægge de tre røde tal til vestre samme. På dee måde ka ma tjekke, om ma har reget forkert. Vi øsker u at opstille e forvetet tabel og i samme forbidelse se på atallet af frihedsgrader. De forvetede tabel er som bekedt baseret på ulhypotese, dvs. vi går ud fra, at karakterere i matematik og fysik er uafhægige af hiade. Som eksempel ser vi på det forvetede atal elever, der skulle få e Mellem-karakter i matematik og e Høj-karakter i fysik. Vi ka gribe det a fra to forskellige sysvikler:. sysvikel: Der er 276 ud af de 528 elever, der har fået Mellem i matematik, dvs ,3% 528 =. Der er 39 elever, der har fået Høj i fysik, og hvis der ikke er oge sammehæg mellem karakterere i fysik og matematik, skulle 52,3% af disse have fået karaktere Mellem i matematik, dvs. atallet af elever med karaktere Mellem i matematik og Høj i fysik måtte forvetes at være: 52,3% 39 = 0, = 72, sysvikel: Der er 39 ud af de 528 elever, der har fået Høj i fysik, dvs ,3% 528 =. Der er 276 elever, der har fået Mellem i matematik, og hvis 26,3% af disse også har fået Høj i fysik, bliver det forvetede atal med Mellem i matematik og Høj i fysik: 26,3% 276 = 0, Hvis ma kigger lidt på udregigere, ka ma se, hvorfor resultatet bliver det samme. 66

67 Vi begyder u at udfylde de forvetede tabel: Matematik Høj Mellem Lav I alt Høj = 3 = Fysik Mellem = 55 = Lav 4 I alt Ide vi fortsætter, ka vi u se på atal frihedsgrader, år ma arbejder med tabeller. For som det fremgår af oveståede, er vi - da vi keder alle de røde tal - u i stad til at berege de maglede 5 værdier: Eksempler: Høj-mat og Lav-fys: Atal = = 3 Lav-mat og Mellem-fys: Atal = = 63 Vi har altså 4 frihedsgrader i dette eksempel, da vi ud fra disse fire værdier er i stad til at berege reste. Geerelt gælder det for e tabel med r rækker og s søjler, at atallet f af frihedsgrader er: ( ) ( ) f = r s De forvetede tabel udfyldes helt: Matematik Høj Mellem Lav I alt Høj Fysik Mellem Lav I alt Og de observerede var som agivet tidligere: Matematik Høj Mellem Lav I alt Høj Fysik Mellem Lav I alt Vi bereger så vores Q-værdi: ( 56 3) ( 7 73) ( 2 35) ( 47 55) ( 63 30) Q = ( 38 63) ( 4 3) ( 42 73) ( 85 37) = 39, Vi har 4 frihedsgrader og arbejder som ævt fra start med sigifikasiveauet 0,%. Vores tabel fortæller os så, at de kritiske værdi for vores Q-værdi er 8,47. Da 39,55 8, 47, forkastes ulhypotese, dvs. der er e sigifikat sammehæg mellem karakterere i matematik og fysik. 67

68 I Maple skal ma opskrive si tabel i e matrix. Beyt "tab" til at bevæge dig frem mellem cellere: Teststørrelse afviger (lidt) fra vores beregede værdi, me det skyldes de afrudiger, vi foretog udervejs. Med Maples Gym-pakke ka ma fide de forvetede tabel med forvetet( ): Eksemplet viste os også, hvorda vi geerelt udreger de forvetede tabel ud fra vores beregede "i alt"-celler: A A2 A3 A4 I alt B B2 B3 I alt B A B A2 B A3 B A4 ialt ialt ialt ialt B2 A B2 A2 B2 A3 B2 A4 ialt ialt ialt ialt B3 A B3 A2 B3 A3 B3 A4 ialt ialt ialt ialt ialt ialt ialt ialt B ialt B 2 ialt ialt ialt ialt ialt ialt ialt ialt ialt B 3 ialt A ialt A 2 ialt A 3 ialt A 4 ialt 68

69 Eksempel 32: Vi vil udersøge virkige af e slags medici og ser derfor på 000 persoer med de sygdom, som medicie skal hjælpe imod. Heraf får 500 medicie, og 500 gør ikke. Vi arbejder med sigifikasiveauet 5%. Vores hypoteser bliver så: H0: Sygdomstilstade er uafhægig af, om persoe har fået medici eller ej. H: Sygdomstilstade afhæger af, om persoe har modtaget medici eller ej. Det er værd at bemærke, at ulhypotese forkastes, hvis persoere får det sigifikat værre pga. medicie, så hvis der fremkommer sigifikas, skal ma ved at kigge på tallee i tabelle se, om medicie har e positiv effekt. Vi har fået følgede tabel (hvor vi selv har udreget "i alt"): Vi lader Maples Gym-pakke foretag udregigere: Maple giver os alle de værdier, vi skal bruge til oget (dvs. vi behøver ikke at avede vores tabel). De kritiske værdi er 5,995, og da vores teststørrelse Q (eller 2 ) er midre ed de kritiske værdi, skal ulhypotese IKKE forkastes. Dvs. medicie har ikke oge sigifikat virkig. Vores sigifikasiveau er 5%, og da vi har e p-værdi på 39%, er p 5%, så ulhypotese forkastes IKKE. Resultatet er ikke så usadsyligt, at vi ka forkaste hypotese om, at medicie er virkigsløs. 69

70 t-test (Studet's t-test) Navet skyldes, at William S. Gosset beskrev testee i artikler skrevet uder pseudoymet Studet. t-test avedes, år ma har e forholdsvis lille stikprøve af e eller to størrelser, der formodes at være ormalfordelt, me hvor ma hverke keder middelværdie eller spredige. Hvis stikprøve er stor, og/eller ma keder spredige, skal ma avede z-test (baseret på ormalfordelige). Til grud for t-testet ligger de såkaldte t-fordeliger, og vi udreger lige som tidligere teststørrelser - kaldet T - der, hvis ulhypotese er sad, følger t-fordelige med det passede atal frihedsgrader. Bortset fra ye fordeliger og teststørrelser er fremgagsmåde ogelude de samme som ved 2 -test. Nogle t-fordeligers tæthedsfuktioer ses her (fordeligsfuktioere ka teges med tcdf ). Bemærk, at tæthedsfuktioere er symmetriske omkrig 0, og at vores teststørrelser altså i dette tilfælde også ka blive egative. E ade tig, der ka bemærkes, er, at jo flere frihedsgrader, jo tættere kommer t-fordeliger på ormalfordelige med middelværdi 0 og spredig, dvs. de såkaldte u-fordelig: Normalfordelig med middelværdi 0 og spredig (u-fordelige). Vi er her kommet tilbage til e situatio, hvor vi skal vælge alterative hypoteser og ka vælge mellem vestresidet, højresidet og ligesidet/tosidet/dobbeltsidet test. 70

71 t-test: Oe-Sample-t-test Dette test avedes, år ma vil udersøge, om e række måliger af e bestemt størrelse, der ka formodes at være ormalfordelt, me hvor spredige ikke kedes, har e forvetet middelværdi (der f.eks. kue være e tabelværdi). Det giver altså følgede ulhypotese: H0: obs = 0 Der er følgede valgmuligheder for alterativ hypotese (husk, de skal vælges ide måligere udføres): ) H : obs 0 (vestresidet test, dvs. hele de kritiske mægde placeres uder 0 ) 2) H : obs 0 (højresidet test, dvs. hele de kritiske mægde placeres over 0 ) 3) H : obs 0 (ligesidet test, dvs. de kritiske mægde fordeles på begge sider af 0 ) Teststørrelse T er i dette tilfælde: x 0 T = s Her er: : Atallet af måliger. x = i= x i i= er det aritmetiske geemsit af de observerede værdier. ( ) 2 i s = x x er de estimerede spredig. f = er atallet af frihedsgrader. Atallet af frihedsgrader samt de lidt overraskede brøk i udtrykket for de estimerede spredig kommer af, at ma "mister" e frihedsgrad, år ma udreger det aritmetiske geemsit. For givet det aritmetiske geemsit, behøver ma ku at kede værdier, da de sidste værdi ka bereges ud fra disse og geemsittet. Det er teststørrelse T, der - hvis ulhypotese er sad - vil følge t-fordelige med de passede atal frihedsgrader. Bemærk, at udtrykket for teststørrelse T svarer til at ormere e fordelig med middelværdie 0 s og spredige (se Defiitio 0 og Sætig 0 i Sadsylighedsregig og kombiatorik). s Spredige kommer fra De Cetrale Græseværdisætig. 7

72 Eksempel 33: Ved et forsøg med faldede teisbolde har vi forsøgt at udersøge, om tygdeacceleratioe er 9,82 m 2 s. Vi vælger et ligesidet test og arbejder med sigifikasiveauet 5%. Vi udfører forsøget 9 gage (dvs. atallet af frihedsgrader er 8): m Målt værdi i ehede 9,69 9,8 9,57 0,02 9,48 9,94 9,2 9,54 9,37 2 s Vi udreger teststørrelse ved hjælp af Maple: Vi har valgt et ligesidet test med sigifikasiveauet 5%, så vi har 2,5% liggede yderst til vestre for 0. Vi ka udrege sadsylighede for at få højst dee T-værdi (husk, der er 8 frihedsgrader): Da dee sadsylighed er over 2,5%, forkaster vi IKKE ulhypotese. Vi ka også lade Maple udrege det hele, år vi allerede har defieret vores tabel. Vi ser, at teststørrelse passer med vores udregede værdi. p-værdie passer ikke med vores, me det skyldes, at det er forskellige værdier, der er udreget. Maple udreger sadsylighede for at have midst 2,2004 fra 0, hvilket giver e dobbelt så stor værdi som vores udregede sadsylighed, hvor vi ku ser på vestre side af grafe. Me Maples p-værdi skal sammeliges med 5%, så koklusioe vil altid blive de samme. 72

73 Eksempel 34: Vi måler på iveauet for e kræftcelles geekspressio for geet c-myc. Vi øsker at vide, om iveauet er over stadardværdie på 00, og arbejder med et sigifikasiveau på 3%. Vi foretager seks måliger (og vi arbejder altså med 5 frihedsgrader): Målt værdi: 4,6 2,9 98,5 06,7 09,8 03,6 Vores hypoteser bliver altså: H0: Geemsittet af vores målte værdier er 00 H: Geemsittet af vores målte værdier er over 00 (højresidet test) Vi udreger teststørrelse i Maple: Vi har sigifikasiveauet 3% i et højresidet test og har derfor placeret hele de kritiske mægde som de 3% af de ormalfordelte udfald af T, der ligger mest over 00. Vi øsker derfor at fide ud af sadsylighede for at få midst vores T-værdi: Da pmidst 3%, forkastes ulhypotese. Dvs. iveauet er sigifikat højere ed stadardværdie på 00. Maples resultat er: Ige ser vi, at teststørrelse (aturligvis) giver det samme som vores beregig, mes p-værdie er dobbelt så stor som vores, da det ige er forskellige sadsyligheder, vi udreger, me også forskellige værdier, vi sammeliger med (de 2,644% skulle være sammeliget med 6%). 73

74 t-test: Two-Sample-paired-differece-t-test (parvise observatioer) Dette test avedes, hvis ma har to forskellige observatiossæt, hvor ma har målt på de samme størrelse, og hvor observatioere i de to sæt hører samme parvis. Eksempel 35: Hvis ma har é gruppe af meesker og afprøver to forskellige slags medici, træig, kost eller ligede på alle i gruppe og for hver perso måler virkige af begge slags. Der er så to måliger på hver perso, og disse to måliger sættes samme parvis. Hvis ma har to vigeprofiler for e vidmølle og tester dem ved e masse forskellige vidhastigheder. Der vil så for hver vidhastighed være to værdier (sikkert effekter), der kyttes samme parvis. Hele idee med dette test er, at ma går id og kigger på differese d (reget med forteg) mellem de parvise observatioer og derefter reger dette som et oe-sample-t-test med ulhypotese: H0: obs = 0 (dvs. det aritmetiske geemsit af differesere er 0) Og ige er der altså tre valgmuligheder for alterativ hypotese: ) : 0 H (vestresidet test, dvs. hele de kritiske mægde placeres uder 0) obs 2) H : 0 (højresidet test, dvs. hele de kritiske mægde placeres over 0) obs 3) H : 0 (ligesidet test, dvs. de kritiske mægde fordeles på begge sider af 0) obs Med udgagspukt i observatiossættee x, x2, x3,..., x og y, y2, y3,..., y har ma altså: : Atallet af parvise observatioer. d = x y : Er differese mellem de parvise observatioer i i i d d T = = er teststørrelse, hvor ma har: s s d = i= d ( x y ) i i= i d : Det aritmetiske geemsit af differesere. ( ) 2 i sd = d d. De estimerede spredig af differesere. f = : Atallet af frihedsgrader 74

75 Eksempel 36: Sovemidlere A og B skal testes på 0 forsøgspersoer, og ma måler søvperiode i timer. Ma vil se på, om der er forskel på A og B, og vælger sigifikasiveauet 5%: Perso r Sovemiddel A 7,7 5,4 6,8 5,8 6,9 0,4 0,7 7,8 7,0 9,0 Sovemiddel B 8,9 7,8 8, 7, 6,9,4 2,5 8,6,6 0,4 Ma udreger teststørrelse i Maple: Ma ser u på sadsylighede for at få midst dee T-værdi: Da det skulle udersøges, om der er forskel, er det et ligesidet test, der skal foretages, så de 5% placeres i begge eder, dvs. vi skal sammelige p-værdie med 2,5%, og da 0,4% 2,5%, må ulhypotese forkastes. Der er altså sigifikat forskel på de to sovemidler, og det ses, at det er B, der virker bedst (T er positiv). Vi kue også have set på de kritiske værdi for T: Da 4,06 2,26, forkastes ulhypotese. 75

76 t-test: Two-Sample-t-test (ikke-parvise observatioer) Hvis ma har to observatiossæt, hvor observatioere ikke ka parres, ka ma stadig udføre t- test på observatiossættee, me det kræver lidt mere forarbejde: Hver af disse test har ege teststørrelser, og f-testet har (aturligvis) si ege f-fordelig, der ligger til grud for testet. Nogle eksempler, hvor disse test kue avedes, er: Ma vil vise, at ogle fugle vejer mere om efteråret ed om foråret pga. viterforberedelse, og fager og vejer derfor et atal fugle af e bestemt art om foråret og et atal af samme art om efteråret. Ma vil udersøge virkige af et sovemiddel og tester derfor på to forskellige grupper af meesker heholdsvis sovemidlet og et placebo. Ma vil udersøge virkige af to forskellige sovemidler, der testes på to forskellige grupper af meesker. z-test Til grud for z-test ligger u-fordelige (dvs. ormalfordelige med middelværdie 0 og spredige ). Dvs. vi ka bruge vores vide om dee fordelig til at vurdere teststørrelse (f.eks. at 95% ligger ide for afstade,96 på hver side af 0). Som vi så uder t-test, kommer t- fordeligere tættere på oveævte ormalfordelig, jo større atallet af frihedsgrader bliver, og ma ka da også avede z-test, hvis ma har tilpas mage observatioer. Der er ige fast græse, me omkrig 30 observatioer ka bruges som e meget løs tommelfigerregel. Teststørrelse bliver også de samme som ved T-test, me med e lille, ekstra detalje: : Atallet af måliger. i= ( ) 2 i x = i= x i x 0 Z = s er det aritmetiske geemsit. s = x x er de estimerede spredig, HVIS ma ikke keder dee i forveje. HVIS ma keder s i forveje, aveder ma dee værdi. 76

77 Ma ville f.eks. avede et z-test, hvis ma kiggede på 205's målte højder af mæd til sessio og ville se, om mædees geemsitshøjde havde ædret sig fra e kedt værdi (ca. 80,6 cm). Nogle poiter Ide for sadsylighedsregig avedes sadsyligheder, og vi ka ved hjælp af sadsylighedsregig deducere os frem til ogle værdier i kokrete situatioer. Ide for statistik, år vi aveder stikprøver, arbejder vi med frekveser, og vi ka slutte iduktivt fra egeskaber i stikprøve til egeskaber i populatioe. De store tals lov: Vores frekveser i stikprøve ka med e vis sadsylighed komme vilkårligt tæt på sadsylighedere eller frekvese i populatioe, hvis vi gør stikprøve stor ok. Når ma laver statistiske test, fider ma ku statistiske sammehæge - ikke årsagssammehæge. De Cetrale Græseværdisætig: Uaset hvilke fordelig ma udtager stikprøver fra, vil geemsittee af stikprøvere være ormalfordelt. 77

78 Mere om statistik (gruppeopgaver og fremlæggelser) Hver gruppe skal skrive e matematikrapport (opgave), der skal afleveres, og gruppe skal holde et foredrag for klasse. Opgavere bliver kyttet til et mudtligt eksamesspørgsmål.. Hawthore-effekte og Placebo-effekte. 2. Pygmalio-effekte (Rosethal-effekte). 3. Syd/maipulatio med statistik. 4. De små tals lov og Post hoc ergo propter hoc. 5. Prosecutor's fallacy 6. Simpso's paradox (Yule-Simpso-effekt) 7. Artikle: The Performace Of Mutual Fuds I The Period (Michael Jese) 8. Befords lov (love om det første ciffer) 9. Regressio mod middelværdie 0. Multiple comparisos problem (Look-elsewhere effect) 78

79 BILAG A: Biomialfordelig BILAG B: Sigifikasiveauer 79

80 80

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE) (VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE) x-klassere Gammel Hellerup Gymasium Idholdsfortegelse INDLEDNING... 3 DESKRIPTIV STATISTIK... 3 Eksempler ide for deskriptiv statistik... 12 Normalfordeligskurver...

Læs mere

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i Normalfordeliger For at e stokastisk variabel X ka være ormalfordelt, skal X agive værdie af e eller ade målig, f.eks. tid, lægde, vægt, beløb osv. Notatioe er: Xi ~ N( μ, σ hvor i er observatiosummeret,

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Repetitio: Normalfordelige Ladmåliges fejlteori Lektio Trasformatio af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/udervisig/lf13 Istitut for Matematiske Fag Aalborg Uiversitet

Læs mere

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Epidemiologi og biostatistik. Forelæsig Uge, tirsdag. Niels Trolle Aderse, Afdelige for Biostatistik. Geerelt om kurset: - Formål - Forelæsiger - Øvelser - Forelæsigsoter - Bøger - EpiBasic: http://www.biostat.au.dk/teachig/software

Læs mere

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017 Meigsmåliger KLADDE Thomas Heide-Jørgese, Rosborg Gymasium & HF, 2017 Idhold 1 Meigsmåliger 2 1.1 Idledig................................. 2 1.2 Hvorda skal usikkerhede forstås?................... 3 1.3

Læs mere

Løsninger til kapitel 7

Løsninger til kapitel 7 Løsiger til kapitel 7 Opgave 7.1 a) HpoStat giver resultatet: Pop. varias er ukedt, me 30, så Normalf. bruges approksimativt = 54,400 s 1.069,90 = 00,000 0,95 49,868 58,93 Dette betder, at med 95% sikkerhed

Læs mere

9. Binomialfordelingen

9. Binomialfordelingen 9. Biomialfordelige 9.. Gekedelse Hvert forsøg ka ku resultere i to mulige udfald; succes og fiasko. I modsætig til poissofordelige er atallet af forsøg edeligt. 9.. Model X : Stokastisk variabel, der

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala Statistik for biologer 005-6, modul 5: Sadsylighedsfordeliger for kotiuerte data på iterval/ratioskala M6, slide Gægse matematiske sadsylighedsfordeliger: Diskrete data: De positive biomialfordelig Poisso-fordelige

Læs mere

Maja Tarp AARHUS UNIVERSITET

Maja Tarp AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjyllad Studet år 005 fra Droiglud Gymasium Efter gymasiet: Militæret Australie Startede på matematik

Læs mere

antal gange krone sker i første n kast = n

antal gange krone sker i første n kast = n 1 Uge 15 Teoretisk Statistik, 5. april 004 1. Store tals lov Eksempel: møtkast Koverges i sadsylighed Tchebychevs ulighed Sætig: Store tals lov. De cetrale græseværdisætig 3. Approksimatio af sadsyligheder

Læs mere

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags. Praktisk ifo Liste med rettelser og meigsforstyrrede trykfejl i DS på Absalo. Statistisk aalyse af e ekelt stikprøve: kedt eller ukedt varias Sadsylighedsregig og Statistik (SaSt) Helle Sørese Projekt

Læs mere

Motivation. En tegning

Motivation. En tegning Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget

Læs mere

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse Avedt Statistik Lektio 3 Pukt- og itervalestimater Kofidesitervaller Valg af stikprøvestørrelse Pukt- og itervalestimater: Motivatio Motiverede eksempel: I e udersøgelse er adele af rygere 0.27. Det aslås

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistik ved Bachelor-uddaelse i folkesudhedsvideskab Græseværdisætiger Det hadler om geemsit Statistikere elsker geemsit Det er oplagt e god ide at tage geemsit. Hvis jeg f.eks skal gætte på vægte af

Læs mere

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2 Idhold 1 Pukt- og itervalestimatio 2 1.1 Puktestimatorer: Cetralitet(bias) og efficies.................... 2 2 Kofidesiterval 3 2.1 Kofidesiterval for adel................................ 4 2.2 Kofidesiterval

Læs mere

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning) Dages program Estimatio: Kapitel 9.4-9.7 Eksempler på middelrette og/eller kosistete estimator (de sidste fra sidste forelæsig) Ko desiterval for store datasæt kap. 9.4 Ko desiterval for små datasæt kap.

Læs mere

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik. Epidemiologi og biostatistik Forelæsig Uge 1, torsdag. februar 006 ichael Væth, Afdelig for Biostatistik. Sammeligig af to middelværdier sikkerhedsitervaller statistisk test Sammeligig af to proportioer

Læs mere

Projekt 1.3 Brydningsloven

Projekt 1.3 Brydningsloven Projekt 1.3 Brydigslove Når e bølge, fx e lysbølge, rammer e græseflade mellem to stoffer, vil bølge ormalt blive spaltet i to: Noget af bølge kastes tilbage (spejlig), hvor udfaldsvikle u er de samme

Læs mere

x-klasserne Gammel Hellerup Gymnasium

x-klasserne Gammel Hellerup Gymnasium SANDSYNLIGHEDSREGNING OG KOMBINATORIK x-klassere Gammel Hellerup Gymasium Idholdsfortegelse SANDSYNLIGHEDSREGNING... 3 SANDSYNLIGHEDSFELT... 3 DE STORE TALS LOV... 4 Sadsyligheder og frekveser:... 4 STOKASTISK

Læs mere

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6. enote 5 enote 5 Determiater I dee enote ser vi på kvadratiske matricer. Deres type er altså for 2, se enote 4. Det er e fordel, me ikke absolut ødvedigt, at kede determiatbegrebet for (2 2)-matricer på

Læs mere

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion Statistik 8. gag 1 KONIDENSINTERVALLER Kofidesitervaller: kapitel 11 Valg og test af fordeligsfuktio Statistik 8. gag 11. KONIDENS INTERVALLER Et kofides iterval udtrykker itervallet hvori de rigtige værdi

Læs mere

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave 14. 20. december 2007

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave 14. 20. december 2007 Mikroøkoomi, matematik og statistik Eksameshjemmeopgave 14. 20. december 2007 Helle Buzel, Tom Egsted og Michael H.J. Stæhr 14. december 2007 R E T N I N G S L I N I E R F O R E K S A M E N S H J E M M

Læs mere

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside : Statistiske test Efteråret 00 Jes Friis, AAU Hjemmeside : http://akaaudk/jfj Kotiuerte fordeliger Defiitio: Tæthedsfuktio E sadsylighedstæthedsfuktio på R er e itegrabel fuktio f : R [0; [ hvor f d = Defiitio:

Læs mere

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Løsigsforslag til skriftlig eksame i Kombiatorik, sadsylighed og radomiserede algoritmer (DM58) Istitut for Matematik & Datalogi Syddask Uiversitet Madag de 3 Jauar 011, kl. 9 13 Alle sædvalige hjælpemidler

Læs mere

Estimation ved momentmetoden. Estimation af middelværdiparameter

Estimation ved momentmetoden. Estimation af middelværdiparameter Statistik og Sadsylighedsregig 1 STAT kapitel 4.2 4.3 Susae Ditlevse Istitut for Matematiske Fag Email: susae@math.ku.dk http://math.ku.dk/ susae Estimatio ved mometmetode Idimellem ka det være svært (eller

Læs mere

Projekt 9.10 St. Petersborg paradokset

Projekt 9.10 St. Petersborg paradokset Hvad er matematik? ISBN 978877066879 Projekt 9.0 St. Petersborg paradokset. De store tals lov & viderchacer I grudboges kapitel 9 omtales de store tals lov, som ka formuleres således: Hvis e spiller i

Læs mere

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer Statistik Lektio 7 Hpotesetest og kritiske værdier Tpe I og Tpe II fejl Strke af e test Sammeligig af to populatioer 1 Tri I e Hpotesetest E hpotesetest består af 5 elemeter: I. Atagelser Primært hvilke

Læs mere

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk! Test i to populatioer Hypotesetest for parrede observatioer Test for es varias Gesy med flyskræk! Afhægige og uafhægige stikprøver Ved e uafhægig stikprøve udtages e stikprøve fra hver gruppe.. Mæd og

Læs mere

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ ) 3. februar 003 Epidemiologi og biostatistik. Uge, torag d. 3. februar 003 Morte Frydeberg, Istitut for Biostatistik. Type og type fejl Nogle specielle metoder: Test i RxC tabeller Test i x tabeller Fishers

Læs mere

Lys og gitterligningen

Lys og gitterligningen Fysik rapport: Lys og gitterligige Forfatter: Bastia Emil Jørgese.z Øvelse blev udført osdag de 25. jauar 202 samme med Lise Kjærgaard Paulse 2 - Bastia Emil Jørgese Fysik rapport (4 elevtimer), februar

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet. Matematik A Studetereksame Forsøg med digitale eksamesopgaver med adgag til iterettet Forberedelsesmateriale Vejledede opgave Forår 0 til stx-a-net MATEMATIK Der skal afsættes 6 timer af holdets sædvalige

Læs mere

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk! Statistik Lektio 8 Parrede test Test for forskel i adele Test for es varias Gesy med flyskræk! Afhægige og uafhægige stikprøver Ved e uafhægig stikprøve udtages e stikprøve fra hver gruppe.. Mæd og kviders

Læs mere

Generelle lineære modeller

Generelle lineære modeller Geerelle lieære modeller Regressiosmodeller med é uafhægig itervalskala variabel: Y e eller flere uafhægige variable: X,..,X k De betigede fordelig af Y givet X,..,X k atages at være ormal med e middelværdi,

Læs mere

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal FUNKTIONER del Fuktiosbegrebet Lieære fuktioer Ekspoetialfuktioer Logaritmefuktioer Retesregig Idekstal -klassere Gammel Hellerup Gymasium November 08 ; Michael Szymaski ; mz@ghg.dk Idholdsfortegelse FUNKTIONSBEGREBET...

Læs mere

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik. 30. august 005 Epidemiologi og biostatistik. Forelæsig 3 Uge, torag d. 8. september 005 Michael Væth, Afdelig for Biostatistik. Mere om kategoriske data Test for uafhægighed I RxC tabeller Test for uafhægighed

Læs mere

Undersøgelse af numeriske modeller

Undersøgelse af numeriske modeller Udersøgelse af umeriske modeller Formål E del af målsætige med dette delprojekt er at give kedskab til de begræsiger, fejl og usikkerheder, som optræder ved modellerig. I de forbidelse er følgede udersøgelse

Læs mere

Teoretisk Statistik, 9. februar Beskrivende statistik

Teoretisk Statistik, 9. februar Beskrivende statistik Uge 7 I Teoretisk Statistik, 9 februar 004 Beskrivede statistik Kategoriserede variable 3 Kvatitative variable 4 Fraktiler for ugrupperede observatioer 5 Fraktiler for grupperede observatioer 6 Beliggeheds-

Læs mere

Sandsynlighedsregning i biologi

Sandsynlighedsregning i biologi Om begrebet sadsylighed Sadsylighedsregig i biologi Hvis vi kaster e almidelig, symmetrisk terig, er det klart for de fleste af os, hvad vi meer, år vi siger, at sadsylighede for at få e femmer er 1/6.

Læs mere

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353 Takegagskompetece Hesigte med de følgede afsit er først og fremmest at skabe klarhed over de mere avacerede regeregler i skole og give resultatet i de almee form, der er karakteristisk for algebra. Vi

Læs mere

Elementær Matematik. Polynomier

Elementær Matematik. Polynomier Elemetær Matematik Polyomier Ole Witt-Hase 2008 Køge Gymasium Idhold 1. Geerelle polyomier...1 2. Divisio med hele tal....1 3. Polyomiers divisio...2 4. Polyomiers rødder....4 5. Bestemmelse af røddere

Læs mere

STATISTIKNOTER Simple normalfordelingsmodeller

STATISTIKNOTER Simple normalfordelingsmodeller STATISTIKNOTER Simple ormalfordeligsmodeller Jørge Larse IMFUFA Roskilde Uiversitetsceter Februar 1999 IMFUFA, Roskilde Uiversitetsceter, Postboks 260, DK-4000 Roskilde. Jørge Larse: STATISTIKNOTER: Simple

Læs mere

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger Faculty of Life Scieces Program Populatioer og stikprøver Claus Ekstrøm E-mail: ekstrom@life.ku.dk Praktiske oplysiger Populatioer og stikprøver Data Datatyper Visualiserig Cetrum og spredig af e fordelig

Læs mere

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger Faculty of Life Scieces Program Esidet variasaalyse Normalfordelige Claus Ekstrøm E-mail: ekstrom@life.ku.dk Esidet variasaalyse (oe-way ANOVA) Hvilke type data? Hvad er problemstillige? Variatio mellem

Læs mere

Stikprøvefordelinger og konfidensintervaller

Stikprøvefordelinger og konfidensintervaller Stikprøvefordeliger og kofidesitervaller Stikprøvefordelige for middelværdi De Cetrale Græseværdi Sætig Egeskaber Ved Estimatore Kofidesitervaller t-fordelige Estimator og estimat E stikprøve statistik

Læs mere

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner Projekter: Kapitel 4 Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Kotiuitet og kotiuerte fuktioer Ord som kotiuert og kotiuerlig

Læs mere

Renteformlen. Erik Vestergaard

Renteformlen. Erik Vestergaard Reteformle Erik Vestergaard 2 Erik Vestergaard www.matematikfysik.dk Erik Vestergaard, 2010. Billeder: Forside: istock.com/ilbusca Side 4: istock.com/adresrimagig Desude ege illustratioer. Erik Vestergaard

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER med avedelse af TI 89 og Excel 8 5 9 6 3 0 Histogram for ph 6,9 7, 7,3 7,5 7,7 7,9 ph. udgave 0 FORORD Der er i dee bog søgt at give letlæst og askuelig

Læs mere

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n Ladmåliges fejlteori Lektio 3 Estimatio af σ Dobbeltmåliger Geometrisk ivellemet Lieariserig - rw@math.aau.dk Istitut for Matematiske Fag Aalborg Uiversitet Repetitio: Middelværdi og Varias Sætig: Middelværdi

Læs mere

Vejledende opgavebesvarelser

Vejledende opgavebesvarelser Vejledede opgavebesvarelser 1. Atal hæder er lig med K(52,5), altså 2598960. Ved brug af multiplikatiospricippet ka atal hæder med 3 ruder og 2 spar udreges som K(13, 3) K(13, 2), hvilket giver 22308.

Læs mere

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset. STATISTIK Skriftlig evaluerig, 3. semester, madag de 30. auar 006 kl. 9.00-3.00. Alle hælpemidler er tilladt. Opgaveløsige forsyes med av og CPR-r. OPGAVE Ved e produktio af viduer er der mulighed for,

Læs mere

Modul 14: Goodness-of-fit test og krydstabelanalyse

Modul 14: Goodness-of-fit test og krydstabelanalyse Forskigsehede for Statistik ST01: Elemetær Statistik Bet Jørgese Modul 14: Goodess-of-fit test og krydstabelaalyse 14.1 Idledig....................................... 1 14.2 χ 2 -test i e r c krydstabel.............................

Læs mere

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6 Dee udgave er til geemkig på ettet. Boge ka købes for kr. 5 hos EH-Mat. E y og udvidet udgave med title»symbol- og formelskrivig«er udkommet september 00. Se mere om de her. Idholdsfortegelse Formelskrivig

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 13 udgave 013 FORORD Der er i dee bog søgt at give letlæst og askuelig fremstillig af de statistiske

Læs mere

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros Brachevejledig ulykker idefor lager området Brachearbejdsmiljørådet for trasport og egros Baggrud Udersøgelser på lager- og trasportområdet har vist, at beskrivelse af hædelsesforløbet ved udfyldelse

Læs mere

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning Hvad er matematik? Projekter: Kaitel 9 Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Sætig : Regeregler

Læs mere

Vejledende besvarelser til opgaver i kapitel 15

Vejledende besvarelser til opgaver i kapitel 15 Vejledede besvarelser til opgaver i apitel 5 Opgave a) De teststatistier, ma aveder til at teste om to middelværdier er es, består af et estimat på forselle mellem middelværdiere,, divideret med et udtry

Læs mere

Dagens forelæsning. Claus Munk. kap. 1-3. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Dagens forelæsning. Claus Munk. kap. 1-3. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro Dages forelæsig Grudlæggede itroduktio til obligatioer Claus Muk kap. - 3 Betaligsrækker og låeformer Det daske obligatiosmarked Effektive reter 2 Obligatioer Grudlæggede Itro Obligatioer Grudlæggede Itro

Læs mere

Claus Munk. kap. 1-3

Claus Munk. kap. 1-3 Claus Muk kap. 1-3 1 Dages forelæsig Grudlæggede itroduktio til obligatioer Betaligsrækker og låeformer Det daske obligatiosmarked Pris og kurs Effektive reter 2 1 Obligatioer Grudlæggede Itro Debitor

Læs mere

og Fermats lille sætning

og Fermats lille sætning Projekter: Kaitel 0. Projekt 0. Modulo-regig, restklassegruer og Fermats lille sætig Projekt 0. Modulo-regig, restklassegruere ( { 0 }, ) og Fermats lille sætig Vi aveder moduloregig og restklasser mage

Læs mere

Noter om kombinatorik, Kirsten Rosenkilde, februar 2008 1. Kombinatorik

Noter om kombinatorik, Kirsten Rosenkilde, februar 2008 1. Kombinatorik Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt

Læs mere

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable Idholdsfortegelse Geerelt:...3 Stokastisk variabel:...3 Tæthedsfuktio/sadsylighedsfuktio for stokastisk variabel:...3 Fordeligsfuktio/sumfuktio for stokastisk variabel:...3 Middelværdi:...4 Geemsit:...4

Læs mere

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle

Læs mere

Asymptotisk optimalitet af MLE

Asymptotisk optimalitet af MLE Kapitel 4 Asymptotisk optimalitet af MLE Lad Y 1, Y 2,... være uafhægige, idetisk fordelte variable med værdier i et rum (Y,K). Vi har givet e model (ν θ ) θ Θ for fordelige af Y 1 (og dermed også for

Læs mere

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a Matematik A Højere hadelseksame hhx151-mat/a-26052015 Tirsdag de 26. maj 2015 kl. 9.00-14.00 Matematik A Prøve består af to delprøver. Delprøve ude hjælpemidler består af opgave 1 til 5 med i alt 5 spørgsmål.

Læs mere

DATV: Introduktion til optimering og operationsanalyse, 2007. Bin Packing Problemet

DATV: Introduktion til optimering og operationsanalyse, 2007. Bin Packing Problemet DATV: Itroduktio til optimerig og operatiosaalyse, 2007 Bi Packig Problemet David Pisiger, Projektopgave 2 Dette er de ade obligatoriske projektopgave på kurset DATV: Itroduktio til optimerig og operatiosaalyse.

Læs mere

Diskrete og kontinuerte stokastiske variable

Diskrete og kontinuerte stokastiske variable Diskrete og kotiuerte stokastiske variable Beroulli Biomial fordelig Negativ biomial fordelig Hypergeometrisk fordelig Poisso fordelig Kotiuerte stokastiske variable Uiform fordelig Ekspoetial fordelig

Læs mere

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt

Læs mere

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter Matematikkes mysterier - på et obligatorisk iveau af Keeth Hase 7. Ligiger, polyomier og asymptoter Hvad er e asymotote? Og hvorda fides de? 7. Ligiger, polyomier og asymptoter Idhold 7.0 Idledig 7.1 Udsag

Læs mere

Den flerdimensionale normalfordeling

Den flerdimensionale normalfordeling De flerdimesioale ormalfordelig Stokastiske vektorer Ved e stokastisk vektor skal vi forstå e vektor, hvor de ekelte kompoeter er sædvalige stokastiske variable. For de stokastiske vektor Y = Y,..., Y

Læs mere

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN Projekt 3.2 Alægsøkoomie i Storebæltsforbidelse Dette projekt hadler, hvorda økoomie var skruet samme, da ma byggede storebæltsforbidelse. Store alægsprojekter er æste altid helt eller delvist låefiasieret.

Læs mere

Uddannelsesparathed. Vejledning om processerne ved vurdering af uddannelsesparathed (UPV) og ansøgning til ungdomsuddannelserne

Uddannelsesparathed. Vejledning om processerne ved vurdering af uddannelsesparathed (UPV) og ansøgning til ungdomsuddannelserne Uddaelsesparathed Vejledig om processere ved vurderig af uddaelsesparathed (UPV) og asøgig til ugdomsuddaelsere Uddaelsesparathed Vejledig om processere ved vurderig af uddaelsesparathed (UPV) og asøgig

Læs mere

Analyse 1, Prøve maj 2009

Analyse 1, Prøve maj 2009 Aalyse, Prøve 5. maj 009 Alle hevisiger til TL er hevisiger til Kalkulus (006, Tom Lidstrøm). Direkte opgavehevisiger til Kalkulus er agivet med TLO, ellers er alle hevisiger til steder i de overordede

Læs mere

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504) Gamle eksamesopgaver Diskret Matematik med Avedelser (DM72) & Diskrete Strukturer(DM504) Istitut for Matematik& Datalogi Syddask Uiversitet, Odese Alle sædvalige hjælpemidler(lærebøger, otater etc.), samt

Læs mere

Længde [cm] Der er frit vandspejle i sandkassen. Herudover er sandkassen åben i højden cm i venstresiden og 0-20 cm i højresiden.

Længde [cm] Der er frit vandspejle i sandkassen. Herudover er sandkassen åben i højden cm i venstresiden og 0-20 cm i højresiden. Vadtrasportmodel Formål For beregig af vadtrasporte i sadkasse er der lavet e boksmodel. Formålet med boksmodelle er at beskrive vadtrasporte i sadkasse. Herover er formålet at bestemme de hydrauliske

Læs mere

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager Program Statistik og Sadsylighedsregig 2 Sadsylighedstætheder og kotiuerte fordeliger på R Helle Sørese Uge 6, madag Velkomme I dag: Praktiske bemærkiger Hvad skal vi lave på SaSt2? Sadsylighedstætheder

Læs mere

Branchevejledning. ulykker indenfor. godschauffør. området. Branchearbejdsmiljørådet for transport og engros

Branchevejledning. ulykker indenfor. godschauffør. området. Branchearbejdsmiljørådet for transport og engros Brachevejledig ulykker idefor godschauffør området Brachearbejdsmiljørådet for trasport og egros Baggrud Udersøgelser på lager- og trasportområdet har vist, at beskrivelse af hædelsesforløbet ved udfyldelse

Læs mere

Konfidens intervaller

Konfidens intervaller Kofides itervaller Kofides itervaller for: Kofides iterval for middelværdi, varias kedt Kofides iterval for middelværdi, varias ukedt Kofides iterval for adel Kofides iterval for varias Bestemmelse af

Læs mere

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Itroducerede Statistik Forelæsig 12: Iferes for adele Klaus K. Aderse og Per Bruu Brockhoff DTU Compute, Statistik og Dataaalyse Damarks Tekiske Uiversitet 2800 Lygby Damark e-mail:

Læs mere

GENEREL INTRODUKTION.

GENEREL INTRODUKTION. Study Guide til Matematik C. OVERSIGT. Dee study guide ideholder følgede afsit - Geerel itroduktio. - Emeliste. - Eksame. - Bilag. Udervisigsmiisteriets bekedtgørelse for matematik C. GENEREL INTRODUKTION.

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

DATV: Introduktion til optimering og operationsanalyse, 2007. Følsomhed af Knapsack Problemet

DATV: Introduktion til optimering og operationsanalyse, 2007. Følsomhed af Knapsack Problemet DATV: Itroduktio til optimerig og operatiosaalyse, 2007 Følsomhed af Kapsack Problemet David Pisiger, Projektopgave 1 Dette er de første obligatoriske projektopgave på kurset DATV: Itroduktio til optimerig

Læs mere

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) : Uge 37 opgaver Opgave Svar : a) Starter med at defiere sup (M) og if (M) : Kigge u på side 3 i kompedie og aveder aksiom (.3) Kotiuitetsaksiomet A = x i x 2 < 2 Note til mig selv : Har søgt på ordet (iequalities)

Læs mere

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN Projekt 0.4 Modulo-regig, restklassegruppere sætig ( p 0, ) og Fermats lille Vi aveder moduloregig og restklasser mage gage om dage, emlig år vi taler om tid, om hvad klokke er, om hvor lag tid der er

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Bjørn Grøn. Analysens grundlag

Bjørn Grøn. Analysens grundlag Bjør Grø Aalyses grudlag Aalyses grudlag Side af 4 Idholdsfortegelse Kotiuerte og differetiable fuktioer 3 Differetial- og itegralregiges udviklig 5 3 Hovedsætiger om differetiable fuktioer 8 Opgaver til

Læs mere

Begreber og definitioner

Begreber og definitioner Begreber og defiitioer Daske husstades forbrug på de medierelaterede udgiftsposter stiger og udgør i 2012*) 11,3 % af husstadees samlede forbrug mod 5,5 % i 1994. For husstade med de laveste idkomster

Læs mere

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test: Statistik for biologer 005-6, modul 7: Tests for forskel i cetral tedes for data på ordial- og itervalskala M7, slide M7, slide Typer af statistiske test: Parametrisk statistik: - Tester for forskel i

Læs mere

Estimation og test i normalfordelingen

Estimation og test i normalfordelingen af Birger Stjerholm Made Samfudlitteratur 07 Etimatio og tet i ormalfordelige Dee tekt ideholder et overblik over ogle grudlæggede pricipper for etimatio og tet i ormalfordelige i hyppigt forekommede ituatioer:

Læs mere

Du skal redegøre for løsning af ligninger og herunder behandle omformningsreglerne for ligninger.

Du skal redegøre for løsning af ligninger og herunder behandle omformningsreglerne for ligninger. Eksamesspørgsmål mac7100 maj/jui 013. Spørgsmål 1: Ligiger Du skal redegøre for løsig af ligiger og heruder behadle omformigsreglere for ligiger. Giv eksempler på hvorda forskellige ligigstyper (lieære,

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 17. udgave 016 FORORD Der er i dee bog søgt at give letlæst og askuelig fremstillig af de

Læs mere

Sammenligning af to grupper

Sammenligning af to grupper Sammeligig af to gruer Reetitio, heruder om kritiske værdier Sammeligig af to gruer Sammeligig af to middelværdier Sammeligig af to adele Sammeligig af to variaser yoteser og hyotesetest. E hyotese er

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

NOTAT Det daglige arbejde med blisterpakninger

NOTAT Det daglige arbejde med blisterpakninger Sige Friis Christiase 7. maj 2015 NOTAT Det daglige arbejde med blisterpakiger I paeludersøgelse 55 i DSRs medlemspael blev deltagere stillet e række spørgsmål om deres arbejde med blisterpakiger. Afrapporterige

Læs mere

Bestemmelse af vandføring i Østerå

Bestemmelse af vandføring i Østerå Bestemmelse af vadførig i Østerå Geerelt varierer vadstade og vadførige i daske vadløb over året. Normalt er vadførige lille om sommere for derpå at øge om efteråret. Om vitere ses ormalt de højeste vadføriger

Læs mere

Forslag til besvarelser af opgaver m.m. i ε-bogen, Matematik for lærerstuderende

Forslag til besvarelser af opgaver m.m. i ε-bogen, Matematik for lærerstuderende Forslag til besvarelser af opgaver m.m. i ε-boge, Matematik for lærerstuderede Dette er førsteudgave af opgavebesvarelser udarbejdet i sommere 008. Dokumetet ideholder forslag til besvarelser af de fleste

Læs mere

Matematisk Modellering 1 Hjælpeark

Matematisk Modellering 1 Hjælpeark Matematisk Modellerig Hjælpeark Kaare B. Mikkelse 2005090 3. september 2007 Idhold Formler 2 2 Aalyse af k ormalfordelte prøver 2 2. Modelcheck............................................ 2 2.2 Test af

Læs mere

Projekt 2.3 Det gyldne snit og Fibonaccitallene

Projekt 2.3 Det gyldne snit og Fibonaccitallene Projekter: Kapitel Projekt.3 Det glde sit og Fiboaccitallee Forslag til hvorda klasses arbejde med projektet ka tilrettelægges: Forløbet:. Præsetatio af emet med vægt på det glde sit.. Grppere arbejder

Læs mere

Program. Middelværdi af Y = t(x ) Transformationssætningen

Program. Middelværdi af Y = t(x ) Transformationssætningen Program Statistik og Sadsylighedsregig 2 Trasformatio af kotiuerte fordeliger på R, flerdimesioale kotiuerte fordeliger, mere om ormalfordelige Helle Sørese Uge 7, osdag I formiddag: Opfølgig på trasformatiossætige

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 14 udgave 014 FORORD Der er i dee bog søgt at give letlæst og askuelig fremstillig af de statistiske

Læs mere

Sandsynlighedsregning

Sandsynlighedsregning Sadsylighedsregig E ote om sadsylighedsregig. Via basal sadsylighedsregig gøres læsere klar til forstå biomialfordelige. Herik S. Hase, Sct. Kud Versio 5.0 Opgaver til hæftet ka hetes her. PDF Facit til

Læs mere