Opsamling. Lidt om det hele..!

Relaterede dokumenter
Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Sammenligning af to grupper

To-sidet varians analyse

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Stikprøvefordelinger og konfidensintervaller

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Diskrete og kontinuerte stokastiske variable

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Generelle lineære modeller

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Konfidens intervaller

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Løsninger til kapitel 7

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

antal gange krone sker i første n kast = n

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Motivation. En tegning

9. Binomialfordelingen

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Estimation ved momentmetoden. Estimation af middelværdiparameter

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Modul 14: Goodness-of-fit test og krydstabelanalyse

Vejledende besvarelser til opgaver i kapitel 15

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Maja Tarp AARHUS UNIVERSITET

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

STATISTIKNOTER Simple normalfordelingsmodeller

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Kvantitative metoder 2

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Vejledende opgavebesvarelser

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Konfidensintervaller og Hypotesetest

Uge 40 I Teoretisk Statistik, 30. september 2003

Den flerdimensionale normalfordeling

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Program. Middelværdi af Y = t(x ) Transformationssætningen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hovedpointer fra SaSt

Teoretisk Statistik, 9. februar Beskrivende statistik

Morten Frydenberg version dato:

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER

Normalfordelingen og Stikprøvefordelinger

Asymptotisk optimalitet af MLE

Supplerende noter II til MM04

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Introduktion til Statistik

Elementær Matematik. Polynomier

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

x-klasserne Gammel Hellerup Gymnasium

Statistiske Modeller 1: Notat 1

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Estimation og test i normalfordelingen

Sandsynlighedsteori 1.2 og 2 Uge 5.

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Matematisk Modellering 1 Hjælpeark

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Sandsynlighedsregning

STATISTISKE GRUNDBEGREBER

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Supplement til Kreyszig

Noter om Kombinatorik 2, Kirsten Rosenkilde, februar

Program. 1. Flersidet variansanalyse 1/11

Asymptotisk estimationsteori

Kapitel 12 Variansanalyse

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik Lektion 8. Test for ens varians

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Kapitel 12 Variansanalyse

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

Transkript:

Opsamlig Lidt om det hele..!

Kursus oversigt Hvad har vi været igeem: Deskriptiv statistik Sadsyligheder Stokastiske variable diskrete og kotiuerte Fordeliger Estimatio Test Iferes Sammeligig af middelværdier (variasaalyse) Hvad magler I: Lieær regressio simpel og multipel Logistisk regressio Ikke parametriske metoder og Chi i ade test

Deskriptiv versus iferetial Deskriptiv statistik: Metoder til at orgaisere og præsetere data på e iformativ måde. 4 3 KARAKTER Iferetial statistik Metoder til at kokludere oget ud fra data. Eksempel: Hvad er middel lægde af e hugorm? Er de større e 5? Frequecy 3 5 6 7 8 9 3 KARAKTER

Nogle defiitioer Populatio: Mægde af alle idivider vi er iteresserede i. Parameter: Et deskriptivt mål for populatioe (for eksempel middelværdi og varias). Sample/stikprøve: Mægde af data taget fra e delmægde af populatioe. Statistik: Et deskriptivt mål for stikprøve.

Data hieraki Iterval Alle beregier ka udføres. Ka også behadles som ordiale eller omiale data. Ordial Beregiger baseret på ordee ka udføres. Ka opfattes som omiale data. Nomial Ku beregiger baseret på atal obs. i hver katagori må udføres. Ka ikke opfattes som ordede eller iterval data.

Cetral lokatio Geemsit: Iterval data x x i i Media: De midterste observatio Iterval og ordial Mode: De observatio, der forekommer med størst frekves Iterval, ordial og omial

Variatio (iterval data) Rage: største midste observatio Stikprøve varias Stadard afvigelse s s / ) ( x x x x s i i i i i i

Populatios parametre Populatioes størrelse: N Populatios middelværdi: Populatios varias: Populatios spredig: σ i σ N x i μ N ( x μ) i N σ i

Sadsyligheder E sadsylighed er et kvatitativt mål for usikkerhed et mål der udtrykker styrke af vores tro på forekomste af e usikker begivehed Ex: Sadsylighede for reg i morge er,5 Ex: Sadsylighede for at få 7 rigtige i lotto er, Regler for sadsyligheder Simulta sadsylighed (fælles mægde) P(A B) Margial sadsylighed (sum ud over ade variabel) P(A) Additiosregle (foreigs mægde) P(A U B) P(A) + P(B) P(A B) Betiget sadsylighed P(A B) P(A B)/P(B) Uafhægighed P(A B)P(A)P(B)

Uafhægighed To hædelser er uafhægige hvis: P(A B) P(A) og P(B A) P(B) Ligeledes P(AI B) P(A)P(B) Lige meget hvilke kombiatio af hædelser vi vælger, skal uafhægighede gælde. Hvis bare e kombiatioer viser afhægighed, er hædelsere afhægige.

Stokastisk variabel E stokastisk variabel X er e fuktio defieret på S (udfaldsrummet), der atager værdier på R (reelle tal) X: S R I eksperimeter kyttes e talværdi til hvert udfald: S o X X(o) R Stokastiske variable ka ete være diskrete eller kotiuerte. Diskrete: Atager et edeligt(tælleligt) atal værdier Kotiuerte: Atager værdier i e mægde af reelle tal

Biomial fordelig Geerelt:. Sadsylighede for e give sekves af x succes er ud af forsøg med sadsylighed for succes p og sadsylighed for fiasko q er lig med: p x q (-x). Atallet af forskellige sekveser af forsøg, der resulterer i x succes er er lig med atallet af valg af x elemeter ud af elemeter: Cx x! x!( x)! Biomial sadsyligheds fordelig: Px () x pq! x!( x)! pq x ( x) x ( x) hvor : p er sadsylighede for succes i et ekelt forsøg, q -p, er atallet af forsøg, og x er atallet af succes er.

De egative biomial fordelig bruges til at bestemme sadsylighede for atallet af forsøg X, der skal til for at opå et øsket atal af succes er s i e række af Beroulli forsøg med sadsylighed for succes lig p. ) ( ) ( ) ( s x p s p s x x X P NegativBiomialfordelig: ) ( Variase er: Middelværdie er: p p s p s σ μ Negativ Biomial fordelig

De hypergeometriske fordelig bruges til at bestemme sadsylighede for et atal af hædelser ude tilbagelægig. De tæller atallet af succes er x i udvælgelser, ude tilbagelægig, fra e populatio på N elemeter, hvor S af dem er succes er og (N-S) er fiaskos. N x S N x S x P ) ( Hypergeometrisk fordelig: pq N N N S p p er givet som: Variase hvor, Middelværdie er givet som: σ μ Hypergeometrisk fordelig

Poisso fordelig Poisso fordelige bruges til at bestemme sadsylighede for atallet af hædelser i et givet iterval, for eksempel et tidsiterval. De ka også bruges til at approksimere biomial sadsyligheder, år sadsylighede for succes er lille (p.5) og atallet af forsøg er stor ( ). Poisso fordelig : P( x) x μ e x! μ for x,,3,... hvor μ er middelværdie af fordelige OG variase. (Husk at e.788...).

Uiform fordelig uiform [a,b] tæthed: f(x) { /(a b) for a X b ellers E(X) (a + b)/; V(X) (b a) / Uiform [a, b] fordelig Hele arealet uder f(x) /(b a) * (b a). f(x) Arealet uder f(x) fra a til b P(a X b) (b a)/(b a) a a x b b

Ekspoetial fordelig De ekspoetielle stokastiske variabel, måler tide mellem to hædelser, der er Poisso fordelt. Ekspoetial fordelig : Tæthedsfu ktio er givet som : Ekspoetial fordelig : λ f ( x) λe λx for x, λ > f(x) Middelværdie og stadard afvigelse begge lig med. λ De kumulative fordeligsfuktio er givet som : er Tid 3 F( x) e λx for x.

Normal fordelige Normal fordelige er e vigtig fordelig, bladt adet fordi mage adre fordeliger, ka approksimeres med de. Desude er mage teststørrelser ormal fordelte Bladt adre Carl F. Gauss (777-855) fadt frem til de, derfor kaldes de også de Gaussiske fordelig.

Stadard ormal fordelige Stadard ormal fordelige, er ormalfordelige med middelværdi og stadard afvigelse, Z~N(,²).4 Stadard Normal fordelig f(z).3. σ {.. - 5-4 - 3 - - μ Z 3 4 5

Fid P( < Z <.56) Stadard Normal Probabilities f(z).4.3... -5-4 Stadard Normal Distributio -3 - -.56 Z { Kig i række med.5 og søjle med.6 P( z.56).446 3 4 5 z....3.4.5.6.7.8.9...4.8..6.99.39.79.39.359..398.438.478.57.557.596.636.675.74.753..793.83.87.9.948.987.6.64.3.4.3.79.7.55.93.33.368.46.443.48.57.4.554.59.68.664.7.736.77.88.844.879.5.95.95.985.9.54.88.3.57.9.4.6.57.9.34.357.389.4.454.486.57.549.7.58.6.64.673.74.734.764.794.83.85.8.88.9.939.967.995.33.35.378.36.333.9.359.386.3.338.364.389.335.334.3365.3389..343.3438.346.3485.358.353.3554.3577.3599.36..3643.3665.3686.378.379.3749.377.379.38.383..3849.3869.3888.397.395.3944.396.398.3997.45.3.43.449.466.48.499.45.43.447.46.477.4.49.47.4.436.45.465.479.49.436.439.5.433.4345.4357.437.438.4394.446.448.449.444.6.445.4463.4474.4484.4495.455.455.455.4535.4545.7.4554.4564.4573.458.459.4599.468.466.465.4633.8.464.4649.4656.4664.467.4678.4686.4693.4699.476.9.473.479.476.473.4738.4744.475.4756.476.4767..477.4778.4783.4788.4793.4798.483.488.48.487..48.486.483.4834.4838.484.4846.485.4854.4857..486.4864.4868.487.4875.4878.488.4884.4887.489.3.4893.4896.4898.49.494.496.499.49.493.496.4.498.49.49.495.497.499.493.493.4934.4936.5.4938.494.494.4943.4945.4946.4948.4949.495.495.6.4953.4955.4956.4957.4959.496.496.496.4963.4964.7.4965.4966.4967.4968.4969.497.497.497.4973.4974.8.4974.4975.4976.4977.4977.4978.4979.4979.498.498.9.498.498.498.4983.4984.4984.4985.4985.4986.4986 3..4987.4987.4987.4988.4988.4989.4989.4989.499.499

Fid: P( < Z < z).4 Fid Z, så P( Z z).4:. Fid e sadsylighed så tæt på.4. som muligt.. Bestem herefter værdie af z fra de pågældede række og søjle. P( Z.8).4 Desude, da P(Z ).5 Areal til vestre for.5 P(z ).5 z....3.4.5.6.7.8.9...4.8..6.99.39.79.39.359..398.438.478.57.557.596.636.675.74.753..793.83.87.9.948.987.6.64.3.4.3.79.7.55.93.33.368.46.443.48.57.4.554.59.68.664.7.736.77.88.844.879.5.95.95.985.9.54.88.3.57.9.4.6.57.9.34.357.389.4.454.486.57.549.7.58.6.64.673.74.734.764.794.83.85.8.88.9.939.967.995.33.35.378.36.333.9.359.386.3.338.364.389.335.334.3365.3389..343.3438.346.3485.358.353.3554.3577.3599.36..3643.3665.3686.378.379.3749.377.379.38.383..3849.3869.3888.397.395.3944.396.398.3997.45.3.43.449.466.48.499.45.43.447.46.477................................. f(z).4.3.. Stadard Normal Distributio Areal.4 (.3997) P(Z.8).9-5 -4-3 - - 3 4 5. Z Z.8

Statistik Statistisk Iferes: Prediktere og forekaste værdier af populatios parametre Teste hypoteser om værdier af populatios parametre Tage beslutiger på basis af stikprøver Lave geeralisatioer om karakteristikker af e populatio... På basis af observatioer i e stikprøve, e del af populatioe

Estimatorer E stikprøve statistik er et umerisk mål for e opsummerede karakteristik af stikprøve. E populatios parameter er et umerisk mål for e opsummerede karakteristik af populatioe. Stikprøve geemsittet X er de mest almidelige estimator af populatios middelværdie, μ. Stikprøve variase, s², er de mest almidelige estimator af populatios variase, σ². Stikprøve stadard afvigelse, s, er de mest almidelige estimator af populatios stadard afvigelse, σ. pˆ Stikprøve adele,,er de mest almidelige estimator af populatios adele, p.

Stikprøve fordelig De forvetede værdi af stikprøve middelværdie er lig med populatios middelværdie E( X) μ μ Variase af stikprøve middelværdie er lig med populatios variase divideret med stikprøve størrelse X X V ( X ) σ X σ X Hvis X ormal fordelt, så er X ormalfordelt. σx X ~ N( μx, )

Eksempler Normal Uiform Skewed Geeral Populatio 3 μ X μ X μ X μ X

Studet s t fordelig Hvis populatios stadard afvigelse, σ, er ukedt, erstat σ med stikprøve stadard afvigelse, s. Hvis populatioe er ormal, så er: X μ t s / t fordelt med ( - ) frihedsgrader (degrees of freedom). t fordelige er klokkeformet og symmetrisk og defieret ved atal frihedsgrader (df). Middelværdie er altid lig. Variase af t er større ed, me går mod, år atallet af frihedsgrader vokser. t fordelige er fladere og har tykkere haler e stadard ormal fordelige. t fordelige går mod stadard ormal fordelige å atallet af frihedsgrader vokser. μ Stadard ormal t, df t, df

Kofidesitervaller (-α)% kofides iterval for: Populatios middelværdi μ, år X er ormal fordelt (eller stikprøve er stor) og σ er kedt: σ x ± z Populatios middelværdi μ, år X er ormal fordelt og σ er ukedt: For populatios adele p: x ± t α α s pˆ ± z α pq ˆ ˆ

Kofidesiterval og stikprøvestørrelse (-α)% kofides iterval for: Populatios variase σ²: Beregig af stikprøve størrelse: ( ) s, ( ) s χ χ α α Midste stikprøve størrelse, år μ estimeres : z α σ B hvor B er de maksimale græse for, hvor lagt estimatet må ligge fra de sade middelværdi (med kofides iveau α). For populatios adele er de givet ved : z α pq B Hvis p ukedt bruges p.5, da det giver de største stikprøve størrelse (og er altså et koservativt gæt).

Hypoteser og hypotesetest. E hypotese er et udsag om ogle karakteristika af e variabel eller mægde af variable, for eksempel: Middelværdie af de 3.semesters HA studeredes vægt lig med 7 kilo? I e hypotesetest (sigifikastest) testes værdier, der er opstillet i e hypotese, ved at sammelige med værdier bereget fra data. For eksempel ka geemsittet af e stikprøve af jeres vægte bereges til 68 kilo. Er det (sigifikat) forskellig fra 7? Det er forskellig fra 7, me ka vi derfra kokludere, at det ikke bare skyldes tilfældig variatio, afhæger af eksempelvis stikprøvestørrelse. E hypotesetest består af 5 elemeter: atagelser, hypoteser, test størrelse, p- værdi og beslutig/koklusio.

Test af middelværdi Atagelse: Test af μ, X kvatitativ variabel og >3. Hypoteser: H H a : μ μ : μ μ Stikprøve fordelig af X år H er sad er approksimativ ormal med middelværdi og stadard afvigelse σ μ Teststørrelse:.8.7.6.5.4.3... Z μ X μ σ x

P-værdi og forkastelse af H Når ul hypotese er falsk, er p-værdie meget lille og år ul hypotese er sad, vil p-værdie være stor (større ed for eksempel.5). Vi accepterer/beviser aldrig, at ul hypotese er sad. Hvis vi ikke ka forkaste ul hypotese, siger vi, at der ikke er ok beviser til at forkaste de. Hvis vi forkaster ul hypotese, ka vi kokludere, at der er beviser ok til at sige, at de alterative hypotese er sad.

Sigifikas iveau Sigifikas iveauet α er et tal, således at H forkastes, hvis p-værdie er midre ed α. Koklusio Er ormalvis.5 eller.. Vælges før aalyse foretages. Hvis ma tester på sigifikas iveau.5, svarer det til e z-værdi på.96 i e to-sidet test og.645 i e højresidet test. P-værdi H H P<.5 Forkast Accepter Normal ses dog på p-værdie i stedet, da de i de fleste tilfælde ikke er smart at have e stadard procedure for om ma forkaster eller ej. P>.5 Forkast ikke Accepter ikke

Kritiske værdier, to-sidet test, α.5 Eksemplet er for stadard ormal fordelige..8.7.95.6.5.4.3..5.5.. -.96.96 Tilsvarede kritiske værdier ka fides adre fordeliger, for eksempel t-fordelige.

Type og type fejl Type fejl: H forkastes, år de er sad. Type fejl: H forkastes ikke, selvom de er falsk. Sigifikas iveauet α er sadsylighede for at begå e type fejl. Sadsylighede for at begå e type fejl beteges β Sadsylighede for type og type fejl er iverst relaterede, dvs. år de ee stiger, så falder de ade, så ma ka ikke vælge begge to så lavt som muligt. Typisk vælger med at fastsætte sadsylighede for type fejl, så ma ikke begår store fejl. For eksempel hvis H er, at e eller ade medici er skadelig, er det bedre at være sikker på, at ma ikke forkaster H selvom de er sad, ed at være sikker på, at ma ikke forkaster de, selvom de er falsk. I O.J. Simpso sage er der ok sket e type fejl ;-) Beslutig Forkast H Forkast ikke H Sad tilstad af H H sad Type fejl Korrekt beslutig H falsk Korrekt beslutig Type fejl

Sammeligig af to middelværdier kedte variaser og store stikprøver eller populatioer ormalfordelte Hypoteser : H H : μ μ ( μ μ ) α Kritiske pukter : : μ μ ( μ μ ) Teststørrelse : z ± z X X Beslutig :, hvor α er sigifikas iveauet. ( μ μ ) σ σ + Bemærk!!Ka også laves som et højresidet test, H vestresidet test, H Desude ka vi selvfølgelig også berege p - værdie som vi plejer, i stedet for at sammelige med de kritiske værdi z α. : μ > μ eller : μ < μ. Forkast H hvis z > z eller hvis z < z α α

Kofides iterval Kofides iterval for μ μ : ( X z α X ) ± z α σ σ + vælges ud fra kofides iveauet. Hvis det for eksempel er et 95% kofidesiterval, er z,96. Hvis kofidesitervallet ideholder, svarer det til, at et hypotesetest ikke havde forkastet ul hypotese om at de to middelværdier er es.

Ukedt varias, ormalfordelig hvor ), ( : ) ( ) ( : ) ( : : : For og : To situatioer + ± + + + t pukter Kritiske s s s Pooled Varias s x x t Teststørrelse : H H p p ν ν μ μ μ μ σ σ σ σ σ σ α ) ( ) ( ) ( hvor, ) ( : ) ( : : : For + + ± + s s s s t pukter Kritiske s s x x t Teststørrelse : H H ν ν μ μ μ μ σ σ α Hvis store stikprøver, bruges z i stedet for t-fordelige. Boge bruger z, år og er større ed 3. SPSS reger altid med t-fordelige

Kofides itervaller

Sammeligig af to adele, pp, store stikprøver eller sammelig med de kritiske værdier. værdie er lille, år p -, Forkast H. ˆ hvor, ˆ) ˆ( ˆ ˆ Teststørrelse : ) : (dvs. : ) : (dvs. : x x p p p p p z p p H p p H p p H p p H a a + + +

Sammeligig af to adele, p-pd, store stikprøver H H a : : p p p p D D Teststørrelse : z pˆ ( pˆ pˆ ) / pˆ + pˆ D ( pˆ ) / Forkast H, år p - værdie er lille, eller sammelig med de kritiske værdier. Ka også laves som højresidet vestresidet test. test og

Kofides iterval for differece mellem to adele Kofides iterval for p ( pˆ pˆ ) ± z pˆ ( pˆ ) + ( z vælges ige ud fra kofides iveauet. For eksempel for et 95% kofidesiterval, er z,96. p pˆ : pˆ ) Og ligesom før, hvis kofidesitervallet ideholder, svarer det til, at et hypotesetest ikke havde forkastet ul hypotese om at de to middelværdier er es.

Parrede observatioer Lav differecer: Nike Super 7 8 5 6 7 Nike Origial 9 9 7 6 Super-Origial - - - -5 - - Bereg x D og s D ud fra differecere. Kofidesiterval: H H a : μ : μ D D μd μ x Teststørrelse : t s D Er t fordelt med D μ frihedsgrader, hvis differecere er ormalfordelte. D D D, x D ± t α Bereg selv eksemplet til opgaveregige! s D

Test for es varias Teststørrelse for test for es populatios ormalfordelte populatioer : varias af to F (, ) s s I: Tosidet test: σ σ H : σ σ H : σ σ II:Esidet test σ σ H : σ σ H : σ >σ

ANOVA - defiitio ANOVA (ANalysis Of VAriace), også kaldet variasaalyse er e statistisk metode til at bestemme, om der er forskel på middelværdiere i flere (ed to) populatioer. Grude til at det hedder variasaalyse, er at ma aalysere forskellige variaser for at bestemme om, der er forskel på middelværdiere. SÅ HUSK - variasaalyse faktisk hadler om at fide forskelle mellem middelværdier og det gør ma ved at aalysere variasere! Hypotesere er givet som: H : μ μ μ 3 μ r H : Ikke alle middelværdier er es Simpel stikprøve fra hver af de r populatioer. Stikprøvestørrelse er givet som: + + 3 + + r

Atagelser for at bruge ANOVA Vi atager uafhægige stikprøver fra hver af de r populatioer Vi atager, at de r populatios: er ormal fordelte, med middelværdier μ i som er es eller forskellige, me med es variaser, σ i. σ μ μ μ 3 Populatio Populatio Populatio 3

Idee i ANOVA Total variatio variatioe idefor gruppere + variatioe mellem gruppere Variatioe idefor gruppere: Variatioe af observatioere i hver gruppe omkrig gruppes geemsit (dvs. variase i e gruppe, som vi jo har ataget er es for alle gruppere!) Variatioe mellem gruppere: Variatioe af grupperes geemsit omkrig det totale geemsit Hvis variatioe idefor gruppere er lille i forhold til variatioe mellem gruppere, så er middelværdiere i de forskellige grupper ikke es.

Sum of Squares SSTR :Sum of Squares for Treatmet SSTR r i ( x i i x) r i t i i ( SSE :Sum of Squares for Error SSE ) s r i i j + ( ( x ij ) s x i ) r i + L+ ( r e ij ) s r SST SST :Sum of Squares total r i i j ( x ij x) r i i j Tot ij

The Sum-of-Squares pricip Total variatio Variatio mellem grupper + Variatio idefor grupper SSTR SSE SST SST SSTR + SSE r i ( x i i x) + r i i j ( x ij x i )

Mea squares Lad : MSTR SSTR r - og MSE SSE - r Ma ka vise, at : E(MSE) σ i( μi μ) i E(MSTR) σ + r - Når H er sad, er μ μ L μ og dermed er MSE og MSTR to cetrale estimatorer af σ. Hvis H ikke er sad, vil MSTR være større ed MSE på grud af det ekstra positive led i E(MSTR). r

ANOVA MSTR Uder H følger e F - fordelig, F(r -, - r). MSE MSTR Uder H vil være tæt på og år H ikke er sad, MSE vil de være større ed. Derfor et "højre - halet" test. ANOVA tabel: Variatios kilde Sum of Squares Frihedsgrader Mea Square F Ratio Behadlig SSTR (r - ) MSTR Fejl SSE ( - r) MSE Total SST ( -) MST MSTR/MSE

SÅ alt i alt H H : μ μ L μ : Ikke alle μ'ere er es r Sigifikasiveau : Teststørrelse : Kritisk værdi : Beslutigsregel : α MSTR F MSE F (r -, - r) α Forkast H F > F α (r hvis -, - r)

Tjek af modelatagelser - ormalfordelig Normalfordelig: Teg histogrammer over data idefor hver gruppe skal lige e ormalfordelig.

Tjek af modelatagelser es varias Test for es varias i de forskellige populatioer. SPSS bruger e test størrelse, der hedder Levee s test. I skal bare kue vurdere, om der er es varias eller ej. Hvis p-værdie er midre ed.5, er variasere forskellige, og ANOVA ka altså ikke bruges. I fly-eksemplet er p-værdie.67 og dermed er variasere es.

Videre aalyse Data ANOVA Forkast ikke H Stop Forkast H Stikrøve middelværdiere er cetrale estimatorer af populatios middelværdiere. MSE er e cetral estimator af de fælles populatios varias. ANOVA Diagram Videre Aalyse Kofides itervaller for Populatios Middelværdier Tukey s Parvise Sammeligigs Test

Kofides itervaller for populatios middelværdier Et (-α)% kofidesiterval for μ, middelværdie i i populatio i : hvor t α er α/ fraktile i x i ± t α MSE i t - fordelige med ( - r) frihedsgrader. Hvis kofides itervallere overlapper, er middelværdiere es og hvis de ikke overlapper, er de forskellige. Bruges dog ikke i praksis som e test, da det ikke er et simultat test og der derfor er problemer med hvilket sigifikasiveau ma tester på.

Tukey s test for parvise sammeligiger E måde at sammelige populatios middelværdier på simultat, på et givet sigifikasiveau, er Tukey s test. 3 : H 3 : H : H 3 : H 3 : H : H 3: hvis For eksempel, middelværdier at sammelige. populatios par af )!!(! r Der er μ μ μ μ μ μ μ μ μ μ μ μ r r r

Tukey s test for parvise sammeligiger Test størrelse er de absolutte differece Vi har at : T x i hvor q α x j q α ( r, r) MSE i x ( r, r) er de "studetiserede rage" fordelig med frihedsgrader r og - r, på sigifikasiveau α. x i j : Kritiske værdier er, år de absolutte differece bliver for stor, så et højre - halet test. det er Hvis der ikke er lige mage observatioer i hver gruppe, vælges midste af de r forskellige stikprøve størrelser. i til de

Modelbegrebet E statistisk model er e mægde af ligiger og atagelser, der beskriver e situatio i de virkelige verde. E-sidet ANOVA ka vi skrive på modelform som: x ij μ i + ε ij μ + α i + ε ij hvor ε ij er fejle for det j te datapukt i de i te populatio. Fejl leddee atages at være ormalfordelte med middelværdi og varias σ.

To-sidet ANOVA Model x ijk μ + α i + β j + (αβ) ij + ε ijk α i er effekte af iveau i(i,...,a) af faktor A; hvor μ er de overordede middelværdi; β j er effekte af iveau j(j,...,b) af faktor B; (αβ) ij er iteraktios effekte af iveau i og j; ε ijk er fejle associeret med det k te data pukt fra iveau i af faktor A og iveau j af faktor B. ε ijk atages at følge e ormalfordelig med middelværdi ul og varias σ for alle i, j, og k.

Hypotesere i to-sidet ANOVA Faktor A hoved effekter: H : α i for alle i,,...,a H : Ikke alle α i er Faktor B hoved effekter: H : β j for alle j,,...,b H : Ikke alle β j er Test for (AB) iteraktioer: H : (αβ) ij for alle i,,...,a og j,,...,b H : Ikke alle (αβ) ij er

I ord ;-) I e to-sidet varias aalyse ka vi teste effekte af to faktorer samtidig. Ma ka teste Hver faktor alee kaldes hoved effekter (mai effects) De to faktorer samme kaldes iteraktio Dvs. vi har 3 spørgsmål: Er der faktor A hovedeffekter? Er der faktor B hovedeffekter? Er der e iteraktio mellem faktor A og faktor B? Atagelser Fordelige af respose er ormal Variase for hver behadlig er es Stikprøvere er uafhægige

ANOVA tabelle Variatios kilde Sum of Squares Faktor A SSA a- Faktor B SSB b- Iteraktio SS(AB) (a-)(b-) Error SSE ab(-) Total SST ab- Frihedsgrader Mea Square F Ratio MSA MSB SSA a SSB b MS( AB) MSE SS( AB) ( a )( b ) SSE ab( ) F F F MSA MSE MSB MSE MS( AB) MSE A Hoved effekt Test: F (a-,ab(-)) B Hoved effekt Test: F (b-,ab(-)) (AB) Iteraktios Effekt Test: F ((a-)(b-),ab(-))

Eksempel 9-4 Koster kust i geemsit det samme i Lodo, New York og Tokyo? Koster kustværker af Picasso, Chagall og Dali i geemsit det samme? Er der e iteraktioseffekt, således at eksempelvis Picasso geemsitlig set sælges dyrere i New York ed i Lodo og Tokyo? Picasso Chagall Dali

Udvidelse af ANOVA til tre faktorer Variatios kilde Sum of Squares Faktor A SSA a- Faktor B SSB b- Faktor C SSC c- Iteraktio (AB) Iteraktio (AC) Iteraktio (BC) SS(AB) SS(AC) SS(BC) (a-)(b-) (a-)(c-) (b-)(c-) Iteraktio SS(ABC) (a-)(b-)(c-) (ABC) Error SSE abc(-) Total SST abc- Frihedsgrader Mea Square F Ratio MSA SSA a F MSB SSB b MSC SSC c SS( AB) MS( AB) ( a )( b ) SS( AC) MS( AC) ( a )( c ) SS( BC) MS( BC) ( b )( c ) SS( ABC) MS( ABC) ( a )( b )( c ) MSE SSE abc( ) MSA MSE MSB F MSE MSC F MSE MS( AB) F MSE F F F MS( AC) MSE MS( BC) MSE MS( ABC) MSE

Fixed-effects vs. Radom-effects E fixed-effekt model, er e model, hvor iveauere af faktorere er valgt på forhåd. Iferes i modelle gælder ku for disse iveauer. Eksempel: Vi har valgt at sammelige fly af prototype A, B og C. Dvs. vi ka ikke sige oget om differecer mellem middelværdier af adre ed disse flytyper. E radom-effekt model er e model, hvor iveauere af faktorere er valgt tilfældigt. Iferes i modelle gælder derfor for hele populatioe. Eksempel: Hvis prototype A, B og C havde været valgt tilfældig mellem alle flytyper, havde vi på baggrud af resultater for disse 3 typer, kuet sige oget om alle flytyper.

Desig af forsøg Fuldstædig radomiseret desig: Ethvert elemet i forsøget tildeles tilfældigt e behadlig Radomiseret blok desig: Gruppér elemetere i blokke, så elemetere liger hiade og radomiser behadligere idefor blokke. Gøres for at reducere variatio fra adre faktorer, der ikke er med i forsøget, for eksempel alder. Repeated measuremet desig: Det samme elemet bruges i alle behadliger (ala parret t-test). Aalyseres på samme måde som blok desig.

Model for blok desig x ij μ + α i + β j + ε ij hvor μ er de overordede middelværdi; α i er effekte af iveau i(i,...,a) af faktor A; β j er blok effekte j(j,...,b); ε ij er fejle, der hører til x ij ε ij atages at følge e ormalfordelig med middelværdi og varias σ for alle i og j. Og det var så hvad jeg havde at fortælle