Faktorforsøg. Kapitel 12

Størrelse: px
Starte visningen fra side:

Download "Faktorforsøg. Kapitel 12"

Transkript

1 Kapitel 12 Faktorforsøg I et faktorforsøg forklarer man ikke responsvariablen ud fra numeriske baggrundsvariable. Man deler i stedet observationerne ind i nogle grupper, og undersøger om denne gruppering kan forklare en del af variationen mellem observationerne. Ofte grupperer man observationerne efter flere kriterier på en gang - interessen retter sig i så fald gerne mod samspillet mellem inddelingskriterierne. Hvis man undersøger om blodtryk afhænger af køn, kan man gribe sagen an på to måder. Man kan undersøge et på forhånd fastlagt antal forsøgspersoner, og for hver af dem registrere deres køn. På den måde fås stokastiske grupper, for gentages eksperimentet vil man uvægerligt få en anden fordeling mellem mænd og kvinder. Alternativt kan man undersøge et på forhånd fastlagt antal kvinder og et på forhånd fastlagt antal mænd. I så fald er grupperingen deterministisk og en del af undersøgelsens design. Man kan da stille stille spørgsmål af designmæssig karakter, som hvor mange mænd og hvor mange kvinder man skal involveres, for at undersøgelsen kan detektere en forskel mellem kønnene af denne eller hin størrelse. De metoder vi skal beskrive er udviklet til deterministiske grupperinger, og i de fleste lærebøger vil man finde materiale som dette under overskriften forsøgsplanlægning (eller det engelske design of experiments). Men der er principielt intet i vejen for at bruge metoderne på stokastiske grupperinger, så længe man er opmærksom på denne stokastik, når man fortolker analysen. Forholdet mellem deterministiske og stokastiske grupperinger svarer nøje til forholdet mellem deterministiske kovariater og observerede kovariater i lineær regression, se afsnit

2 436 Kapitel 12. Faktorforsøg Det viser sig at være væsentligt for analysen, om der er et regulært mønster i hvor store grupperne er. Et regulært mønster gør det muligt at udtrykke analysen i meget konkrete formler. Men det giver også anledning til visse faldgruber, hvor det volder overraskende vanskeligheder at bestemme dimensionen af middelværdiunderrummet. De planlagte forsøg har som regel gruppestørrelser, der varierer meget regulært - i blodtrykseksemplet vil enhver eksperimentator f.eks. involvere lige mange kvinder og mænd, formentlig uden at tænke over hvorfor - og derfor forekommer det naturligt at analysere indflydelsen af denne regularitet. Gruppestørrelserne i observationelle studier varierer derimod næppe regulært. Men en gang i mellem gør de det alligevel, og så risikerer man at blive bidt eftertrykkeligt, hvis man ikke er opmærksom på disse faldgruber 12.1 Faktorer Når man skal gruppere observationerne på kryds og tværs efter adskillige inddelingskriterier, kan man ikke forvente at grupperne kan udtrykkes simpelt i termer af den naturlige nummerering af observationerne - det vil sjældent være sådan at observation 1,..., n 1 udgør den første gruppe, mens observation n 1 +1,..., n 1 +n 2 udgør den næste gruppe, etc. Tværtimod er det, som vi skal se i forbindelse med randomisering, ofte en pointe at grupperne ligger ujævnt hen gennem observationsmaterialet. Man står sig ved helt at opgive nummereringen, og i stedet bruge en abstrakt form for reference til de enkelte observationer. Vi forestiller os fremover at vi har reelle observationer (X i ) i I, indiceret ved en indeksmængde I med N elementer. I praksis er indeksmængden gerne tallene fra 1 til N, men indeksmængdens konkrete form spiller ingen rolle for os. Ud fra en endelig mængde I kan vi danne R I = {(x i ) i I x i R for alle i I} der er et vektorrum med de koordinatvise regneoperationer, (x i ) i I + (y i ) i I = (x i + y i ) i I, c (x i ) i I = (c x i ) i I. Den sammenbundtede observation (X i ) i I er i virkeligheden et stokastisk element i dette vektorrum. Det er klart at R I ligner R N til forveksling - hvis I består af tallene 1

3 12.1. Faktorer 437 til N er det simpelthen R N. Og derfor kan den sædvanlige lineære algebra overføres stort set ubeskåret. Vi kan således udstyre R I med et sædvanligt indre produkt, (x i ) i I, (y i ) i I = x i y i. Hvis I og F er to endelige mængder, kan vi tale om en I F-matrix (a i j ) i I, j F. Den repræsenterer en lineær afbildning A : R F R I, givet ved at ( ( A (y j ) j F ))i = a i j y j for alle i I. j F Et underrum L R I er typisk givet som billedmængden af en sådan lineær afbildning, altså L = a i j y j j F (y j) j F. i I I så fald vil vi kalde (a i j ) i I, j F for en designmatrix for L. Endelig skal vi bemærke at matrixmultiplikation også i denne abstrakte ramme svarer til sammensætning af lineære afbildninger. Hvis A : R F R I repræsenteres af matricen (a i j ) i I, j F, og hvis B : R I R K repræsenteres af matricen (b ki ) k K,i I, så repræsenteres den sammensatte afbildning B A : R F R K af K F-matricen (c k j ) k K, j F, hvor c k j = b ki a i j. (12.1) i I i I Definition 12.1 Lad (X i ) i I være reelle stokastiske variable, indiceret ved en endelig indexmængde I. En faktor er en afbildning f : I F af indeksmængden I ind i en anden endelig mængde F. Elementerne i F kaldes labels. Man kan tænke på faktoren på den måde, at observationsenheden i I får påklistret en mærkat med label j = f (i). De observationer der får påklistret samme label udgør en naturlig gruppe. Formelt får vi på den måde grupperne f 1 ( j) = {i I f (i) = j} for hvert j F. Hvis f er surjektiv, altså hvis samtlige labels kommer i brug når vi klistrer mærkater på observationerne, så er der F grupper. Men ikke-surjektive faktorer forekommer ofte, så i almindelighed må vi nøjes med at sige at der højst er F grupper.

4 438 Kapitel 12. Faktorforsøg Eksempel 12.2 Hvis eksperimentet går ud på at måle blodtrykket på N forsøgspersoner, kan man nummerere forsøgspersonerne med tallene fra 1 til N, og bruge disse tal som index. I praksis bruger man lige så gerne forsøgspersonernes personnummer til at identificere dem med. Så indeksmængden I kan i dette tilfælde være en samling personnumre. Eller man kan bruge en liste over forsøgspersonernes navne, sådan at indices er af formen Jensen, Peter eller sådan noget. Interesserer vi os for kønnets indflydelse på målingerne, konstruerer vi faktoren Sex : I {Mand, Kvinde}, hvor vi til hver forsøgsperson klistrer en mærkat på den tilsvarende observation, der fortæller om forsøgspersonen er mand eller kvinde. Hvis I vitterligt er forsøgspersonernes personnummer, findes der en simpel algoritme hertil, baseret på om sidste ciffer er lige eller ulige. Hvis I er forsøgspersonernes navne vil eksperimentatoren som regel kunne klistre det rigtige kønslabel på, men det er tvivlsomt om en computer kan. Eksempel 12.3 Hvis man har blodtryksmålinger på forsøgspersoner, indiceret ved en indexmængde I, kunne man forestille sig at forsøgspersonerne får forskellige former for medicin, og at interessen retter sig mod om medicinen har indflydelse på blodtrykket. I så fald konstruerer man en faktor Beh : I {Gammel type, Ny type, Placebo} eller hvad der nu er relevant. Der findes næppe nogen simpel måde at aflæse værdien af denne faktor for en konkret forsøgsperson, her må man foretage en omhyggelig registrering undervejs i eksperimentet. Hvis f : I F er en faktor, har man ofte brug for at kende størrelsen af de dannede grupper. Vi indfører derfor n F ( j) = f 1 ( j) = {i I f (i) = j} = 1 { j} ( f (i)) for hvert j F. Hvis f ikke er surjektiv, kan visse grupper have størrelse nul. Bemærk at n F ( j) = N. j F i I

5 12.1. Faktorer 439 Definition 12.4 Lad (X i ) i I være reelle stokastiske variable, indiceret ved en endelig indexmængde I, og lad f : I F være en faktor. Faktorunderrummet L F af R I består af de vektorer, hvor alle de observationsindeks, der tilhører samme gruppe, har samme koordinatværdi. Formelt: L F = { (x i ) i I Hvis f (i) = f (i ), så er x i = x i }. En anden måde at beskrive faktorunderrummet L F på, er at angive dets designmatrix. Hvis vi indfører Kroneckers delta på F F ved 1 hvis j = k δ j, k = 0 ellers, så har L F designmatricen A F = (δ f (i), j ) i I, j F. Faktisk er der en lille fælde her: hvis f ikke er surjektiv, så vil denne matrix have en eller flere nulsøjler. Normalt kræver vi at søjlerne i en designmatrix skal være lineært uafhængige. Så enten må vi manuelt slette de eventuelle nulsøjler, eller også må vi insistere på kun at skrive designmatricer op for surjektive faktorer. Hvis f er surjektiv, ser vi på den anden side at dimensionen af L F må være antallet af ikketomme grupper, altså dim L F = F. Eksempel 12.5 Hvis vi har fem forsøgspersoner, nummereret fra 1 til 5, og hvis den første og den tredie af disse forsøgspersoner er kvinder, så har vi faktoren Sex : I {Mand, Kvinde}, bestemt ved at i Sex(i) Kvinde Mand Kvinde Mand Mand. Underrummet L Sex af R I = R 5 associeret til denne faktor, består af vektorer der har samme 1. og 3. koordinat, og samme 2., 4. og 5. koordinat. Altså α 1 0 β ( ) 0 1 ( ) L Sex = α α R 2 α ( ) = 1 0 α β β β R β β 0 1

6 440 Kapitel 12. Faktorforsøg hvor vi eksplicit har identificeret designmatricen A Sex = (12.2) Her har vi uden at gøre et stort nummer ud af det, identificeret det abstrakte todimensionale vektorrum R {Kvinde,Mand} med R 2. Det har vi gjort af rent grafiske grunde - ellers kunne vi ikke stille designmatricen op som en kasse. De faktorer vi har diskuteret indtil nu, har så at sige haft et fornuftigt formål. Men der findes i enhver situation to trivielle faktorer, som man i første omgang måske opfatter som matematiske spidsfindigheder, men som vil vise sig nødvendige, også i praktiske sammenhænge. Den identiske faktor gør hver observation til en gruppe for sig selv. Den faktor kommer formelt til verden ud fra den identiske afbildning i : I I. Som den modsatte yderlighed har vi den konstante faktor, som samler alle observationerne i en stor gruppe. Den konstante faktor betegnes som regel med symbolet 1, og formelt baserer den sig på afbildningen I {1} (der findes kun en afbildning af den type). Bemærk at faktorunderrummet L 1 hørende til den konstante faktor, består af de vektorer i R I, hvor samtlige koordinater er ens Etsidet variansanalyse Lad (X i ) i I være uafhængige reelle stokastiske variable, indiceret ved en endelig mængde I med N elementer. Vi antager at X i N(ξ i, σ 2 ) for i I. Vores interesse retter sig mod middelværdivektoren ξ = (ξ i ) i I R I. Hvis vi har en faktor f : I F, specificerer vi en tilsvarende lineær normal model ved kravet ξ L F. Denne model kaldes etsidet variansanalyse udfra faktoren F (som regel skelner vi ikke sprogligt mellem afbildningen f og mængden F, altså mellem de mulige labels og den operation hvor man klistrer labels på observationer, skønt det ud fra et

7 12.2. Etsidet variansanalyse 441 matematisk synspunkt er to helt forskellige ting). En anden måde at formulere middelværdibetingelsen på er at ξ i = ξ i hvis f (i) = f (i ). Ideen bag en etsidet variansanalyse er altså at observationerne indenfor en gruppe opfattes som identisk fordelte, mens der potentielt er forskel mellem grupperne. Formålet med en etsidet variansanalyse er som regel at undersøge om der virkelig er en dokumenterbar forskel på grupperne. Vi antager i det følgende at alle grupper er ikke-tomme. Det er ikke nogen alvorlig indskrænkning: hvis der er labels man ikke har brugt, kan man uden at få problemer lade som om de slet ikke var med blandt de mulige labels. Hvis faktoren f.eks. svarer til den behandling man har givet nogle forsøgspersoner, vil man kun have de behandlinger med i analysen som man faktisk har givet til en eller flere patienter - behandlinger som ingen patienter har fået, er ikke relevante. Den naturlige parametrisering af modellen bruger designmatricen A F. I så fald kan man også sige at modellen er at ( EXi ) i I = A F (α j ) j F, hvor der er knyttet en middelværdiparameter til hver gruppe. Estimation af disse parametre følger fra korollar 10.20, da antagelsen om at alle grupper er ikke-tomme medfører at A F har fuld rang. Maksimaliseringsestimatoren er ( ˆα j ) j F = (A F T A F ) 1 A F T (X i ) i I. (12.3) Hvordan denne formel fungerer, forstås utvivlsomt bedst ved at studere et eksempel. Eksempel 12.6 I eksempel 12.5 fandt vi designmatricen (12.2). Vi konstaterer at ( ) A T 2 0 Sex A Sex =, 0 3 altså en diagonalmatrix, hvor gruppestørrelserne står ned i diagonalen. Tilsvarende ser vi at A T X 1 + X 3 Sex (X i ) i I =, X 2 + X 4 + X 5 altså summen af observationer indenfor de to grupper. Dermed er ( ) ASex T 1 A Sex ASex T (X 1 + X 3 )/2 (X i ) i I =, (X 2 + X 4 + X 5 )/3

8 442 Kapitel 12. Faktorforsøg altså gruppegennemsnittene hørende til henholdsvis gruppen af kvinder og gruppen af mænd. Indholdet af (12.3) er altså middelværdien for hver af de to grupper estimeres ved de to gruppegennemsnit. Det kan vist ikke kaldes overraskende. Vi kan uden videre generalisere regningerne i eksempel 12.6 til det generelle tilfælde. Vi får at (A T n F ( j) hvis j = k F A F ) jk = (12.4) 0 ellers. Altså er A T F A F en diagonal F F-matrix, hvor gruppestørrelserne står ned i diagonalen. Hvis f er surjektiv, er alle gruppestørrelserne positive, og derfor ser vi at 1 (A T F A F ) 1 n jk = F ( j) hvis j = k. (12.5) 0 ellers Og da reduceres (12.3) til ( A T ) (X i ) i I j = δ f (i), j X i = ˆα j = 1 n F ( j) i I i: f (i)= j i: f (i)= j X i, X i for alle j F. Eller i ord: middelværdien i den j te gruppe estimeres som det empiriske gennemsnit indenfor gruppen. Denne konklusion bør ikke komme bag på nogen - det er den eneste fornuftige måde at estimere middelværdierne på... Kombineres korollar og (12.5) ser vi at de forskellige ˆα j er er uafhængige, og at ( σ 2 ) ˆα j N α j, for alle j F. (12.6) n F ( j) Hvis alle grupperne er lige store, har de forskellige ˆα j er således samme varians. I almindelighed har ˆα j erne svarende til de store grupper en mindre varians end ˆα j erne svarende til de små grupper - hvilket igen er uhyre intuitivt. Den estimerede middelværdivektor er 1 P F X = A F ( ˆα j ) j F = n F ( f (i)) i : f (i )= f (i) X i i I (12.7)

9 12.2. Etsidet variansanalyse 443 der opnås ved at sætte det j te gruppegennemsnit ind på alle de pladser. der svarer til en observation fra j-gruppen. Det vil sige at projektionen repræsenteres af I I- matricen (a i i ) i,i I, givet ved Det følger også af (12.7) at P F X 2 1 = n F ( j) n F ( j) j F a i i = 1 n F (i) δ f (i), f (i ) for i, i I. (12.8) i: f (i)= j X i 2 1 = n F ( j) j F i: f (i)= j X i 2. (12.9) Folk med afskræk for matematisk formalisme, men med tilbøjelighed for forkortelser, indfører gerne betegnelserne S S F = P F X 2, S S D F = X P F X 2. Ved brug af Pythagoras sætning, opnår de så relationen S S D F = S S I S S F, idet X 2, kvadratet af længden på observationsvektoren, jo netop er S S -størrelsen svarende til den identiske faktor I. Vi vil ikke gøre meget brug af disse S S - forkortelser her, men de kan være nyttige at kende i andre sammenhænge. Den centrale estimator for variansen er σ 2 = X 2 P F X 2, I F og denne estimator er χ 2 -fordelt med ( I F ) frihedsgrader og skalaparameter σ 2 /( I F ). Som ovenfor nævnt, er formålet med en etsidet variansanalyse som regel at undersøge om der overhovedet er forskel på grupperne. Man er altså interesseret i at teste hypotesen om alle middelværdierne er ens. Eller anderledes formuleret, H : ξ L 1, hvor L 1 er underrummet associeret med den konstante faktor. Men denne hypotese er i sig selv en etsidet variansanalyse, omend en noget degenereret en af slagsen, og derfor har vi allerede skrevet de nødvendige formler op for estimation under hypotesen. I særdeleshed bemærker man at P 1 X 2 = 1 I 2 X i. i I

10 444 Kapitel 12. Faktorforsøg Vi kan opskrive F-teststørrelsen for hypotesen H som F = ( P FX 2 P 1 X 2 )/( F 1) ( X 2 P F X 2 )/( I F ). Under hypotesen er denne størrelse F-fordelt med ( F 1, I F ) frihedsgrader. Store værdier er kritiske for hypotesen. Eksempel 12.7 Det er en almindelig menneskelig erfaring at nogle balloner er vanskeligere at puste op end andre. Puster man mange balloner op, danner man sig uvægerligt en forestilling om at balloner af bestemte farver er vanskeligere at have med at gøre end de øvrige. Det skyldes primært en psykologisk mekanisme: den eneste måde man kan se forskel på uoppustede balloner på, er ved hjælp af deres farve. Men selv om forestillingen skyldes en psykologisk mekanisme, kan den jo godt være rigtig! Obs Farve Tid Obs Farve Tid Obs Farve Tid 1 rød blå blå orange blå gul rød blå gul blå orange blå orange rød gul gul gul orange gul rød orange gul blå rød orange orange rød rød rød orange gul blå 14.0 Tabel 12.1: Data fra balloneksperimentet i eksempel Tidskolonnen angiver hvor mange sekunder det tog at puste en ballon op til en given diameter. For at undersøge dette forhold empirisk, har to studerende udført et eksperiment. Fra en pose balloner blev otte balloner i hver af fire farver udvalgt. Den ene studerende pustede ballonerne op en for en, indtil de havde en diameter på 18 cm - det blev registreret ved at ballonen rørte begge sider af en trækasse. Den anden student registrerede den tid oppustningen tog i sekunder med en nøjagtighed på 1/10 sekund. Forsøget blev gennemført efter en randomiseret forsøgsplan. Resultatet er angivet i tabel Observationerne er tegnet op i figur 12.1.

11 12.2. Etsidet variansanalyse 445 Tid blå gul orange rød Farve Figur 12.1: Oppustningstider for balloner fra tabel 12.1, delt op efter ballonens farve. Vi opfatter eksperimentet som en etsidet variansanalyse med en farve-faktor F med fire grupper. Vi finder følgende summariske størrelser: blå gul orange rød Gruppestørrelse Gruppesum Gruppesnit Under hypotesen om farven ingen betydning har, er der kun en gruppe, med gruppesum Vi finder at X 2 = , P F X 2 = , P 1 X 2 = Dermed er F-teststørrelsen for hypotesen om ingen farveeffekt F = ( P FX 2 P 1 X 2 )/3 ( X 2 P F X 2 )/28 = Det er 98% fraktilen i en F-fordeling med (3, 28) frihedsgrader. Vi er derfor tilbøjelige til at forkaste hypotesen om at farverne skulle være ens. Og eksperimentet har derfor videnskabeligt dokumenteret vores børnelærdom om at visse farver balloner er vanskeligere at puste op end andre.

12 446 Kapitel 12. Faktorforsøg Hvis man tester for homogenitet mellem grupperne i en etsidet variansanalyse, og må forkaste hypotesen om at grupperne er ens, hvad kan man så konkludere? Ja, man kan naturligvis konkludere at grupperne er forskellige, men det svar er nok lidt for diffust til at være tilfredsstillende - man vil være interesseret i at vide hvilke af grupperne, der er forskellige. Man refererer gerne til undersøgelser af hvad en konstateret forskel egentlig består i, som multiple comparisons eller som post-hoc test. Det er meget vanskeligt at gennemføre en sådan analyse uden logiske brist - man risikerer nemt at konkludere at mellemgrupper kan være lig med den ene ekstrem eller den anden ekstrem, men eftersom ekstremerne er konstaterbart forskellige, kan begge konklusioner ikke være rigtige. Et fornuftigt startpunkt for undersøgelsen er som regel at finde de marginale konfidensområder for hvert gruppeparameter. Det følger af (10.43) at et (1 δ)- konfidensområde for α j er ( αˆ j z δ σ 2 n F ( j), αˆ z δ σ j + 2 ), n F ( j) hvor z δ er (1 δ)-fraktilen for F-fordelingen med ( F 1, I F ) frihedsgrader. Hvis to grupperparametre har konfidensområder, der ikke overlapper, kan man føle sig sikker på at de to gruppeparametre vitterligt er forskellige. Faktisk skal de to konfidensområder have et betydeligt overlap, hvis ikke denne konklusion skal kunne opretholdes. Præcis hvor meget de skal overlappe, er ikke så nemt at svare på. Der er udviklet en række formelle post-hoc test, men de lider typisk af den skavank at de er meget sårbare overfor afvigelser fra normalfordelingsantagelsen. Eksempel 12.8 Vi konkluderede i eksempel 12.7, at der er forskel på hvor vanskeligt det er at puste balloner op, alt efter hvilken farve ballonerne har. Men det interessante spørgsmål, det øjeblikkeligt rejser sig, er naturligvis hvilke farver balloner, der er vanskeligst at puste op? På figur 12.2 har vi optegnet konfidensintervallerne for de fire gruppeparametre. Det fremgår tydeligt af figur 12.2, at når der er forskel, så må det i hvert fald gælde at de gule er værre end de blå og de røde. Det er ikke så klart hvordan det forholder sig med de orange: gruppegennemsnittet er af samme størrelsesorden som det gule gennemsnit, men konklusionen er ikke så klar ud fra tegningen.

13 12.2. Etsidet variansanalyse 447 Tid blå gul orange rød Farve Figur 12.2: Oppustningstider for balloner fra tabel 12.1, delt op efter ballonens farve, med tilhørende konfidensintervaller for gruppemiddelværdierne. Selve tiderne er tegnet op med et ikke alt for dominerende plotsymbol. Hvis man i et designet eksperiment har k grupper, og vil udføre m målinger i hver gruppe, vil man ikke gennemføre eksperimentet på den måde at man først tager m målinger på gruppe 1, dernæst m målinger på gruppe 2 etc. Typisk sker der nemlig det at de eksperimentelle omstændigheder ændrer sig i løbet af den tid det tager at udføre det samlede eksperiment. Måske afhænger måleresultatet en anelse af lysmængden, og hvis de sidste målinger tages sent om aftenen, får de systematisk lavere værdi en de første målinger, der blev taget tidligt om morgenen. Hvis grupperne i virkeligheden er ens, kan man på den måde skabe en kunstig forskel. Eller lige så slemt, hvis grupperne i virkeligheden er forskellige, kan en systematisk forskel i eksperimentelle omstændigheder skjule dette. Så man skal altså blande grupperne, så målingerne tages på skift mellem grupperne. Men det er heller ikke nogen god ide at lave en simpel rotation mellem grupperne - på den måde kan man meget vel få skabt systematiske forskelle uden at vide det. Derfor forsøger man som regel at tage målingerne hulter til bulter, man randomiserer gruppetildelingen. Man starter typisk med at nummerere de tænkte observationer fortløbende. Så trækker man en tilfældig permutation τ. Observationerne τ(1),..., τ(m)

14 448 Kapitel 12. Faktorforsøg udgør så første gruppe, dvs. at disse patienter tildeles behandling nr. 1 (eller hvad eksperimentet nu går ud på), observationerne τ(m + 1),..., τ(2m) udgør anden gruppe, og tildeles derfor behandling nr. 2, og så videre. Har man lavet en sådan randomiseret observationsplan, er det vigtigt at man holder fast i den med næb og klør, og ikke begynder at ændre i den undervejs i eksperimentet. Kan man holde det, kan man til gengæld føle sig relativt sikker på at eksperimentets konklusioner ikke kan henføres til systematiske, omend uobserverede, eksperimentelle forskelle. I medicinske sammenhænge kan der være endnu en grund til randomiseringen. Her vil måleresultaterne ofte afhænge af de implicerede personers forventninger. Dette kaldes placebo effekten. En patient der får den nyeste nye behandling vil ofte have meget stor tillid til at behandlingen virker, og denne tillid kan have dramatiske effekter på behandlingsresultatet! Placebo effekten på lægen er ofte lige så dramatisk, om end indirekte: lægens forventning smitter af på patienten. For at undgå disse fænomener har man udviklet paradigmet om det dobbeltblinde forsøg, hvor randomiseringen foretages af en person, der hverken er direkte involveret i forsøgets udførelse eller deltager i analysen af forsøget, og hvor behandlingerne gives helt abstrakte labels som A, B, etc., så ingen kan gennemskue hvilke patienter, der får hvilken behandling. Først når forsøget er udført og data analyseret, brydes den forseglede forsøgsplan, og alle kan se hvilke behandlinger der gemte sig bag de abstrakte labels. Eksempel 12.9 Ballonoppustningerne i eksempel 12.7 blev gennemført efter en omhyggeligt randomiseret forsøgsplan. Og det var faktisk heldigt. Ved en omhyggeligt udført modelkontrol, dukker der nemlig et ganske morsomt fænomen op. På figur 12.3 har vi optegnet de standardiserede residualer, ikke mod de fittede værdier, men mod observationsnummeret, hvilket i praksis vil sige mod tiden. Vi observerer en klart faldende tendens. Hvilket betyder at den person, der puster ballonerne op, simpelthen puster hårdere til, efterhånden som eksperimentet skrider frem. Så den etsidede variansanalysemodel er faktisk ikke en helt præcis beskrivelse af observationerne. Hvis forsøget var gennemført på den måde, at der først var blevet pustet 8 røde balloner op, så 8 blå, så 8 orange og så 8 gule, så ville ballonernes egenskaber gøre at oppustningen gik langsommere og langsommere, mens oppusteren vil sørge for at

15 12.2. Etsidet variansanalyse 449 Standardiserede residualer Observationsnummer Standardiserede residualer Standard normalfordeling Figur 12.3: Et plot af de standardiserede residualer mod observationsnummeret for data fra tabel 12.1, og et QQ-plot af de standardiserede residualer mod en normalfordeling. det gik hurtigere og hurtigere. Det er ikke nemt at vide hvad man ville ende med at konkludere, men det kunne muligvis gå så galt, at man kom til at konkludere at de røde balloner er de sværeste at puste op. Randomiseringen redder hele eksperimentet, fordi de forskellige farver balloner er jævnt fordelt hen igennem forsøgsserien. I dette tilfælde har vi registreret observationsnummeret, og kan faktisk analysere materialet i en udvidet model, der inddrager tiden. Konklusionen om at der er forskel på ballonerne, alt efter farve, opretholdes faktisk i denne ramme tiden som forklarende variable - konfidensintervallerne for gruppeparametrene bliver nogenlunde uændrede. En lang række andre forhold under eksperimentet er derimod ikke blevet registreret. Måske har radioen været tændt undervejs, og oppusteren har pustet i takt til musikken - i så fald vil der jo være forskel på om der bliver spillet hurtige eller langsomme numre. Måske betyder temperaturforholdene i lokalet noget. Måske, måske, måske... Det er aldrig til at vide, hvad der betyder noget. Randomiseringen beskytter i meget høj grad mod fejlkonklusioner, der kunne drages fordi man har undladt at registrere en kovariat, der har betydning for eksperimentet.

16 450 Kapitel 12. Faktorforsøg 12.3 Tosidet variansanalyse I mange situationer har man to faktorer, eller måske endda flere. Nogle gange er det en del af undersøgelsens design, at man ønsker at variere på to eksperimentelle forhold på en gang. I andre situationer er ens interesse rettet mod en enkelt faktor, men måden eksperimentet udføres på, påtvinger en flere faktorer. Hvis man har to faktorer - og iøvrigt analyserer sine data ved hjælp af en lineær normal model - taler man om en tosidet variansanalyse. Eksempel I et dyrkningsforsøg med tomater, gennemført i det vestlige Nigeria, har man undersøgt udbyttet af forskellige tomatsorter. Udover valget af tomatsort, har forsøget været rettet mod at finde ud af hvilken effekt tilplantningstætheden har på udbyttet. Data er anført i tabel kpla/ha 20 kpla/ha 30 kpla/ha 40 kpla/ha Harvester Ife No Pusa Early Dwarf Tabel 12.2: Resultat af dyrkningsforsøg med tomater. Der indgår tre tomatsorter i forsøget (med produktionsnavnene Harvester, Pusa Early Dwarf og Ife No. 1), og fire dyrkningstætheder. Enheden kpla/ha betyder kilo planter per hektar, så de faktiske dyrkningstætheder i forsøget er henholdvis , , og planter per hektar. Responsen er udbyttet, opgjort i tons per hektar. På figur 12.4 har vi optegnet observationerne mod dyrkningstætheden. Vi har brugt forskellige plotsymboler for at skelne målingerne hørende til de forskellige tomatsorter. Man ser et mønster, hvor observationerne for sorten Pusa Early Dwarf systematisk ligger over observationerne for de øvrige sorter. Man ser endvidere at dyrkningstætheden har en såkaldt U-effekt: jo tættere man dyrker planterne, jo større udbytte får man per areal - indtil et vist punkt, hvor planterne kommer til at stå så tæt, at de tilsyneladende ødelægger det for hinanden.

17 12.3. Tosidet variansanalyse 451 Udbytte Harvester Ife Pusa Tæthed Figur 12.4: Dyrkningsresultater for tomatdyrkningsforsøget i tabel Det er meget almindeligt indenfor de eksperimentelle fag, at man er interesseret i flere forholds indvirkning på en respons. Man kunne gennemføre flere deleksperimenter, hvor man i hvert enkelt deleksperiment kun varierede på en enkelt faktor. Men erfaring viser at man får mere ud af at variere alle faktorer på en gang - man får mere information ved færre deleksperimenter. I dette tilfælde kunne man have vurderet dyrkningstæthedens effekt, ved kun at involvere en enkelt tomatsort i eksperimentet. Og man kunne i et andet eksperiment have vurderet tomatsortens effekt, ved at holde dyrkningstætheden konstant. Men det udførte eksperiment er bedre, fordi det giver os mulighed for at undersøge om dyrkningstætheden har samme effekt på de forskellige tomatsorter. Det kunne jo være at vise af sorterne kunne bære en væsentlig tættere tilplanting end andre. Og derfor kunne man, på baggrund af forsøg, hvor man kun ændrer et forhold ad gangen, risikere at komme med vildledende anbefalinger af hvordan de nigerianske landmænd burde dyrke deres tomater. For disse tomatdata kunne man måske nok overveje at stille en kompliceret regressionsmodel op. Man kunne for eksempel forsøge sig med en separat kvadratisk regression for hver tomatsort for sig, hvor dyrkningstætheden skulle være kovariaten. Men der er meget få kovariatværdier, så om det virkelig er et andengradspolynomium

18 452 Kapitel 12. Faktorforsøg man skal have fat i, er ikke særlig klart. Derfor vil man typisk vælge at betragte dyrkningstætheden som en art kvalitativ variabel, hvor de præcise værdier skal opfattes som videnskabeligt udseende udstafferinger af de løse labels meget åben, åben, tæt og meget tæt. Det vil sige at vi betragter dyrkningstætheden som en faktor, på lige fod med tomatsorten. Eksempel En vigtig kvalitet af byggematerialer, er deres evne til at holde vand ude. Man taler om materialernes permeabilitet. I et eksperiment har man undersøgt hvor lang tid, det tager vand at trænge igennem nogle plader. Pladerne er fremstillet på forskellige maskiner, men burde i øvrigt være ens - maskinerne fik råvarer fra samme parti. Eksperimentet er gennemført på den måde, at man hver eksperimentdag har undersøgt tre plader fra hver af tre faste maskiner. Data er anført i tabel Dag 1 Dag 2 Dag 3 Dag 4 Dag 5 Dag Maskine A Maskine B Maskine C Tabel 12.3: Permeabilitetsmålinger af byggeplader. Responsen er titalslogaritmen til gennemtrængningstiden, målt i sekunder. Hver måling repræsenterer et gennemsnit af målinger otte forskellige steder på pladen. Disse måleresultater er optegnet i figur Det er svært at se noget klart mønster, bortset fra at målingerne fra Maskine B kan se ud til at ligge lidt lavere en målingerne fra de to andre maskiner. Det kunne også godt se ud til at der er en vis forskel på niveauet fra dag til dag, men det er ikke til at sige med sikkerhed. Målet med eksperimentet er at få en fornemmelse for den generelle permeabilitet af de producerede plader, og en ide om variabiliteten. Mere specifikt ønsker man at sammenligne maskinerne, for at finde ud af hvor de mindst gennemtrængelige plader produceres. Dels kan man jo prøve at sikre at den maskine producerer så meget som muligt, dels kan man undersøge hvordan den adskiller sig fra de andre, og dermed

19 12.3. Tosidet variansanalyse 453 Permeabilitet Maskine A Maskine B Maskine C Dag1 Dag2 Dag3 Dag4 Dag5 Dag6 Figur 12.5: Permeabilitetsresultater for forsøget i tabel få en ide om hvorvidt der kan justeres noget. Maskinen er således en oplagt faktor i forsøget, og det er den faktor som forsøget retter sig mod. Der er derimod ingen der forestiller sig at mandage skulle være anderledes end tirsdage, så når vi involverer en dagsfaktor i beskrivelsen, skal det tages med et gran salt. Men man må indse at dage er forskellige! I dette eksperiment vil permeabiliteten formentlig afhænge af temperatur og luftfugtighed - jo mere vand, der er i luften, jo mere vand er der i pladen, allerede før eksperimentet begynder, og jo hurtigere vil vandet strømme igennem. Man kan sikkert forestille sig andre fysiske forhold, som er svære at kontrollere, og som påvirker forsøget. Dagsfaktoren skal opfattes som en bekvem måde at tale om disse ukontrollerede forhold på. Hvis man kunne gennemføre hele eksperimentet i et hug, sådan at temperatur, luftfugtighed og så videre, ikke ændrede sig i løbet af eksperimentet, så var der ikke nogen grund til at tage sig af disse skjulte forhold: de ville nok påvirke målingerne, men de ville påvirke alle målingerne på samme måde. Men når eksperimentet udstrækkes over mange dage, er man bedst tjent med at inddrage ændringerne i omgivelserne i beskrivelsen på en eller anden måde.

20 454 Kapitel 12. Faktorforsøg I eksempel var der to interessefaktorer, der optrådte symmetrisk. I eksempel var der en interessefaktor, og en faktor, vi blev påtvunget, fordi alle deleksperimenterne ikke kunne gennemføres under samme fysiske omstændigheder. Denne type faktor omtales gerne som en blokfaktor, og optræder i mangfoldige sammenhænge. Hvis man i balloneksemplet, eksempel 12.7, havde ladet forskellige mennesker puste et antal balloner op, så ville man blokke målingerne efter de forskellige personer, for at tage højde for at nogen mennesker har stor lungekapacitet, andre har mindre. I dyrkningsforsøg, hvor man involverer mange marker, må man tage højde for at markerne har forskellig bonitet. Det gør man ved at dele hver mark op i flere lige store dele (i landbrugsforsøgsbranchen kaldet plots), sådan at man kan komme til at dyrke flere forskellige sorter (eller hvad det nu kan være) på samme mark. Udbytteresultaterne blokkes så efter hvilken mark de stammer fra. Og så videre - man forsøger at blokke sig udenom enhver form for ukontrolleret biologisk eller teknisk variabilitet, der indgår i forsøget. Så lad os analysere en situation med to faktorer, b : I B og t : I T. Man kan tænke på en situation hvor T står for treatment, altså de mulige behandlinger, svarende til en interessefaktor, mens B står for block, altså en blokfaktor. Men om faktorerne har netop denne karakter, kan for så vidt være lige meget - der kunne lige så vel være tale om to interessefaktorer eller (lidt sjældnere) to blokfaktorer. Det er naturligt at konstruere en ny faktor, den såkaldte produktfaktor, ved at krydsklassificere efter de to inddelingskriterier. Produktfaktoren er b t : I B T, givet ved b t(i) = (b(i), t(i)) i I. Selv om både B og T er surjektive, behøver produktfaktoren ikke at være surjektiv - det er ikke givet at alle kombinationer af block og treatment forekommer i praksis. I eksempel kunne man f.eks. forestille sig, at der kun blev undersøgt plader fra to maskiner hver dag. Nogle dage var det fra maskine A og B, andre dage fra A og C, og atter andre dage fra B og C. I så fald ville produktfaktoren MASKINE DAG ikke antage alle de 18 mulige værdier, men kun 12. Den etsidede variansanalyse svarende til B T siger at hver kombination af B og T har sin egen middelværdiparameter. Denne model indeholder tydeligvis de to etsidede variansanalysemodeller svarende til B og T. Men det er muligt at danne en mellemhypotese, svarende til middelværdiunderrummet L B + L T. Skrevet ud i koor-

21 12.3. Tosidet variansanalyse 455 dinater er hypotesen H B+T : ξ i = α b(i) + β t(i) for alle i I for passende vektorer (α j ) j B og (β k ) k T. Vi kalder dette for den additive hypotese, eller hypotesen om ingen vekselvirkning mellem B og T. Som regel skrives den blot B + T. Hypotesen fortæller at der potentielt er en effekt af T, men at effekten ikke afhænger af B-niveauet. Derfor kan effekten virkelig forstås som en T-effekt. Dette i modsætning til B T, hvor det er kombinationen af B og T der har en effekt. Tilsvarende er der potentielt en effekt af B, og denne effekt afhænger ikke af T- niveauet. Disse forhold er illustreret skematisk på figur Ingen vekselvirkning Vekselvirkning Treat = 3 Treat = 3 Middelværdi Treat = 2 Treat = 1 Middelværdi Treat = 2 Treat = 1 A B C Block A B C Block Figur 12.6: Skematisk illustration af vekselvirkning mellem to faktorer. På tegningen til venstre er der ingen vekselvirkning mellem block og treatment. Uanset hvilken blok vi ser på, ligger treatmentgrupperne i samme rækkefølge, og med samme afstand i mellem sig. Vi kan derfor tale om at niveau 2 for treatment er så og så meget bedre end niveau 1, for dette forhold går igen fra blok til blok. Forholdene er langt mere komplicerede på tegningen til højre, hvor der i visse blokke slet ikke er nogen forskel på de forskellige treatmentniveauer, og i andre blokke meget store forskelle. Vi har følgende ordning af de indførte middelværdiunderrum: L B R I L B T L B + L T L 1. L T De forskellige hypoteser afledt heraf kan nu testes mod hinanden. Som regel er B + T den mest spændende model. Hvis man tester B + T mod B T, og får den forkastet, er man lidt på herrens mark, i hvert fald fortolkningsmæssigt. Man taler da om at der er vekselvirkning mellem B og T, og man kan da ikke beskrive effekten af disse faktorer hver for sig.

22 456 Kapitel 12. Faktorforsøg En grafisk undersøgelse af, om der er vekselvirkning mellem to faktorer, kan udføres forholdsvist overskueligt, ved hjælp af et vekselvirkningsplot. Man gennemfører en etsidet variansanalyse udfra produktfaktoren. Estimaterne for gruppemiddelværdierne tegnes op mod den ene faktor, mens de forskellige punkter, der hører til samme værdi af den anden faktor, forbindes med en streg. Eksempel Et vekselvirkningsplot af observationerne fra eksempel 12.10, ser ud som i figur Vi ser tre nogenlunde parallelle linier, hvilket vi fortolker på den måde at der ikke er vekselvirkning mellem dyrkningstæthed og tomatsort: de forskellige tomatsorter er lige følsomme overfor overplantning. Udbytte Harvester Ife Pusa Tæthed Figur 12.7: Et vekselvirkningsplot af parameterestimaterne i den etsidede variansanalyse ud fra produktfaktoren Sort Tæthed, ud fra data i tabel Ofte er der kun en observation per B T-kombination. I så fald er R I = L B T, og man er nødt til at analysere med udgangspunkt i B + T. Hvad enten man starter i B + T eller er kommet dertil fra B T, kan man ud fra B + T undersøge om der overhovedet er en T-effekt ved at teste B-hypotesen op mod B + T. For i praksis at kunne arbejde med hypotesen om ingen vekselvirkning, skal man kunne finde dels dimensionen af L B + L T og dels ortogonalprojektionen P B+T ned i L B + L T. Det er ikke så nemt, for i modsætning til produkthypotesen er den additive hypotese ikke blot endnu en etsidet variansanalyse i forklædning.

23 12.3. Tosidet variansanalyse 457 Vanskelighederne skal forstås på det rigtige niveau. Vi kender et frembringersystem for L B (givet gennem designmatricen A B ) og vi kender et frembringersystem for L T. Det er en smal sag at producere et frembringersystem for L B + L T, ved blot at lime de to frembringersystemer sammen i et sæt. Som vi skal se, vil vektorerne i dette sammensatte system altid være lineært afhængige, og der skal derfor slettes et antal vektorer, før man har en basis for L B + L T. Så første praktiske problem er at finde ud af hvor mange vektorer der skal slettes, dvs. at finde dimensionen af L B + L T. Dernæst skal man finde ud af hvilke vektorer der skal slettes. Kan man svare på disse spørgsmål, så kan man opstille en designmatrix for L B + L T, og så kan projektioner og den slags beregnes ud fra korollar 10.20, i hvert fald numerisk. I denne sammenhæng er vores ambitionsniveau en smule højere: vi ønsker at finde konkrete formeludtryk for dim L B +L T og P B+T. Projektionen ned på L B +L T er vi kun i stand til at finde i visse situationer, som vi skal se i næste afsnit, og selv dimensionen af L B + L T volder problemer. Det er en elementær øvelse i lineær algebra at se at dim L B + L T = dim L B + dim L T dim(l B L T ), (12.10) men nissen flytter med, for det er heller ikke nemt at finde dimensionen af fællesmængden L B L T. Definition Designgrafen for de to faktorer B og T (som begge antages surjektive) er en graf hvor punkterne svarer dels til labels i B og dels til labels i T. For hver observation i I afsættes en kant mellem hjørnerne b(i) og t(i). To punkter i B er aldrig direkte forbundne i designgrafen, to punkter i T er heller aldrig direkte forbundne. Et punkt j B og k T er forbundne hvis og kun hvis n B T ( j, k) > 0. I nogle tilfælde kan det være nyttigt at tilføje observationsindices på grafen: kanterne i grafen svarer til B T-grupper, så hver observation hører naturligt til præcis en kant. Eksempel Vi ønsker at afprøve fire forskellige gødningstyper. Disse gødningstyper opfattes som behandlinger, og udstyres med de abstrakte labels A, B, C og D. Til forsøget har vi fire forskellige marker til rådighed. Af praktiske grunde kan disse marker kun deles op i to plots hver, så vi kan kun gøre otte forskellige observationer. I særdeleshed er der ikke mulighed for at undersøge alle kombinationer af mark og behandling.

24 458 Kapitel 12. Faktorforsøg Vi kan vælge et simpelt design, hvor behandling A og B bruges både på mark 1 og 2, mens behandling C og D bruges både på mark 3 og 4. Vi kan også vælge et cyklisk design, hvor behandling A og B bruges på mark 1, B og C bruges på mark 2, C og D bruges på mark 3, og D og A bruges på mark 4. Designgraferne for disse to strategier PSfrag replacements er optegnet i figur A 1 A 2 B 2 B 3 C 3 C 4 D 4 D Behandling Mark Behandling Mark Behandling Figur 12.8: Designgraf for to designs fra eksempel 12.14, hvor fire behandlinger afprøves på fire blokke, men sådan at kun to behandlinger kan afprøves på hver blok. Den kvalitative forskel på designgraferne i figur 12.8 spiller en stor rolle for hvad man overhovedet kan få ud af eksperimentet. Det simple design lader os muligvis konkludere at behandling A er bedre end behandling B, men det tillader os ikke at sammenligne behandling A og behandling C. En forskel mellem A-målingerne og C-målingerne kan være en ægte forskel mellem de to behandlinger - eller det kan være et udtryk for at mark 1 og 2 er anderledes end mark 3 og 4. Vi taler om en confounding mellem behandlingseffekt og blokeffekt, når de på denne måde skygger for hinanden. Det cykliske design lider ikke af tilsvarende confoundingdefekter. Definition To faktorer B og T udgør et sammenhængende design hvis designgrafen er sammenhængende, altså hvis der for to vilkårlige hjørner i grafen er en sti der forbinder dem. Hvis vi ser på designgraferne i figur 12.8, er det klart at det simple design til venstre ikke er sammenhængende, mens det cykliske design til højre er sammenhængende. Som regel opstår usammenhængende designs fordi praktiske forhold ikke tillader en

25 12.3. Tosidet variansanalyse 459 opdeling af blokkene i vilkårligt små plots. I så fald skal man tænke sig om, for at undgå confounding. Men som vi skal se kan der også være mere fundamentale forhold på spil, hvor konstruktioner udfra givne faktorer, fører til nye faktorer - og et par af sådanne konstruerede faktorer kan godt have et usammenhængende design, uden at det er et udtryk for dårlig forsøgsplanlægning. Lemma Hvis B og T udgør et sammenhængende design, så er L B L T = L 1. BEVIS: Det er klart at L 1 L B L T, det er den modsatte inklusion der er interessant. Så lad (x i ) i I L B L T. Vi siger at to observationer i, i I er naboer, hvis b(i) = b(i ) eller hvis t(i) = t(i ) (gerne begge dele). Hvis b(i) = b(i ) ser vi da (x i ) i I L B at x i = x i. Tilsvarende, hvis t(i) = t(i ) ser vi da (x i ) i I L T at x i = x i. Vi konkluderer altså at hvis i og i er naboer, så er x i = x i. Når designet er sammenhængende, kan vi for to vilkårlige observationer i, i I finde en følge af observationer i 1,..., i k I, så i 1 = i og i k = i, og så i j og i j+1 er naboer for hvert j = 1,..., k 1. Vi konkluderer at x i1 = x i2, at x i2 = x i3 og så videre, og derfor må x i = x i. Konklusionen er at samtlige koordinater i x-vektoren er ens, altså ligger x i L 1. Som et umiddelbart korollar heraf, får vi at hvis de to surjektive faktorer B og T udgør et sammenhængende design, så er dim L B + L T = dim L B + dim L T 1. (12.11) Uden antagelsen om sammenhængende design er denne påstand forkert - ved at elaborere på beviset for ovenstående lemma kan man indse at der generelt gælder at dim L B + L T = dim L B + dim L T s, (12.12) hvor s er antallet af sammenhængskomponenter i designgrafen.

26 460 Kapitel 12. Faktorforsøg 12.4 Tosidet variansanalyse med ortogonale faktorer Vi siger at to faktorer b : I B og t : I T er geometrisk ortogonale hvis de tilhørende underrum L B og L T er geometrisk ortogonale, se definition Hvis de to faktorer udgør et sammenhængende design, og hvis de er geometrisk ortogonale, tillader lemma og korollar os at udregne projektionen ned på L B + L T som P B+T = P B + P T P 1, (12.13) og længden af projektionen kan udregnes som P B+T X 2 = P B X 2 + P T X 2 P 1 X 2. (12.14) Det vil sige at den additive model kan analyseres ved at gennemføre de to etsidede variansanalyser ud fra henholdvis B og T, og kombinere resultaterne på passende vis. Men det gælder vel og mærke kun hvis vi ved at de to faktorer har et pænt forhold til hinanden. Lemma To faktorer b : I B og t : I T, der udgør et sammenhængende design, er geometrisk ortogonale hvis og kun hvis antalstabellen for produktfaktoren b t opfylder balanceligningen n B T ( j, k) = n B( j) n T (k) I for alle j B, k T. (12.15) BEVIS: Vi viser at (12.15) er ækvivalent med at P B P T = P 1. Det følger fra (12.8) at P B repræsenteres af matricen (a i i ) i,i I givet ved a i i = 1 n B (b(i)) δ b(i),b(i ) for alle i, i I. Tilsvarende er P T repræsenteret af matricen (b i i ) i,i I givet ved b i i = 1 n T (t(i )) δ t(i),t(i ) for alle i, i I. Så sammensætningen P B P T er repræsenteret af en matrix (c i i ) i,i I givet ved c i i = a i i b i i = 1 n B (b(i)) n T (t(i δ b(i),b(i )) ) δ t(i ),t(i ) i I = n B T (b(i), t(i )) n B (b(i)) n T (t(i )). i I

27 12.4. Tosidet variansanalyse med ortogonale faktorer 461 Noget nemmere er det at gøre rede for at P 1 repræsenteres af en matrix (d ik ) i I,k I givet ved d ii = 1 I. Afbildningerne P B P T og P 1 er ens hvis og kun hvis de repræsenteres af samme matrix, altså hvis og kun hvis n B T (b(i), t(i )) n B (b(i)) n T (t(i )) = 1 I for alle i, i I. (12.16) Eftersom designet er sammenhængende, kan der ikke være isolerede hjørner i designgrafen. Specielt må både B og T være surjektive. Når i, i gennemløber hele I, vil (b(i), t(i )) således gennemløbe hele B T. Og derfor er (12.16) ækvivalent med n B T ( j, k) n B ( j) n T (k) = 1 I for alle j B, k T. (12.17) Og denne ligning er igen ækvivalent med (12.15). Bemærk i øvrigt at hvis at hvis B og T er surjektive og opfylder balanceligningen (12.15), så må designet være sammenhængende. Endda på en ret skarp måde, for der kan ikke være nuller i antalstabellen, alle antal er positive. I designgrafen må alle B-punkter derfor være forbundet med alle T-punkter. Vi skal i sætning angive et mere generelt resultat, der kan afgøre om to faktorer er geometrisk ortogonale, også selv om designet er usammenhængende. Også den betingelse udtrykkes i termer af antalstabellen for B T. Eksempel De to faktorer B og T udgør et balanceret design hvis alle B T- grupper har lige mange elementer m. I så fald er n B T ( j, k) = m, n B ( j) = T m, n T (k) = B m, I = B T m. Man checker let efter at balanceligningen (12.15) er opfyldt for et balanceret design. Eksempel Et eksempel på to faktorer B og T, der ikke udgør et balanceret design, men som alligevel er geometrisk ortogonale, fås ved at betragte følgende antalstabel:

28 462 Kapitel 12. Faktorforsøg T = 1 T = 2 B = B = Sprogbrugen er lidt forvirrende: man kunne godt tro at et balanceret design er et design der opfylder balanceligningen. Men ordene har vundet hævd på en lidt anden måde: kravene til et balanceret design er stærkere end blot at det skal opfylde (12.15). Eksempel Lad os gennemføre den tosidede variansanalyse for tomateksemplet, eksempel Resultaterne af de fem oplagte etsidede variansanalyser er opsummeret i tabel 12.4, i et såkaldt variansanalyseskema. F P F X 2 dim L F I Sort Tæthed Sort Tæthed Tabel 12.4: Variansanalysetabel for data fra tabel Vekselvirkningsplottet viser tre nogenlunde parallelle kurver. Der er derfor grund til at tro at på at den additive model beskriver data. Da designet er balanceret, kan vi uden videre bruge formel (12.14) og finder at P Sort+Tæthed X 2 = P Sort X 2 + P Tæthed X 2 P 1 X Og dimensionen af L Sort+Tæthed er = 6. Det volder herefter ingen problemer at konstruere F-teststørrelser for de test vi måtte være interesseret i. Et test af den additive hypotese mod vekselvirkningsmodelen Sort Tæthed får en F-størrelse på 0.91, hvilket er 49%-fraktil i den relevante F-fordeling (med (6, 20) frihedsgrader). Den additive hypotese accepteres således uden problemer, med en p-værdi på 51%. Tester man hypoteser om ingen sorteffekt, henholdsvis ingen tæthedseffekt, mod den additive hypoteser, bliver hypoteserne forkastet med flyvende faner. Hvilket er i god

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels.

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels. Faktorforsøg Antag at X i, i I, er uafhængige reelle variable og at X i N (ξ i, σ 2 ) for alle i I En faktor er en afbildning f : I F hvor F er en mængde af labels. En faktor deler observationerne ind

Læs mere

Tofaktorforsøg. Kapitel 13

Tofaktorforsøg. Kapitel 13 Kapitel 13 Tofaktorforsøg Det er meget almindeligt inden for de eksperimentelle fag, at man er interesseret i flere forholds indvirkning på en respons. En simpel tilgang til problemet kan beskrives som

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Additive hypoteser i flerfaktorforsøg

Additive hypoteser i flerfaktorforsøg Additive hypoteser i flerfaktorforsøg Et design er et system af faktorer, G = {G 1,...,G m } Hertil hører et underrum af R I og en hypotese L G = m L Gi, i=1 H G : ξ L G Udfordring: Forstå hvad udsagnet

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m Fejlstrata Vi forestiller os at V har 1) Et underrum L 2) Et indre produkt, 3) En ortogonal dekomposition V = W 1 +... + W m Underrummene W i kaldes fejlstrata. Typisk eksempel på en fejlstratumdekomposition:

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Statistik Obligatorisk opgave

Statistik Obligatorisk opgave 13. maj 2008 Stat 2 / EH Statistik 2 2008 Obligatorisk opgave Formelle forhold: Opgaven stilles tirsdag d. 13. maj 2008. Rapporten skal afleveres til mig personligt. Afleveringsfristen er mandag d. 2.

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Module 1: Lineære modeller og lineær algebra

Module 1: Lineære modeller og lineær algebra Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2 Affine rum I denne note behandles kun rum over R. Alt kan imidlertid gennemføres på samme måde over C eller ethvert andet legeme. Et underrum U R n er karakteriseret ved at det er en delmængde som er lukket

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Andengradsligninger. Frank Nasser. 12. april 2011

Andengradsligninger. Frank Nasser. 12. april 2011 Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning Chapter 3 Modulpakke 3: Egenværdier 3.1 Indledning En vektor v har som bekendt både størrelse og retning. Hvis man ganger vektoren fra højre på en kvadratisk matrix A bliver resultatet en ny vektor. Hvis

Læs mere

Elementær Matematik. Mængder og udsagn

Elementær Matematik. Mængder og udsagn Elementær Matematik Mængder og udsagn Ole Witt-Hansen 2011 Indhold 1. Mængder...1 1.1 Intervaller...4 2. Matematisk Logik. Udsagnslogik...5 3. Åbne udsagn...9 Mængder og Udsagn 1 1. Mængder En mængde er

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Anvendt Lineær Algebra

Anvendt Lineær Algebra Anvendt Lineær Algebra Kursusgang 3 Anita Abildgaard Sillasen Institut for Matematiske Fag AAS (I17) Anvendt Lineær Algebra 1 / 38 Vi betragter et lineært ligningssystem (af m ligninger med n ubekendte)

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Introduktion til differentialregning 1. Jens Siegstad og Annegrethe Bak

Introduktion til differentialregning 1. Jens Siegstad og Annegrethe Bak Introduktion til differentialregning 1 Jens Siegstad og Annegrete Bak 16. juli 2008 1 Indledning I denne note vil vi kort introduktion til differentilregning, idet vi skal bruge teorien i et emne, Matematisk

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

LiA 2 Side 0. Lineær algebra 3. kursusgang

LiA 2 Side 0. Lineær algebra 3. kursusgang LiA 2 Side 0 Lineær algebra 3. kursusgang LiA 2 Side 1 Højdeforskelle. D C 0.7 0.7 0.8 E LiA 2 Side 2 Vi har tre punkter C, D og E. Højderne er h C, h D, h E. (I det følgende benævnes disse også x, y,

Læs mere

Designteori. Kapitel 1

Designteori. Kapitel 1 Kapitel 1 Designteori Et forvirrende aspekt ved den behandling vi har givet sætningen om ortogonal dekomposition, er at sætningen indeholder ganske meget dyb matematik, men alligevel er underligt irrelevant

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Andengradsligninger. Frank Nasser. 11. juli 2011

Andengradsligninger. Frank Nasser. 11. juli 2011 Andengradsligninger Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Vinkelrette linjer. Frank Villa. 4. november 2014

Vinkelrette linjer. Frank Villa. 4. november 2014 Vinkelrette linjer Frank Villa 4. november 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere