Designteori. Kapitel 1

Størrelse: px
Starte visningen fra side:

Download "Designteori. Kapitel 1"

Transkript

1 Kapitel 1 Designteori Et forvirrende aspekt ved den behandling vi har givet sætningen om ortogonal dekomposition, er at sætningen indeholder ganske meget dyb matematik, men alligevel er underligt irrelevant i praksis. Sætningen fortæller at man ved håndkraft kan gennemregne visse flerfaktormodeller, under visse uhyre restriktive betingelser på designet. Men hvorfor skulle man have lyst til at regne ved håndkraft? Det er jo ikke sådan at en statistisk analyse er etisk overlegen, blot fordi statistikeren udelukkende har brugt blyant og papir til arbejdet. En F-størrelse er lige god, uanset om statistikeren har brugt tre arbejdsdage og bunker af kladdepapir på at finde den, eller om han har brugt ti sekunder ved computeren. Mysteriet bliver næsten større når man tænker efter. For computeren kender ikke til den ortogonale dekomposition. Den håndterer generelle lineære modeller uden at skelne mellem regressionsmodeller og faktorforsøgsmodeller. Som forklaret i lærebogens afsnit 10.3 bruger computeren ikke engang de generelle matrixformler, vi har udledt - den bruger nogle numeriske algoritmer af en helt anden art, typisk minimerer den en kvadratisk form ved hjælp af QR-dekompositioner. De formler, vi har udledt, svarer på ingen måde til hvad computeren rent faktisk gør. Til gengæld kan computeren gøre sit arbejde hver gang, uanset om modellen opfylder forskellige balancekrav eller ej. Så et forsvarligt synspunkt er at sige at den ortogonale dekomposition er en teknik der: 1) kun virker i meget specielle situationer og 2) er bikset og besværlig at bruge, selv når den virker. Konklusionen er selvfølgelig at man ikke skal bruge teknikken til praktisk dataanalyse. 1

2 2 Kapitel 1. Designteori Hvorfor har vi så brugt tid på den? Fordi den fører til en indsigt i hvilke problemer der egentlig er i en faktorforsøgsanalyse - en indsigt man ingen chancen har for at opnå ud fra de generelle numeriske teknikker. Den ortogonale dekomposition skal bruges til at analysere modellen, ikke til at analysere data. 1.1 Overparametriseringer Et simpelt eksempel på den indsigt man kan vinde er spørgsmålet om overparametriseringer. Middelværdistrukturen i en flerfaktormodel er som regel så kompliceret, at man ikke har meget intuition om dimensionen af middelværdiunderrummet. Computeren vil typisk estimere et antal parametre, og nægte at estimere et antal andre - det varierer fra program til program om brugeren får at vide at disse parametre ikke kan estimeres, eller om de stiltiende fjernes fra udskriften. Kan parameterestimaterne fortolkes? Det kræver i høj grad at man forstår hvori overparametriseringen består. At der i en sædvanlig tosidet variansanalyse med faktorerne B og T estimeres B + T 1 parametre kan man vænne sig til, og man kan lære at forstå hvordan estimaterne skal fortolkes. Men pludselig står man med en analyse, hvor der kun estimeres B + T 2 parametre. For det første bliver man befippet over hvorfor problemet opstår - den første tanke er ofte at datafilen måske er fejlbehæftet, eller at indlæsningen er gået galt. For det andet bliver man usikker på hvorfor computeren har undladt at estimere netop er dén parameter. Med sædvanlige treatmentkontraster vil der typisk blive estimeret én intercept-parameter, B 1 parametre til B og T 2 parametre til T, og det kunne man umiddelbart godt fortolke som om der er ét bestemt T-niveau der opfører sig besynderligt. For det tredie bliver man - med god ret - i tvivl om hvorvidt de tilbageværende parameterestimater kan fortolkes på samme måde som i den sædvanlige situation. En forståelse af den ortogonale dekomposition lader os begribe problemet i termer af en ikke-triviel minimumsfaktor. Og det lader os forstå at de estimerede parametre først bliver fortolkelige når man inkluderer minimumsfaktoren eksplicit i modelformuleringen. Der er så at sige to intercepts, et til hver sammenhængskomponent i designgrafen, og treatmentkontrasterne lader sig kun fortolke interne i komponenten. Hvad computeren spytter ud, understøtter sandt at sige ikke altid denne forståelse... Forståelsen er man nødt til at have med sig i forvejen.

3 1.1. Overparametriseringer 3 Lad os eksemplificere dette ved at se på hvordan estimation i lærebogens eksempel (allergieksemplet) forløber i praksis. Vi interesserer os for den additive model Person+Køn Behandling. Hvis man irkalder lm(x Person + Køn Behandling) på det relevante datasæt, så bliver der stillet en designmatrix op, der indeholder én interceptsøjle, fire personsøjler, én kønssøjle, to behandlingssøjler og to søjler, der håndterer vekselvirkningen mellem Køn og Behandling. Altså ialt 10 søjler, men det fremgår af noternes eksempel at dimensionen af middelværdiunderrummet er 9. Der er altså en søjle for meget, og det vil den numeriske procedure opdage undervejs. Man kan tænke på det på den måde at at matrixinverteringen af A T A går galt. R løser problemet ved at slette én af søjlerne i designmatricen, svarende til at den sætter én af de 10 parametre til nul, og estimerer de andre 9 under denne betingelse. Det er ikke tilfældigt hvilken søjle der slettes, men det er på den anden side heller ikke nemt at forudsige - det sker på baggrund af nogle numeriske procedurer, der ikke tager højde for fortolkningen af designmatricen, men som til gengæld tager rækkefølgen af søjlerne dybt alvorligt. I dette tilfælde får man parameterestimaterne Coefficients: (Intercept) Person2 Person Person4 Person5 KønMand NA BehandlingB BehandlingC KønMand:BehandlingB KønMand:BehandlingC Det er altså Køn-søjlen der bliver slettet. Det er et heldigt valg, for en additiv forskel mellem kønnene kan naturligt opsluges i forskellen mellem personerne. Og derfor fastholder de ni estimerede parametre faktisk den fortolkning man umiddelbart ville tillægge dem på baggrund af søjlenavnene i designmatricen. Man kan studse lidt over at person 1 er referenceperson for Person-parametrene, uden at Behandlingparametrene af den grund svarer til hvad der sker for ham, når der skiftes behandling - person 1 er en mand, og derfor skal han have vekselvirkningsbidragene med. Så Behandling-parametrene svarer i virkeligheden til hvad der sker, når der skiftes behandling for en af kvinderne, det vil sige for person 3, 4 eller 5. Fænomenet skyldes at

4 4 Kapitel 1. Designteori Køn-faktoren bruger kvindegruppen som referencegruppe, og det matcher ikke særlig godt med at Person-faktoren bruger person 1 som referencegruppe. Men skønt man godt kan lade sig forvirre lidt af dette forhold, så bliver man ikke taget seriøst ved næsen. Helt anderledes forholder det sig hvis man kalder lm(x Køn Behandling+Person). Det er præcis den samme model som før, og derfor er det den samme designmatrix der umiddelbart stilles op, bortset fra at rækkefølgen af søjlerne er en anden. Den ændrede rækkefølge fører til at det er en anden søjle, der slettes i den numeriske procedure. Parameterestimaterne bliver Coefficients: (Intercept) KønMand BehandlingB BehandlingC Person2 Person Person4 Person5 KønMand:BehandlingB NA KønMand:BehandlingC Vi ser altså at Køn-søjlen forbliver i designmatricen, mens én af Person-søjlerne slettes - tilfældigvis den søjle, der svarer til person 5. Det fører til nogle meget forvirrende fortolkninger af outputtet: der er nu to personer uden egne parametre, nemlig person 1 og 5. Hvem af dem er referenceperson? Det viser sig nærmest at være person 5, i den forstand at intercept-parameteren svarer til den pågældende persons reaktion på behandling A, og at parametrene for person 3 og 4 koder for forskelle til person 5. Der er også en parameter, der koder for forskellen mellem person 1 og 5, men den har forklædt sig som Køn-parameter. Og for virkelig at trække tæppet væk under læseren: den parameter, der angiveligt svarer til person 2, koder ikke for forskellen mellem person 2 og person 5 - den koder i stedet for forskellen mellem person 2 og person 1... Problemerne med overparametriseringer opstår over det hele i større faktorforsøgsmodeller. Og den almindelige bruger af computerprogrammerne har ikke en jordisk

5 1.1. Overparametriseringer 5 chance for at gennemskue hvornår et parameterestimat svarer til hvad det selv hævder, og hvornår det svarer til noget helt andet. Derfor er det i almindelighed et godt råd at sige at man helt skal lade være med at se på parameterestimater før man har arbejdet sig frem til en model, der er så overskuelig at man kun har trivielle overparametriseringer tilbage. Men vores forståelse af hvordan den ortogonale dekomposition fungerer giver os ofte mulighed for at vælge en modelformulering, der fører til begribelige parametriseringer, også af ret komplicerede modeller. I allergieksemplet er det klart at vi må lade det forhold at Køn er minimum af Person og Køn Behandling spille en rolle i den måde vi skriver modellen ned på. Faktisk kan man med fornuft tænke på det som to separate tosidede variansanalyser: vi interesserer os for den additive model Person+Behandling inden for hver kønsgruppe. Vi antager at der er samme varians i de to analyser, men det spiller ikke nogen rolle for hvordan vi regner de relevante projektioner ud. I mandegruppen er der to personer og tre behandlinger og dermed fire parametre. I kvindegruppen er der tre personer og tre behandlinger og dermed fem parametre. Tilsammen altså de ni parametre vi har behov for. Man kan gennemføre de to variansanalyser hver for sig på reducerede datasæt, eller man kan gennemføre dem på én gang som lm(x Køn/(Behandling+Person) - 1). Denne formulering giver umiddelbart en designmatrix med 14 søjler, men de fem af dem slettes undervejs. Og de resulterende 9 parameterestimater kan uden vanskelighed fortolkes. Det sidste -1 fjerner det globale intercept, og man får derfor et intercept for hver af de to køn. Coefficients: KønKvinde KønMand KønKvinde:BehandlingB KønMand:BehandlingB KønKvinde:BehandlingC KønMand:BehandlingC KønKvinde:Person2 KønMand:Person2 KønKvinde:Person3 NA KønMand:Person3 KønKvinde:Person4 KønMand:Person4 NA NA KønKvinde:Person5 KønMand:Person5 NA NA

6 6 Kapitel 1. Designteori 1.2 Designovervejelser Vi vil nu diskutere et mere udførligt eksempel, hvor den ortogonale dekomposition spiller en praktisk rolle. Det er i forbindelse med de designovervejelser, man bør gøre sig før et eksperiment sættes i værk: hvordan kan man med brug af så få resourcer (kræfter, tid og penge) som muligt undersøge det man vil undersøge? I lærebogens kapitel 12 er der gjort en del ud af at argumentere for at når man har flere interessefaktorer, så bør man skrue på dem alle i løbet af eksperimentet. Det fører naturligt til et fokus på såkaldt fuldstændige faktorielle forsøg hvor man prøver samtlige kombinationer af samtlige faktorer igennem lige mange gange. Men hvis antallet af faktorer og/eller antallet af labels for de enkelte faktorer er stort, så kan et fuldstændigt faktorielt forsøg være en praktisk umulighed - det vil simpelthen kræve for mange deleksperimenter. En mindre ambitiøs forsøgsplan går ud på at afstå fra visse kombinationer i det fuldstændige forsøg. Men hvor mange kan man afstå fra, og hvilke? Det er man nødt til at tænke igennem på forhånd hvis ikke der skal opstå meget ubehagelige overraskelser i analysen. For at komplicere sagen yderligere vil de eksperimentelle omstændigheder ofte tvinge en eller flere blokfaktorer ned over interessefaktorerne. Og den virkelige udfordring er at disse blokfaktorer ofte har grupper, der er ret små. Der er kun få observationer per gruppe, og derfor er det ikke muligt at se særligt mange kombinationer af interessefaktorerne inden for de enkelte blokke. Det gør at man ikke blot må tænke over hvilke kombinationer fra den fuldstændige kombination af interessefaktorer man kan tillade sig at springe over, men man skal tænke enddog meget dybt over hvordan de resterende kombinationer skal fordeles ud over blokniveauerne, hvis de interessante effekter ikke skal forurenes af blokeffekter. Fisher satte sagen på spidsen og sagde: at indkalde en statistiker efter at eksperimentet er udført, giver ham ofte samme rolle som en patolog i den medicinske verden: alt hvad han kan gøre er at fortælle hvad eksperimentet døde af. En illustration af problemet kunne være et eksperiment hvor man har to treatmentfaktorer med hver to niveauer, og hvor man på forhånd ikke ved om der er vekselvirkninger eller ej, og derfor er nødt til at kunne undersøge det. Der er altså fire kombinationer af behandlingsmuligheder. Lad os forestille os behandlinger af en betændelsestilstand i øjnene, og at man udfører behandlingen på rotter. Hver rotte, der indgår i eksperimentet, har utvivlsomt sit eget udgangsniveau - nogle rotter har mere betændelse end andre. Rotterne har i sagens natur kun to øjne, og derfor kan man kun prøve to behandlinger per dyr. Dermed udgør rotterne en blokfaktor. Hvor mange

7 1.2. Designovervejelser 7 rotter skal der måles på, og hvordan skal de fire behandlingskombinationer fordeles ud på disse rotter, hvis man skal kunne undersøge om behandlingerne vekselvirker? I sådanne sager vil man sædvanligvis antage at rotte-effekten virker additivt. Hvis der er mulighed for at der er vekselvirkninger mellem rotte-effekten og en eller begge behandlingseffekter, så bliver spørgsmålet for alvor indviklet. Lignende problemer opstår i dyrkningsforsøg, hvor man dyrker planter i potter: hver potte svarer til en blok, og der er grænser for hvor mange planter man kan have i en potte. Eller i industrielle forsøg, hvor hvert forsøg tager en vis tid, og hvor man derfor ikke kan nå alle de forsøg man gerne vil i løbet af en enkelt dag - her kan dag-til-dag forskellene ses som en begrænsende blokfaktor. Som et konkret eksempel vil vi diskutere et eksperiment hvor man har fire binære faktorer, det vil sige faktorer med hver to niveauer. Lad os kalde faktorerne A, B, C og D. Vi kan forestille os at det er fire stoffer der hver især kan tilsættes, og vi bruger niveauerne 0 for ikke tilsat og 1 for tilsat. Umiddelbart ønsker vi et fuldstændig design, og det kræver 2 4 = 16 deleksperimenter. Eller flere, for man kunne selvfølgelig god forestille sig at vi ønskede gentagelser, men det aspekt vil vi lade ligge. Vi forestiller os at anvende en model der indeholder de fire hovedvirkninger og samtlige seks tofaktor vekselvirkninger, A B,...,C D. Vi er til gengæld parate til at se bort fra de højere vekselvirkninger som A B C og så videre, dels fordi den slags vekselvirkninger er svære at detektere, og dels fordi de er svære at fortolke. Symbolsk kan vi referere til modellen ved hjælp af designet G={1, A,..., D, A B,...,C D} Vi anvender den naturlige treatmentkontrast, og skal derfor estimere 11 middelværdiparametre: ét intercept, fire hovedvirkningsparamter, der beskriver effekten af tilsætning af hver af de fire faktorer, og seks vekselvirkningsparametre, hvor ABparameteren kan forstås som en korrektion til de to hovedvirkninger hvis både A og B er tilsat. Man finder nemt designmatricen A G for det fuldstændige forsøg med én observation per A B C D-celle - det er en matrix, og den er ikke særligt overskuelig, så vi vil undlade at skrive den op, men det er nemt at få en computer til at producere den. Ud fra designmatricen kan man finde variansmatricen for parameterestimaterne, V ˆβ=σ 2( A T G A G) 1.

8 8 Kapitel 1. Designteori Kigger man efter i denne variansmatrix, vil man se at interceptvariansen er at hovedvirkningsvarianserne er og at vekselvirkningsvarianserne er V ˆβ 1 = σ2, V ˆβ A =...=V ˆβ D =σ 2, V ˆβ AB =...=V ˆβ CD =σ 2. Så langt, så godt. Men nu komplicerer vi situationen. Vi forestiller os at disse 16 deleksperimenter ikke kan nås på en enkelt dag. Vi må derfor bruge to dage på det samlede eksperiment - 8 deleksperimenter den ene dag, og 8 den anden. Det skaber en naturlig blokstruktur, for man må tage højde for at eksperimentet ikke forløber ens de to dage. Der kan være forskel i personalet der medvirker, der kan være forskel på hvordan man helt præcist får apparaturet stillet op (der skal måske skrues på en knap, og den bliver næppe indstillet helt ens de to dage), og der kan være forskel på de meteorologiske omstændigheder, med tryk og temperatur og så videre. Normalt vil man kun inkludere en sådan blok-effekt som en hovedvirkning, medmindre man har faglige grunde til at tro på vekselvirkninger. En faglig grund kunne være at stof A ikke stammer fra samme beholdning de to dage, og i så fald kunne det være aktuelt med en vekselvirkning mellem blokken og A-faktoren. Men i almindelighed vil man søge at undgå sådanne vekselvirkninger. Vi får derfor et design af formen G =G {E}, hvor E er den binære dagsfaktor. Spørgsmålet er ( nu: ) hvilke otte målinger skal tages 16 den første dag, og hvilke den anden? Der er ialt = måder at dele op på. 8 Hvilket svarer til 6435 forskellige faktorer - man får samme faktor hvis man bytter om på hvad der er dag 1 og hvad der er dag 2. Kan det ikke være lige meget? Nej, det kan det bestemt ikke. En ide, der er så tåbelig at ingen ville finde på at bringe den til udførelse, ville være at tage alle kombinationerne med A=0 første dag og alle kombinationerne med A=1 anden dag. Med dette valg vil E=A, og man har ødelagt eksperimentet fuldstændigt: man kan ikke se hvilken effekt tilsætningen af A har, for det bliver mudret til af dagseffekten.

9 1.2. Designovervejelser 9 Der er ikke noget matematisk problem - E forsvinder simpelthen ud af modellen. Men det er umuligt at fortolke tilbage til virkeligheden. Hvad der i computeroutputtet fremtræder som en stærk A-effekt, kan skyldes at A rent faktisk virker kraftigt, men det kan lige så godt skyldes dag-til-dag forskellene. Eller: hvad der fremtræder som en forsvindende A-effekt kan udmærket skyldes en kraftig A-effekt, der blot neutraliseres af en lige så stor og modsat rettet dagseffekt. Man har ingen mulighed for at se hvad der er hvad. Man vil sige at A-effekten og E-effekten er totalt confoundede. Man kan lige så vel confounde med de øvrige hovedvirkninger. Ud af de måder at dele op på, er de 8 rent ud sagt destruktive, fordi de svarer til at E-effekten confoundes med en hovedvirkning. Men problemet kan være svært at tage helt alvorligt, fordi man jo aldrig vil gebærde sig så tåbeligt. Værre er det måske at man kan komme til at confounde med vekselvirkningerne. Man kan tage alle kombinationerne med samme A- og B-status (altså de kombinationer hvor hverken A eller B er tilsat eller hvor de begge to er tilsat) første dag, og de kombinationer der har forskellige A- og B-status anden dag. Vi laver altså opdelingen efter oversættelsesmønsteret A B E Vi kan formulere dette oversættelsesmønster algebraisk som E= (1 A) B+ A (1 B), (1.1) eller eventuelt som E= A+ B modulo 2. (1.2) Vi vil ikke bruge modulo 2 formuleringen til noget særligt, men der er ganske meget kombinatorik, der bedst formuleres ved hjælp af lineær algebra over endelige tallegemer, og derfor dukker modulo-betragtninger ofte op i litteraturen om statistiske design. Eftersom E er kommet til verden ud fra krydsklassificeringen efter A og B er det klart at E A B. Men det er let at se at E og A udgør et balanceret design, og tilsvarende med E og B, så E står geometrisk ortogonalt på både A og B. Sætningen om ortogonal dekomposition siger derfor at det additive underrum L A + L B + L E har dimension 4. Et 4-dimensionalt underrum af det 4-dimensionale rum L A B må nødvendigvis være

10 10 Kapitel 1. Designteori det hele. Så denne specielle opdeling fører til at L A + L B + L E = L A B. Og det betyder at vekselvirkningen mellem A og B er totalt confounded med dagsfaktoren. Hvis observationerne med både A og B tilsat opfører sig anderledes end man skulle tro ud fra de observationer hvor der højst er tilsat et af stofferne, så kan man ikke afgøre om det skyldes en vekselvirkning eller om det skyldes dagseffekten. At confounde med en vekselvirkning er vel knap så destruktivt som at confounde med hovedvirkningen. Men man bliver ude af stand til at undersøge om der er en vekselvirkning. Man kan teste om der er en samlet effekt af vekselvirkningen og dagsvirkningen, men man kan ikke se hvad der er hvad. Hvis man på forhånd ved at der ikke er nogen vekselvirkning mellem A og B, så kan det være en udmærket ide med denne confounding. Hvis det er noget man laver med vilje, så kalder man det som regel ikke confounding men aliasing, og det kan være god ræson i. Det er lidt som at stå og vifte med en ladt pistol: det er klogt at lade den pege et sted hen, hvor man ved at der ikke står nogen mennesker. Men i den formulering vi har givet af problemet, ønsker vi at inkludere alle første ordens vekselvirkninger, og det må jo betyde at vi ikke på forhånd kan udelukke deres eksistens. Vi vil gerne undersøge om der er vekselvirkninger, og derfor nytter det ikke noget at disse vekselvirkninger bliver confoundede med en dagsvirkning. Denne argumentation fortæller os at 12 af de måder at vælge førstedagens målinger på, skal undgås. Man kan kombinere confounding med forskellige vekselvirkninger ved en konstruktion, der kaldes partiel confounding. Man kan f.eks. for A = 0 confounde E med B, og for A=1 confounde E med C efter følgende skema A B C E A B C E Denne konstruktion vinder nok ved at blive skrevet ned algebraisk, E= (1 A) B+ A C. (1.3) Hvis vi tænker på A C som en faktor (det er en vektor af længde 16 indeholdende 0 og 1, fremkommet ved en plads-for-plads multiplikation af A- og C-vektoren) så er

11 1.2. Designovervejelser 11 det let nok at se at A C L A C. Tilsvarende er (1 A) B L A B og derfor gælder der faktisk at L E L A B + L A C. Der er 96 konstruktioner af denne art 1, der alle leder til at L E er et delrum af det oprindelige middelværdiruml G. Endelig er der partiel confounding, der involverer alle fire vekselvirkninger. Det kan ske efter skemaet A B E eller algebraisk 0 0 C 0 1 D D C E= (1 A) (1 B) C+ (1 A) B D+ A (1 B) (1 D)+A B (1 C). Umiddelbart ser det ud til at denne konstruktion kræver kendskab til produkter med tre faktorer, men ganger man ud, vil man se at de forsvinder. Man får E= A+ C A C B C A D+ B D. hvoraf man kan se at L E L G. Fra en umiddelbar betragtning skulle man tro at der er 48 konstruktioner af denne art, men det viser sig at de er ens to og to (konstruktionen baseret på A, B, C, D ovenfor er identisk med den tilsvarende konstruktion baseret på C, D, A, B), så i virkeligheden er der kun 24. Vi har nu fundet 140 måder at vælge førstedagens målinger på, der fører til at L E er et delrum af det oprindelige middelværdiruml G, enten ved direkte confounding med en hoved- eller vekselvirkning, eller ved en partiel confounding. I alle disse måder at afvikle eksperimentet på har man ødelagt alting for sig selv, fordi man får blandet de effekter man er interesseret i sammen med en dag-til-dag effekt. Man kan sige at 140 destruktive opdelinger ud af ikke er alverden - hvis man vælger dag-til-dag opdelingen ved en lodtrækning (hvad der umiddelbart kan virke som et sundt princip) er der kun 1% sandsynlighed for at man kommer til at ødelægge eksperimentet. Og det kan man for så vidt også gardere sig imod, for man 1 Der er 4 muligheder for hvordan der skal deles op, svarende til A i (1.3). Deler vi op efter A, kan vi på for A=0 henholdvis A=1 sætte E til en vilkårlig af B, 1 B, C, 1 C, D og 1 D. Hvis det første valg er B, må det andet valg hverken være B (for så bliver den samlede konstruktion lig med B) eller 1 B (for så bliver den samlede konstruktion lig med konstruktionen fra (1.1)). Derfor er der ialt 4 6 4=96 mulige valg.

12 12 Kapitel 1. Designteori kan vælge sin opdeling, konstruere designmatricen, og gennemføre analysen før man har gennemført eksperimentet. Enten uden data eller med fiktive data, for confoundingproblemerne har ikke noget at gøre med hvordan data konkret ser ud. Hvis en sådan preliminær analyse viser at designet er ubrugeligt, så vælger man bare en ny dag-til-dag opdeling og ser om den er bedre. Men den totale confounding udgør i en vis forstand kun toppen af isbjerget. Det er et uhyggeligt problem, men det er også meget synligt, og det er derfor sjældent det, der sænker eksperimenterne. En mere snigende dræber er at blokopdelingen medfører variansinflation på parameterestimaterne. Nogle gange er denne inflation ganske betragtelig. Vi husker at uden dags-opdelingen var V ˆβ A =σ 2, hvorσ 2 repræsenterer målestøjen (som designet jo ikke kan gøre noget ved). Af de mulige valg af målinger første dag er der kun der fastholder denne varians. De øvrige godt opdelinger fører til større varianser. Nogle af dem en ubetydelighed som σ 2, hvad der jo næppe ødelægger noget. Men nogle af dem helt op til 5.5σ 2, hvilket betyder at man må 5-doble eksperimentstørrelsen for at få samme udsagnskraft som man havde før opdelingen! Det er essentielt det samme som at sige at eksperimentet er ødelagt. En optælling viser at omkring 75% af opdelingerne fører til en værdi af V ˆβ A der er mindre end 1.5σ 2. En variansinflation på 50 procent er så meget at det næppe vil blive accepteret i praksis, men hvis vi for diskussionens skyld siger at det er et rimeligt niveau, så ser vi at sandsynligheden taler for at man ikke taber så meget udsagnskraft igen, hvis man vælger opdelingen tilfældigt. I hvert fald ikke udsagnskraft om A.... Men problemet er jo det samme for de andre faktorer, og de opdelinger, der bevarer udsagnskraften om A sætter den ofte over styr andre steder. Der er således kun 45% af opdelingerne, hvor V ˆβ A,...,V ˆβ D alle er mindre end 1.5σ 2. Og der er kun 27% af opdelingerne hvor variansen på estimaterne af såvel de fire hovedvirkninger som de seks vekselvirkninger er mindre end 1.5σ 2. Så sandsynligheden taler faktisk for at vi får en betydeligt nedsat udsagnskraft et eller andet sted, med mindre vi tænker os rigtigt grundigt om når vi laver opdelingen. Variansinflation er et højst relevant fænomen. Men det viser sig at vi ved at tænke dybt over sætningen om ortogonal dekomposition kan rede os ud af opdelingsproblemet uden mén. Det oprindelige design G er et minimumsstabilt og ortogonalt, med et faktorstrukturdiagram der skematisk kan

13 1.2. Designovervejelser 13 tegnes A A B 1 B hvor vi underforstår de to øvrige hovedvirkninger og de fem øvrige vekselvirkninger. Lad os et øjeblik antage at vi kan vælge E så L E ikke er et delrum afg, og så E står geometrisk ortogonalt på alle faktorerne ig. Da E kun har to niveauer, kan en faktor, der er grovere end E, kun have ét niveau, og derfor må den være 1. Da E per antagelse er forskellig fra faktorerne ig, kan vi slutte at E G=1 for enhver faktor G G, og minimumsstabiliteten afg følger af sig selv. Det udvidede designg får et faktorstrukturdiagram af formen A A B 1 B E Vi ser at faktorerne ighar præcis de samme underfaktorer i de to faktorstrukturdiagrammer. Derfor vil rummene i den ortogonale dekomposition, V G = L G L G for G G, G <G være identiske i de to design! Effektestimaterne ˆβ A,..., ˆβ CD kan udtrykkes ved hjælp af projektionerne Q G ned i V G -rummene, så disse effektestimater er simpelthen ens i de to modeller. Derfor får effektestimaterne samme varians, hvad enten E er med eller ej. Hvis det virkelig kan lade sig gøre at konstruere E såg bliver ortogonalt, så har vi simpelthen neutraliseret variansinflationen. (Det er ikke helt rigtigt at blokopdelingen slet ikke kan ses, for variansestimatet er ikke det samme om den er med eller ej. Begge variansestimater er centrale, men

14 14 Kapitel 1. Designteori det samlede middelværdirum får en dimension mere, og derfor er der én frihedsgrad mindre til variansestimatet i den udvidede model. Det betyder at når man konstruerer konfidensområder, så er der forskel på hvilken F-tabel man skal slå sine fraktiler op i. Og dermed bliver konfidensområderne typisk en anelse bredere ig -modellen end ig-modellen. Men denne beskedne inflation af konfidensområderne vil være der uanset hvordan E vælges, så der er ikke grund til at inddrage den i overvejelserne om hvordan opdelingen skal foretages.) Hvordan bærer man sig ad med at gøreg ortogonal? Det er ikke så nemt, men der er nogle tricks, der baserer sig på at vi allerede kender en række rum, der står geometrisk ortogonalt på alleg-faktorerne. Det er faktorrummene hørende til de fire trefaktor vekselvirkninger B C D, A C D, A B D og A B C, og også firefaktor vekselvirkningen A B C D. Fordi det fundamentale design er balanceret i de fire grundfaktorer, kommer alle ortogonalitetsrelationerne gratis. Det er muligt at konstruere E ved aliasing med en af disse fem højere ordens vekselvirkninger, som vi på forhånd har udelukket fra modellen. Detaljerne i hvordan denne aliasing konstrueres er drilsk kombinatorik, men man kan f.eks. konstruere E ved aliasing med firefaktor vekselvirkningen ved hjælp af formlen E=A+ B+C+D modulo 2, (1.4) analogt med (1.2). Det er nemt at checke efter at denne regel fører til en balanceret antalstabel for (A B, E), og af symmetrigrunde dermed også for alle de andre relevante tabeller. Vi har brugt vores indsigt i den ortogonale dekomposition til at konstruere en dag-tildag opdeling, der så at sige neutraliserer sig selv. Man kunne eventuelt have fundet de samme opdelinger ved simpelthen at bede computeren regne samtlige mulige opdelinger igennem. Det viser sig at de 10 opdelinger, der kan konstrueres ved aliasing med anden- og tredieordens vekselvirkninger, er de eneste blandt de mulige opdelinger, der er helt uden variansinflation på de fire hovedvirkninger (og så kan man jo opfatte at der heller ikke er nogen variansinflation på vekselvirkningerne som en gratis bonus). Så man kan godt opstille et fornuftigt søgekriterium, der spytter de samme opdelinger ud - og problemet er ikke større end at det er praktisk muligt at gå alle muligheder igennem. Men spørgsmålet er om man ville vælge netop dette søgekriterium. I hvert fald næppe uden at tænke sig godt om. For aliasing-opdelingerne fører faktisk til en vis variansinflation på intercept-parameteren (fra σ2 til 3 4 σ2 ). En række andre opdelinger undgår helt variansinflation på intercept-parameteren, men har så til gengæld inflation

15 1.2. Designovervejelser 15 andre steder. Hvis man opstiller maskinelle søgekriterier vil man på en eller anden måde prøve at minimere den samlede variansinflation. Og medmindre man har tænkt sagerne godt igennem vil man formentlig inkludere inflation på interceptparameteren i kriteriet, skønt det i praksis er ligegyldigt for undersøgelsen. Fokus er jo på at finde ud af hvad der sker når man tilsætter stoffer, og kun i mindre grad hvad der sker i referencesituationen uden tilsatte stoffer. Det område der kaldes forsøgsplanlægning går ud på at vælge det rigtige forsøgsdesign til en given undersøgelse. Man tænker igennem hvilke størrelser, der skal bestemmes præcist, og hvilke størrelser man er mindre interesseret i. Man tænker igennem hvilke blokfaktorer man ikke kan undgå i sin undersøgelse, og hvilken indflydelse det har på det generelle præcisionsniveau. Og man søger et design, der vægter disse overvejelser op mod hinanden og op mod det generelle ressourceforbrug. Man har bøger fulde af standarddesigns (f.eks. de såkaldte PBIB, partial balanced incomplete blockdesigns, der er en generel måde at lave ortogonale designs på), der kan bruges hvis man har så og så mange interessefaktorer med så og så mange labels, og oveni så og så mange blokfaktorer, og det endelige designvalg vil typisk være et af disse standarddesigns. Men man er nødt til at forstå problemstillingerne til bunds før man kan vælge rigtigt, og her er den ortogonale dekomposition et uvurderligt værktøj.

16 16 Kapitel 1. Designteori

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels.

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels. Faktorforsøg Antag at X i, i I, er uafhængige reelle variable og at X i N (ξ i, σ 2 ) for alle i I En faktor er en afbildning f : I F hvor F er en mængde af labels. En faktor deler observationerne ind

Læs mere

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m Fejlstrata Vi forestiller os at V har 1) Et underrum L 2) Et indre produkt, 3) En ortogonal dekomposition V = W 1 +... + W m Underrummene W i kaldes fejlstrata. Typisk eksempel på en fejlstratumdekomposition:

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Tofaktorforsøg. Kapitel 13

Tofaktorforsøg. Kapitel 13 Kapitel 13 Tofaktorforsøg Det er meget almindeligt inden for de eksperimentelle fag, at man er interesseret i flere forholds indvirkning på en respons. En simpel tilgang til problemet kan beskrives som

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Additive hypoteser i flerfaktorforsøg

Additive hypoteser i flerfaktorforsøg Additive hypoteser i flerfaktorforsøg Et design er et system af faktorer, G = {G 1,...,G m } Hertil hører et underrum af R I og en hypotese L G = m L Gi, i=1 H G : ξ L G Udfordring: Forstå hvad udsagnet

Læs mere

Appendiks 6: Universet som en matematisk struktur

Appendiks 6: Universet som en matematisk struktur Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes

Læs mere

Andengradsligninger. Frank Nasser. 11. juli 2011

Andengradsligninger. Frank Nasser. 11. juli 2011 Andengradsligninger Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Andengradsligninger. Frank Nasser. 12. april 2011

Andengradsligninger. Frank Nasser. 12. april 2011 Andengradsligninger Frank Nasser 12. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM58) Institut for Matematik & Datalogi Syddansk Universitet Torsdag den 7 Januar 010, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger,

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Statistik Obligatorisk opgave

Statistik Obligatorisk opgave 13. maj 2008 Stat 2 / EH Statistik 2 2008 Obligatorisk opgave Formelle forhold: Opgaven stilles tirsdag d. 13. maj 2008. Rapporten skal afleveres til mig personligt. Afleveringsfristen er mandag d. 2.

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Implikationer og Negationer

Implikationer og Negationer Implikationer og Negationer Frank Villa 5. april 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Forberedelse. Forberedelse. Forberedelse

Forberedelse. Forberedelse. Forberedelse Formidlingsopgave AT er i høj grad en formidlingsopgave. I mange tilfælde vil du vide mere om emnet end din lærer og din censor. Det betyder at du skal formidle den viden som du er kommet i besiddelse

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Skriftlig Eksamen Diskret Matematik (DM528)

Skriftlig Eksamen Diskret Matematik (DM528) Skriftlig Eksamen Diskret Matematik (DM528) Institut for Matematik & Datalogi Syddansk Universitet Tirsdag den 20 Januar 2009, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Syv veje til kærligheden

Syv veje til kærligheden Syv veje til kærligheden Pouline Middleton 1. udgave, 1. oplag 2014 Fiction Works Aps Omslagsfoto: Fotograf Steen Larsen ISBN 9788799662999 Alle rettigheder forbeholdes. Enhver form for kommerciel gengivelse

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Det er svært at komme på ældste trin. Der er mange helt nye ord, fx provokation og oplevelsesfase.

Det er svært at komme på ældste trin. Der er mange helt nye ord, fx provokation og oplevelsesfase. Overgang fra mellemtrin til ældste trin samtale med 6. kl. Det er svært at komme på ældste trin. Der er mange helt nye ord, fx provokation og oplevelsesfase. Det er en meget anderledes arbejdsform, men

Læs mere

Om problemløsning i matematik

Om problemløsning i matematik Om problemløsning i matematik Frank Villa 15. juni 2012 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

De rigtige reelle tal

De rigtige reelle tal De rigtige reelle tal Frank Villa 17. januar 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Fejlkorligerende køder Fejlkorrigerende koder

Fejlkorligerende køder Fejlkorrigerende koder Fejlkorligerende køder Fejlkorrigerende koder Olav Geil Skal man sende en fødselsdagsgave til fætter Børge, så pakker man den godt ind i håb om, at kun indpakningen er beskadiget ved modtagelsen. Noget

Læs mere

Løsning af simple Ligninger

Løsning af simple Ligninger Løsning af simple Ligninger Frank Nasser 19. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Vinkelrette linjer. Frank Villa. 4. november 2014

Vinkelrette linjer. Frank Villa. 4. november 2014 Vinkelrette linjer Frank Villa 4. november 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag? En computer forstår umiddelbart ikke de sprog vi mennesker taler og skriver. Inden for sprogteknologien (på engelsk: Natural Language Processing eller NLP), der er en gren af kunstig intelligens, beskæftiger

Læs mere

Egenskaber ved Krydsproduktet

Egenskaber ved Krydsproduktet Egenskaber ved Krydsproduktet Frank Nasser 23. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

π er irrationel Frank Nasser 10. december 2011

π er irrationel Frank Nasser 10. december 2011 π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber. Program Flersidet variansanalyse og hierarkiske modeller Helle Sørensen E-mail: helle@math.ku.dk StatBK (Uge 50, mandag) Flersidet ANOVA 1 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 2 / 19 Eksempel:

Læs mere

Besvarelser til Lineær Algebra Ordinær eksamen - 6. Juni 2016

Besvarelser til Lineær Algebra Ordinær eksamen - 6. Juni 2016 Besvarelser til Lineær Algebra Ordinær eksamen - 6. Juni 2016 Mikkel Findinge Bemærk, at der kan være sneget sig fejl ind. Kontakt mig endelig, hvis du skulle falde over en sådan. Dette dokument har udelukkende

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet

Læs mere

Selvstudium 1, Diskret matematik

Selvstudium 1, Diskret matematik Selvstudium 1, Diskret matematik Matematik på første studieår for de tekniske og naturvidenskabelige uddannelser Aalborg Universitet I dette selfstudium interesserer vi os alene for tidskompleksitet. Kompleksitet

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere

Kapitel 13 Reliabilitet og enighed

Kapitel 13 Reliabilitet og enighed Kapitel 13 Reliabilitet og enighed Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 Version 11. april 2011 1 / 23 Indledning En observation er sammensat af en sand værdi og en målefejl

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

INDVANDRERES TILKNYTNING TIL ARBEJDSMARKEDET

INDVANDRERES TILKNYTNING TIL ARBEJDSMARKEDET Januar 2003 Af Anita Vium - Direkte telefon: 33 55 77 24 Resumé: INDVANDRERES TILKNYTNING TIL ARBEJDSMARKEDET Indvandrere har større ledighed, mindre erhvervsdeltagelse og dermed lavere beskæftigelse end

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Matematiske færdigheder Grundlæggende færdigheder - plus, minus, gange, division (hele tal, decimaltal og brøker) Identificer

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

STATISTIK - Fase 3. Kritisk vurdere undersøgelser og data. Navn:&& & Klasse:&& Vurdering fra 1 til 5 (hvor 5 er højst) & & & & & & & & & &

STATISTIK - Fase 3. Kritisk vurdere undersøgelser og data. Navn:&& & Klasse:&& Vurdering fra 1 til 5 (hvor 5 er højst) & & & & & & & & & & Navn: Klasse: STATISTIK - Fase 3 Kritisk vurdere undersøgelser og data Vurdering fra 1 til 5 (hvor 5 er højst) Læringsmål Selv Lærer Beviser og forslag til forbedring 1. Jeg kan vise, fordele og ulemper

Læs mere

LEKTION 4 MODSPILSREGLER

LEKTION 4 MODSPILSREGLER LEKTION 4 MODSPILSREGLER Udover at have visse fastsatte regler med hensyn til udspil, må man også se på andre forhold, når man skal præstere et fornuftigt modspil. Netop modspillet bliver af de fleste

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Introduktion til SPSS

Introduktion til SPSS Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere