Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP

Størrelse: px
Starte visningen fra side:

Download "Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP"

Transkript

1 1 Generelle forhold ved opstart Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP Indhold 1. Generelle forhold Beregning af sandsynlighedsfordelinger Eksempler fra bogen Kapitel 1: Repetition af hypotesetest for 1 variabel... 3 Kapitel 3: 1 faktor på 2 niveauer... 6 Kapitel 4: Statistisk proceskontrol... 9 Kapitel 5: Godkendelseskontrol, Kapitel 6: 1 faktor på mere end 2 niveauer, ensidet variansanalyse Kapitel 7: 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse, Kapitel 8: Regressionsanalyse Kapitel 10: Screeningforsøg Generelle forhold Opstart Efter at have startet SAS-JMP, står man med en typisk Windows skærm med nogle menubjælker og ikoner. Øverst er en hovedmenubjælke med navnene File, Tables, Wiew, osv. Trykkes på en af disse fremkommer en rullemenu, som man skal vælge fra. Indtastning af data Indtast følgende data x y Løsning: File New Data Table dobbeltklik på øverste felt i første søjle (Column 1) og skriv x Indtast tallene søjlevis, dvs. placer cursor på cellen i første række og første søjle, og skriv 1. Tryk ENTER hvorved man kommer til næste række og skriv 2 osv. Gentag proceduren med søjle 2. 1

2 Vejledning i SAS-JMP Resultatet ser således ud: Oprette dele af given datatabel som ny tabel Rows Rows Selection Select Where marker navnet på kolonnen der ønskes over i ny tabel ok Tables Subset OK Vælg hjælp hvis du vil have sætte mere specifikke krav Redigering af udskrifter og kopiere over i tekstbehandlingsprogram Word. Udskrifterne er delt op i afsnit, og over hvert afsnit er der en blå pil. Trykker man på den, vil afsnittet forsvinde. Da udskrifterne sædvanligvis indeholder mange flere oplysninger end man har brug for, er det også nødvendigt at flytte udskriften over i et tekstbehandlingssystem som WORD Man kan eksempelvis bruge klippeværktøj til at overføre relevante udskrifter. Dette er således sket i dette notat. 2. Beregning af sandsynlighedsfordelinger Fremgangsmåden for de forskellige fordelinger er stort set ens, så den beskrives kun udførligt for normalfordelingen n(, ) a) Find p P( a X b), hvor a,b,, er givne konstanter. Vi har p P X b P X a Normal Distribution b Normal Distribution a ( ) ( ) Eksempel: Find p P( X ) hvis 1133., 56.. Kald Column 1 for p Placer Cursor i p s hoved og marker denne ved tryk på venstre musetast tryk på højre musetast Vælg Formula I den fremkomne menu for Formula indeholder 3 elementer: 1) Table Columns ( hvor søjlernes navne står), 2) Lommeregnertastatur (med operatorer for +, - /, potensopløftning, osv.) og 3) Functions (grouped (hvor forskellige funktioner står, bl.a. Probability) Probability Normal Distribution ( skriv (bemærk decimalpunktum) vælg - fra lommeregnertastaturet skriv cursor udenfor parantes og vælg/ fra lommeregnertastatur 5.6. Bemærk: Benyt kun lommeregnertastaturet ved +, -,/ potensopløftning osv. Vi har nu skrevet Normal Distribution( ) / 5.6) Sørg for at komme udenfor rammen og vælg igen - på lommeregnertastatur 2

3 3 Eksempler fra bogen Normal Distribution( ) / 5.6) (kopier eventuelt fra før, og ret til 112) ok Resultat: Hvis man ønsker ar se formlen skrevet i tekst (Java) så dobbeltryk på formlen, så fremkommer følgende: Normal Distribution((( ) / 5.6)) - Normal Distribution(( ) / 5.6) b) Find fraktilen x p : P( X x ) p, hvor p,, er givne konstanter. x p Normal Quantile ( p ) p Eksempel: Find x p af P( X x p ) , hvis 112,, Kald søjle 1 for xp Placer Cursor i xp s hoved tryk på højre musetast Formula Skriv * Probability Normal Quantile(0.712) ok Resultat: Eksempler fra bogen Kapitel 1: Repetition af hypotesetest for 1 variabel Eksempel 1.1 Hypotesetest. Normalfordelt variabel. En fabrik der fremstiller plastikprodukter ønsker at evaluere holdbarheden af rektangulære støbte plastik blokke som anvendes i møbelfabrikationen. Der udtages tilfældigt 50 blokke, og deres hårhed måles (i Brinell enheder). Resultaterne var følgende a) Undersøg om tallene er rimeligt normalfordelt ved at tegne et histogram, et boxplot og et normalfordelingsplot. Angiv endvidere gennemsnit og spredning. b) Hårheden bør være over 260 (brinell enheder). Test på et signifikansniveau på = 5% om dette er tilfældet. c) Forudsat hårheden er signifikant over 260 brinell, skal angives et estimat for hårheden, samt et 95% konfidensinterval for denne. Løsning: a) File, New, DATA Tables, dobbeltklik på øverste felt i første søjle og skriv holdbarhed, indtast data Histogram: På værktøjslinien vælg Analyze Distribution I den fremkomne menu dobbeltklikkes på holdbarhed (under Selected Columns ) Der fremkommer et histogram, et boxplot og en række statistiske oplysninger. For at kunne sammenligne med en normalfordeling tegnes en normalfordelingskurve: Placer cursor på rød pil ved holdbarhed tryk på højre musetast og vælg Continuous Fit normal ok 3

4 Vejledning i SAS-JMP Der tegnes nu en normalfordelingskurve med samme middelværdi og spredning som fra data. Endvidere tegnes et normal kvartil plot Cursor placeres på holdbarhed og man trykker på højre musetast og vælger Normal Quantile Plot Der er nu bl.a. fremkommet følgende figur og tabel. Distributions holdbarhed 350-2,33-1,64-1,28-0, 67 0,0 0,67 1, 281,64 2, , 02 0,1 0,2 0,5 0,8 0,9 0,98 Norm al Quantile Plot Normal(266,218,25,0931) Quantiles 100,0 % maximum 334,90 99,5% 334,90 97,5% 328,93 90,0% 300,99 75,0% quartile 279,73 50,0% median 267,60 25,0% quartile 251,75 10,0% 233,20 2,5% 201,41 0,5% 194,40 0,0% minimum 194,40 Moments Mean 266,218 Std Dev 25,09313 Std Err Mean 3, Upper 95% Mean 273,34939 Lower 95% Mean 259,08661 N 50 Forklaring af figur og udskrift Histogram og normalfordelingskurven (figur længst til venstre) passer godt sammen, så det viser, at data er rimelig normalfordelt. 4

5 3 Eksempler fra bogen Boxplot: Den næste figur er et såkaldt boxplot, hvor den midterste streg angiver medianen og kassens grænser angiver henholdsvis 1. og 3. kvartil. 1. kvartil er tallet midt mellem tal nr 12 og tal nr 13, osv. Da boxplottet er nogenlunde symmetrisk om medianen, så kan man igen antage at data er rimelig normalfordelt. De isolerede prikker yderst viser, at der er et par værdier, som afviger kraftigt fra de øvrige, og muligvis er fejlmålinger (kaldes outliers). Rhomben inde i firkanten angiver et 95% konfidensinterval for middelværdien. Man ser, at den ligger lidt skævt i forhold til boxplottet, men dog ikke så meget, at det spiller nogen rolle, da median =267.6 er ca. = mean (gennemsnit) = Normal Kvartil-plot. Her har man ud af x - aksen sørget for at skalaen er sådan, at punkterne burde ligge på den røde rette linie, hvis de fuldstændigt eksakt var normalfordelt. Den røde linie går gennem (0, mean) og har hældning = spredningen. De stiplede linier angiver 95% konfidensinterval for normalfordelingen. Som det ses, ligger punkterne indenfor konfidensintervallet og ligger tæt på linien for de midterste 75% af tallenene. De yderste punkter kan man ikke forvente ligger på linien Man må derfor igen antage, at data er tilnærmelsesvis normalfordelt. Det ses af udskriften, at gennemsnittet x = og et estimat for spredningen er s = b) X = holdbarheden af plastblokke X antages normalfordelt med ukendt middelværdi og. H 0 : =260 H: >260 Da spredningen ikke er kendt eksakt anvendes en t-test. Klik på rød pil ved "holdbarhed" og vælg "Test Mean". I den fremkomne menu skriv 260 ok Test Mean=value Hypothesized Value 260 Actual Estimate 266,218 DF 49 Std Dev 25,0931 t Test Test Statistic 1,7522 Prob > t 0,0860 Prob > t 0,0430* Prob < t 0,9570 P- værdien = sandsynligheden for at begå en "type 1 fejl", dvs. påstå at 0 =260 selv om det ikke er tilfældet. I Test Statistic er Prob > *t* P-værdi for den tosidede test H: μ 260 Prob > t er P-værdi for den ensidede test H : μ > 260, og Prob < t svarer til H : μ < 260 Da P-værdi = 4.30 % < 5%, forkastes H 0 (svagt). Konklusion: Vi har bevist, at holdbarheden i middel er over 260 brinell. 5

6 Vejledning i SAS-JMP Eksempel 1.2. Binomialtest En fabrikant af chip til computere reklamerer med, at højst 2% af en bestemt type chip, som fabrikken sender ud på markedet er defekte. Et stort computerfirma, vil købe et meget stort parti af disse chip, hvis påstanden er rigtigt. For at teste påstanden købes 1000 af dem. Det viser sig, at 33 ud af de 1000 er defekte. a) Kan fabrikantens påstand på denne baggrund forkastes på signifikansniveau 5%? b) Forudsat påstanden forkastes, skal angives et estimat for % defekte, samt et 95% konfidensinterval for denne. Løsning: X = antal defekte chips af 1000 X er binomialfordelt b(1000, p). Nulhypotese: H: p 002. Alternativ hypotese Hp : 002. a) P værdi P( X 33) 1 P( X 32) Kald en søjle for p, og indtast et tilfældigt tal i første række. Placer cursor i p's hoved højre musetast Formula skriv 1-(- vælges fra jmp tastatur) vælg Discrete Probability Binomial Distribution Udfyld pladserne p=0,02, n=1000, k = 33 Apply P-værdi = Da P-værdi < 0.05 forkastes H 0, dvs. fabrikantens påstand om færre end 2% defekte forkastes. b) Estimat for p: 3.3% Da x = 33 >5 og 33 < kan approksimeres med normalfordelingen ( ) 1000 p radius Øvre grænse nedre grænse 0, , , , Af formlen for konfidensinterval Estimat for p: 3.3% 95% konfidensinterval : {2.19% ; 4.41%] Kapitel 3 1 faktor på 2 niveauer og benyttelse af "Formula" fås Eksempel 3.1. Sammenligning af 2 normalfordelte variable To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer, hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden. Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed. Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2. Man fik følgende resultater. M M Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at tidsforbruget ved metode M 1 er mindst 2 minutter mindre end ved metode M 2. 6

7 3 1 faktor på mere 2 niveauer Løsning: Lad X 1 = tidsforbrug ved anvendelse af metode M 1 og X 2 = tidsforbrug ved anvendelse af metode M 2. X 1 og X 2 antages approksimativt normalfordelte med middelværdi og spredning henholdsvis, og, H 0 : H: Data indtastes i 2 søjler, idet vi lægger 2 til alle tal fra metode 1. metode tidsforbrug m1 89,8 m1 93,9 m1 91,8 m1 91,0 m1 94,6 m1 91,4 m1 93,4 m1 90,7 m1 92,1 m m m2 94,6 m2 93,0 m2 94,0 m2 92,4 m2 92,9 m2 99,4 m2 92,1 m2 92,8 m2 93,4 Analyze Fit y by x Y-Response:Tidsforbrug,x-Factor: Metode ok rød pil øverst på figur, t-test t Test m2-m1 Assuming unequal variances Difference 1,0900t Ratio 1, Std Err Dif 0,6694DF 16,99463 Upper CL Dif 2,5024Prob > t 0,1219 Lower CL Dif -0,3224Prob > t 0,0609 Confidence 0,95Prob < t 0,9391 Da P - værdi = > 0.05 accepteres nulhypotesen, dvs. det er ikke muligt på dette grundlag at bevise, at tidsforbruget ved metode M 1 er 2 minutter mindre end ved metode M 2. Eksempel 3.2. Test af varians Samme problem som i eksempel 3.1 Undersøg ved en test på signifikansniveau på 5% om de to metoders varians er ens. Løsning: Data indtastes i 2 søjler (se eksempel 3.1) H 0 : 1 mod H: Analyze Fit y by x Response:Tidsforbrug, Factor: Metode OK Cursor på rød pil Un-Equal Variance Blandt en række udskrifter forekommer nedenstående 7

8 Vejledning i SAS-JMP Tests that the Variances are Equal Level Count Std Dev MeanAbsDif to Mean MeanAbsDif to Median m1 10 1, , , m2 10 1, , , Test F Ratio DFNum DFDen p-value O'Brien[.5] 0, ,4075 Brown-Forsythe 1, ,2762 Levene 1, ,2159 Bartlett 0, ,4709 F Test 2-sided 1, ,4711 I udskrift for F - test ses, at alle -værdier er større end Da P - værdi > 0.05 accepteres H 0, dvs. vi vil i den følgende test antage, at spredningerne er ens. Eksempel 3.4. Parvise observationer En producent af malervarer har laboratorieresultater, der tyder på, at en ny lak A, har en større slidstyrke end den sædvanlige lak B. Han ønsker en afprøvning i praksis og aftaler med ejerne af 6 bygninger med mange trapper, at han må lakere deres trapper. Da der er meget forskelligt hvor mange personer der går på trapperne i de forskellige bygninger (sammenlign blot sliddet på en skole og et plejehjem) vælger man at foretage et blokforsøg, med de 6 bygninger som 6 blokke. I hver bygning lakeres hverandet trin (valgt ved lodtrækning) med lak A og resten mad lak B. Efter 3 måneders forløb måles graden af slid (i %) i hver bygning. De målte værdier af slid efter valg af plan var Bygning nr Ny lak Sædvanlig lak Undersøg om observationerne leverer et eksperimentelt bevis for, at den nye lak er mere slidstærk end den sædvanlige lak. Løsning Vi ser nu på differensen mellem sliddet i en bygning. (hvorved den store forskel mellem bygningerne elimineres) Lad D = X gammel - X ny D antages normalfordelt n(, ), hvor såvel som er ukendte. Da vi ønsker at teste om ny lak er mere slidstærk end gammel lak, dvs. den mest slidstærke lak slides mindst, bliver testen en ensidet t - test. Nulhypotese H 0 : = 0 Alternativ hypotese H : > 0. Data indtastes Ny lak Gammel lak 20,3 19,5 25,1 28,4 21,8 21,6 19, ,9 20,9 23,5 25,8 Vælg Analyze Matched Pairs Y: Paired response:ny lak og Gammel lak OK Rød pil Fjern markering ved "Plot Diff by Mean 8

9 4 Statistisk Proceskontrol Matched Pairs Difference: Gammel lak-ny lak Gammel lak 23,0333 t-ratio 2, Ny lak 21,5333 DF 5 Mean Difference 1,5 Prob > t 0,0726 Std Error 0,66131 Prob > t 0,0363* Upper 95% 3,19996 Prob < t 0,9637 Lower 95% -0,2 N 6 Correlation 0,89502 Heraf ses, at P-værdi = H 0 forkastes, dvs. ny lak mere slidstærk end gammel lak Kapitel 4. Statistisk Proceskontrol Eksempel 4.1. Kontrol af stof i levnedsmiddelprodukt. En levnedsmidddelvirksomhed har problemer med at holde koncentrationen af et skadeligt stof A i et konservesprodukt nede under en øvre tolerancegrænse på 12 enheder pr. gram. Man vælger derfor at få foretaget en kontrolkortanalyse. På basis af tidligere erfaringer inddeles målingerne i 30 undergrupper, som hver har deres karakteristika:(råvarecharge, apparatur, tidspunkt på dagen osv.). Hver undergruppe er på 5 målinger. Gruppe Målinger Gruppe Målinger ) Foretag ved hjælp af x og R - kort en kontrolkortanalyse og opstil kontrolkort, der kan benyttes til en løbende kontrol af indholdet af det skadelige stof. 2) Idet der er fastsat en øvre tolerancegrænse på 12, skal man finde sandsynligheden for at én måling falder udenfor, når processen antages i kontrol med de i punkt 1 fastsatte kontrolgrænser. Løsning Data indtastes på sædvanlig måde: 9

10 Vejledning i SAS-JMP osv. 1) Vælg Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold af A Sample Label = gruppe Marker Xbar, R, ksigma OK Vi får følgende udskrift 10

11 4 Statistisk Proceskontrol Det ses, at gruppe 28 er udenfor kontrolgrænserne på R-kortet. Det kan somme tider være svært umiddelbart at se om et punkt falder indenfor eller udenfor kontrolgrænsen Det er ikke tilfældet her, men ellers kan man gøre følgende Rød pil ved R-kort Test beyond limits Nu bliver alle punkter udenfor markeret Synes man figuren er for lille og uoverskuelig, så Højre musetast på figur Size/Scale Y-axis Angiv Min, Max og Incrediment. Gruppe 28 udskydes. Cursor placeres på gruppe 28 på R-kort venstre musetast, I datatabel markeres nu gruppe 28 med blåt Cursor på gruppen Højre musetast Exclude Gentag med det nye datasæt Control Chart X Bar I menu vælg Process = Indhold af Sample Label = gruppe Marker Xbar, R, ksigma OK Vi får nye kontrolkort med nye grænser For R-kortet er UCL = Vi ser, at nu er der ingen udenfor R-kortet, men stadig en gruppe (gruppe 16) udenfor kontrolgrænserne på - kortet. Vi udskyder nu dette punkt efter samme metode som før Derefter er der ingen punkter på hverken x - kortet eller R- kortet, der er udenfor grænserne De to kort kan nu benyttes til den løbende proceskontrol. x Kontrolgrænserne kan aflæses på kortet. 11

12 Vejledning i SAS-JMP Spredningen kan findes på følgende måde: Vælg rød pil ved Variable Control Chart Save sigma ok Cursor på søjleoverskrift Indhold af A højre musetast Column Info Man kan nu aflæse spredningen til ) Rød pil ved Variable Control Chart Capability Upper Spec Limit = 12 OK Heraf ses, at P(X>12) = 4.30% Ønskes et s-kort frem for et R kort, så vælg Vælg Graph Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold af A Sample Label = gruppe Marker Xbar, S, ksigma OK Eksempel 4.3. Løbende kontrol. Der oprettes på sædvanlig måde en ny datatabel. Lad første søjle få navnet målinger.indsæt de første målinger.vælg som før Control Chart X Bar I menu vælg Process = målinger Sample Size Constant Vælg stikprøvestørelse (eksempelvis 3) Specify Stats indsæt eksempelvis mean(range) = 8,4 og mean(stdv)= 9 OK Der fremkommer nu nogle kontrolkort for xbar og R (hvis det er valgt) og man kan nu løbende sætte sine måleresultater ind i datatabellen. Vælg rød pil ved overskrift xbar tests alle test Man kan nu løbende se om der sker en overtrædelse af alarmkriterierne 12

13 Nedenfor er givet et eksempel, hvor der også er indtastet de tre Zoner 4 Statistisk Proceskontrol Eksempel 4.4 Kontrolkort for enkeltobservationer En olieraffineringsproces forløber så langsomt, at man må benytte en stikprøvestørrelse på n = 1. Følgende observationer af oktantallet x for et bestemt produkt fandtes. x ) Vurder først om tallene er rimelig normalfordelt ved at tegne et normalfordelingsplot. 2) I det følgende antages, at fordelingen er rimelig normalfordelt. Lav et Moving Range kontrolkort for processen. Løsning 1) Data indtastes i en søjle benævnt x. På værktøjslinien vælg Analyze Distribution I den fremkomne menu dobbeltklikkes på x (under Selected Columns ) Der fremkommer et histogram, et boxplot og en række statistiske oplysninger. For at kunne sammenligne med en normalfordeling tegnes en normalfordelingskurve: Placer cursor på rød pil ved x tryk på højre musetast og vælg Continuous Fit normal Der tegnes nu en normalfordelingskurve med samme middelværdi og spredning som fra data. Cursor placeres på holdbarhed og man trykker på højre musetast og vælger Normal Quantile Plot Der er nu bl.a. fremkommet følgende figur (har slettet markering ved Box plot) ok Da punkterne ligger nogenlunde på en ret linie antages fordelingen at være rimelig normalfordelt 13

14 Vejledning i SAS-JMP 2) På værktøjslinien vælg Analyze Quality and Proces Control Chart IR indsæt x OK Der fremkommer følgende to kontrolkort Da alle punkter falder indenfor kontrolgrænserne er processen i kontrol. Eksempel 4.4 (np - kort) En fabrikant af nogle specielle typer keramikfliser som er beregnet til at kunne klare høje temperaturer ønsker udarbejdet et kontrolkort. Ved en løbende produktion af fliser udtoges 40 gange en stikprøve på 100 fliser. De blev undersøgt om de levede op til de forventede kvalitetsmål. Fliser der ikke opfyldte disse krav blev klassificeret som defekte Resultatet var følgende: Gruppe Antal defekte Gruppe Antal defekte Løsning Procesvariablen X er bestemt ved : X = antal enheder uden fejl af en produktion på 100 fliser X er binomialfordelt b(100, p) Data indtastes i en kolonne antal defekte 14

15 4 Statistisk Proceskontrol Vælg Control Chart NP I menu vælg Process = antal defekte Constant Size = 100 OK Vælg rød pil på øverste overskrift Tests = ALL tests Show Zones Der fremkommer følgende kort Heraf ses, at der kun er et punkt, hvor alarmkriterierne overtrædes. Eksempel 4.5.(c - kort) Ved en tekstilproduktion taltes anta1 fejl pr. 100 m 2 klæde. Følgende resultater fandtes (tidsmæssig rækkefølge for produktionen) : nr antal fejl Med henblik på en kontrolkortanalyse skal konstrueres et c-kort for processen Løsning Hvis den variable er Poissonfordelt dannes et c-kort på samme måde som np-kortet. Kortet med indførelse af 2 - grænser og l - grænser ses overfor. Det ses, at en enkelt af alarmkriterierne (for mange nedadgående) er overtrådt. 15

16 Vejledning i SAS-JMP Kapitel 5 Godkendelseskontrol Eksempel 5.3 Beregning af OC-kurve Et legetøjsfirma modtager leverancer bestående af N = dukker, og ønsker at kontrollere disses kvalitet ved stikprøveplanen ( nc, ) ( 100, 3). Beregn acceptsandsynligheden p a for fejlprocenterne 1, 2, 3, 4, 5, 6, 7, 8, 9 10, og tegn på grundlag heraf stikprøveplanens OC - kurve. Løsning Vælg View JMP-starter Control OC-curves Acceptance-single ok indsæt n = 100 og c = 3 Eksempel 5.3 Bestemmelse af stikprøveplan Kan ikke finde et SAS-program der kan løse det. Eksempel 5.7 Bestemmelse af dobbelt stikprøveplan Kan kun få SAS.JMP til at tegne OC-Kurve Vælg View JMP-starter Control OC-curves Acceptance-Double ok indsæt c 1 =1, n 1 = 129, c 2 = 5, n 2 =

17 6 1 faktor på mere end 2 niveauer, ensidet variansanalyse Kapitel 6. 1 faktor på mere end 2 niveauer, ensidet variansanalyse Eksempel 6.2 Virkningerne af 4 tilsætningsstoffer T 1, T 2, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: Tilsætningsstof T 1 T 2 T 3 T 4 Mængde urenhed a) Kontroller om betingelserne om normalitet og varianshomogenitet er rimelig opfyldt. b) Test på signifikansniveau på 5% om der er forskel på middelværdierne for de 4 tilsætningsstoffer c) Find om muligt det tilsætningsstof der i middel giver den mindste urenhed og angiv i bekræftende fald et 95% konfidensinterval for middelværdien. Løsning: b) H 0 : mod H: mindst én middelværdierne er forskellig fra en af de øvrige. Løsning: Data indtastes, tilsætningsstof" skal være "rød" (se under Columns) og urenhed skal være "blå". tilsætningsstof t1 108 t1 110 t1 112 t2 105 t2 110 t2 109 t3 116 osv urenhed a) Kontrol af forudsætninger: Selv om det er muligt i SAS.JMP at kontrollere forudsætningen om normalfordeling, behøver man ikke nødvendigvis at gøre det, da testen er robust overfor afvigelser. Normalfordelingsplot: Vælg Analyze Fit Y by X markér Urenhed og tryk på Y Response markér Tilsætningsstof og tryk på X Factor OK Der fremkommer et scatterplot, hvor man kan se afbildet de tre værdierne af hver af de 4 tilsætningsstoffer rød pil ved figur rullemenu Save Save Residual Under data kommer nu en ekstra søjle med residualerne(overskrift urenhed centered by tilsætningsstof ). Vælg Analyze Distribution Indsæt Residual søjlen i Y OK Cursor på rød pil normal Quantile plot Der fremkommer et histogram med indtegnet normalfordelingskurve

18 Vejledning i SAS-JMP Da vi jo kun har 12 residualer kan vi ikke forvente et særligt klart billede, men i princippet burde de på normalfordelingsplottet ligge nogenlunde på en ret linie. De ligger i hvert fald alle indenfor konfidens-grænserne, så vi kan tillade os at antage fordelingen er approksimativt normalfordelt. Kontrol af varianshomogenitet: X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {,,,} 1234 X i antages approksimativt normalfordelt med middelværdien i og spredning i H 0 : H: Mindst en varians er forskellig fra en af de øvrige Sæt cursor på rød pil ved tegningen for Scatterplot, og vælg fra rullemenuen UnEqual Variances. Tests that the Variances are Equal Test F Ratio DFNum DFDen Prob > F O'Brien[.5] 0, ,7694 Brown-Forsythe 0, ,7430 Levene 0, ,6376 Bartlett 0, ,8971 Warning: Small sample sizes. Use Caution. Da P - værdierne alle er over 0.05 accepteres nulhypotesen H 0 : De 4 varianser er ens. b) H 0 : mod H: mindst én middelværdierne er forskellig fra en af de øvrige. Sæt cursor på rød pil ved scatterplot, og vælg fra rullemenuen Mens/Anova. Der fremkommer så en tegning og følgende udskrift: Oneway Analysis of urenhed By tilsætninsstof Oneway Anova Summary of Fit Rsquare 0, Adj Rsquare 0, Root Mean Square Error 2, Mean of Response 111,8333 Observations (or Sum Wgts) 12 Analysis of Variance Source DF Sum of Squares Mean Square F Ratio Prob > F tilsætninsstof 3 113, ,6667 4,9670 0,0311* Error 8 60, ,5833 C. Total ,

19 6 1 faktor på mere end 2 niveauer, ensidet variansanalyse Means for Oneway Anova Level Number Mean Std Error Lower 95% Upper 95% t ,000 1, ,33 113,67 t ,000 1, ,33 111,67 t ,333 1, ,67 117,00 t ,000 1, ,33 119,67 Af variansanalysetabellen fremgår, at P -værdi (Prob>F) = <0.05, dvs. nulhypotesen H 0 : forkastes ( svagt) Konklusion: De fire tilsætningsstoffer har ikke samme virkning. c) Konfidensintervaller. Tegningen der fremkom skal forstås på følgende 120 måde: Diamanterne angiver 95% konfidensintervaller. 115 Den midterste vandrette steg angiver gennemsnittet og de to andre vandrette streger angiver LSD intervaller. 105 Af figuren ses derfor straks, ved at se på LSD intervallerne, at t2 er signifikant mindre end t4, mens det er vanskeligere at se om t2 og t3 kan adskilles. I Means for Oneway Anova ses konfidensintervallerne Heraf ses, at t2, t3 og t3 er de mindste og ikke kan adskilles urenhed t1 t2 t3 t4 tils æt ninsstof LSD-intervaller fås ved at vælge Blandt en række udskrifter findes denne Level Mean t4 A 116,00000 t3 A B 113,33333 t1 B C 110,00000 t2 C 108,00000 Compare Mens fra rullemenuen Konklusion: Man får den mindste urenhed, hvis man vælger enten T 2 eller T 1 (de kan ikke adskilles). Et 95% konfidensinterval for T 2 er [104.3 ; 111.7] Eksempel 6.3 (randomiseret blokforsøg ) I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Lad der findes tre fodertyper A, B og C med forskelligt vitaminindhold. Fra hvert af 4 forskellige kuld grise udtages nu 3 grise. 19

20 Vejledning i SAS-JMP Et kuld vælges, og ved lodtrækning bestemmes hvilke af de 3 grise, der bliver fodret med fodertype A, hvilken med fodertype B og den sidste får naturligvis type C. Et nyt kuld udtages, og man randomiserer igen foderet indenfor kuldet (blokken), osv. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C Kuld a) Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. b) Hvis der er en forskel, så skal man angive hvilken foderblanding, der giver den største vægtforøgelse. Løsning: a) H 0 : Foderblanding har ingen virkning på vægtforøgelsen H: Foderblanding har virkning på vægtforøgelsen Da vi jo har 2 faktorer, kuld og fodertype, er analysen en speciel tosidet variansanalyse. Løsning: Indtastning af data Vælg Analyze Fit Y by X markér Vægt og tryk på Y Response markér Fodertype og tryk på X Factor Marker Kuld og tryk på blok OK Der fremkommer et scatterplot, hvor man kan se afbildet de fire værdier for hver af de 3 fodertyper. Rød pil Means/Anova.Der fremkommer så følgende tegning og udskrift: Oneway Analysis of Vægt By Fodertype 20

21 Oneway Anova Samarie of Fit Rsquare 0,83413 Adj Rsquare 0, Root Mean Square Error 2, Mean of Response 13,375 Observations (or Sum Wgts) faktor på mere end 2 niveauer, ensidet variansanalyse Analysis of Variance Source DF Sum of Squares Mean Square F Ratio Prob > F Fodertype 2 54, ,0625 5,7563 0,0402 Kuld 3 87, ,2431 6,2201 0,0285 Error 6 28, ,7014 C. Total ,06250 Means for Oneway Anova Level Number Mean Std Error Lower 95% Upper 95% A 4 11,7500 1,0841 9,097 14,403 B 4 16,3750 1, ,722 19,028 C 4 12,0000 1,0841 9,347 14,653 Std Error uses a pooled estimate of error variance Block Means Kuld Mean Number k1 9, k2 16, k3 11, k4 16, Da P - værdi for fodertype er < 0.05 forkastes nulhypotesen H 0 : Ingen forskel på fodertyper, dvs., at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne (mindst én afviger fra de øvrige). Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld. Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot har taget nogle tilfældige kuld ud. Konfidensintervallerne viser et svagt overlap. Vælger nu LSD-intervaller Compare Means each pair students t-test Comparisons for each pair using Student's t Confidence Quantile t Alpha 2, ,05 Connecting Letters Report Level Mean B A 16, C B 12, A B 11, Levels not connected by same letter are significantly different. Af LSD-intervallerne ses, at fodertype B giver den største vægtforøgelse. 21

22 Kapitel 7 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse Eksempel 7.2 Model med vekselvirkning. En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O 1, O 2, og O 3, og 2 karburatortyper K 1 og K 2 påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K 1 K 2 O Olieblanding O O ) Kontroller om betingelserne for normalitet og varianshomogenitet er rimelig opfyldt 2) Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. Løsning: Data indtastes på sædvanlig måde. Karburator olieblanding benzinforbrug k1 o1 830 k1 o1 860 k1 o2 940 k1 o2 990 k1 o3 855 k1 o3 815 k2 o1 810 osv. a)varianshomogenitet. Lad varianserne i de 6 celler være σ 1,σ 2, σ 3, σ 4, σ 5 og σ 6. H 0 : σ 1 =σ 2 = σ 3 = σ 4 = σ 5 = σ 6. H: Mindst en varians er forskellig fra en af de øvrige Da varianserne i hver af de 6 celler skal være ens, karakteriserer man disse ved at gå ind i regnearket og danne en ekstra søjle celler (og vælg den som character ). Da der er 6 celler med 2 tal i hver bliver søjlen: Karburator olieblanding benzinforbrug celler k1 o k1 o k1 o k1 o k1 o k1 o k2 o osv. Gå derefter ind i ensidet variansanalyse og vælg celler som faktor og benzinforbrug som Y, ok 22

23 7 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse cursor på rød pil på tegning og vælg Unequal Variances Oneway Analysis of Benzinforbrug By Celler Tests that the Variances are Equal Test F Ratio DFNum DFDen Prob > F O'Brien[.5] 0, ,0000* Brown-Forsythe Levene Bartlett 0, ,9842 Warning: Small sample sizes. Use Caution. Da Bartletts test giver en P-værdi= > 0.05 fås en accept af nulhypotesen. Kravet er rimeligt opfyldt. b) Først testes H0: R* C 0 ( Ingen signifikant vekselvirkning) HR : * C 0 Vælg Analyze Fit Model Indsæt for Y: Benzinforbrug,Indsæt for ADD:Karburator og Olieblanding Indsæt for CROSS: Karburator,Olieblanding (marker begge) Emphasis s rullemenu: vælg Minimal Report Run Model (Minimal report er kun valgt for at undgå nogle i denne forbindelse overflødige figurer) Man får (blandt andet) Summary of Fit RSquare 0, RSquare Adj 0, Root Mean Square Error 24,4949 Mean of Response 904,1667 Observations (or Sum Wgts) 12 Analysis of Variance Source DF Sum of Squares Mean Square F Ratio Model , ,3 23,7472 Error , ,0 Prob > F C. Total ,667 0,0007 Effect Tests Source Nparm DF Sum of Squares F Ratio Prob > F karburator ,000 10,1250 0,0190 Olieblanding ,667 48,9306 0,0002 karburator*olieblanding ,000 5,3750 0,0460 Ud for Karburator*olieblanding findes P - værdi = Da P - værdi = < 0.05 forkastes H 0 (svagt). Konklusion: Begge faktorer har en virkning i form af en vekselvirkning. For at finde hvilke kombinationer der giver lavest benzinforbrug vælges Vælg Effect Details rød pil ved karburator x olieblanding Vælg LS means Plot Vi får følgende Udskrift+tegning : Karburator*Olieblanding Least Squares Means Table Level Least Sq Mean Std Error k1,o1 845, , k1,o2 965, , k1,o3 835, , k2,o1 825, , k2,o2 1035, , k2,o3 920, ,

24 LS Means Plot Umiddelbart ses af figuren, at man ikke bør vælge olieblanding O 2. Derimod er det uklart hvilken af kombinationer (se tabellen) med de mindste means, der giver det laveste olieforbrug. Dette kan afklares ved på ovennævnte rullemenu at vælge LSMeans students t Det giver en stor tabel (som kan fjernes ved med cursor på overskrift, højre musetast at fjerne markeringen ved Crostab Report). Under den findes følgende lille tabel Level Least Sq Mean k2,o2 A 1035,0000 k1,o2 B 965,0000 k2,o3 B 920,0000 k1,o1 C 845,0000 k1,o3 C 835,0000 k2,o1 C 825,0000 Levels not connected by same letter are significantly different Heraf ses, at kombinationen K 2 O 1 giver det laveste benzinforbrug (825), men, at der ingen signifikant forskel er mellem K 2 O 1, K 1 O 3 og K 1 O 1. Konfidensintervaller Ønskes fundet 95% konfidensintervaller rød pil ved "karburator x olieblanding" LS Means Table Højremustast i tabel: Vælg Columns vælg lower og derefter upper. Karburator*Olieblanding Least Squares Means Table Level Least Sq Mean Std Error Lower95% Upper95% k1,o1 845, , , ,3818 k1,o2 965, , , ,3818 k1,o3 835, , , ,3818 k2,o1 825, , , ,3818 k2,o2 1035, , , ,3818 k2,o3 920, , , ,3818 Heraf ses, at for kombinationen K 2 O 1 er konfidensintervallet = [782.6 ; 867.4] Ønskes gemt de estimerede middelværdier, error, konfidens- og prædiktionsgrænser gemt i den oprindelige datatabel, så rød pil ved Response på rullemenu vælg SaveColumns Vælg de ønskede størrelser. 24

25 7 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse Eksempel 7.3 Additiv model: To signifikante hovedvirkninger I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere og cementknusere. Med hver af 3 cementblandere udstøbtes efter blanding med vand 12 cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 4 cementknusere. Forsøgsresultaterne var: Cementknusere Cementblandere Forudsætningerne for en variansanalyse antages opfyldt. Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. Løsning Lad starten af indtastningen i regnearket være cementblandere cementknusere brudstyrke c1 k1 147 c1 k1 175 c1 k1 130 c1 k2 99 c1 k2 85 osv. 1) Variansanalysetabel opstilles. Vælg Analyze Fit Model Indsæt for Y: Brudstyrke,Indsæt for AD:Cementblandere og Cementknusere Indsæt for CROSS: Cementblandere,Cementknusere (marker begge) Run Model Der fremkommer en række figurer og tabeller. Blandt disse er følgende variansanalysetabel Summary of Fit RSquare 0, RSquare Adj 0, Root Mean Square Error 29,77042 Mean of Response 118,3889 Observations (or Sum Wgts) 36 Analysis of Variance DF Sum of Squares Mean Square F Ratio Source Model , ,81 6,9570 Error , ,28 Prob > F C. Total ,556 <,0001* Effect Tests Source Nparm DF Sum of Squares F Ratio Prob > F Cementblander ,056 4,9116 0,0163* Cementknuser ,222 19,5557 <,0001* Cementblander*Cementknuser ,611 1,3394 0,

26 a) H0: R* C 0 ( Ingen signifikant vekselvirkning) For Cementblandere*cementknusere findes P - værdi = Da P - værdi = > 0.05 accepteres H 0. Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende. b) Vekselsvirkningen "pooles" ned i error ". Gå tilbage til starten, og slet vekselvirkningsleddet. Blandt mange tabeller findes Effect Tests Source Nparm DF Sum of Squares F Ratio Prob > F Cementblander ,056 4,5994 0,0181* Cementknuser ,222 18,3125 <,0001* H 0 : C = 0 (Cementknuser har ingen virkning) forkastes, da P-værdi = < 0.05 H 0 : R = 0 (Cementblander har ingen virkning) forkastes, da P-værdi = < 0.05 Konklusion: Cementknuserne har en stærk signifikant virkning, Cementblanderne har en signifikant virkning, Under cementblandere kan på samme måde som i forrige eksempel bl.a. findes følgende tabeller Level Least Sq Mean c2 A 140,08333 c1 B 110,66667 c3 B 104,41667 Levels not connected by same letter are significantly different. Heraf ses, at cementblander 2 må foretrækkes Under cementknusere fås Level Least Sq Mean k1 A 151,33333 k4 A 150,22222 k2 B 114,11111 k3 C 57,88889 Levels not connected by same letter are significantly different Cementknuser 1 og 4 må foretrækkes. Konklusion: Størst middelbrudstyrke fås i kombinationen cementknuser 1 og cementblander 2 eller cementknuser 4 og cementblander 2 Et estimat ~ for største middelbrudstyrke på basis af cementknuser 1 og cementblander 2: 12 Rød pil ved Response Profiler Factor profiling Profiler Ved de fremkomne figurer flyttes linier Rød pil ved Predicter Profiler Confidence Intervals 26

27 8 Regressionsanalyse 200 Brudstyrke 173,0278 ±25, ~ c1 c2 c3 c2 Cem entbl ander k1 k2 k3 k4 k1 Ce m entknuser 95% Konfidensinterval : ; ; Eksempel 7.4 Additiv model: Een signifikant hovedvirkning Samme fremgangsmåde som i eksempel 7.3. Kapitel 8. Regressionsanalyse Eksempel 8.4 Vurdering af model Tilsætning af en vis mængde kunstfibre forøger et garns trækstyrke. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre p. kg uld Trækstyrke : Y ) Find r 2 og anvend denne samt en figur på lommeregnerens grafiske display eller residualer- nes fortegn til vurdering af modellen. 2) Opskriv regressionsligningen. Løsning 1) Data indtastes kunstfibre styrke 40 4,5 50 6,5 osv. Man kan ved analysen vælge 2 modeller, enten fit Y by X som giver en forholdsvis simpel og overskuelig analyse, eller Fit model som er nødvendig ved mere specielle analyser. 1) Vælg Analyze Fit Y by X markér Styrke og tryk på Y Response markér kunstfibre og tryk på X Factor OK Der fremkommer et scatterplot, hvor man i et koordinatsystem kan se punkterne afbildet. Rød pil vælg fra rullemenuen Fit Line. Der fremkommer så følgende tegning og udskrift: 27

28 Vejledning i SAS-JMP Af figuren ses, at punkterne fordeler sig tilfældigt omkring linien. Af udskriften ses, at forklaringsgraden RSquare er 91,93 %, hvilket er tilfredsstillende, da modellen altså forklarer 91,93% af variationen. Outliers. Af ovenstående figur ses, at der næppe er nogen outliers (punkter der afviger så kraftigt fra det generelle billede, at man kunne frygte de var fejlmålinger). En undersøgelse af om der er outliers er vigtigt. En (lidt usikker) metode er, at få tegnet såkaldte 95% predikationskurver, og se om praktisk taget alle punkter ligger indenfor disse. Rød pil under tegningen ved linear fit vælg Confid. Curves indv Da alle punkter ligger indenfor grænserne, tyder det ikke på, at der er outliers. En lidt sikrere metode er, at lade SAS-JMP beregne såkaldte Studentized Residuals, som tager i betragtning, at spredningen er mindre ved midtpunktet end langt fra det. Vælg Analyze Fit model markér Styrke og tryk på Y markér kunstfibre og tryk ADD I Emphasis vælg Minimal Report (for at begrænse udskrifterne) Run Vi får tegninger og udskrifter nogenlunde magen til før. Rød pil vælg Save Columns Studentized residuals 28

29 8 Regressionsanalyse Der bliver nu tilføjet en ekstra kolonne til data Heraf fremgår, at da ingen Studentized Residuals, numerisk er større end 3 (det er tilladt, at nogle få er større end 2) er der ingen outliers. Et residualplot ( tegning af de sædvanlige residualer) kan ses nederst, og af den kan man (måske lettere) se at residualerne, og dermed at punkterne, fordeler sig tilfældigt omkring linien. Konklusion: Modellen synes tilstrækkelig godt at beskrive data indenfor måleområdet. Eksempel 8.5 (fortsættelse af eksempel 8.4) Test I eksempel 8.4 fandt man at ligningen y = x var en god model for data. 1) Test om y er uafhængig af x 2) Find 95% konfidensinterval for hældningen 3) Find den til x = 65 svarende værdi for y, samt et 95% konfidensinterval for y. 4) Find 95% prædistinationsinterval for 1 ny observation svarende til x - værdien 65. Løsning: Data er indtastet som i eksempel 8.4 1) H 0 :Y er uafhængig af x H0: Regressionslinien er vandret H0: 1 0. Vælg Analyze Fit model markér Styrke og tryk på Y markér kunstfibre og tryk på Add Run Der fremkommer så blandt andet denne udskrift: Det ses, ud for Model, at F - Ratio = og at P-value = (kan også ses ud for kunstfibre Heraf fås, at H 0 forkastes Y er ikke uafhængig af x. 2) Konfidensinterval for hældningskoefficienten 1 : Cursor placeres i tabel for Parameter Estimates, højre musetast Columns Lower 95% Upper 95% Man får bl.a. følgende tabel: 29

30 Vejledning i SAS-JMP Heraf aflæses [ ; ] 3) 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 65. rød pil ved Response, styrke vælg Factor Profiling Profiler sæt cursor på tallet i bunden og skriv 65 og aflæs x = 65 Y = % konfidensinterval =[6.55;7.46] 4) Indsæt 65 nederst i x-kolonne i tabel rød pil ved response save Columns Individ Confidence Interval I tabel fremkommer nu prædistinationsintervaller [5.53 ; 8.47] Eksempel 8.6. Valg mellem lineær og eksponentiel model I et forsøg undersøgtes et ventilationsanlægs effektivitet. Målingerne foretoges ved at fylde et lokale med gas og vente til koncentrationen var stabil. Herefter startedes ventilationsanlægget og gaskoncentrationen C t måltes til forskellige tidspunkter t. Følgende resultater fandtes: t (min. efter anlæggets start) C [ppm] Følgende 2 modeller for funktioner overvejes: Model l (lineært henfald): C a b t Mode12 (eksponentielt henfald): C a e bt 1) Vurder hvilken model der er bedst. 2) Opskriv regressionsligningen for den model du finder bedst. 3) Beregn ud fra den valgte model den værdi af C, for hvilken t = 12 minutter, og opskriv et 95% konfidensinterval for C. 30

31 8 Regressionsanalyse Løsning Data indtastes 1) Analyze Fit Y by X markér c og tryk på Y Response markér t og tryk på X Factor OK Der fremkommer et scatterplot, hvor man i et koordinatsystem kan se punkterne afbildet. Rød pil Fit line Der fremkommer følgende figur og udskrift: Det ses, at punkterne ikke fordeler sig jævnt om linien Forklaringsgraden 91.9% er høj Vi gentager nu, idet vi nu vælger Fit special Marker Natural logarithm for y OK Vi ser, at punkterne fordeler sig tilfældigt omkring kurven, 31

32 Vejledning i SAS-JMP og at RSquare =0.988 er høj, så model2 (eksponentiel model) må være den bedste model. 2) Af Log(c) = 3, ,072567*t fås (med lommeregner) c e t t e ) Danner en ny kolonne med navnet logc cursor på navn, højre musetast, Formula vælg c trancental log ok Skriv nederst i tabel under t tallet 12. Analyze Fit model Marker logc og vælg y marker t og vælg add Emphasis, Minimal report Run Rød pil ved "Response logc" Save Columns predicted values mean Confidence interval Der fremkommer følgende tabel Heraf ses, at for t = 12 er log(c) = c e % konfidensinterval: e ; e ;. 33 Eksempel 8.7. Regressionsanalyse (med gentagelser) Givet følgende målinger Tiden t Tykkelse y ) Foretag en testning af forudsætningen om varianshomogenitet. 2) Det formodes på forhånd, at der er en lineær sammenhæng mellem x og y. Undersøg ved en lack of fit test, om formodningen kan accepteres. 3) Bestem i bekræftende fald ligningen for den fundne regressionslinie. 32

33 8 Regressionsanalyse 4) Det påstås i litteraturen, at hældningskoefficienten 1 er 0.15 Test om dette på et signifikansniveau på 5% kan være sandt. 5) Angiv et 95% konfidensinterval for middelværdien af tykkelsen y, når t = 110 minutter. Løsning Data indtastes på sædvanlig måde: osv. 1) Undersøgelse af varianshomogenitet Test af nulhypotesen H 0 : Man gør som beskrevet under ensidet variansanalyse, dvs. vi vælger at gøre t til nominal (rød) Vælg Analyze Fit Y by X markér y og tryk på Y Response markér t og tryk på X Factor OK Sæt cursor på overskrift, højre musetast vælg fra rullemenuen UnEqual Variances. Da vi kun har 2 gentagelser for hver t-værdi kan kun Bartletts test anvendes. Da P - værdien= > 0.05 accepteres H 0, dvs. vi vil i det følgende antage, at kravet om varianshomogenitet er opfyldt. 2) H 0 : Lineær model gælder H 0 :( x i, i ) ligger på en ret linie Man sørger nu for, at t er continous, og vælger nu forfra Analyze Fit Y by X markér y og tryk på Y Response markér t og tryk på X Factor OK Der fremkommer et scatterplot, hvor man i et koordinatsystem kan se punkterne afbildet. Sæt cursor på overskrift, højre musetast vælg fra rullemenuen Fit Line. Tryk på pil ud for Lack of Fit på den røde pil under tegningen ved linear fit vælg Confid. Curves indv 33

34 Vejledning i SAS-JMP Der fremkommer følgende udskrift: Af figuren ses, at gennemsnitspunkterne ligger tilfældigt omkring linien, og der næppe er outliers, da punkterne næsten alle falder indenfor prediction linierne Det ses, at forklaringsgraden RSquare er høj Af udskriften for Lack of fit ses, at P - value er På et signifikansniveau på 5%, ses, at H 0 må accepteres, dvs. vi kan antage, at indenfor måleområdet giver førstegradsmodellen en rimelig god beskrivelse af resultaterne, 3) Af udskriften ses, at regressionsligningen bliver y x 4) H 0 : Sæt cursor på et vilkårligt tal under " Parameter estimates", højre musetast Columns vælg "lower" gentag men vælg "Upper" Heraf ses, at et 95% konfidensinterval for ikke indeholder dvs. data giver ikke den i litteraturen angivne hældningskoefficient.. 5) Find det til t = 110 svarende 95% konfidensinterval for tykkelsen y. Skriv nederst i tabel under t tallet 110. Analyze Fit model Marker y og vælg y marker t og vælg add Minimal report Run Rød pil ved "Response y Save Columns predicted values mean Confidence interval 34

35 8 Regressionsanalyse Der bliver nu tilføjet ekstra søjler. Vi får y s værdi for x = 110 = % konfidensinterval [19.98 ; 21.38] Eksempel 8.8 (multipel regressionsanalyse uden gentagelser) Det månedlige elektriske forbrug Y på en fabrik formodes at være afhængig af den gennemsnitlige udendørs temperatur x 1, antal arbejdsdage x 2 i måneden, den gennemsnitlige renhed x 3 af det fremstillede produkt og det antal tons x 4, der produceres i den pågældende måned. Det formodes, at Y er en lineær funktion af x 1, x 2, x 3 og x 4, dvs. på formen Y 0 1x1 2x2 3x3 4x4. Følgende observationer fra det forløbne år foreligger x 1 x 2 x 3 x 4 Y ) Vurder ud fra forklaringsgraden og "studentized residualer" om ovennævnte model er rimelig. Det antages i det følgende, at ovenstående model gælder. 2) Undersøg om modellen kan reduceres, dvs. kan nogle af koefficienterne antages at være 0. 3) Angiv regressionsligningen i den endelige model. 4) Angiv 95% konfidensintervaller for de regressionskoefficienter der indgår i ovenstående model 5) Angiv et 95% konfidensinterval for Y i punktet ( x1, x2, x3, x4) ( 0, 20, 90, 100) Løsning Data indtastes 35

36 Vejledning i SAS-JMP 1) Vælg Analyze Fit model markér y og tryk på Y Response markér x1, x2, x3.x4 og tryk ADD Emphasis: Minimal report Run Der fremkommer bl.a. følgende udskrift Vælg rød pil Save Columns Studentized residuals I datatabel kan man nu yderligere finde følgende Da kun en enkelt værdi numerisk er større end 2 og ingen er over 3, antages, at der ikke er outliers Da yderligere forklaringsgraden= er tæt ved 1 vurderes modellen at være rimelig god. 36

37 8 Regressionsanalyse 2) Mulig reduktion af modellen H 0 : , H: Mindst en af regressionskoefficienterne er forskellig fra 0. I samme udskrift som under "Summery of Fit" fandtes Af ovenstående udskrift ses for model, at P - Value < < Heraf følger, at H 0 forkastes (stærkt), dvs. mindst en af regressionskoefficienterne er forskellig fra 0. Vi ser nu regressionskoefficienterne Den størrelse, der har størst P-værdi er 2. H 0 : 2 = 0 accepteres, da P -værdien = > x2-leddet bortkastes. Bemærk, at man kun eliminerer én variabel ad gangen. Vi eliminerer nu x 2 : (slettes under ADD ) Da P-værdien for x3 er > 0.05 eliminerer vi nu x3. 37

38 Vejledning i SAS-JMP Det er nu ikke muligt at reducere modellen mere. 3) For at kunne angive regressionsligningen betragtes følgende udskrift. Ligningen bliver y x x 1 4 4) Cursor i tabellen ovenfor, højre musetast Columns Upper 95% lower 95% Konfidensintervallerne bliver 1 :[ ; ], 4 :[ ; ] 5) Cursor på rød pil"response Y" vælg Factor Profiling Profiler cursor på det røde tal forneden ved x1, skriv 0, Cursor på rødt tal ved x4, skriv 100 Vi har derfor, at y og et 95% konfidensinterval er [ ; ] Eksempel 8.9. Polynomial regressionsanalyse uden gentagelser. Et forsøg udføres, for at finde hvordan størkningstiden T (i minutter) afhænger af antal gram x af et additiv. Man fik følgende forsøgsresultater: x g/l T min ) Vurder på basis af ovennævnte observationer, hvilket polynomium 2 3 p T 0 1x 2x 3x... p x af lavest mulig grad p, der indenfor måleområdet [ 0 ; 8.5 ] giver en tilfredsstillende beskrivelse af T s variation. 38

39 8 Regressionsanalyse 2) Angiv regressionsligningen for den model, man i spørgsmål 1 har fundet frem til. 3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2. Løsning: 1) Data indtastes a) Analyze Fit Y by X markér T og tryk på Y Response markér x og tryk på X Factor OK Der fremkommer et scatterplot, hvor man i et koordinatsystem kan se punkterne afbildet. Cursor på overskrift, højre musetast Fit Polynomial Man kan nu vælge, hvilken grad polynomiet skal have. Ud fra scatterplottet synes en andengradsmodel ikke at være en god model Vi vælger dog først en andengradsmodel 2.quadratic Der fremkommer blandt andet følgende udskrift: Vi vælger nu en trediegradsmodel 3,cubic Vi ser, at R-squared (adjusted) er steget fra til Vi vælger nu en fjerdegradsmodel 4,quartix Vi ser, at RSquar Adj (adjusted) er faldet fra til

40 Vejledning i SAS-JMP Heraf må sluttes, at fjerdegradsmodellen ikke har givet et væsentligt forbedret bidrag til forklaring af data. For at lave tests, konfidensintervaller m.m. må man indføre 2 nye kolonner x2 = x 2 og x3=x 3 og gå over i multipel analyse. Hertil benyttes formula (Cursor på kolonneoverskrift højre musetast formula) vælg potensformel i oversigt Vælg Analyze Fit model markér T og tryk på Y Response markér x, x2, x3 (vælg minimal report) og tryk ADD Run Man får bl.a. Da vi ser, at P-værdien for 3 = < 0.05 forkastes H 0 : 3 0, dvs. Vi kan ikke bortkaste trediegradsleddet. Heraf sluttes, at en trediegradsmodel må være det foreløbig bedste bud Grafen for trediegradsmodellen bliver Da punkterne ligger tilfældigt omkring kurven finder vi, at trediegradsmodellen er en acceptabel model For at vurdere om der er outliers, vælges studentized residuals Vælg rød pil(ved response) Save Columns Studentized residuals Resultat blev følgende tabel 40

41 8 Regressionsanalyse Den viser, at ingen numerisk er over 3, og kun en enkelt på 2.05 er numerisk over 2 Konklusion: Trediegradsmodellen er den bedste model 2) Regressionsligningen ses under trediegradsmodellen eller T x x x 2 3.(udregnet på lommeregner) 3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2. Skriv 6.2 nederst i datatabel cursor på overskrift på x2, højre musetast Nu kommer automatisk i kolonnerne 6.2^2 osv. Vælg Analyze Fit model osv Rød pil ved Response T Save Columns Predicted value derefter det samme men nu vælges Mean Confidence Interval Nu dannes i tabellen tre nye kolonner op, hvoraf man aflæser det ønskede 41

42 Vejledning i SAS-JMP Man får T = og 95% konfidensinterval [420.0;500.9] Kapitel 9. Flere end 2 faktorer på 2 niveauer, Screeningforsøg Eksempel 9.7. Beregning af partiel faktorforsøg Virkningerne af 7 faktorer ønskedes undersøgt ved et partielt faktorforsøg. Om 3 af faktorerne kunne forudsættes, at kun hovedvirkninger kunne være forskellige fra nul, medens for de 4 øvrige også 2-faktorvekselvirkninger eventuelt kunne være forskellige fra nul. De 4 sidste faktorer identificeredes derfor med bogstaverne A,B,C og D og de 3 første med bogstaverne E,F og G. 1 Der udførtes et fuldstændigt randomiseret forsøg med en - faktorstruktur, hvor denne sidste er fremkommet ved, at faktorerne E,F og G indførtes i en fuldstændig faktorstruktur med faktorerne A,B,C og D ved relationerne: E = ABC F = BCD G = ABCD Behandlingerne anføres i standardrækkefølge efter A,B, C og D, og uden gentagelser, var følgende: a) Find, hvilke faktorer, der har virkning b) Find de niveauer de pågældende faktorer skal indstilles på, for at give det største resultat. 42

43 6 Flere end 2 faktorer på 2 niveauer, Screeningsforsøg c) Angiv et estimat for dette største middelresultat, og angiv et 95% Konfidensinterval herfor. Løsning Vi skal finde hovedvirkningerne + vekselvirkningerne AB, AC, AD, BC, BD, CD a) Doe Screening Design under Y skal stå "Maximize" Under Factors vælg "Add N Factors", Skriv 7 Vælg Catagorical: 2 level ADD ændre navnene fra x1, x2... til A, B,... Continue Vælg 16 Run, Fractional Factorial (uden blokke) Continue Vi ser nu følgende forslag til struktur (efter at have valgt nedenfor nævnte boks) Skemaet skal læses E = BCD, F = ACD, G = ABD I Changing Generating Rules ændres nu planen ved at sætte passende krydser. Apply Vi får planen 43

44 Vejledning i SAS-JMP Det ses, at planen opfylder kravene, idet vi dog skal flytte BC og CD frem Vi går til Output Options Make Tabel Der fremkommer en tabel som skal udfyldes (se nedenfor) Rød pil i tabel ved Design Model Edit Vi flytter nu BC og CD frem ved at skrive B*C fremfor A*E og C*D fremfor B*F. samt sletter de to sidste vekselvirkninger BG og CG,Run Vi er nu tilbage ved Model Specifikation, hvor vi ses, at den endelige model stemmer For at kunne udfylde tabellen er vi nødt til at finde ud af behandlingerne Underliggende struktur A B C D E=ABC F=BCD G=ABCD Behandlinger (1) + g 15.3 a ae 18.4 b + bef 26.1 ab + abfg 26.3 c cef 13.5 ac + acfg 15.7 bc bcg 18.8 abc abce 17.3 d df 21.0 ad + + adefg 22.3 bd + bdeg 18.9 abd abd 15.5 cd cdeg 9.6 acd acd 10.5 bcd + bcdf 23.1 abcd abcdefg 25 Tabellen udfyldes (den er naturligvis i en anden randomiseret rækkefølge hos jer) 44

45 6 Flere end 2 faktorer på 2 niveauer, Screeningsforsøg Rød pil i tabel ved Design Model Run Script I Emphasis vælg minimal report Run Blandt mange andre udskrifter fås følgende tabeller: Heraf ses, at BC er den eneste signifikante vekselvirkning. De øvrige vekselvirkninger pooles ned i Error, ved at slette dem i Design Model Edit Run Vi får nu bl.a. følgende udskrift 45

46 Vejledning i SAS-JMP Heraf ses, at også F har en signifikant virkning. Konklusion: B, C og F har en virkning B og C i form af en vekselvirkning b) De øvrige hovedvirkninger pooles ned i Error Vælg derefter minimal Report, Run Rød pil ved Response Y Factor Profiling vælg Interaction Plots Af interaction Profiles ses, at man skal vælge C på lavt niveau og B på højt niveau Rød pil ved Response Y Factor Profiling vælg Profiler" Under rød pil Prediction Profiler slet kryds ved Desirability Functions Af Prediction profiles ses, at man skal vælge F på højt niveau. c) Placer de røde streger på figuren 46

47 6 Flere end 2 faktorer på 2 niveauer, Screeningsforsøg Det ses, at den største middelværdi er 24.74, og et 95% konfidensinterval er [ ; ] = [22.72 ; 26.76] Eksempel Beregning af et konfunderet partielt faktorforsøg Virkningen af 5 faktorer A, B, C, D og E ønskes undersøgt. Man ved, at ingen af faktorerne D og E vekselvirker med andre faktorer. Da man kun kan udføre 4 forsøg pr apparat, indføres blokke på 4 forsøgsenheder. I en fuldstændig 2 4 struktur med faktorerne A, B, C og D indføres E = ABCD. Endvidere indføres blokkene ved at konfundere ABD og CD. Her vælges (tilfældigt) fortegnene ++ til blok til blok 2 osv. Forsøgsplanen (opskrevet på sædvanlig måde i standardorden ) og forsøgsresultaterne er: A B C D E=ABCD behandlinger ABD CD Blokke Resultat (1) + e a + a b + b ab abe c + c 4 10 ac ace bc bce abc abc 4 17 d + d ad ade 4 14 bd bde 4 7 abd abd cd cde acd acd bcd bcd abcd abcde a) Find hvilke faktorer der har virkning b) Angiv de niveauer de pågældende faktorer skal indstilles på, for at give det største middelværdi. 47

48 Vejledning i SAS-JMP Løsning: a) Doe Screening Design under Y skal stå "Maximize" Under Factors vælg "Add N Factors", Skriv 5 Vælg Catagorical: 2 level ADD ændre navnene fra x1, x2... til A, B,... Continue Vælg 16 Run,block 4, Fractional Factorial Continue Vi får en udskrift Vælg Change Generating Rules Vi ændrer nu planen ved at sætte og fjerne passende krydser i overensstemmelse med ovenstående plan. Apply Change Generating Rules Factors E Block Block A X X B X X C X X D X X X Aliasing of Effects Effects Aliases Block Aliases C*D = Block C*E = Block D*E = Block Vi ser planen stemmer Output Options Randomize within blocks. Make Tabel Der udskrives nu en tabel, efter hvilken rækkefølgen af forsøgene er bestemt (randomiseret) Vi indsætter nu forsøgsresultaterne: Bloknumrene svarer ikke til dem vi indførte, men da man jo ikke er interesseret i hvilke blokke der er bedst, er det ligegyldigt. Eksempelvis svarer SAS blok 1 til vor nr 4 Pattern Block A B C D E Y L1 L1 L2 L1 L L1 L2 L1 L2 L L2 L2 L2 L1 L L2 L1 L1 L2 L L1 L1 L1 L2 L L1 L2 L2 L1 L L2 L1 L2 L1 L L2 L2 L1 L2 L L1 L1 L1 L1 L L2 L1 L2 L2 L L2 L2 L1 L1 L L1 L2 L2 L2 L L1 L1 L2 L2 L L2 L1 L1 L1 L L1 L2 L1 L1 L L2 L2 L2 L2 L2 5 Analyse af data (variansanalyse) Rød pil i tabel ved Design,Model Edit I den fremkomne tabel fjernes nu alle de vekselvirkninger, man mener der er 0. Rød pil i tabel ved Design,Model Run Script Man ser nu den endelige model. 48

49 6 Flere end 2 faktorer på 2 niveauer, Screeningsforsøg Vi får bl.a. følgende udskrift. Analysis of Variance Source DF Sum of Squares Mean Square F Ratio Model , ,3182 2,0722 Error 4 31, ,8750 Prob > F C. Total , ,2516 Det ses, at alle vekselvirkninger er 0. De pooles væk. Marker dem under Model "Edit. ok og vælg Model Run script, run Konklusion: A og E har en virkning 49

Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP.

Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP. 1 Generelle forhold ved opstart Eksempler fra bogen Videregående Statistik løst ved anvendelse af programmet SAS-JMP. Indhold 1. Generelle forhold... 1 2. Beregning af sandsynlighedsfordelinger... 2 3.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI 89 og SAS - JMP) 5. udgave 011 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 11 016 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI-Nspire og TI 89 ) 7. udgave 013 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Statistisk forsøgsplanlægning. med benyttelse af Statgraphics

Statistisk forsøgsplanlægning. med benyttelse af Statgraphics MOGENS ODDERSHEDE LARSEN Statistisk forsøgsplanlægning med benyttelse af Statgraphics Vekselvirkning CD 10 8 C 1 udbytte 6 4 0 1 3 4 D 11 udgave 00, DTU FORORD Dette notat er baseret på at de studerende

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics)

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 005 FORORD Dette notat kan læses på

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 1 016 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics)

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6 udgave 005 FORORD Dette notat kan læses på baggrund af en statistisk viden

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere