ØVELSER // SVAR Statistik, Logistikøkonom Konfidensintervaller for én middelværdi og én andel

! ØVELSER // SVAR Statistik, Logistikøkonom Konfidensintervaller for én middelværdi og én andel Opgave 1 Når populationens varians er kendt En virksomhed har udviklet en proces til at producere mursten, hvor det er kendt at vægten på disse mursten er normalfordelt med en standardafvigelse på 0,12 kg. En tilfældig stikprøve på 16 mursten udvælges fra dagens produktion. Den gennemsnitlige vægt på disse 16 mursten er 4,07 kg. a) 99 % konfidensinterval for den gennemsnitlige vægt på alle mursten produceret den givne dag, µx: α = 0,01 dvs. der er 1% sandsynlighed for at µx ligger udenfor konfidensintervallet n = 16 antal mursten fra dagens produktion der indgår i stikprøven = 4,07 stikprøvens middelværdi (gennemsnitlig vægt for de 16 mursten) = 0,12 populationens kendte standardafvigelse (gennemsnitlig afvigelse fra gennemsnittet for de 16 mursten) 99% interval for gennemsnit N. grænse: 3,992725121 Ø. grænse: 4,147274879 ØVELSER / Statistik, Logistikøkonom / Efterår 2015 / Jakob Pindstrup Side #1

Formelt set kan vi skrive: 3,99272 µx 4,14728. Den gennemsnitlige vægt målt i kg på alle mursten produceret den givne dag ligger altså med 99 % sandsynlighed mellem 3,99 kg og 4,15 kg. b) Et 95% konfidensinterval for populationens gennemsnit, µx, ville være smallere end et 99% konfidensinterval. Ved 95% accepteres et lavere sikkerhedsniveau og derved en større α (arealet udenfor konfidensintervallet udgør en større del af hele arealet under tæthedsfunktionen). Jo mindre konfidensniveau jo smallere interval. c) En stikprøve på 20 mursten vil medføre et smallere konfidensinterval end en stikprøve på 16 (et 99% K.I. estimeret fra en stor stikprøve vil føre til et mere sikkert estimat (mindre standardfejl) og derfor vil intervalestimatet ligger nærmere gennemsnittet). Jo større stikprøve jo mindre standardfejl - jo smallere interval. d) En mindre populationsvarians vil føre til et smallere konfidensinterval, da vægten af de enkelte mursten varierer mindre omkring gennemsnittet (et 99% K.I. vil være smallere jo mindre populationens varians / standardafvigelse er da standardfejlen så bliver mindre). Jo mindre standardafvigelse jo mindre standardfejl - jo smallere interval. Opgave 2 Når populationens varians er kendt Kagefabrikken Jensen Supreme Royal Cookies International har udviklet en proces til at producere lækre lagkager med masser af flødeskum, chokoladecreme med hvid og lys mælkechokolade, kakaotrøffel, valnødder, brændte mandler, råcreme og kokosdrys. Dog er det svært at gøre produktionen helt stringent mht. vægten. Det er vigtigt, at når varen skal ud i butikkerne, så skal vægten være nogenlunde den samme for at prissættelsen kan sættes rigtig. Derudover har det også indflydelse på udgifterne til transporten til butikkerne, hvis produktet svinger for meget i vægt. Vægten på disse lagkager er normalfordelt med en standardafvigelse på 21,8 gram. En tilfældig stikprøve på 200 lagkager udvælges. Den gennemsnitlige vægt på disse 200 lagkager er 243 gram. Vi anvender et konfidensniveau på 95%. a) 95 % konfidensinterval for den gennemsnitlige vægt på alle lagkager produceret, µx: α = 0,05 dvs. der er 5% sandsynlighed for at µx ligger udenfor konfidensintervallet ØVELSER / Statistik, Logistikøkonom / Efterår 2015 / Jakob Pindstrup Side #2

n = 200 antal lagkager der indgår i stikprøven = 243 stikprøvens middelværdi (gennemsnitlig vægt for de 200 lagkager) = 21,8 populationens standardafvigelse (gennemsnitlig afvigelse fra gennemsnittet for de 200 lagkager) 95% interval for gennemsnit N. grænse: 239,9787297 Ø. grænse: 246,0212703 Formelt set kan vi skrive: 239,9788 µx 246,0213. Den gennemsnitlige vægt målt i gram på alle producerede lagkager ligger altså med 95 % sandsynlighed mellem 239,9788 gr. og 246,0213 gr. b) Svaret må tage udgangspunkt i, hvilke aftaler kagefabrikken har med det transportfirma der leverer varer til butikkerne. Hvis aftalen her går på at lagkagerne vejer 240 gram, vil vi med 95% sandsynlighed kunne konkludere, at lagkagerne generelt set vil overholde aftalen. Vi vil derfor ikke anbefalde fabrikken at foretage sig yderligere. Hvad angår prissætningen, bør man tage højde for, at den sande middelværdi med 95% sandsynlighed kan være på 246 gram, og det bør derfor indgå i prissætningen, at meromkostningerne til en lagkage på 246 gram i modsætning til en lagkage på 239,97 gram bør inddækkes. c) 90 % konfidensinterval for den gennemsnitlige vægt på alle lagkager produceret, µx: α = 0,1 dvs. der er 10% sandsynlighed for at µx ligger udenfor konfidensintervallet n = 200 antal lagkager der indgår i stikprøven = 243 stikprøvens middelværdi (gennemsnitlig vægt for de 200 lagkager) = 21,8 populationens standardafvigelse (gennemsnitlig afvigelse fra gennemsnittet for de 200 lagkager) 90% interval for gennemsnit N. grænse: 240,46447 ØVELSER / Statistik, Logistikøkonom / Efterår 2015 / Jakob Pindstrup Side #3

Ø. grænse: 245,53553 Formelt set kan vi skrive: 240,4645 µx 245,5355. Den gennemsnitlige vægt målt i gram på alle producerede lagkager ligger altså med 90 % sandsynlighed mellem 240,46 gr. og 245,54 gr. d) Intervallet er blevet mindre da sandsynligheden for, at den sande middelværdi ligger udenfor intervallet er blevet større. Opgave 3 Konfidensinterval for en andel En stor detailkæde står foran en relancering af sin egen hårpleje-produktserie. Man har tidligere haft den antagelse, at hårplejeserien hovedsageligt henvendte sig til kvinder. Der foreligger dog ingen nyere analyser af denne antagelse, og detailkæden ønsker derfor ved hjælp af en stikprøve på 1041 tilfældigt udvalgte kunder at undersøge, hvor hvidt denne antagelse stadig er rigtig. Stikprøven viste, at ud af de 1041 tilfældigt udvalgte kunder, var 550 kvinder. a) Bestem et 95% konfidensinterval for andelen af hårpleje-kunderne, der er kvinder. I Statlearn bruger vi 3.1.a: KI for andel. 95% konfidensinterval for andel N. grænse: 0,498014 Ø. grænse: 0,558663 Formelt set kan vi skrive: 0,498014 px 0,558663. Den sande andel af kvinder, som køber hudplejeprodukterne, vil med 95 % sandsynlighed ligge mellem 49,8 % og 55,9%. b) Kan man på baggrund af dette resultat konkludere, at hårpleje-produktserien hovedsageligt henvender sig til kvinder? I sår fald, hvorfor/hvorfor ikke? SVAR: Vi kan ikke konkludere, at der vil være en overvægt af kvinder, da intervallets nedre grænse ligger under 50 %. ØVELSER / Statistik, Logistikøkonom / Efterår 2015 / Jakob Pindstrup Side #4

c) Hvis vi forestiller os, at stikprøven på de 1041 kunder reelt set var hele populationen - dvs. det præcise antal og den samlede mængde kunder af hårplejeserien. Kan vi i så fald konkludere, at hårplejeserien fortrinsvis henvender sig til kvinder? I sår fald, hvorfor/hvorfor ikke? SVAR: JA! Vi foretager i så fald en deskriptiv analyse (beskrivende statistik), og behøver derfor ikke se på konfidensintervallets grænseværdier, men kan alene holde os til andelstallet. Da 1041 / 2 = 520, skal andelen af kvinder således være over 520, for at være mere end 50%. Antallet af kvindelige kunder ligger på 550, og er således mere end 50%. Vi kan i dette tilfælde konkludere, at hårpleje-produktserien hovedsageligt henvender sig til kvinder. d) Vi skal nu se på konfidensniveauets betydning for konfidensintervallets bredde og dermed for grænseværdiernes placering. Vi anvender igen stikprøven ovenfor på de 1041 tilfældigt valgte hårpleje-produktkunder, hvoraf 550 var kvinder. Færdiggør - ved hjælp af en række konfidensintervaller, skemaet nedenfor: Konfidensniveau Nedre grænseværdi Øvre grænseværdi 99,9 % 0,47742716 0,57924911 99 % 0,48848495 0,56819133 95 % 0,49801361 0,55866267 90 % 0,50288899 0,55378729 70 % 0,51230246 0,54437382 50 % 0,51790244 0,53877383 10 % 0,52639391 0,53028237 e) Hvad sker der med intervallernes størrelse, når konfidensniveauet bliver mindre og hvad skyldes det? SVAR: Når konfidensintervallet bliver mindre, bliver intervallet samtidig mindre. Med andre ord, så stiger præcisionen når konfidensniveauet falder (da vores intervalområde bliver mindre og mere præcist), men samtidig stiger usikkerheden, da sandsynligheden for at vi tager fejl (og dermed at den sande værdi ikke ligger indenfor de to grænseværdier), samtidig stiger. ØVELSER / Statistik, Logistikøkonom / Efterår 2015 / Jakob Pindstrup Side #5