Løsning til eksaminen d. 14. december 2009
|
|
|
- Jette Gudrun Markussen
- 9 år siden
- Visninger:
Transkript
1 DTU Informatik Introduktion til Statistik LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Spørgsmål Vi skal finde den falske påstand og går nu gennem de givne påstande en ad gangen. : Ja, det totale areal under kurven er da dette er sandt for alle sandsynlighedsfordelinger, cf. s. [2, 49]. 2: Ja, middelværdien er, og det gælder at 2 =. : Nej, standard afvigelsen er to og variansen er fire. 4: Ja, fordelingen er symmetrisk om middelværdien, cf. section 5.2 i begge editions af bogen. 5: Ja, tætheden for normalfordelingen er defineret imellem og. Spørgsmål 2 Vi har at gøre med en diskret sandsynlighedsfordeling og antal der ikke har en øvre grænse. Det er altså naturligt at bruge Poisson fordelingen, p. [04, 27]. Definer en stokastisk variabel X P ois(5), hvor X angiver antallet af opkald i løbet af et minut. Ved at benytte egenskaberne ved Poisson fordelingen forklaret på s. [04, 27] får vi at Y P ois(0) angiver antallet opkald i et to-minutters interval. Vi skal nu finde P (Y = 0). Vi beregner, og benytter tabellen over Poisson sandsynligheder bagest i bogen: P (Y = 0) = P (Y 0) P (Y 9) = = 0.25 Korrekt svarmulighed er 4. Spørgsmål Vi har tæthedsfunktionen f(x) = k hvis 2 x 2 og 0 ellers. For at finde værdien af k skal vi bruge det, at tæthedsfunktion altid integrerer til, cf. s. [2, 49]. Vi får da: 2 f(x)dx = kdx = k[2 ( 2)] = 4k = k = 4 Spørgsmål 4 Vi benytter samme tæthedsfunktion som i forrige spørgsmål, således at X Uniform( 2, 2). Vi regner: P (X > ) = 4 Fra gemometriske betragtninger, eller P (X > ) = 2 4 dx = 4
2 Spørgsmål 5 For at finde medianen må vi opstille data i sorteret rækkefølge, cf. s. [25, 29]: 7, 9, 6, 8, 9, 9, 2, 2, 25, 25. Da vi har 0 observationer er medianen gennemsnittet af den femte (0.5 0 = 5) og sjette observation i det sorterede data. Altså bliver medianen = 9. Spørgsmål 6 Vi benytter boksen på s. [27, ]. Middelværdien af observationerne er 8. Ligefremme beregninger giver, at variansen er 6. Følgende R-kode kan også bruges til at beregne variansen. x <- c(7, 9, 6, 8, 9, 9, 2, 2, 25, 25) v <- 0 for(i in x) { v <- v + (i-mean(x))^2 } v <- v/(length(x)-) Spørgsmål 7 Vi skal finde den falske påstand. : p-værdien for den to-sidede nul-hypotese var , hvilket betyder at der er en forskel i de to metoder på alle signifikansniveauer højere end Middelværdien af x (2.25) er lavere end middelværdien af y (8.800), altså er påstand sand. 2: Betydningen af denne påstand er ækvivalent med den første påstand. : Nej, er lavere end p-værdien , fundet i testen. Der er altså ikke signifikant forskel når signifikansniveauet benyttes. 4: Ja, 0.0 er lavere end : Ja, dette er sandt uafhængigt af data benyttet her, og værdierne kan findes i tabellen over t-værdier bagest i bogen. Spørgsmål 8 Se s. [27, 287]. S m og S M som estimaterne er givet output fra S-plus output > sqrt(var(x)) [] > sqrt(var(x2)) [] respektivt. Test statistikken er altså / =.06. Antallet af observationer benyttet for at komme frem til S m og S M var henholdsvis 8 og 0. Altså er den kritiske værdi F 0.05 (0, 8 ) = F 0.05 (9, 7) =.68, fundet i tabel 6(a). Korrekt svarmulighed er 4. Spørgsmål 9 Se p. [208, 20], sample size determination. Vi ønsker et konfidens interval med en bredde på maksimalt en, hvilket betyder at fejlen højst må være 0.5, i.e. 2
3 E = 0.5. Da vi ønsker et 95% konfidens interval bruger vi z α/2 = z =.96. Da det er oplyst, at standard afvigelsen er får vi følgende n = 9 (.96/.5) 2 8 Spørgsmål 0 Sandsynligheden for at brødrene spiller præcis tre spil er lig med sandsynligheden for, at den der vinder første spil også vinder de to næste spil. Sandsynligheden for at en given bror vinder et spil er 2. Altså er sandsynligheden for, at ham der vinder første spil også vinder de næste to 2 2 = 4. Spørgsmål Der er to muligheder:. Bror vinder første spil, og bror 2 vinder de tre næste spil. Sandsynligheden for dette er (sandsynligheden for at bror vinder første spil) gange (sandsynligheden for at bror 2 vinder de tre næste) = /2 (/2) = (/2) 4 2. Bror 2 vinder første spil, og bror vinder de tre næste spil. På samme vis som ovenfor er sandsynligheden for dette udfald også (/2) 4. På begge måder bliver der spillet fire spil, så sandsynligheden for at der bliver spillet fire spil er (/2) 4 + (/2) 4 = (/2), hvormed det korrekte svar bliver nr. 2. Spørgsmål 2 Se s. [288, 04]. Vi har, at n = n 2 = 00. Vi benytter dette og boksen Statistic for test concerning difference between two proportions, og regner: ˆp = = Z = = ˆp( ˆp) (/00 + /00) Lad X N(0, ), så findes p-værdien som P (X < Z) = P (X < ) = Spørgsmål Vi ønsker at teste, om m 2 er signifikant større end m. Vi benytter boksen test statistic for large samples concerning difference between two means s. [249, 26], og beregner test statistikken Z i R: z <-( )/sqrt((2+2)/00) For at finde p-værdien, skal vi finde sandsynligheden for at en stokastisk variabel X der følger standard normal fordelingen ( N(0, )) er større end den netop beregnede værdi af z. Vi finder P (X > z) = P (X z) = P (X z). I R kan vi bruge funktionen pnorm til at finde denne sandsynlighed: pnorm(-z) =
4 Dette er p-værdien, altså sandsynligheden for at se en værdi af test-statistikken lig den fundet her, eller mere ekstrem, hvis nul-hypotesen er sand. Da denne sandsynlighed er lille har vi tilstrækkeligt bevis i data imod nul-hypotesen, og afviser derfor denne. Altså er processen effektiv. Spørgsmål 4 Se s. [282, 296], sample size (p unknown). Vi ønsker, at konfidensintervallet højest får en bredde på 2 procent point. Altså kan fejlen E højst være procent point (0.0). Da vi er ude efter 95% konfidensintervallet bruger vi z α/2 =.96. Vi kan nu finde n n = 4 ( ) 2.96 = Spørgsmål 5 Da vi kun har henholdsvis 0 og 6 observationer i de to stikprøver er vi nødsaget til at benytte en metode der tager højde for, at vi har få observationer. Vi bruger derfor small sample method to compare the two means, cf. s. [252, 264]. Estimatet af fælles variansen er S 2 p = (n ) ˆσ 2 + (n 2 ) ˆσ 2 2 n + n 2 2 = Vi kan nu beregne test statistikken t t = S p /0 + /6 7.4 Spørgsmål 6 Vi skal finde konfidensintervallet for middel værdien baseret på en lille stikprøve. Vi skal altså benytte small sample confidence interval, cf. s. [2, 2]. Vi finder stikprøve middelværdien og variansen, for eksemple ved brug af følgende R-kode, som der implementerer udtrykket for stikprøve varians givet på s. [27, ]: x <- c(.4,.20,.7) mean(x) v <- 0 for(i in x) { v <- v + (i-mean(x))^2 } v <- v/(length(x)-) Her er v variansen. Resultatet er v = % kvantilen i t-fordelingen med 2 frihedsgrader kan findes i R som følger > qt(0.025,2) []
5 Vi når altså frem til følgende resultat x ± t (2) ± Spørgsmål 7 Vi har nok observationer til at benytte normal approximationen selvom vi estimerer variansen baseret på data. Vi skal altså bruge test statistic for large samples concerning difference between two means s. [249, 26]. Test statistikken er Z = Da dette er en sidet test ved signifikansniveau α = 5% hvor H er µ x > µ y, er den kritiske værdi z α = z.95 =.64. Denne kan for eksempel findes i R ved kaldet qnorm(0.95). Spørgsmål 8 Vi har at X N(6, 2 ). Lad Z N(0, ) og regn P (X 0) = P ( X ) = P (Z 2) = P (Z < 2) Spørgsmål 9 For at fitte en linje til data benytter vi regressionsanalyse. Vi har nok oplysninger fra opgavestillingen til at benytte estimatorerne for skæringspunkt og hældning givet på s. [04, 40]. Vi finder b = S xy S xx = 28 2 = 7 8 = a = = = 8 =.75 Spørgsmål 20 En estimator for variansen af residualerne er givet på s. [08m 4]. Ved at benytte denne får vi ˆσ 2 ɛ = S yy S 2 xy/s xx n 2 = /2 8 Spørgsmål 2 Vi kan benytte de oplyste summer af kvadrater til at udregne r 2, s. [8, 78]. Vi får
6 Spørgsmål 22 Hvis variansen imellem grupper er signifikant større end variansen indenfor grupper, afviser nul-hypotesen om, at gruppe middelværdierne er ens. Logikken er, at forskellige middelværdier i de forskellige grupper netop ville forårsage større forskel mellem observationer fra forskellige grupper end forskellen (altså variansen) observeret imellem observationer fra samme gruppe. Estimatet af variansen indenfor gruper er variansen af residualerne. Den test statistik vi skal bruge for at teste om der er signifikant forskel mellem variansen indenfor og imellem grupper er F ratio givet på s. [62, 406]. Ved at benytte denne får vi F = / /27 292/2 877/27 Spørgsmål 2 Hvis nul-hypotesen er sand, så følger F -ratio test statistikken F -fordelingen med frihedsgrader (2, 27), cf. s. [62, 406]. Spørgsmål 24 Vi kan udlede antallet af observationer i hver gruppe ved at bemærke, at det totale antal frihedsgrader er 29, hvilket er lig det totale antal observationer minus en. Altså indeholdt eksperimentet 0 observationer ialt. Da hver gruppe indeholdt det samme antal observationer må hver gruppe have haft 0 observationer. Variansen er estimeret ved hjælp af den forventede middelkvadratafvigelsessum (mean square error, MSE) fra ANOVA tabellen s. [66, 40]. Konfidensintervallet for forskellen i middelværdier er også givet på s. [66, 40]. Kvadratafvigelsessummen har 27 frihedsgrader, og vi skal derfor bruge t-fordelingen med 27 frihedsgrader til at finde den rette kvantile. Vi får qt(0.025, 27) = Vi har altså fundet, at konfidensintervallet må være Korrekt svarmulighed er ± /27 (2/0) Spørgsmål 25 For at besvare dette spørgsmål behøver vi blot se definitionen af signifikansniveau, altså sandsynligheden for at begå en type I fejl, cf. s. [227, 244]. Spørgsmål 26 Da dette er før-og-efter data, er en parret t-test det rette valg. En sådan test tager højde for, at målingerne er udført på de samme individer før og efter en behandling. På denne måde undgår man, at variansen imellem individer indgår i variansen imellem målinger. Hvis man brugte en standard t-test ville variansen imellem individer indgå i residual variansen, hvilket ville gøre det sværere at opnå signifikante resultater. Spørgsmål 27 Da vi kun har 0 observationer er vi nødt til at bruge t-fordelingen med ni frihedsgrader. P-værdien er sandsynligheden for at observere det, vi faktisk har observeret, eller noget mere ekstremt. Da t-fordelingen er symmetrisk kan denne sandsynlighed findes ved to gange sandsynligheden for at observere en værdi på.25 eller højere i t-fordelingen med ni frihedsgrader. Vi bruger R > 2*(-pt(.25,9)) []
7 Dette er cirka 0.0. Spørgsmål 28 En positiv korrelation mellem X og Y betyder, at højere værdier på den politiske skala er observeret sammen med høje værdier af antallet af gange en person læser avis ugentligt. Spørgsmål 29 I denne opgave kan to fremgangsmåder benyttes. Den ene metode benytter statistic for test concerning difference between proportions på s. [288, 04]. Denne test statistik følger normal fordelingen. Fra svarmulighederne i opgaven ser vi, at ingen er lig 0.5% kvantilen i normal fordelingen. Altså må det være den anden metode, vi skal benytte for at kunne besvare spørgsmålet. Dette er χ 2 testet, s. [ , 00, 0]. Ved at benytte dette finder vi > qchisq(-0.0, ) [] Spørgsmål 0 Den stokastiske variabel X følger den jævne fordeling, U(0, 6). Vi ønsker at finde P (X <.5). Dette er lig med den andel, intervallet mellem 0 og.5 udgør af det totale interval som X er defineret over. Vi får altså P (X <.5) =.5 6 =
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Forelæsning 9: Inferens for andele (kapitel 10)
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher
Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Forelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable
Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4
02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Simpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher
Introduktion til Statistik Forelæsning 12: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected] Efterår
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Opgaver til kapitel 3
Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer
Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller
Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Forelæsning 3: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Statistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele
Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om
Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/
Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial
Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen
Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +
1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Vejledende løsninger kapitel 8 opgaver
KAPITEL 8 OPGAVE 1 Nej den kan også være over 1 OPGAVE 2 Stikprøvestørrelse 10 Stikprøvegennemsnit 1,18 Stikprøvespredning 0,388158 Konfidensniveau 0,95 Nedre grænse 0,902328 Øvre grænse 1,457672 Stikprøvestørrelse
Vejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen
Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Personlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning
Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5
02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling
Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion
VARIANSANALYSE 2 Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: (Analysis of variance) med interaktion Problem: Hvordan håndterer vi forsøg, hvor effekten er forårsaget af to faktorer og en evt.
To-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: [email protected]
