4 Sandsynlighedsfordelinger og approksimationer

4 Sandsynlighedsordelinger og approksimationer 4. Sandsynlighedsordeling or specielle diskrete variable 4.. Bernoulliordelingen En indikatorvariabel (dummyvariabel) er en variabel, som viser (indikerer) om en hændelse indtræer eller ikke indtræer. Indtræer hændelsen antager variablen () værdien. Indtræer hændelsen ikke antager variablen () værdien 0. Sandsynlighedsordelingen - kaldet Bernoulliordelingen - er givet ved: 0 P() -p p E(X) = p = P() V(X) = p*(- p) = p * q = P() * P(0), hvor q = ( - p). 4.. Binomialordelingen Antag, at et stokastisk orsøg (proces) har ølgende 4 orudsætninger:. ) Et bestemt antal orsøg (= n). ) I hvert orsøg er der to mulige udald (Succes eller Fiasko). 3) Sandsynligheden or Succes (= p) er konstant i alle orsøg. 4) Stokastisk uahængighed mellem orsøgene. Lad X angive antal orsøg, der resulterer i udaldet Succes. Sandsynlighedsordelingen er da: n P() = P(X=) = p (-p) n-, hvor (-p) i lærebogen benævnes q. Vi skriver X ~ B(n,p). Dvs., X ølger binomialordelingen med parametrene n og p. E(X) = np V(X) = n*p(l-p) Side a 9

Approksimationer: Med dagens teknologi - avancerede lommeregnere og PC-baserede statistikpakker, kan man beregne hvad som helst. Men inden teknologien nåede sit nuværende stade løb man ote ind i problemer bl.a. ved remstilling a tabeller. Deror har statistikere i tidens løb beskætiget sig en del med, hvornår orudsætningerne tillod, at man udvidede anvendelsesområdet ved at tilnærme (approksimere) til en anden eksisterende ordeling. For binomialordelingen er to tilnærmelser aktuelle, såremt tabellerne i Erlang S ikke kan anvendes direkte: a) Til Poissonordelingen: Når n er stor og p er lille. Anvend tommelingerreglen: n 00 og p 0,0 (evt. n p 000). Såremt ovennævnte er opyldt, kan man tilnærme binomialordelingen B(n,p) til Poissonordelingen P(µ = np). b) Til Normalordelingen: Når n er stor og p hverken er særlig lille eller særlig stor, anvend tommelingerreglen np 5 og n(-p) 5. Såremt begge betingelser er opyldt, kan man tilnærme binomialordelingen B(n,p) til normalordelingen N(µ = np, σ = n*p(l-p)). 4..3 Den hypergeometriske ordeling Antag, at en simpel tilældig stikprøve på n elementer udvælges ra en population med N elementer, hvora r elementer har en speciel egenskab (Succeselementer), dvs. ) Endelig population bestående a N elementer. ) Elementerne kan deles i to grupper (Succeselementer - Fiaskoelementer). 3) n elementer udvælges simpelt tilældigt. Ovenstående orudsætninger medører, at ølgende egenskaber/orudsætninger gælder i den hypergeometriske problemstilling: Egenskaber/orudsætninger: ) n elementer udvælges simpelt tilældigt. ) De udvalgte elementer kan deles i to grupper (Succeselementer - Fiaskoelementer). 3) Sandsynligheden or at udtage et Succeselement ændres or hver udvælgelse. 4) Stokastisk ahængighed mellem de enkelte udtag. Side a 9

Lad X angive antal Succeselementer i stikprøven. Sandsynlighedsordelingen er da r N r n P() = P(X = ) =, hvor N n N = antal elementer i populationen. r = antal Succeselementer i populationen. N r = antal Fiaskoelementer i populationen. n = antal elementer i stikprøven. = antal Succeselementer i stikprøven. n- = antal Fiaskoelementer i stikprøven. Vi skriver X ~ H(N,r,n), dvs. X ølger den hypergeometriske ordeling med parametrene N, r og n. E(X) = n r = np, hvor p = r N N. V(X) = N n *n* r *( r ) N = n *n*p*( p) N N N N, hvor p = r N Approksimationer: a) Til binomialordelingen.: Når populationen er stor i orhold til stikprøven (Tommelingerregel: n N 0,0 evt. 0,05), kan den hypergeometriske ordeling H(N,r,n) approksimeres til binomialordelingen B(n, p = r N ). b) Til normalordelingen: Når variansen er stor (tommelingerregel: V(X) = N n *n* r *( r ) > 5) N N N kan den hypergeometriske ordeling H(N,r,n) approksimeres til normalordelingen r N n r r N( µ = n, σ = *n* *( )) N N N N Side 3 a 9

4..4 Poissonordelingen ) Sandsynligheden or, at en hændelse indtræer i et givet interval, er den samme or intervaller a samme længde. ) Om en hændelse indtræer i et interval er uahængigt a, om hændelsen indtræer i et vilkårligt andet ikke overlappende interval. Lad X angive antal hændelser i et interval. Sandsynlighedsordelingen er da: µ e µ P() = P(X=) =! Vi skriver X ~ P(µ), dvs. X ølger Poissonordelingen med parameter µ. E(X) = µ V(X) = µ Approksimationer. Til normalordelingen: Når µ > 0, kan Poissonordelingen approksimeres til normalordelingen med parametrene E(X) = µ og V(X) = µ. (Vi år ørst tabelproblemer, når µ > 5-5). 4..5 Den multinomiske ordeling Den multinomiske ordeling er en generalisering a binomialordelingen, idet der i stedet or to mulige udald i hvert a de n orsøg, er k mulige udald (k 3). Den multinomiske ordeling anvendes i de mange tilælde, hvor en proces som resultat har mere end to mulige udald i hvert orsøg,.eks. en vare, der opdeles i. sortering,. sortering, 3. sortering og kassable. ) Et bestemt antal orsøg (= n). ) I hvert orsøg er der k mulige udald, A, A,..., A k. 3) P(A i ) = p i er konstant ra orsøg til orsøg, i ={,,...,k} 4) Stokastisk uahængighed mellem orsøgene. Side 4 a 9

Simultan sandsynlighedsordeling: Lad X i angive antal orsøg, der resulterer i udaldet A i. Den simultane sandsynlighedsordeling er da: P(X = IX = I... I Xk = k) n n k k =... *p p...pk k Kovarians: Cov(X i,x j ) = -n*p i * p j or i j Marginal sandsynlighedsordeling or X i : P(X i = i ) = B(n,p i ) E(X i ) = np i V(X i ) = np i (-p) i Approksimationer: a) Fra den multiple hypergeometriske ordeling: Den multinomiske ordeling anvendes som en approksimativ ordeling i repræsentative undersøgelser, når der er mere end svarmuligheder or respondenterne,.eks. om bopæl er beliggende i hovedstadsområdet, i provinsbyer eller i landdistrikter. b) Til χ -ordelingen: Når np i 5 or i ={,,..., k}, kan den multinomiske ordeling approksimeres til χ -ordelingen. 4..6 Den geometriske ordeling Variabel X angiver, det antal orsøg, der skal udøres, ør Succes indtræer ørste gang i en bernoulli-proces (binomisk orsøg). Forudsætning: ) I hvert orsøg er der to mulige udald (Succes eller Fiasko). ) Sandsynligheden or Succes (=p) er konstant i alle orsøgene. 3) Stokastisk uahængighed mellem orsøgene. Lad X angive antal orsøg, der skal udøres, ør Succes indtræer ørste gang. Sandsynlighedsordelingen er da: P() = P(X = ) = p(-p) - Side 5 a 9

E(X) = p p V(X) = p 4..7 Ligeordelingen (Den rektangulære ordeling) Forudsætning: Ens sandsynlighed or de værdier, {a, a+,..., b}, som den stokastiske variabel kan antage. Lad X angive de værdier, som den stokastiske variabel kan antage. Sandsynlighedsordelingen er da: P() = P(X = ) =, hvor a X b. b a+ E(X) = b + a V(X) = + 6 (b a) (b a) 4. Sandsynlighedsordeling or specielle kontinuerte variable 4.. Den rektangulære ordeling (Ligeordelingen). Forudsætning: Den stokastiske variabel vil antage en værdi i intervallet [c;d], og sandsynligheden er den samme or subintervaller a samme længde. Tæthedsunktion: () =, hvor c X d. d c Side 6 a 9

Kumuleret sandsynlighedsordeling: F() = P(X ) = c d c E(X) = c + d (c d) V(X) = 4.. Eksponentialordelingen Forudsætning: Hændelser, der kan beskrives ved en poisson-proces; men i stedet or som Poissonordelingen at beskrive antal hændelser i et tidsinterval, betragtes tiden indtil næste hændelse. Tæthedsunktionen: Lad T angive tiden mellem to hændelser, eller den tid, der medgår til en aktivitet (betjeningstid). Tæthedsunktionen er da: F(t) = λe λt, hvor λ = E(X) = µ ved Poissonordelingen. Kumuleret sandsynlighedsordeling: F(t) = P(T t) = - e λt E(T) = λ V(T) = λ Tilnærmelser: Hvis T er eksponentialordelt med parameteren 8, er 8T. P -ordelt med rihedsgrader. Side 7 a 9

4..3 Normalordelingen Hvis X er en normalordelt stokastisk variabel med orventet værdi : og standardavigelse F, dvs. X ~ N(:, σ ), er Z = µ en standardnormalordelt stokastisk variabel med σ orventet værdi 0 og standardavigelse, dvs. Z ~ N(0, ). Tæthedsunktion: ( µ ) σ () = *e, σ π z (z) = *e, π E(X) = µ, E(Z) = 0 V(X) = σ, V(Z) = Enhver lineær transormation a en normalordelt stokastisk variabel er også normalordelt, dvs. at når X~ N(µ,σ ) Y (a + b*) ~ N(a +b*µ, b * σ ) Enhver sum eller dierence a to uahængige normalordelte stokastiske variable er også normalordelt. Dvs, når X ~ N(µ, σ ) og X ~ N(µ, σ ), er (X +X ) ~ N(µ + µ, σ + σ ), og (X -X ) ~ N(µ - µ, σ + σ ). 4..4 t-ordelingen Deineret ved: Z t =, hvor Z ~ N(0,) og χ χ ~ χ -ordelt med rihedsgrader. Approksimationer: Når er stor ville standardnormalordelingen kunne anvendes som en rimelig approksimativ ordeling. I lærebogen anøres n $ 30, men er i realiteten unødvendigt, da t-ordelingen er godt tabuleret i Erlang S, og der let kan laves nøjagtige opslag i den PC-baserede statistikpakke, der anvendes i orbindelse med løsningen a opgaver Det er deror altid mere præcist at benytte t-ordelingen, når F er ukendt - uanset n s størrelse. Side 8 a 9

4..5 χ -ordelingen Deineret ved: χ = Z + Z +... + Z, hvor Z i ~ N(0,) or i = {,,, } og Z i er uahængig a Z j or alle i j. E( χ ) = V( χ ) = Approksimationer: Hvis > 50 ville normalordelingen kunne anvendes som en rimelig approksimativ ordeling, men dette er unødvendig, da χ -ordelingen er godt tabuleret i Erlang S. Dvs. χ N(,) or stor. 4..6 F-ordelingen Deineret ved: χ F(, ) =, orudsat uahængighed mellem tæller og nævner. χ E( F, ) =, hvor > V(( F, ) = ( + ) ( ) ( 4), orudsat at > 4 Side 9 a 9