5 Beskrivende mål. Beskrivende mål 101

Relaterede dokumenter
Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

4 Stokastiske variabler

3 Stokastiske variable 3.1 Diskrete variable

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Forår Dagens program

INSTITUT FOR MATEMATISKE FAG c

StatDataN: Middelværdi og varians

Definition. Definitioner

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

4 Oversigt over kapitel 4

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Kvantitative Metoder 1 - Forår 2007

2 Populationer. 2.1 Virkelige populationer

Kvantitative Metoder 1 - Forår 2007

Note om Monte Carlo metoden

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Produkt og marked - matematiske og statistiske metoder

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Nanostatistik: Opgaver

Produkt og marked - matematiske og statistiske metoder

Repetition Stokastisk variabel

Kvantitative Metoder 1 - Forår Dagens program

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Indblik i statistik - for samfundsvidenskab

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Forår Dagens program

Normalfordelingen og Stikprøvefordelinger

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Nanostatistik: Middelværdi og varians

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/


Kapitel 3 Centraltendens og spredning

Kvantitative Metoder 1 - Forår 2007

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår Dagens program

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Allan C. Malmberg. Terningkast

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger

Statistik i GeoGebra

Betingede sandsynligheder Aase D. Madsen

Hvad skal vi lave i dag?

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kvantitative Metoder 1 - Efterår Dagens program

Statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller

Løsning til eksaminen d. 29. maj 2009

Kapitel 4 Sandsynlighed og statistiske modeller

Kvantitative Metoder 1 - Forår Dagens program

Oprids over grundforløbet i matematik

Simulering af stokastiske fænomener med Excel

Løsning til eksaminen d. 14. december 2009

Statistik viden eller tilfældighed

OM RISIKO. Kender du muligheder og risici ved investering?

Løsning eksamen d. 15. december 2008

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Vejledende løsninger til opgaver i kapitel 6

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

MM501 forelæsningsslides

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantitative Metoder 1 - Forår 2007

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

3 Usikkerhed og sandsynligheder

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Konfidensintervaller og Hypotesetest

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Opgaver i sandsynlighedsregning

ca. 5 min. STATISTISKE TEGN

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Efterår Dagens program

Transkript:

5 Beskrivende mål Indkomstfordelingen i Danmark tæller godt 5 millioner indkomster. Med en bogstavhøjde på 3 millimeter og en linjeafstand på 2 millimeter, hvilket svarer til en normal typografisk opsætning, vil en liste med de godt 5 millioner indkomster være omkring 25 km lang. Selvom man læser meget hurtigt og har fotografisk hukommelse, får man næppe et godt overblik over fordelingen af indkomster i Danmark ved at kigge på en sådan liste. For at få en begribelig ide om indkomstfordelingen i Danmark kan man i stedet definere nogle beskrivende mål, som hver især afslører interessante aspekter af indkomstfordelingen. Sådan et beskrivende mål kunne fx være middelindkomsten. Det kan også være den indkomst, der skiller de fattigste 10 % af befolkningen fra den øvrige befolkning. Da ét beskrivende mål selvfølgelig ikke alene kan beskrive en hel fordeling middelindkomsten er ét tal imod de 5 millioner tal, som indkomstfordelingen består af skal man imidlertid være påpasselig med at overfortolke beskrivende mål. I kapitel 2 introducerede vi forskellige beskrivende mål, blandt andet middelværdi og varians, som kunne bruges til at få et overblik over en virkelig population. I dette kapitel udvider vi brugen af disse beskrivende mål til stokastiske variabler. Dermed bliver vi i stand til at beskrive langt flere situationer, hvor der også er usikkerhed involveret, fx udtrækninger fra superpopulationer. Beskrivende mål for stokastiske variabler kan inddeles i to klasser. Den ene klasse bygger på gennemsnits betragtninger. Middelindkomsten er et eksempel, men man kan også udlede beskrivende mål for spredningen af en fordeling, som bygger på en gennemsnitsbetragtning. Overordnet set kaldes denne klasse af beskrivende mål for momenter. Den anden klasse af beskrivende mål bygger på opdelinger af en fordeling. Et eksempel på et sådant mål er den indkomst, der skiller de fattigste 10 % af befolkningen fra den øvrige befolkning. Overordnet set kaldes denne klasse af beskrivende mål for fraktiler. Momenter behandles i afsnit 5.2 og fraktiler i afsnit 5.3. I afsnit 5.4 diskuterer vi, hvordan man kan bruge (og misbruge) beskrivende mål. Vi ser på beskrivende mål for sammenhænge mellem stokastiske variabler i afsnit 5.5, mens vi i afsnit 5.6 viser, hvordan Excel kan anvendes til udregning af be Beskrivende mål 101

skrivende mål. Igennem hele kapitlet er de beskrivende mål defineret som beskrivende mål for en fordeling af en stokastisk variabel i stedet for som beskrivende mål for en virkelig population, som tilfældet var i kapitel 2. I afsnit 5.1 vil vi forklare, hvorfor vi vælger denne mere generelle tilgang i dette kapitel, herunder hvordan sammenhængen er mellem beskrivende mål for en fordeling af en stokastisk variabel og for en virkelig population. 5.1 Beskrivende mål og stokastiske variabler 102 Beskrivende mål I kapitel 2 introducerede vi en række beskrivende mål for en virkelig population. Disse mål inkluderede middelværdien, variansen og medianen og beskrev aspekter ved en eksisterende virkelig population. Det er ideen bag sådanne beskrivende mål, vi nu vil overføre til stokastiske variabler, som kan håndtere mere generelle situationer, hvor der er usikkerhed involveret, og hvor populationen kan være en superpopulation. I kapitel 2 definerede vi andelsfunktionen, g(z), for en virkelig population. Den fortæller os, hvordan elementerne i populationen fordeler sig, dvs. hvor stor en del af elementerne i populationen, der fx har indkomsten z 1, z 2, z 3, osv. Middelværdien for en vir kelig population kan derfor betragtes som en summarisk beskrivelse af andelsfunktionen. Vi indførte stokastiske variabler i kapitel 4 for at kunne bearbejde komplicerede situationer med usikkerhed. Sandsynlighederne for de forskellige værdier af en stokastisk variabel er udtrykt i dens fordeling. Et beskrivende mål for en fordeling af en stokastisk variabel er derfor en summarisk beskrivelse af sandsynlighedsfunktionen (eller tæthedsfunktionen, hvis den stokastiske variabel er kon tinuert). Forbindelsen mellem en virkelig population og fordelingen af en stoka stisk variabel forklarede vi i kapitel 4. Når værdien af den stokastiske variabel er givet ved værdien af det element, der udtrækkes fra en virkelig population, og når alle elementer i populationen har samme chance for udvælgelse, så er sandsynlighedsfunktionen, f, lig med andelsfunktionen, g. Når dette er tilfældet, kan vi tænke på fordelingen af den stokastiske variabel som en fordeling af populationen. Faktisk vil vi i sådanne tilfælde ofte omtale sandsynlighedsfordelingen for den stokastiske variabel som populationsfordelingen, og de beskrivende mål for populationsfordelingen vil blive kaldt for populationsstørrelser. Fordelen ved at definere de beskrivende mål ud fra fordelingen af den stokastiske variabel er, at vi så også kan bruge dem i de situationer, hvor den stokastiske variabel ikke svarer til en udtrækning fra en virkelig population. Dette gælder fx i forbindelse med udtrækninger fra superpopulationer, eller

når der er tale om udtrækninger fra virkelige populationer, hvor alle elementer ikke har samme chance for udvælgelse. Lad os illustrere denne tankegang med et par eksempler: Eksempel 5.1: En virkelig population Eksempel 5.2: En superpopulation I forbindelse med indkomstfordelingen fra starten af kapitlet kan vi definere følgende eksperiment: Udvælg en person og lad den stokastiske variabel, X, angive vedkommendes indkomst. Hvis alle personer har samme chance for udvælgelse, så vil sandsynlighedsfunktionen for X være lig med andelsfunktionen for populationen. Dermed har X samme fordeling som populationen. Hvis en andel på 0,1 af befolkningen tjener mere end 300.000 kr., så er der tilsvarende sandsynligheden 0,1 for, at X antager en værdi større end 300.000. Om vi beskriver fordelingen af populationen eller fordelingen af X, gør derfor ingen forskel i dette tilfælde. I eksemplet fra kapitel 3 med en 30-årig obligation er kursen i morgen kl. 12.00 en stokastisk variabel, Y, som har en given sandsynlighedsfordeling. Der er fx sandsynligheden 0,3 for, at kursen vil ligge under 100. Sandsynlighedsfordelingen for denne variabel kan imidlertid ikke umiddelbart for tolkes som andele i superpopulationen af kurser. Men vi kan stadig beskrive sandsynlighedsfordelingen for Y ved hjælp af en række beskrivende mål. I mange af eksemplerne i dette kapitel vil der være den i eksempel 5.1 nævnte sammenhæng mellem fordelingen af den stokastiske variabel og en virkelig population. Det er dog vigtigt at huske på, at de beskrivende mål også finder anvendelse i en lang række andre situationer, hvor fordelingen af den stokastiske variabel ikke svarer til fordelingen af en underliggende virkelig population, som tilfældet fx er i eksempel 5.2. 5.2 Momenter Det mest kendte moment for en stokastisk variabel, X, er middelværdien, også kaldet den forventede værdi. Middelværdien betegnes typisk med bogstavet µ eller E(X), hvor E et står for expectation (forventning). Et andet ofte brugt moment er variansen, som beskriver, hvor meget de mulige værdier af X gennemsnitligt er spredt i forhold til middelværdien. Variansen betegnes typisk med s 2 eller V(X). Fortolkningen af et moment er den samme, uanset om den stokastiske variabel er diskret eller kontinuert. Beregningsteknisk er der dog en forskel, så vi 5.2 Momenter 103

betragter de to tilfælde separat. Da intuitionen er nemmest at opnå med en diskret stokastisk variabel, vil afsnittene om kontinuerte stokastiske varia bler primært indeholde de nødvendige formler. 5.2.1 Forventet værdi af en diskret stokastisk variabel Ideen med en forventet værdi af en stokastisk variabel, X, er at finde et tal, som svarer til gennemsnittet af alle de værdier af X, man ville få, hvis man kunne gentage realiseringen af X uendeligt mange gange. Formelt er den forventede værdi af en diskret stokastisk variabel defineret som: Den forventede værdi (middelværdien), E(X), af en diskret stokastisk variabel, X, med sandsynlighedsfunktion, f(x), er givet ved: NNNN EEEE(XXXX) = xxxx iiii ffff(xxxx iiii ) = xxxx 1 ffff(xxxx 1 ) + xxxx 2 ffff(xxxx 2 ) + + xxxx NNNN ffff(xxxx NNNN ) iiii=1 hvor x 1, x 1,, x N er de værdier, X kan antage. Den forventede værdi er altså en sammenvejning af alle de mulige værdier, hvor vi vægter med sandsynlighederne for at få de pågældende værdier. Man kalder også den forventede værdi af en stokastisk variabel, X, for middelværdien, og man betegner den med det græske bogstav µ. Eksempel 5.3: Et terningspil del 1 Lad X være en stokastisk variabel, der angiver antallet af øjne, når vi kaster med en terning. Da sandsynligheden for en ener er en sjettedel osv., er den forventede værdi af X givet ved: EEEE(XXXX) = 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 3,5 Middelværdien af et terningslag er således 3,5. Men det er en værdi, man ikke kan slå med terningen. Fortolkningen af den forventede værdi er, at hvis vi kaster terningen mange gange, dvs. gentager eksperimentet, så vil gennemsnittet af de realiserede værdier af X nærme sig 3,5. Bemærk, hvordan dette harmo nerer med fortolkningen af begrebet sandsynlighed fra kapitel 3, som andelen af gange en hændelse indtræffer, når man gentager et eksperiment i det uendelige. 104 Beskrivende mål

Fysisk kan man fortolke middelværdien som et balancepunkt. Hvis man forestiller sig, at en sandsynlighed er et vægtlod, og sandsynlighedsfordelin gen er alle vægtlodderne placeret på en vippe, så er middelværdien det sted, man skal understøtte vippen for at få den i balance. Figur 5.1 illustrerer dette for eksempel 5.3. Figur 5.1 Middelværdi som balan cepunkt 0 1 2 3 4 5 6 7 Hvis en fordeling er symmetrisk omkring et punkt, symmetripunktet, så er middelværdien lig med dette symmetripunkt. I eksempel 5.3 er sandsynlighedsfordelingen symmetrisk omkring punktet 3,5, som det ses i figur 5.1: Den ene side af fordelingen er en spejling af den anden, hvis man spejler i punktet 3,5. Eksempel 5.3 er et eksempel på en stokastisk variabel, der antager de samme værdier som elementerne i den virkelige population, den trækkes fra, nemlig 1, 2, 3, 4, 5 og 6. Da alle elementer i populationen har samme chance for udvælgelse, er sandsynlighedsfunktionen, f, lig med andelsfunktionen, g. Populationen har derfor også middelværdien µ = 3,5. Som vi så i kapitel 2, så svarer denne middelværdi af populationen til, at vi udregner gennemsnittet for de N elemen ter, som den virkelige population består af. Det sker ved at finde den totale sum og dividere med antallet af elementer, N pop : Populationsmiddelværdi = zzzz 1 + zzzz 2 + + zzzz NNNN NNNN pppppppppppp hvor z 1, z 2,, z N, er alle elementerne i populationen. I eksempel 5.3 er populationsmiddelværdien: 1+2+3+4+5+6 = 3,5. Lad os tage et eksem pel mere: 6 Eksempel 5.4: En skoleklasse del 1 Antag, at alle elever i en klasse med 10 elever har samme chance for udvælgelse, og lad den stokastiske variabel, Y, angive den udvalgtes højde. Højderne i cm for de 10 elever er som følger: 134, 128, 164, 143, 144, 137, 122, 134, 140, 129. Højden 134 cm forekommer i to tilfælde. Dermed udgør denne højde an delen 2/10, hvorimod de øvrige højder i populationen hver udgør en 5.2 Momenter 105

andel på 1/10. Højden 134 cm skal derfor tilskrives sandsynligheden 2/10, mens de øv rige 8 højder hver tilskrives sandsynligheden 1/10. Dermed er den forventede værdi af Y lig med: EEEE(YYYY) = 122 1 10 + 128 1 10 + 129 1 10 + 134 1 10 + 137 1 10 + 140 1 10 + 143 1 10 + 144 1 10 + 164 1 10 = 137,5 Middelværdien af Y er således 137,5 cm, som også er populationens middelværdi. Vi kan også være interesserede i forventningen til en funktion af en stokastisk variabel. Hvis h(x) er en funktion af den stokastiske variabel, X, så er h(x) selv en stokastisk variabel, som man kan beregne den forventede værdi af. Eksempel 5.5: Et terningspil del 2 Lad X være den stokastiske variabel fra eksempel 5.3, der angiver antallet af øjne, når vi kaster en terning. Antag, at terningkastet indgår i et spil, hvor man får 2 gange antallet af øjne retur i kroner. Antag også, at det koster 5 kroner at deltage i spillet. Vi kan da definere en ny stokastisk variabel, Y, som angiver gevinsten ved spillet. Den er givet ved: Y = 5 + 2 X = h(x). Hvis man slår en ener, så antager X værdien 1, og Y antager derfor værdien 5 + 2 1 = 3. Da X kan antage værdierne 1, 2, 3, 4, 5, og 6, så kan Y antage værdierne 3, 1, 1, 3, 5, og 7. Det vil sige, er man heldig og slår en sekser, så tjener man (netto) 7 kroner. Man kan udregne den forventede værdi af en funktion af X ved hjælp af sandsynlighedsfordelingen for X: Den forventede værdi af en funktion, h(x), af en diskret stokastisk variabel, X, med sandsynlighedsfunktion, f(x), er givet ved: NNNN E(h(X)) = iiii=1 h(x i ) f(x i ) = h(x 1 ) f(x 1 ) + h(x 2 ) f(x 2 ) + + h(x N ) f(x N ) hvor x 1, x 2,, x N, er de værdier, X kan antage. 106 Beskrivende mål

Den eneste forskel i forhold til udtrykket for den forventede værdi af X er, at h(x) har erstattet x. Eksempel 5.6: Et terningspil del 3 I eksempel 5.5 kan man således udregne den forventede værdi af Y som: EEEE(YYYY) = EEEE( 5 + 2 XXXX) = 3 1 6 + ( 1) 1 6 + 1 1 6 + 3 1 6 + 5 1 6 + 7 1 6 = 2 Den forventede værdi af spillet, som det koster 5 kroner at deltage i, men hvor man vinder 2 gange antallet af øjne i kroner, er således 2 kr. Det kan man for tolke som den gennemsnitlige gevinst per spil, hvis man gentog spillet uen deligt mange gange. Et sådant spil vil Danske Spil med garanti ikke udbyde! Hvis man allerede har udregnet den forventede værdi af X, så er der nogle særli ge tilfælde, hvor man kan udregne den forventede værdi af h(x) uden at skulle lave lange beregninger. Disse tilfælde opstår, når Y = a + b X, hvor a og b er konstanter. For eksempel, hvis man vil skifte måle enhed på en stokastisk variabel, X, så vil den stokastiske variabel med den ny måleenhed ofte kunne skrives som Y = b X. I disse tilfælde kan vi udtrykke den forventede værdi af Y direkte som en funktion af den forventede værdi af X. Præcis hvordan fremgår af følgende regneregler: Regneregler for forventede værdier: i) E(a) = a ii) E(b X) = b E(X) iii) E(a + b X) = E(a) + E(b X) = a + b E(X) hvor X er en diskret stokastisk variabel, og a og b er konstanter. Der gælder altså følgende: Forventningen til en sum, E(a + b X), er lig med summen af forventningerne til leddene i summen, E(a) og E(b X). Desuden er forventningen til en konstant, E(a), blot lig med konstanten selv. Forvent ningen til en konstant ganget med en stokastisk variabel, E(b X), er lig med konstanten ganget med forventningen til den stokastiske variabel, b E(X). 5.2 Momenter 107

Eksempel 5.7: En skoleklasse del 2 Eksempel 5.8: Et terningspil del 4 I eksempel 5.4 ønsker vi nu i stedet at måle elevernes højde i meter. Dvs. vi de finerer en ny stokastisk variabel Z = 0,01 Y, hvor Y er variablen fra eksempel 5.4. Hvis Y angiver højden for den udtrukne person i cm, vil Z derfor give os højden i meter. Middelværdien af Z er da: E(Z) = 0,01 E(Y) = 0,01 137,5 = 1,375 meter. I eksempel 5.5 er Y en funktion af X, som opfylder den tredje regneregel i boksen ovenfor. Når vi kender middelværdien af X, kan vi derfor springe den lidt om stændelige udregning i eksempel 5.6 over og i stedet udregne middelværdien af Y som: E(Y) = E( 5 + 2 X) = 5 + 2 E(X) = 5 + 2 3,5 = 2. Det er værd at understrege, at den forventede værdi af en funktion af X, E(h(X)), generelt ikke er lig med funktionen af den forventede værdi, h(e(x)). Det næste eksempel illustrerer dette. Eksempel 5.9: En ikke-lineær funktion Den stokastiske variabel, X, kan antage værdierne 3 og 5 med sandsynlig hed 0,5 for hver af dem. Dermed er E(X) = 3 0,5 + 5 0,5 = 4. Lad Y = X 2. Da X = 3 med sandsynlighed 0,5, så er Y = 9 med sandsynlighed 0,5. Tilsvaren de er X = 5 med sandsynlighed 0,5, og dermed er Y = 25 med sandsynlig hed 0,5. Den forventede værdi af Y er derfor E(Y) = 9 0,5 + 25 0,5 = 17. Så E(Y) = E(X 2 ) = 17, mens (E(X)) 2 = 4 2 = 16. 5.2.2 Forventet værdi af en kontinuert stokastisk variabel For at beregne den forventede værdi af en kontinuert stokastisk variabel skal man bruge integralregning. Tænk på eksemplerne 4.12 og 4.13 fra sidste kapitel, hvor en virksomhed skulle forudsige næste års vareproduktion. Her var sandsynlighederne for de enkelte udfald nul, fordi der var uendeligt mange udfald. Til gengæld var der en positiv sandsynlighed for en produktion mellem 10 og 11 tons. Som i tilfældet med en diskret stokastisk variabel skal vi have foretaget en sammenvejning af sandsynligheder og værdier af udfald. Da sandsynligheden for et bestemt udfald er 0 for en kontinuert stokastisk variabel, viser det sig, at vi i stedet for kan bruge tæthedsfunktionen. Sammenvejningen sker ved at integrere tæthedsfunktionen ganget med værdier ne af udfaldene. Formelt er beregningsformlen som følger: 108 Beskrivende mål

Den forventede værdi (middelværdien), E(X), af en kontinuert stokastisk variabel, X, med tæthedsfunktion, f(x), er givet ved: EEEE(XXXX) = xxxx ffff(xxxx)ddddxxxx Vi vil ikke anvende integralregning ret meget i denne bog. Alligevel kan vi sagtens arbejde med forventede værdier af kontinuerte stokastiske variabler. Der gæl der nemlig de samme regneregler for kontinuerte stokastiske variabler som for diskrete stokastiske variabler. Disse regneregler er gengivet her: Regneregler for forventede værdier: i) E(a) = a ii) E(b X) = b E(X) iii) E(a + b X) = E(a) + E(b X) = a + b E(X) hvor X er en kontinuert stokastisk variabel, og a og b er konstanter. Eksempel 5.10: Lad X være den kontinuerte stokastiske variabel fra eksempel 4.12-4.14, som Vareproduktion del 1 lem 10 og 20 tons var lige sandsynlige. Dermed er fordelingen symmetrisk angav virksomhedens vareproduktion næste år. Vi antog, at alle udfald mel omkring 15 tons, så middelværdien af X er lig med 15 tons. Ved hjælp af integralreg ning kan man vise, at dette er korrekt: EEEE(XXXX) = xxxx ffff(xxxx)ddddxxxx 20 = xxxx 0,1ddddxxxx 10 = 0,1 (0,5 20 2 0,5 10 2 ) = 15 Antag nu, at der gâr 250 kilo til spilde undervejs i produktionen. Lad vê re Antag nu, at der går 250 kilo til spilde undervejs i produktionen. Lad Y være den stokastiske variabel, der angiver nettomængden i kilo: Y = 1000 X 250, da X er målt i tons, og Y skal måles i kg. Middelværdien af Y kan man finde ved at bruge regnereglerne ovenfor: E(Y) = E(1000 X 250) = 1000 E(X) 250 = 1000 15 250 = 14750 kg. 5.2.3 Varians af en diskret stokastisk variabel Efter at have udregnet middelværdien er man måske interesseret i at vide, hvor meget værdierne spreder sig omkring middelværdien. Antag, at vi har en stokastisk variabel, X, som antager værdierne 40 og 60 med lige stor sandsyn lighed. 5.2 Momenter 109

Middelværdien er da E(X) = 50. Antag, at vi har en anden stokastisk variabel, Y, som antager værdierne 0 og 100, også her med lige stor sandsynlighed. Middelværdien er igen E(Y) = 50, men de to variabler har tydeligvis forskel lige fordelinger. Fordelingen for Y er spredt mere ud end fordelingen for X. For at få et beskrivende mål for denne spredning kan man undersøge den forventede kvadrerede spredning omkring middelværdien. Dette mål kaldes variansen og betegnes med V(X) eller s 2. Variansen, V(X), af en stokastisk variabel, X, er defineret som: V(X) = E([X E(X)] 2 ) = s 2 Variansen kan også udregnes som: V(X) = E(X 2 ) (E(X)) 2 = E(X 2 ) µ 2 hvor µ = E(X). Denne definition gælder, uanset om den stokastiske variabel er diskret eller kontinuert. Det er beregningen af de forventede værdier, E(X 2 ) og E(X), som adskiller diskrete og kontinuerte stokastiske variabler. For en diskret stokastisk variabel kan variansen udregnes som følger: Variansen af en diskret stokastisk variabel, X, med sandsynlighedsfunktion, f(x), udregnes som: NNNN VVVV(XXXX) = (xxxx iiii μμμμ) 2 ffff(xxxx iiii ) iiii=1 = (xxxx 1 μμμμ) 2 ffff(xxxx 1 ) + + (xxxx NNNN μμμμ) 2 ffff(xxxx NNNN ) hvor µ = E(X), og x 1,, x N, er de værdier, som X kan antage. Udregningen af V(X) er den samme, som hvis vi skulle udregne den forventede værdi af den stokastiske variabel, Y, givet ved Y = h(x) = (X E(X)) 2 = (X µ) 2. Variansen er således en sammenvejning af de enkelte værdier (fratrukket middelværdien og kvadreret), hvor man vægter med sandsynligheden for de pågældende værdier. Lad os udregne variansen i nogle af eksemplerne fra tidligere: 110 Beskrivende mål

Eksempel 5.11: Et terningspil del 5 I terningspillet fra eksempel 5.3 bliver variansen: VVVV(XXXX) = (1 3,5) 2 1 6 + (2 3,5)2 1 6 + (3 3,5)2 1 6 + (4 3,5)2 1 6 ternativt kan vi f rst finde : Alternativt kan vi først finde E(X 2 ): + (5 3,5) 2 1 6 + (6 3,5)2 1 6 = 2,9167 EEEE(XXXX 2 ) = 1 2 1 6 + 22 1 6 + 32 1 6 + 42 1 6 + 52 1 6 + 62 1 6 = 15,167 og udregne variansen som: og udregne variansen som: V(X) = E(X 2 ) µ 2 = 15,167 3,5 2 = 2,9167 Eksempel 5.12: En skoleklasse del 3 For den stokastiske variabel, Y, fra eksempel 5.4 er variansen givet ved: For den stokastiske variabel,, fra eksempel 5.4 er variansen givet v VVVV(YYYY) = (122 137,5) 2 1 + (128 10 137,5)2 1 + (129 10 137,5)2 1 + 10 (134 137,5) 2 2 + (137 10 137,5)2 1 + (140 10 137,5)2 1 + (143 10 137,5) (143 137,5) 2 1 + 2(144 1 + (144 10 137,5)2 1 + (164 10 137,5)2 1 = 120,85 10 137,5)2 1 + (164 10 137,5)2 1 = 120,85 10 10 Man kan også som mål for spredningen benytte kvadratroden af variansen: σσσσ(xxxx) = VVVV(XXXX). Denne størrelse kalder man for standardafvigelsen, og den er opgjort i de samme måleenheder som den stokastiske variabel, X, for hvilken den er udregnet: Standardafvigelsen, s(x), af en stokastisk variabel, X, med varians, V(X), er givet ved: σσσσ(xxxx) = VVVV(XXXX) Eksempel 5.13: Et terningspil del 6 Standardafvigelsen af den stokastiske variabel, X, fra eksempel 5.11 er givet ved: σσσσ(xxxx) = VVVV(XXXX) = 2,9167 = 1,708 5.2 Momenter 111

Ligesom for middelværdier har vi også nogle regneregler for varianser og standardafvigelser: 1 Regneregler for varians og standardafvigelse: i) V(a) = 0 s (a) = 0 ii) V(b X) = b 2 V(X) = b 2 s 2 s (b X) = b s (X) iii) V(a + b X) = V(b X) = b 2 s 2 s (a + b X) = b s (X) hvor X er en diskret stokastisk variabel, a og b er konstanter, og s 2 = V(X). Variansen er således upåvirket af, at der lægges en konstant, a, til. Intuitio nen er, at en additiv konstant ikke flytter på afstanden mellem de mulige værdier, den stokastiske variabel kan antage. Dermed ændrer konstanten ikke på afstanden mellem de enkelte værdier og middelværdien. En konstant, b, har derimod betydning, når den ganges på værdierne af X. Hvis b er større end 1, vil den sprede værdierne mere og dermed øge den samlede varians. Reglerne for standardafvigelse fås ved at tage kvadratroden af variansudtrykkene. Eksempel 5.14: Variablen Y i eksempel 5.5 er givet ved: Y = 5 + 2 X, hvor vi fra eksempel Et terningspil 5.11 ved, at variansen af X er 2,9167. Dermed kan man udregne variansen af del 7 Y ved brug af regnereglerne: V(Y) = V( 5 + 2 X) = 2 2 V(X) = 4 2,9167 = 11,67 Standardafvigelsen af Y bliver følgelig: σσσσ(yyyy) = VVVV(YYYY) = 3,416 5.2.4 Varians af en kontinuert stokastisk variabel Variansen af en kontinuert stokastisk variabel er defineret på nøjagtig samme måde som for en diskret stokastisk variabel. Den eneste forskel er måden, den udregnes på. Da middelværdien af en kontinuert stokastisk variabel involverer integralregning, så gør udregningen af variansen det også. 1. Man kan udlede disse regler fra reglerne for forventede værdier i afsnit 5.2.1, idet variansen, som nævnt ovenfor, er at betragte som en forventning til en funktion, h(x). 112 Beskrivende mål

Variansen af en kontinuert stokastisk variabel, X, med tæthedsfunktion, f(x), ud regnes som: VVVV(XXXX) = (xxxx μμμμ) 2 ffff(xxxx)ddddxxxx hvor µ = E(X). Regnereglerne for varians og standardafvigelse er de samme som i tilfældet med en diskret stokastisk variabel: Regneregler for varians og standardafvigelse: i) V(a) = 0 s (a) = 0 ii) V(b X) = b 2 V(X) = b 2 s 2 s (b X) = b s (X) iii) V(a + b X) = V(b X) = b 2 s 2 s (a + b X) = b s (X) hvor X er en kontinuert stokastisk variabel, a og b er konstanter, og s 2 = V(X). 5.2.5 Momenter generelt Variansen af en stokastisk variabel, X, er defineret som den forventede værdi af én bestemt funktion af denne stokastiske variabel, nemlig [X E(X)] 2. Ideen var at se på den forventede kvadrerede afvigelse fra middelværdien af den stokastiske variabel. Men man kunne jo også opløfte X E(X) i tredje eller fjerde potens i stedet for i anden potens. Alle disse muligheder kaldes under ét for momenter og er defineret i næste boks: Det k te moment, m k, af en stokastisk variabel, X, er: m k = E(X k ) Det k te centrale moment, m* k, af en stokastisk variabel, X, er: m* k = E([X E(X)] k ) Middelværdien er lig med det første moment: m 1 = E(X 1 ) = E(X), og variansen er lig med det andet centrale moment: m* 2 = E([X E(X)] 2 ). Det tredje centrale moment, m* 3 = E([X E(X)] 3 ) beskriver, hvor skæv fordelingen af X er. Hvis fordelingen af X er symmetrisk, så er det tredje cen trale moment 0. Endelig sker det også, at man er interesseret i det fjerde cen trale moment: m* 4 = E([X E(X)] 4 ). Det vægter værdier af X langt fra mid delværdien 5.2 Momenter 113

højt. Derfor er dette beskrivende mål ofte brugt, hvis man vil beskrive sandsynligheden for ekstreme værdier i forhold til middelværdien. Der findes fordelinger for hvilke, der ikke eksisterer momenter. Dette kan ske, hvis der er for høj sandsynlighed for ekstreme (dvs. store negative eller store positive) værdier af den stokastiske variabel. For at forstå dette, kan man bruge billedet om middelværdien som det punkt, hvor man skal understøtte en vippe med vægtlodder for at holde den i balance, se figur 5.1. Hvis der er vægtlodder ekstremt langt ude på vippen, og disse er for tunge, så brækker vippen. Det næste eksempel viser en situation, hvor middelværdien af en stokastisk variabel ikke eksisterer. Eksempel 5.15: Antag at den diskrete stokastiske variabel, X, kan antage følgende værdier: x Ingen = 2, 4, 8, 16,, med sandsynlighederne f(x) = 1 X. Dvs. X kan antage vilkårligt høje værdier, dog med mindre og mindre sandsynlighed. Først tjekker vi, middel værdi at f(x) rent faktisk er en sandsynlighedsfunktion. Ifølge afsnit 4.2.1 skal sandsynlighederne summere til 1. Man kan her vise at den uendelige sum: ffff(2) + ffff(4) + ffff(8) + ffff(16) + = 1 2 + 1 4 + 1 8 + 1 16 + faktisk summerer til 1. Da også f(x) 0, følger det af afsnit 4.2.1, at f(x) er en sandsynlighedsfunktion. Middelværdien af en diskret stokastisk variabel er defineret som summen af alle de værdier, den stokastiske variabel kan antage, ganget med deres respektive sandsynligheder. Foretager man denne udregning får man: EEEE(XXXX) = 2 ffff(2) + 4 ffff(4) + 8 ffff(8) + 16 ffff(16) + = 2 1 2 + 4 1 4 + 8 1 8 + 16 1 16 + = 1 + 1 + 1 + 1 + Man får altså en uendelig sum af et-taller og dermed et uendeligt stort tal. Derfor eksisterer middelværdien af X ikke i dette tilfælde. For stort set alle de fordelinger, som vi præsenterer senere i denne bog, eksisterer både middelværdien og variansen. 5.3 Fraktiler 114 Beskrivende mål Fraktiler giver en alternativ måde at sammenfatte en fordeling på. Hvor momenter bygger på gennemsnitsbetragtninger, så bygger fraktiler på opdelin ger. Den mest anvendte fraktil er medianen. Kort fortalt er medianen for en stoka

stisk variabel, X, den værdi, som X er større end eller lig med med sandsynlighed 0,5 og mindre end eller lig med med sandsynlighed 0,5. Rent visu elt så deler medianen derfor sandsynlighedsfordelingen for X på midten, som illustreret i figur 5.2, hvor tæthedsfunktionen for en kontinuert stokastisk variabel, X, er afbildet. Figur 5.2: Tæthedsfunktion og median ( ) median Man kan også finde værdier af X, som opdeler fordelingen på en anden måde end med 0,5 til hver side. Disse værdier kalder man generelt for p-fraktiler, hvor p angiver den del af fordelingen, der ligger til ven stre for p-fraktilen. Den generelle definition af en p-fraktil, som gælder både for kontinuerte og diskrete stokastiske variabler, er lidt snørklet. Derfor tager vi først det letteste tilfælde, som for en gangs skyld forekommer, når den stokastiske variabel er kontinuert. For en kontinuert stokastisk variabel, X, er p-fraktilen den (eller de) værdi(er) af x, som, når de sættes ind i den kumu lative sandsynlighedsfunktion, F(x), giver p. p-fraktilen for en kontinuert stokastisk variabel, X, med kumulativ sandsynlighedsfunktion, F(x), er en værdi, q p, således at: F(q p ) = p Eksempel 5.16: Vareproduktion del 2 Den kontinuerte stokastiske variabel, X, fra eksempel 5.10, som angav en virksomheds vareproduktion, havde følgende kumulative sand synlig hedsfunk tion, jf. eksempel 4.14: 0 < 10 ( ) = 0,1 ( 10) 10 20 1 20 < 5.3 Fraktiler 115

Medianen (0,5-fraktilen), for X bestemmes som en løsning til F(q 0,5 ) = 0,5, dvs. 0,1 (q 0,5 10) = 0,5, som giver q 0,5 = 15. Medianen er altså den samme som middelværdien i dette tilfælde, jf. eksempel 5.10. 0,05-fraktilen findes på tilsvarende vis: 0,05 = 0,05 0,1 0,05 10 = 0,05 0,05 = 10,5 En stokastisk variabel kan dog godt have flere medianværdier (og p-fraktiler), som illustreret i det følgende eksempel. Eksempel 5.17: Multiple medianværdier Antag, at en kontinuert stokastisk variabel, X, har sandsynlighed 0,5 for at ligge mellem 1 og 2 og sandsynlighed 0,5 for at ligge mellem 3 og 4. Tæthedsfunktionen for X er tegnet i figur 5.3. I dette tilfælde er der derfor sandsynlighed 0 for, at X antager en værdi mellem 2 og 3. Men samtidig vil alle værdier mellem 2 og 3 dele sandsynlighedsmassen i to lige store dele. Derfor vil alle værdier mellem 2 og 3 opfylde kravet til en 0,5-fraktil ifølge definitionen i boksen ovenfor. Så disse værdier er alle medianværdier. Figur 5.3: Tæthedsfunktion med multiple medianer 0,5 ( ) 1 2 3 4 Når man som i eksempel 5.17 har et interval af værdier, som alle opfylder kravet til at være en p-fraktil, så vælger man typisk den midterste værdi i intervallet. I eksempel 5.17 bliver 2,5 således medianen. Et tilsvarende problem har vi, når vi har med diskrete stokastiske variabler at gøre. Lad os derfor kigge nærmere på dem. Eksempel 5.18: Et terningspil del 8 Lad X være den diskrete stokastiske variabel, der angiver antallet af øjne ved et terningslag. Vi ved fra tidligere, at sandsynlighedsfordelingen for X er følgende: 116 Beskrivende mål

ffff(1) = 1 6, ffff(2) = 1 6, ffff(3) = 1 6, ffff(4) = 1 6, ffff(5) = 1 6, ffff(6) = 1 6 nlighed Der er altså sandsynlighed 0,5 for at få en værdi af X mindre end 3,1, men der er også sandsynlighed 0,5 for at få en værdi mindre end 3,5. Så hvilken værdi er medianen? Som i tilfældet med kontinuerte variabler vælger man typisk den midterste værdi af det interval af værdier, der alle deler sandsynlighedsmassen i to lige store dele. Værdien 3,5 bliver derfor medianen i dette tilfælde. f Hovedproblemet med at formulere betingelsen for en p-fraktil for en diskret stokastisk variabel stammer fra det faktum, at den kumulative sandsynlighedsfunktion, F, for en diskret stokastisk variabel er en trappefunktion, se fx figur 4.1. Man kan derfor typisk ikke løse ligningen F(q p ) P, som er definitionen af en p-fraktil for en kontinuert stokastisk variabel. Nedenfor giver vi en formel definition af en p-fraktil, som gælder for både kontinuerte og diskrete stokastiske variabler. For kontinuerte variabler reducerer defini tionen dog til den allerede viste definition i boksen ovenfor: Definition af p-fraktil: For en stokastisk variabel, X, med kumulativ sandsynlighedsfunktion, F(x), er værdien, q p, en p-fraktil hvis og kun hvis: i) P(X < q p ) p ii) P(X > q p ) 1 p Den første betingelse siger, at et udfald mindre end p-fraktilen højst må have sandsynlighed p, mens den anden betingelse siger, at sandsynligheden for at få et udfald større end p-fraktilen skal være mindre end eller lig med 1 p. Denne snørklede definition er nødvendig, fordi den kumulative sandsynlighedsfunktion for en diskret stokastisk variabel er en trappefunktion og dermed ikke kontinuert. Ånden i en p-fraktil er dog den samme som i tilfæl det med en kontinuert stokastisk variabel. Eksempel 5.19: Plat og krone Den diskrete stokastiske variabel, Y, der antager værdien 1, når en mønt lander på plat, og værdien 2, når den lander på krone, har følgende kumulative sandsynlighedsfunktion: 5.3 Fraktiler 117

0, y < 1 F(y) = 0,5, 1 y < 2 1, y 2 Lad os prøve at finde den nederste kvartil, som er 0,25-fraktilen. Hvis vi prøver at bruge definitionen af en p-fraktil for en kontinuert stokastisk variabel, så vil det ikke virke, da det er umuligt at løse F(q 0,25 ) = 0,25 for en værdi af q 0,25. Se figur 5.4. Men da Y er diskret, skal vi bruge den generelle definition af en p-fraktil. En kandidat til 0,25-fraktilen er værdien 1. Vi tjekker der for betingelserne i) og ii) fra boksen ovenfor. For i) fås P(Y < 1) = 0, som er mindre end 0,25. For ii) fås P(Y > 1) = 1 P(Y 1) = 1 0,5 = 0,5, som er mindre end 1 0,25 = 0,75. Begge betingelser er altså opfyldt, og dermed er 1 en 0,25-fraktil. Grafisk er 0,25-fraktilen den værdi af y, hvor F(y) springer op over 0,25. Figur 5.4: Kumuleret sandsynlighed og 0,25-fraktil 1 ( ) 0,5 0,25 1 0 1 (= 0,25 ) 2 Afslutningsvis bemærker vi, at fraktiler, modsat momenter, altid eksisterer. En række fraktiler har endvidere specielle navne, som det fremgår af boksen nedenfor. Specielle navne for fraktiler: q 0,5 kaldes medianen. q 0,25 og q 0,75 kaldes kvartiler. q 0,1, q 0,2,, q 0,9 kaldes deciler. q 0,01, q 0,02,, q 0,99 kaldes percentiler. 118 Beskrivende mål

5.4 Valg af beskrivende mål En gennemsnitlig beboer i København har færre end to ben. Dette udsagn vækker mistanke om, at en stor miljøkatastrofe må have ramt hovedstaden. Men udsagnet er faktisk korrekt, hvis der bare er én beboer i København, som kun har ét ben (og ingen har mere end to!). Man skal derfor være påpasselig med fortolkningen af beskrivende mål, som for eksempel en middelværdi, selvom udregnin gerne er korrekte. Ligeså vigtigt er det at vælge beskrivende mål, som i sammenhængen giver et relevant billede af en fordeling. I tilfældet med antal ben blandt de københavnske beboere kunne det således være mere interessant at kende sandsynligheden for, at en tilfældigt udvalgt beboer har to ben. Et andet eksempel er valget af beskrivende mål for en indkomstfordeling. Antag, at den sto kastiske variabel, X, angiver en simpel tilfældigt udvalgt indbyggers indkomst. Hvis den forventede værdi af X er høj, betyder det så, at man kan konkludere, at indbyggerne er rige? Nej, det betyder, at de i gennemsnit er rige. Hvis hovedparten af indbyggerne er fattige, men de få rige er ekstremt rige, så er middelindkomsten høj. Medianindkomsten vil derimod være lav, fordi den ikke er særlig påvirket af, at der findes en lille gruppe rige personer. For medianen gør det ingen forskel, om de rigeste 49 % er lidt rige eller stenrige. Både middelværdien og medianen er gyldige beskrivende mål, men de fortæller to vidt forskellige historier om de samme indbyggere. Middelværdien og medianen har det til fælles, at de begge giver et bud på den centrale ten dens i en fordeling. Medianen bygger primært på sandsynligheden for udfaldene, hvorimod middelværdien medtager udfaldenes størrelse. Hvilket af de to mål, der giver den bedste beskrivelse af fordelingens midte eller den typiske observation, afhænger af det, vi ønsker at undersø ge. I en symmetrisk fordeling er medianen og middelværdien lig hinanden. I praksis kan man dog komme til at lave målefejl. For eksempel kan man i indkomstfordelingen komme til at sætte et 0 for meget på nogle af de høje indkomster. Målefejl af denne type vil typisk påvirke udregningen af middelværdien mere end udregningen af medianen. Man siger derfor, at medianen er mere robust over for sådanne målefejl. 5.4.1 Modalværdi Et ofte (måske lidt for ofte) brugt beskrivende mål er modalværdien for en stokastisk variabel. Modelværdien kaldes også typetallet og er den mest sandsynlige værdi i en fordeling. Hvis den stokastiske variabel er givet ved en simpel tilfældig udtræk ning fra en virkelig population, så er modalværdien den oftest forekommen de værdi i populationen. 5.4 Valg af beskrivende mål 119

Eksempel 5.20: Modelværdi Antag, at den stokastiske variabel, X, er defineret som udfaldet af en simpel tilfældig udtrækning fra følgende population: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1}. I dette tilfælde er modalværdien 1. Til sammenligning er middelværdien af X lig med 5,09, og medianen er 5. Eksemplet viser, at man ikke skal fortolke modalværdien som et alternativ til middelværdien eller medianen. Når man skal beskrive formen af en fordeling kan man bruge udtrykkene unimodal og bimodal. En unimodal fordeling har sandsynligheden koncentreret omkring modalværdien og med faldende sandsynligheder efterhånden som værdierne kommer længere væk fra modalværdien, se figur 5.5. For en kontinuert stokastisk fordeling har en unimodal fordeling således kun én top. Som det også fremgår af figur 5.5, så har en bimodal fordeling derimod to toppe. Figur 5.5. Unimodal og bimodal fordeling Unimodal Bimodal 5.5 Beskrivende mål for sammenhænge mellem stokastiske variabler For at sprede risikoen investerer investeringsforeninger i mange forskellige aktier. Nogle aktier har tendens til at gå op, når andre går ned, og vice versa. Ved at holde flere forskellige aktier kan man således udjævne store, og potentielt konkursskabende, udsving i de enkelte aktier. Til at beskrive sammenhænge mellem stokastiske variabler, som fx aktiekurser, kan man se på deres simultane fordeling. Det gjorde vi i kapitel 4. Men fordi den simultane sandsynlighedsfunktion indeholder al information om variablernes fordeling, er den svær at bruge til at skabe sig overblik. Nedenfor ser vi derfor på nogle beskrivende mål, som har vist sig at være yderst nyttige til fx at beskrive sammenhænge mellem forskellige aktiers kurser. 120 Beskrivende mål

5.5.1 Forventet værdi af en sum af stokastiske variabler Afkastet på en aktie kan man beskrive som en stokastisk variabel, X. Antag, at der også er en anden aktie med afkast givet ved den stokastiske variabel, Y. Vi kan nu sammensætte en portefølje (en samling) af aktier, hvor a er antal aktier af den første type, og b er antal aktier af den anden type. Dermed vil vo res samlede afkast blive givet ved den stokastiske variabel, Z: Z = a X + b Y Hvad er nu det forventede afkast af denne portefølje? Dette kan bestemmes ud fra følgende generelle formel for den forventede værdi af en sum af stokastiske variabler, som både gælder for diskrete og kontinuerte variabler: Den forventede værdi af en sum af stokastiske variabler (diskrete eller kontinuerte) er givet ved: E(a X + b Y) = E(a X) + E(b Y) = a E(X) + b E(Y) hvor a og b er konstanter. Den forventede værdi af summen af to stokastiske variabler afhænger ikke af, hvordan de to stokastiske variabler samvarierer. Den afhænger udelukkende af de to stokastiske variablers individuelle forventede værdier. Det forventede afkast af porteføljen, Z, er derfor lig med det forventede afkast af de a X-aktier og de b Y-aktier: E(Z) = a E(X) + b E(Y) 5.5.2 Kovarians Et mål for risikoen af en portefølje er variansen af porteføljen, V(Z) = V(a X + b Y). Variansen af en sum af stokastiske variabler, uanset om disse er diskrete eller kontinuerte, afhænger af variansen af hver enkelt stokastisk varia bel, men også af kovariansen. I kapitel 2 udregnede vi kovariansen mellem 2 populationskarakteristika. Kovariansen mellem to stokastisk variabler er tilsvarende defineret som: Kovariansen, Cov(X, Y), mellem to stokastiske variabler, X og Y, er defineret ved: Cov(X, Y) = E[(X µ X ) (Y µ Y )] hvor µ X = E(X) og µ Y = E(Y). En alternativ formel for udregning af kovariansen er: Cov(X, Y) = E(X Y) µ X µ Y 5.5 Beskrivende mål for sammenhænge mellem stokastiske variabler 121

Udregningen af de forventede værdier er forskellig alt efter, om de stokastiske variabler er diskrete eller kontinuerte. For to diskrete stokastiske variabler kan man udregne kovariansen som: Kovariansen mellem to diskrete stokastiske variabler, X og Y, udregnes som: CCCCpppppppp(XXXX, YYYY) = (xxxx iiii μμμμ XXXX ) yyyy jjjj μμμμ YYYY ffff xxxx iiii, yyyy jjjj eller: xxxx iiii yyyy jjjj CCCCpppppppp(XXXX, YYYY) = xxxx iiii yyyy jjjj ffff xxxx iiii, yyyy jjjj μμμμ XXXX μμμμ YYYY xxxx iiii yyyy jjjj hvor µ x = E(X), µ y = E(Y), og f(x, y) er den simultane sandsynlighedsfunk tion. Sumtegnene Σ xi Σ yj betyder, at der summeres over alle kombinationer af værdier, som X og Y kan antage. Kovariansen udtrykker noget om, hvordan de to variabler samvarierer. En positiv kovarians betyder, at høje værdier af Y er mest sandsynlige sammen med høje værdier af X, og tilsvarende at lave værdier af Y er mest sandsyn lige sammen med lave værdier af X. Omvendt betyder en negativ kovarians, at lave værdier af X er mest sandsynlige sammen med høje værdier af Y og omvendt. Det følgende eksempel illustrerer udregningen af en kovarians for to diskrete stokastiske variabler: Eksempel 5.21: Betragt de stokastiske variabler, X og Y, fra afsnit 4.3, som angav henholdsvis, om en virksomhed gik fallit (X = 0) eller ej (X = 1), og om markedet blev Markedsudvikling og ugunstigt (Y = 0) eller gunstigt (Y = 1). Deres simultane sandsynlighedsfunktion var givet i tabel 4.2. Kovariansen for disse to variabler findes ved først at virksomhedsfallit beregne de forventede værdier: µ X = E(X) = 0 f X (0) + 1 f X (1) = 0 0,3 + 1 0,7 = 0,7 µ Y = E(Y) = 0 f Y (0) + 1 f Y (1) = 0 0,4 + 1 0,6 = 0,6 hvor man skal huske, at det er de marginale sandsynligheder, der anvendes. Dernæst beregnes E(X Y): EEEE(XXXX YYYY) = xxxx iiii yyyy jjjj ffff xxxx iiii, yyyy jjjj xxxx iiii yyyy jjjj = 0 0 ffff(0, 0) + 1 0 ffff(1, 0) + 0 1 ffff(0, 1) + 1 1 ffff(1, 1) 122 Beskrivende mål = 0 0 0,2 + 1 0 0,2 + 0 1 0,1 + 1 1 0,5 = 0,5 Dermed bliver kovariansen givet ved:

Dermed bliver kovariansen givet ved: Cov(X, Y) = E(X Y) µ X µ Y = 0,5 0,7 0,6 = 0,08 I eksempel 5.21 er kovariansen lig 0,08. Dette fortæller os, at der er størst chance for fallit (X = 0), når markedet er ugunstigt (Y = 0), og størst chance for at undgå fallit (X = 1), når markedet er gunstigt (Y = 1). Når man skal udregne kovariansen mellem to kontinuerte stokastiske variabler, så skal man bruge integralregning. Sumtegnene i udregningen af kovariansen mellem to diskrete stokastiske variabler skal udskiftes med integraletegn, og den simultane sandsynlighedsfunktion skal udskiftes med den simultane tæthedsfunktion. Fortolkningen er dog nøjagtig som før: Kovariansen mellem to kontinuerte stokastiske variabler, X og Y, udregnes som: eller: CCCCpppppppp(XXXX, YYYY) = (xxxx μμμμ XXXX ) (yyyy μμμμ YYYY ) ffff(xxxx, yyyy)ddddyyyyddddxxxx xxxx,yyyy CCCCpppppppp(XXXX, YYYY) = xxxx yyyy ffff(xxxx, yyyy)ddddyyyyddddxxxx μμμμ XXXX μμμμ YYYY xxxx,yyyy hvor µ X = E(X), µ Y = E(Y), og f(x, y) er den simultane tæthedsfunk tion. Vi har også nogle regneregler for kovarianser, som gælder, uanset om de stokastiske variabler er kontinuerte eller diskrete. Disse er: Regneregler for kovarianser: i) Cov(X, Y) = Cov(Y, X) ii) Cov(a X, b Y) = a b Cov(X, Y) iii) Cov(a + X, b + Y) = Cov(X, Y) iv) Cov(X + Z, Y) = Cov(X, Y) + Cov(Z, Y) hvor X, Y, og Z er (diskrete eller kontinuerte) stokastiske variabler, og a og b er konstanter. 5.5 Beskrivende mål for sammenhænge mellem stokastiske variabler 123

Vi er nu klar til at præsentere udtrykket for variansen af en sum af sto kastiske variabler, og dermed variansen på vores aktieportefølje: V(Z) = V(a X + b Y): Variansen af en sum af stokastiske variabler: VVVV(aaaa XXXX + bbbb YYYY) = VVVV(aaaa XXXX) + VVVV(bbbb YYYY) + 2 CCCCpppppppp(aaaa XXXX, bbbb YYYY) = aaaa 2 VVVV(XXXX) + bbbb 2 VVVV(YYYY) + 2 aaaa bbbb CCCCpppppppp(XXXX, YYYY) Her har vi i det sidste skridt udnyttet regel ii) fra boksen med regneregler for kovarianser. Variansen af en sum af stokastiske variabler er således lig med summen af varianserne plus to gange kovariansen. Eksempel 5.22: Lad X og Y være to kontinuerte stokastiske variabler, som angiver det fremtidige afkast på to forskellige aktier: Aktie X og Aktie Y. Vi antager, at middel Risikodiversificering del 1 værdierne af X og Y begge er lig med 4, og varianserne, V(X) og V(Y), begge er lig 2. Dermed kan effekten af kovariansen nemmest illustreres. Antag, at kovariansen mellem X og Y er lig med 1. Hvis man vælger at købe 2 stk. af Aktie X, får man således et forventet afkast på: med en varians på: E(2 X) = 2 E(X) = 2 4 = 8 V(2 X) = 4 V(X) = 4 2 = 8 Man får samme forventede afkast og varians, hvis man i stedet køber 2 stk. af Aktie Y, da vi antog, at den havde samme middelværdi og varians som Aktie X. Køber man derimod 1 stk. af hver aktie, har man et forventet afkast på: E(X Y) = E(X) + E(Y) = 4 + 4 = 8 hvilket er det samme, som hvis man havde enten to aktier af type X eller to af type Y. Variansen på porteføljen er derimod: V(X + Y) = V(X) + V(Y) + 2 Cov(X, Y) = 2 + 2 + 2 ( 1) = 2 hvilket er fire gange mindre, end hvis man havde enten to aktier af type X el ler to af type Y. Ved at sprede investeringen over to aktier kan man således reducere variansen på afkastet, uden at det går ud over det forventede afkast! Årsagen er, at når X giver et lavt afkast, så giver Y typisk et højt afkast. På denne måde nedsætter man sandsynligheden for store udsving i det samlede afkast. 124 Beskrivende mål

5.5.3 Korrelationskoefficient Et problem med kovariansen som mål for samvariationen mellem to stokastiske variabler er, at dens størrelse afhænger af måleenheden for de stokastiske variabler. Ganger vi de stokastiske variabler, X og Y, med to konstanter, a og b, så ganger vi også kovariansen op med disse: Cov(a X, b Y) = a b Cov(X, Y) Dette følger af regneregel ii) ovenfor. Hvis man således omdefinerer X fra fx centimeter til meter, som vi gjorde i kapitel 4, så ændrer man også kovariansen mellem X og Y. For at få et mål for samvariationen, der er uafhængigt af sådanne ligegyldige transformationer af de stokastiske variabler, anvender man ofte korrelationskoefficienten. Denne findes ved at dividere kovariansen med kvadratroden af produktet af varianserne: Korrelationskoefficienten, p(x, Y), for to stokastiske variabler, X og Y, er givet ved: CCCCpppppppp(XXXX, YYYY) ρρρρ(xxxx, YYYY) = VVVV(XXXX) VVVV(YYYY) Korrelationskoefficienten har samme fortegn som kovariansen, men vil altid ligge mellem 1 og 1. Hvis korrelationskoefficienten er 1 eller 1 siges de to va riabler at være henholdsvis perfekt positivt og perfekt negativt korrelerede. Eksempel 5.23: Korrelationskoefficienten for X og Y fra eksempel 5.22 kan beregnes til: Risikodiversificering del 2 ρρρρ(xxxx, YYYY) = CCCCpppppppp(XXXX, YYYY) VVVV(XXXX) VVVV(YYYY) = 1 2 2 = 1 2 I afsnit 4.3.5 introducerede vi begreberne afhængighed og uafhængighed mellem to stokastiske variabler til at analysere sammenhængen mellem dem. Uafhængighed er et stærkere begreb end kovarians, idet uafhængighed mel lem to stokastiske variabler medfører, at kovariansen mellem dem er 0. En kovarians mellem to stokastiske variabler på 0 medfører derimod ikke, at de er uafhængige. Denne forskel er illustreret i en af opgaverne til kapitlet. 5.5 Beskrivende mål for sammenhænge mellem stokastiske variabler 125

5.6 Beskrivende mål ved hjælp af Excel Vi skal nu se, hvordan vi kan anvende Excel til at beregne beskrivende mål for fordelinger. Vi vil fokusere på det tilfælde, hvor vi har en virkelig popula tion. Her kan Excel udregne fx middelværdien for en stokastisk variabel, når denne er givet ved værdien af det element, der udtrækkes, og når alle elemen ter i populationen har samme sandsynlighed for udvælgelse. Excel udregner nemlig populationsmiddelværdien, som jo er den samme som middelværdien af den stokastiske variabel i dette tilfælde. I regnearket har vi vist en virkelig population bestående af de 27 lande i EU. Antag, at vi trækker et land tilfældigt i populationen og lader den stokastiske variabel, X, angive befolkningen (i millioner personer), mens Y angiver BNP per capita (indbygger). Hvis du endnu ikke føler dig helt fortrolig med Excel, kan det være en god ide selv at indtaste værdierne i et regneark, så du kan følge med på skærmen i eksemplerne nedenfor. 5.6.1 Middelværdi Først udregner vi middelværdien for variablen X, dvs. befolkningen. Dette kan gøres på to måder i Excel. I begge tilfælde starter man med at placere kursoren i den celle, hvor man ønsker resultatet. 126 Beskrivende mål

1. Den guidede metode foregår ved at klikke på Formler i den øverste menu og derefter på Indsæt funktion. Da fremkommer følgende boks: Her vælges kategorien Statistisk i den øverste drop-down menu, og i det nederste vindue kan man nu se de statistiske funktioner, der er tilgængelige i Excel. Vi skal her klikke på MIDDEL og dernæst OK. Vi ser da følgende skærmbillede: I rubrikken ud for Tal1 skal man angive cellereferencerne for populationselementerne, dvs. hvor de befinder sig i regnearket. I dette tilfælde skal vi skrive B3:B29, fordi værdierne findes i cellerne mellem B3 og B29. Alternativt kan man klikke på regnskabsikonet til højre for rubrikken ved Tal1. Man kan nu med musen markere de celler, hvor populationselementerne 5.6 Beskrivende mål ved hjælp af Excel 127

befinder sig, hvorefter man trykker Return. Excel vil nu selv skrive B3:B29 i rubrikken ud for Tal1. Derefter klikker man OK, og middelværdien fremkommer da i den celle, man startede øvelsen i. 2. Den hurtige metode foregår ved direkte at skrive: =MIDDEL(B3:B29) i den celle, hvor man ønsker resultatet. 5.6.2 Varians og standardafvigelse Beregning af varians og standardafvigelse foregår på helt samme måde, blot skal man skrive =VARIANSP(B3:B29) og =STDAFVP(B3:B29), hvis man bruger den hurtige metode, eller vælge VARIANSP og STDAFVP under Indsæt funktion, hvis man foretrækker den guidede fremgangsmåde. Øvelse: Udregn ved hjælp af Excel variansen og standardafvigelserne for X og Y. 5.6.3 Kovarians og korrelationskoefficient Vi kan også finde kovariansen og korrelationskoefficienten for de to stokastiske variabler ved hjælp af Excel. Ønsker vi fx kovariansen mellem X og Y i ovenstå ende eksempel, gør vi følgende: 1. Den guidede metode: Vælg KOVARIANS under Indsæt funktion. I den fremkomne dialogboks angives cellereferencerne for X ud for Vektor1, dvs. B3:B29, og cellereferencerne for Y ud for Vektor2, dvs. C3:C29. Derefter tryk kes OK. 2. Ved den hurtige metode skrives blot: =KOVARIANS(B3:B29;C3:C29) direkte i cellen. 128 Beskrivende mål