DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT Logistisk Kalman filter for kraftig nedbør. December Michael Steffensen

Størrelse: px
Starte visningen fra side:

Download "DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT Logistisk Kalman filter for kraftig nedbør. December Michael Steffensen"

Transkript

1 DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT Logistisk Kalman filter for kraftig nedbør December 2002 Michael Steffensen ISSN X ISSN (online) København

2 Indholdsfortegnelse 1. Indledning Data Kategoriske prognoser for 24 timers akkumuleret nedbør Sandsynlighedsprognoser Logistisk regression og Kalman filter Verifikation af sandsynlighedsprognoser Pålidelighed og skarphed Brier score og skill score Cost/Loss Value Kategoriske prognoser Sandsynlighedsprognoser ROC kurver Konklusion

3 1. Indledning Denne rapport beskriver nogle mulige metoder til automatiske forudsigelse af nedbør og kraftig/meget nedbør ved hjælp af DMI-HIRLAM data og synop observationer. Forudsigelse af især kraftig/meget nedbør har vist sig at være vanskelig. Derfor fokuseres der på at bestemme sandsynligheder for nedbør større end en given tærskelværdi i modsætning til kategoriske prognoser for nedbør. Fordelen ved sandsynlighedsprognoser er, at de samtidig med den aktuelle prognose giver en vurdering af prognosens usikkerhed, hvilket mange brugere kan drage nytte af. I den sammenhæng anvendes ofte et relativt nyt mål for verifikation, det såkaldte Cost/Loss Value, som viser hvilken økonomisk værdi en prognose har for en given bruger beskrevet ved forholdet mellem brugerens udgift til at beskytte sin aktivitet mod, i dette tilfælde kraftig nedbør, og tabet ved mulige konsekvenser af kraftig nedbør uden at have beskyttet sig. Beskyttelse skal i denne sammenhæng forstås meget bredt og kan for eksempel bestå i at undlade at udføre en aktivitet med deraf følgende konsekvenser, for eksempel produktionstab, der så repræsenterer udgiften til beskyttelse. En af de mulige metoder til bestemmelse af sandsynligheder for nedbør er logistisk regression med et logistisk Kalman filter. Et logistisk Kalman filter er en pendant til et almindeligt Kalman filter, som adaptivt justerer koefficienterne i en lineær regression mellem prognoseværdier og observerede værdier. Logistisk regression mellem prognoseværdier og observerede værdier bestemmer koefficienter i en algoritme, som giver sandsynligheder for nedbørsmængder større end den givne tærskelværdi givet en aktuel (kategorisk) prognoseværdi for nedbørsmængd en. Et logistisk Kalman filter justerer adaptivt koefficienter i regressionen. Kapitel 2 beskriver kort de anvendte data. I kapitel 3 karakteriseres DMI-HIRLAM s kategoriske prognose for nedbør ved sammenligning med observationer fra en synop station. Herefter bestemmes i kapitel 4 sandsynligheder for nedbørsmængder større end en given tærskelværdi ud fra en simpel tællemetode. I kapitel 5 vises, hvorledes disse sandsynligheder også kan bestemmes med logistisk regression og hvorledes et logistisk Kalman filter defineres. Kapitel 6 gennemgår forskellige metoder til verifikation af sandsynlighedsprognoser. 2

4 2. Data Observeret 24 timers akkumuleret nedbør, ObsN(dato o ), er beregnet ud fra synop observationer klokken 6, 12 og 18 UTC ved: ObsN(dato o ) = N18(dato o -1) - N12(dato o -1) + N06(dato o ) + N12(dato o ) Hvor dato o er observations dato for 24 timers akkumuleret nedbør fra klokken 12 forrige dag (dato o -1) til klokken 12 dato o. N6(dato o ) og N18(dato o -1) er observeret 12 timers akkumuleret nedbør henholdsvis klokken 6 dato o og klokken 18 forrige dag, dato o -1. N12(dato o ) og N12(dato o -1) er observeret akkumuleret 6 timers nedbør klokken 12 dato o og klokken 12 forrige dag, dato o -1, se illustration nedenfor. 06 dato o dato o dato o dato o 06 dato o 12 dato o I I I I I I I-N12(dato o -1)--I I N18(dato o -1)----- I N6(dato o )------I -N12(dato o ) -I Prognosen for nedbør er DMI-HIRLAM parametrene ACPR (konvektiv) og ASPR (stratiform) akkumuleret nedbør fra analyse tidspunktet til prognose tidspunktet. Der er lavet prognoseværdier for akkumuleret nedbør for dels 00 til +24 timer, N(00 til 24), og dels +24 til +48 timer N(24 til 48) ud fra klokken 12 UTC analyser. N(00 til 24) (dato a ) = ACPR(+24) (dato a )+ASPR(+24) (dato a ) er den akkumulerede nedbør fra analysetidspunktet klokken 12UTC dato a og 24 timer frem. N(24 til 48)(dato a ) = ACPR(+48)(dato a )+ASPR(+48)(dato a )-[ACPR(+24) (dato a )+ASPR(+24)(dato a )] er den akkumuleret nedbør fra analysetidspunktet klokken 12UTC dato a plus 24 timer og yderligere 24 timer frem. Samhørende værdier af observation og prognose N(00 til 24) (dato a ) med analysetidspunkt dato a fås ved at bruge observationen med dato dato o = dato a +1 så: N(00 til 24(dato a ) <> ObsN(dato a +1) Samhørende værdier af observation og prognosen N(24 til 48) (dato a ) med analysetidspunkt dato a fås ved at bruge observationen med dato dato o = dato a +2 så: N(24 til 48(dato a ) <> ObsN(dato a +2) Der er lavet statistik for tærskelværdierne >2, >5, >10, >15 og >20 [mm/24 timer], hvor nedbør >10, >15 og >20 [mm/24 timer] kan betragtes som kraftig nedbør. Data dækker perioden 9/ til 10/ Dog mangler data for nogle af dagene. Nedbørsobservationer fra Vojens 6110 er blevet brugt i verifikationen. 3

5 3. Kategoriske prognoser for 24 timers akkumuleret nedbør Scatterplot af 24 timers akkumuleret nedbør fra DMI-HIRLAM versus observeret 24 timers akkumuleret nedbør fra tættest liggende SYNOP station giver et godt overblik over nedbørsprognosers evne til at forudsige nedbørsmængden. Figur 1 viser et scatterplot for prognoser af akkumuleret nedbør fra +24 til +48 timer i forhold til analyse tidspunktet for prognosen. Punkterne ligger relativt spredt og illustrerer dermed vanskeligheden ved at forudsige nedbørsmængder. Prognoserne kan også beskrives med numeriske verifikationsmål, hvilket gør det lettere umiddelbart at sammenligne to forskellige prognoser. Man skal dog være opmærksom på, at sådanne numeriske beskrivelser kun beskriver et bestemt aspekt ved prognosen. DMI-HIRLAM nedbør N(24 til 48) versus observeret nedbør Vojens DMI-HIRLAM nedbør [mm/24 timer] Observeret nedbør [mm/24 timer] Figur 1 Scatterplot DMI-HIRLAM nedbør versus observeret nedbør ved Vojens synop station. Dertil kommer, at de numeriske prognoser beregner areal middel nedbørsmængder i modsætning til synop målestationer, som er punkt målinger, hvilket gør det vanskeligt at lave en 4

6 direkte sammenligning. For eksempel er der mulighed for, at en kraftig byge i området ikke rammer nedbørsmåleren. Dette udgør en vanskelighed ved verifikation af nedbørsmængder. Root Mean Square Error, RMSE, for prognosen er 5.5 [mm/24timer]. Middel differensen på kun [mm/24timer] viser, at prognosen kun overestimerer nedbørsmængden en lille smule. Det betyder, at der ikke vil være nogen gevinst ved at lave en lineær regression af nedbør, eventuelt med et Kalman filter, som har vist anvendelig for andre meteorologiske parametre, fordi lineær regression primært kan reducere en eventuel bias. De røde kvadrater i figur 1 viser intervallerne i en kontingenstabel. Kontingenstabellen viser i princippet det samme som et scatterplot, men med den forskel, at værdier for henholdsvis prognoser og observationer samles i nogle valgte intervaller. De anvendte intervaller er [0-0.1], [0.1-2], [2-5], [5-10], [10-15], [15-20], [20-30] og >30 [mm/24timer]. Tabel 1 viser kontingenstabellen svarende til scatterplottet i figur 1. Diagonal elementerne i matricen er de hændelser, hvor prognose og observation falder i samme interval og betegnes derfor som et hit (korrekte). Værdier over diagonalen repræsenterer hændelser, hvor prognosen underestimerer nedbørsmængden, og værdier under diagonalen repræsenterer hæ n- delser, hvor prognosen overestimerer nedbørsmængden. Hit rate er summen af alle korrekte prognoser, altså summen af værdierne i diagonal elementerne, relativt til det totale antal prognoser i data sættet. Hit rate for kontingenstabellen er 35 %. Ved små observerede nedbørsmængder altså intervallerne [0-0.1] og [0.1-2] [mm/24timer] er der ganske mange hændelser, hvor prognosen ligger i intervaller ovenover [0.1-2], [2-5], [5-10] og [10-15]. Disse hændelser under diagonalen i tabellen viser, at prognosen overestimerer nedbørsmængden ved små nedbørsmængder. Omvendt ses, at værdierne over diagonalen viser, at prognosen underestimere nedbørsmængden ved større nedbørsmængder. Observeret Prognose [ ] [ ] [ 2-5 ] [ 5-10 ] [ ] [ ] [ ] [ ] [ ] [ ] [ 2-5 ] [ 5-10 ] [ ] [ ] [ ] [ ] Tabel 1 kontingenstabel. Tallene under matricen og i kolonnen helt til højre viser hvor mange henholdsvis observationer og prognoser, der er i hvert interval. Disse tal beskriver klimatologien af henholdsvis de observerede nedbørsmængder og prognoserne. Her ses tydeligt prognosens overestimering af små nedbørsmængder, idet prognosen kun har 107 hændelser i intervallet [0-0.1], mens der er hele 329 observerede hændelser i samme interval og omvendt 320 hændelser i prognosens interval [0.1-2], mens der kun er 172 observerede hændelser i dette interval. 5

7 Figur 2 viser fordelingen af prognoser indenfor intervallerne i forhold til observationsintervallet. Røde søjler er andelen af prognoser i intervaller med større nedbørsmængder end observationsintervallet, grønne søjler er andelen af prognoser i samme interval som observationsintervallet (korrekte) og blå søjler er andelen af prognoser i intervaller med mindre nedbørsmængder end observationsintervallet. De relativt store grønne søjler for intervallerne [0.1-2], [2-5] og [5-10] viser, at prognosen er bedst i disse intervaller, men også for disse intervaller er der en del usikkerhed med mange prognoser i intervaller med både større og mindre nedbørsmængder end observationen. Fordeling af prognoser i forhold til observationer % for lav % korrekt % for stor 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% [ ] [ ] [ 2-5 ] [ 5-10 ] [ ] [ ] [ ] Figur 2 Fordelingen af prognoser indenfor intervallerne i forhold observationsintervallet. De store røde og blå søjler viser hvordan prognosen overestimerer ved små nedbørsmængder og underestimerer ved større. Det er altså relativt mere vanskeligt at forudsige små og store nedbørsmængder. For store nedbørsmængder er der imidlertid den vanskelighed, at der er få hændelser til at få en ordentligt statistik. Der er kun 56 hændelser ud af 726 med observerede nedbørsmængder større end 10 [mm/24 timer]. En metode til at håndtere forudsigelse af store nedbørsmængder er at lave udsigter for nedbørsmængder større end en givne tærskelværdier, N tærskel, for eksempel 10, 15 eller 20 [mm/24timer]. Det kan gøres ved at forudsige nedbørsmængden > N tærskel, når prognosens værdi for nedbørsmængden er > N o, hvor N o skal bestemmes så forudsigelsen bliver optimal. N o er således typisk forskellig fra N tærskel. For store nedbørsmængder gælder at N o > N tærskel. Kontingenstabeller for sådanne prognoser bliver 2*2 matricer svarende til de to hændelser; nedbørsmængder > N tærskel og nedbørsmængder <= N tærskel for henholdsvis prognose og ob- 6

8 servation. En måde at få optimale prognoser på er for eksempel at bestemme N o så hit rate for kontingenstabellen bliver størst. Tabel 2 a) og b) viser 2*2 kontingenstabeller for nedbørsmængde > 10 [mm/24timer]. Tabel 2a) er baseret på forudsigelser af nedbørsmængder større end 10 [mm/24 timer], når prognosen er større end 10 [mm/24 timer], altså N o = 10 [mm/24timer] og tabel 2b) er baseret på forudsigelser af nedbørsmængder større end 10 [mm/24 timer], når prognosen er større end 14 [mm/24 timer], altså N o = 14 [mm/24timer]. Observeret Observeret Prognose nedbør>10 nedbør<10 Prognose nedbør>10 nedbør<10 nedbør> nedbør> nedbør< nedbør< Tabel 2a) Tabel 2b) Hit rate for tabel 2a) er (2+294)/326 = 91%, mens hit rate for tabel 2b) er (2+300)/326 = 93%. Imidlertid ses umiddelbart af matricerne, at hit rate ikke beskriver kvaliteten af prognosen helt, idet antallet af ikke forudsagte hændelser med nedbørsmængde større end 10 [mm/24 timer] er hele 24, hvilket skal ses i sammenhold med antallet af gange denne hændelse er forudsagt korrekt, som kun er 2 gange. Alternativet til kategoriske prognoser er sandsynlighedsprognoser, som samtidig med den aktuelle prognose giver en vurdering af prognosens usikkerhed. Disse vil blive beskrevet i næste kapitel. 7

9 4. Sandsynlighedsprognoser I dette projekt er sandsynligheder for nedbør større end tærsklerne: 2, 5, 10, 15, og 20 [mm/24timer] blevet analyseret. I rapporten vil resultater for nedbørsmængder større end 10 [mm/24timer] blive anvendt som eksempel. Sandsynlighedsprognoser tager udgangspunkt i den netop beskrevet kategoriske prognose for nedbørsmængder større end en given tærskel værdi, ved i stedet at forudsige en sandsynlighed for nedbørsmængder større end en given tærskel værdi ud fra prognosen af nedbørsmængden Kontingenstabellen i tabel 1 kan bruges til at vurdere størrelsen af disse sandsynligheder ud fra hyppigheder ved en simpel optælling. Hvis prognose værdien for eksempel ligger i intervallet [5-10] kan sandsynligheden for nedbør større end 10 [mm/24timer] vurderes som af summen af værdier i kontingenstabellens række 4 (intervallet [5-10]) fra og med søjle 5 (intervallet [10-15]) til og med søjle 8 (intervallet [30-60]), det vil sige summen over alle intervaller med observeret nedbørsmængde > 10 [mm/24timer], divideret med det totale antal prognoser i intervallet [5-10], som findes i kolonnen yderst til højre. Ved at bruge værdier fra tabel 1 fås altså =32 divideret med 110, hvilket giver en sandsynlighed på 0.29 for nedbørsmængder større end 10 [mm/24 timer], når den kategoriske prognose for nedbørsmængden ligger i intervallet [5-10]. På tilsvarende vis vurderes sandsynligheden for nedbørsmængder større end 10 [mm/24timer], når prognosen ligger i intervallet [10-15], som af summen af værdier i kontingenstabellens række 5 (intervallet [10-15]) fra og med igen søjle 5 ([5-10]) til søjle 8 (intervallet [30-60]), divideret med det totale antal prognoser i intervallet [10-15], altså 3+3=6 divideret med 28, hvilket giver Sådan kan sandsynligheden for nedbørsmængder større end 10 [mm/24timer] vurderes for prognose værdier i alle intervallerne [0.1-2], [2-5], [5-10], [10-15], [15-20], [20-30] [mm/24timer]. På tilsvarende måde kan sandsynlighederne for de øvrige tærskelværdier 2, 5, 15 og 20 bestemmes ud fra kontingenstabellen i tabel 1. Disse sandsynligheder er vist i tabel 3. For eksempel er sandsynligheden for nedbørsmængde større end 5 [mm/24 timer] når den kategoriske prognose ligger i intervallet [10-15] p(n>2) p(n>5) p(n>10) p(n>15) p(n>20) [ ] [ ] [ 2-5 ] [ 5-10 ] [ ] [ ] [ ] Tabel 3 Sandsynlighederne for nedbør større end tærskelværdier 2, 5, 10, 15 og 20 [mm/24 timer] Figur 3 viser kurverne for sandsynligheden for nedbørsmængder større end tærskelværdie r- ne 2, 5, 10, 15 og 20 [mm/24 timer] som funktion af intervallerne i kontingenstabellen. 8

10 Sandsynligheder som funktion af interval Sandsynlighed [ ] [ ] [ 2-5 ] [ 5-10 ] [ ] [ ] [ ] p(n>2) p(n>5) p(n>10) p(n>15) p(n>20) Figur 3 Sandsynligheden for nedbørsmængder >tærskelværdierne 2, 5, 10, 15 og 20 [mm/24 timer] For en given tærskelværdi vil man forvente, at sandsynligheden stiger, når man går til et højere interval. Dette er ikke helt tilfældet i den viste tabel og figur. Det skyldes, at nedbørsmængder større end 10, 15 og 20 forekommer relativt sjældent, så data materialet ikke er stort nok til at få tilstrækkeligt mange hændelser med. Desuden vil kurvernes aktuelle forløb også afhænge af de valgte intervalinddelinger, hvilket vil have størst betydning for de store nedbørsmængder med få hændelser. Hvis der kun er to hændelser i et valgt interval, hvor den ene er korrekt og den anden er falsk, kan man ændre intervalinddelingen så kun den korrekte findes i intervallet, hvorved hyppigheden af korrekte hændelser i intervallet ændres fra 50 til 100 % I næste kapitel vises, hvordan dette til dels kan afhjælpes ved anvendelse af logistisk regression, som giver sandsynligheden for nedbørsmængder større end en tærskelværdi som funktion af enhver prognoseværdi uden brug af valgte intervaller. 9

11 5. Logistisk regression og Kalman filter Vurderingen af sandsynligheder for nedbørsmængder større end tærsklerne 2, 5, 10, 15, 20 [mm/24 timer], som blev illustreret i forrige kapitel, kan beregnes for alle prognose værdier uafhængigt af de valgte intervaller ved hjælp af logistisk regression. Med logistisk regression kan man for enhver prognose værdi beregne sandsynligheder for nedbørsmængde større end tærskelværdien. Denne metode kan anvendes ved udarbejdelse af automatiske prognoser. Logistisk regression er mage til normal regression, men med den forskel at den afhængige variabel, Y, kun kan antage heltalsværdier (eller diskrete værdier), i dette tilfælde 1 hvis nedbørsmængden større end tærskelværdien og 0 ellers. I normal regression af en afhængig variabel Y ud fra et sæt af uafhængige variable X i, i=1,...,n haves ligningen Y^= a 0 +a 1 * X a N * X N for den estimerede værdi Y. Koefficienterne, a i, bestemmes ud fra minimalisering af fejlfunktionen, som er summen af (Y^- Y) 2 over sættet af kendte Y er og estimaterne Y^. I logistisk regression transformeres ligningen Y^= a 0 +a 1 *X a N *X N til en sandsynlighed ved hjælp af en logistisk funktion P = P(a 0 +a 1 *X a N *X N ), som antager værdier mellem 0 og 1. Den logistiske funktion er defineret ved: P = e (a 0 + a 1 *X a N *X N ) /(1+ e (a 0 + a 1 *X a N *X N ) ) Forløbet af en logistisk funktion med én uafhængig variable X 1 er vist figur 4 Logistisk funktion Sandsynlighed X 1 Figur 4 Forløbet af en logistisk funktion med én uafhængig variable X 1 I stedet for fejlfunktionen (Y^- Y) 2 benyttes i logistisk regression en fejlsandsynlighed bestemt ved (I-P) 2, hvor P er den estimerede sandsynlighed ud fra den logistiske funktion 10

12 P(Y^) og I er indikatorfunktionen, som er 1 hvis hændelsen indtræffer og 0 ellers. Koefficienterne, a i bestemmes ved at summen af (I-P) 2 over data sættet skal være mindst mulig. Figur 5 viser sandsynligheden for nedbørsmængder større end 10 [mm/24 timer], som funktion af den kategoriske prognose for nedbørsmængder. Den røde kurve viser sandsynligheden vurderet ud fra intervaller, hvor intervallet er blevet repræsenteret ved middelværdien af endepunkternes værdier. Der er god overensstemmelse mellem de to kurver. De sorte ruder markerer indikatorfunktions værdi. Der er end del markeringer for prognose værdier mindre end 10 [mm/24 timer]. Sandsynlighed for nedbørsmængder > 10 [mm/24 timer] Sandsynlighed Prognose af nedbørsmængder Figur 5 Sandsynligheden for nedbørsmængder større end 10 [mm/24 timer], som funktion af den kategoriske prognose for nedbørsmængder Kurveforløbet ligner ikke helt kurven i figur 4, når nedbørsmængderne er små. Det skyldes at den kategoriske prognose for nedbørsmængder kun kan være positiv eller nul. Fordelingen af nedbørsmængder fra kategoriske prognoser er derfor ikke normal fordelt, hvilket i dette tilfælde ville resultere i for store sandsynligheder, når den kategoriske prognose giver en lille nedbørsmængde. Derfor transformeres prognosen for nedbørsmængder, X, til X = ln(x+tiny) hvis X < 1 og X = X-1 når X >=1. Den transformerede prognose X bliver kontinuert med en kontinuert første afledet. Tiny indføres fordi ln(0) ikke er defineret. Ligesom ved traditionel lineær regression af en meteorologisk parameter kan koefficienterne, a i, i regressionsligningen bestemmes rekursivt ved hjælp af et logistisk Kalman filter, når de observeret Y er bliver tilgængelige. De eneste ændringer i forhold til et traditionelt Kalman filter er, at estimatet Y^ transformeres med den logistiske funktion P(Y^) og at fejlen (Y - Y^) ændres til 2*Arctanh(I-P). Arctanh(I-P) varierer mellem + og uendelig, når I-P varier mellem -1 og 1. 11

13 Det har desuden vist sig nødvendigt at indføre et korrektionsmaksimum givet ved, at fejlsandsynligheden I-P skal være mindre end en tærskelværdi. Anvendelse af et korrektionsmaksimum har primært vist sig nødvendigt ved store nedbørsmængder. Et Kalman filter er afhængig af observations og system variansen, som begge skal bestemmes på forhånd. Observations variansen er blevet bestemt som middelværdien (I-P klima ) 2 bestemt ud fra en delmængde af data materialet og hvor P klima er sandsynligheden for nedbørsmængder større end den aktuelle tærskelværdi bestemt ud fra samme delmængde af data materialet. Som vil fremgå senere laves verifikation på den resterende del af data sættet. For regression med n uafhængige variable er system variansen en n x n matrice. Bestemmelse af system variansen er gjort ved at initialisere system variansen til 0 i alle matrice elementerne og derefter beregne opdatering for 20 dage. Kalman filteret bestemmer da selv en matrice til opdatering af koefficienterne. Det antages nu at denne matrice kan bruges til at vurdere det indbyrdes størrelsesforhold af koefficienterne i system varians matricen. De aktuelle værdier fås ved at skalere så den geometriske middel af diagonal elementerne er 1 (dvs. at n te rod af produktet af diagonalelementer er 1) og derefter skalere med R/N 2, hvor R er observations variansen og N er systemhukommelsen målt i dage. Der er udført forsøg med forskellige antal dage for systemhukommelse. N = 30 dage giver fornuftige resultater, men kan dog varieres for de forskellige filtrer. 1 Sandsynlighed for nedbørsmængder > 10 [mm/24 timer] Sandsynlighed Prognose af nedbørsmængder Figur 6 Sandsynligheden for nedbørsmængder større end 10 [mm/24 timer] som funktion af den kategoriske prognose for nedbørsmængder. Røde prikker er Kalman filter og sorte prikker er logistisk regression. I figur 6, som svarer til figur 5 for logistisk regression, viser de røde prikker sandsynligheden for nedbørsmængder større end 10 [mm/24 timer] beregnet med Kalman filteret og de sorte den tilsvarende sandsynlighed beregnet med logistisk regression. Sandsynligheder 12

14 beregnet med Kalman filteret ligger lidt højere end sandsynligheder beregnet med logistisk regression. Det skyldes at koefficienterne i logistisk regression er beregnet på en delmængde af data sættet og derefter anvendt på resten af data sættet, hvorimod et Kalman filter netop bestemmes løbende ud fra de nyeste data. Hvorledes disse to metoder kan verificeres vil blive gennemgået i næste kapitel. 13

15 6. Verifikation af sandsynlighedsprognoser. 6.1 Pålidelighed og skarphed Et krav til sandsynlighedsprognoser, er at de skal være pålidelige. Pålidelighed udtrykker, at en hændelse forudsagt med sandsynligheden P også i praksis skal realiseres med frekvensen P. Sandsynlighedsprognoserne grupperes derfor i 10 grupper svarende til sandsynlighedsintervallerne 0-10%, 10-20%, 20-30%, 30-40%, 40-50%, 50-60%, 60-70%, 70-80%, 80-90%, %. For hvert interval er antallet af tilfælde, hvor sandsynlighedsprognosen er faldet indenfor intervallet bestemt. Ligeledes er for hvert interval antallet af gange, hvor sandsynlighedsprognosen er faldet indenfor intervallet og der tillige samtidigt blev observeret en nedbørsmængde større end tærskelværdien bestemt. Forholdet mellem disse to tal er da frekvensen af observerede hændelser i intervallet. Figur 7 viser et pålidelighedsdiagram for et Kalman filter og for logistisk regression for nedbørsmængder større end 10 [mm/24 timer]. Et fuldstændigt pålidelig system vil resultere i en kurve, hvor sandsynligheden er lig med den observerede frekvens, hvilket svarer til en ret linie gennem (0,0) og (100,100). De store udsving skyldes til dels det lille antal hændelser i data materialet med nedbørsmængder større end 10 [mm/24 timer]. Figur 7 Pålidelighedsdiagrammer for Kalman filter og logistisk regression for nedbørsmængder større end 10 [mm/24 timer] Figur 8 viser tilsvarende pålidelighedsdiagrammer for nedbørsmængder større end 5 [mm/24 timer]. Her ses betydeligt mindre udsving i kurverne. Foruden pålidelighedskurverne i figur 7 og 8, er ligeledes for hvert interval antallet af gange hvor sandsynlighedsprognosen er faldet indenfor intervallet vist som søjler med skalaen til venstre i diagrammet. For nedbørsmængder større end 10 [mm/24 timer] er antallet af sandsynlighedsprognoser med sandsynlighed mellem 0 og 10% langt over 200, mens der ikke er ret mange sandsynlighedsprognoser med store sandsynligheder. Det skyldes dels igen det 14

16 lille antal hændelser med nedbørsmængder større end 10 [mm/24 timer], men også prognosen relativt ringe evne til at forudsige nedbørsmængder større end 10 [mm/24 timer]. Figur 8 Pålidelighedsdiagrammer for Kalman filter og logistisk regression for nedbørsmængder større end 5 [mm/24 timer] Da pålideligheden for sandsynlighed mellem 0 og 10% er stor, er sandsynlighedsprognoserne er altså relativt gode til at forudsige, når der ikke kommer nedbørsmængder større end 10 [mm/24 timer]. For nedbørsmængder større end 5[mm/24 timer] er antallet af sandsynlighedsprognoser med sandsynlighed mellem 0 og 10% stadig mere end 200, men nu er der flere hændelser med sandsynlighedsprognoser med større sandsynligheder. Udover pålidelighedsdiagrammer anvendes også Brier skill score, der i en vis forstand tager hensyn til både pålidelighed og skarphed og giver mulighed for en direkte sammenligning af to metoder. 6.2 Brier score og skill score Brier score er summen af kvadratet på fejlsandsynligheden (I-P), hvor I er indikatorfunktion, som er lig med 1, hvis der er observeret en nedbørsmængde større end tærskelværdien og nul ellers. Brier score er normeret til 1 for en fuldstændig fejlagtig prognose, hvor sandsynlighedsprognosen er lig med 0, hvis der den pågældende dag er observeret en nedbørsmængde større end tærskeværdien, og ellers 1. Den perfekte prognose har en Brier score på 0. Skill score er generelt defineret som forskellen i score mellem prognosen og en reference prognose, relativt til forskellen i score mellem den perfekte prognose og reference prognosen. Skill er dermed et udtryk for hvor mange procent af den maksimalt mulige forbedring af reference prognosens skill, den aktuelle prognose giver. 15

17 Skill scores er 1 for perfekte prognoser, nul hvis prognosen er neutral i forhold til reference prognosen og negativ hvis prognosen er ringere end reference prognosen. Som reference prognose vælges den klimatiske sandsynlighed P klima, som bestemmes ud fra en delmængde af data sættet. Scores kan derefter beregnes for resten af data sættet. For Brier score bliver Brier skill score BSS = (BS ref BS prognose )/ BS ref, da Brier score for den perfekte prognose er nul. BS ref er Brier score for reference prognosen og BS prognose er Brier score for prognosen. Brier skill score for den logistiske regression er 0,11 og for kalman filteret 0.13, altså lidt bedre end den logistiske regression. Det skyldes nok som tidligere nævnt, at koefficienterne i logistisk regression er beregnet på en delmængde af data sættet og derefter anvendt på resten af data sættet, hvorimod et Kalman filter netop bestemmes løbende ud fra de nyeste data. Brier score og Brier skill score beregnes ofte løbende. Figur 9 viser 60 dages løbende Brier score og Brier skill score for tærskelværdien 10 [mm/24 timer]. Score Brier score klima Brier score prognose Brier skill score 1/ / / / / Figur dages løbende Brier score og Brier skill score for nedbørsmængder > 10 [mm/24 timer] 7/ / / / Her ses, at der er størst skill i vinter og efterårs månederne, hvor der er mest nedbør. Der er imidlertid relativt lidt skill i sandsynlighedsprognoserne. I næste kapitel vises, hvorledes sandsynlighedsprognoserne kan anvendes så de alligevel giver en forbedring i forhold til for eksempel kategoriske prognoser. 6.3 Cost/Loss Value Udover pålidelighedskurver og Brier score, som begge er objektive mål, anvendes også Cost/Loss Value og Relative Operational Charateristic, ROC som verifikations mål. Cost/Loss Value er et subjektivt mål baseret på, at der skal træffes en beslutning af en konkret bruger, og derigennem afhængig af den enkelte brugers behov. Det medfører til gengæld, at en prognose, som for eksempel har en relativt lille Brier skill score, alligevel for nogen brugere har en vis værdi. En brugerbeslutning kan bestå i at afgøre, om en aktivitet skal beskyttes mod for eksempel store nedbørsmængder, fordi der vil være et tab (loss), hvis der kommer store nedbørsmængder uden at aktiviteten er beskyttet. Beskyttelse af aktiviteten har imidlertid også omkostninger. Der skal altså på baggrund af den tilgængelige viden træffes beslutninger så 16

18 risikoen for unødige omkostninger bliver mindst mulige. Den tilgængelige viden er ikke er fuldstændig, idet kun prognoser med en hvis usikkerhed kendes. I det følgende antages som eksempel at 10 [mm/24 timer] er en kritisk nedbørsmængde for en tænkt brugers aktivitet. I dette simple eksempel er det altså en binær beslutning om beskyttelse/ej beskyttelse, som prognoserne skal bidrage med information til. Hvis kun den klimatologiske hyppighed er kendt, hvilket svarer til en klimatologiske sandsynlighedsprognose, kan der kun træffes en overordnet beslutning, nemlig enten altid at beskytte eller aldrig at beskytte, fordi der ikke er nogen variation i prognosen. Beslutningen skal træffes, så der opnås minimale omkostninger. Antag at tabet er L kr (Loss), hvis aktiviteten udføres og der kommer mere end 10 [mm/24 timer] og antag, at det koster C kr (Cost) at beskytte aktiviteten mod nedbør. Beslutningen viser sig at være afhængig af forholdet C/L. Omkostningen over N dage er nemlig, hvis der altid beskyttes N*C og, hvis der aldrig at beskyttes N*(den klimatologiske hyppighed)*l. Det er altså billigst altid at beskytte hvis C/L < (den klimatologiske hyppighed). Den klimatologiske prognose er det mindste grundlag for beslutning og bruges derfor som reference prognose. Foruden den klimatologiske prognose findes de kategoriske prognoser og sandsynlighedsprognoserne, samt en tænkt perfekt prognose. Cost/Loss Value er en vurdering af den værditilvækst(besparelse) disse prognoser kan give i forhold til den klimatologiske prognose Kategoriske prognoser Den kategoriske prognose giver en værdi for den akkumulerede nedbør over 24 timer. Beslutningen bliver derfor at beskytte, hvis prognosen er over 10 [mm/24 timer] og ellers ikke. Omkostningerne beregnes ud fra en tilhørende kontingenstabel vist i tabel 4, hvor a, b, c og d er normerede frekvenser så a + b +c +d = 1. Tabel 4 Kontingens tabel med frekvenser. a+b+c+d=1, klimatologisk hyppighed = b + d. Der beskyttes, når prognosen er Ja og ellers ikke. Omkostningerne over N dage til beskyttelse er: N * (c + d) * C. Hvis der ikke beskyttes og der alligevel kommer en nedbørsmængde større end 10 [ mm/24 timer] bliver omkostningen (tabet): N * b * L. Den samlede omkostning, O er da summen af disse to: 17

19 O = N * (c + d) * C + N * b * L ligning (1) Hvis den klimatologiske hyppighed = (b + d) betegnes KL, kan frekvensen af detekteret hændelse defineret ved FOD = d/(b + d) bestemmes som d/kl. Frekvensen af falske alarmer givet ved FAR = c/(a + c) kan udtrykkes som c/(1 - KL), hvor en falsk alarm er de tilfælde, hvor prognosen lover mere end 10 [mm/24 timer] uden at dette indtræffer. Det bør dog lige bemærkes her, at frekvensen af falske alarmer her er relativt til observationerne, hvor man ofte måler frekvensen af falske alarmer relativt til prognosen som c/(c + d). Af ovenstående fås at: b = KL * (1 FOD) c = FAR * ( 1 KL) d = FOD * KL Den samlede omkostning for den kategoriske prognose kan da udtrykkes ved KL, FAR og FOD ved at erstatte b, c og d i ligning (1): O = {(1 - KL) * FAR * C - KL * FOD * (L - C) + KL * L } * N ligning (2) Hvis omkostningen ved anvendelse af den kategoriske prognose er mindre end den tilsvarende for den klimatologiske prognose, som er minimum af (N * C) og (N * KL * L), har man opnået en værditilvækst ved at anvende den kategoriske prognose. Værditilvæksten afhænger altså ikke og alene af prognosens FOD og FAR, men også af brugerens C og L værdier. Den perfekte prognose repræsenterer den minimalt opnåelige omkostning. Den perfekte prognose har FOD=1 og FAR=0. Omkostningen for den perfekte prognose findes ved indsættelse af FOD=1 og FAR=0 i ligning (2) og bliver dermed (N * KL * C). I lighed med definitionen af skill score defineres Cost/Loss Value som forholdet mellem værditilvæksten for prognosen i forhold til reference prognosen og værditilvæksten for den perfekte prognose i forhold til reference prognosen. Cost/Loss Value er altså forholdet mellem den opnåede værditilvækst ved anvendelse af prognosen i forhold til den maksimalt opnåelige værditilvækst. Cost/Loss Value beregnes som: Cost/Loss Value = (1-KL)*FAR*C/L KL*FOD*(1-C/L) + KL - min(c/l,kl) ligning (3) KL*C/L min(c/l,kl) For et givet prognosesystem kan Cost/Loss Value for brugere med forskellige C/L tegnes i et diagram. Maksimum fås når C/L er lig med den klimatologiske hyppighed, og værditilvæksten her er KS = FOD - FAR, også kaldet Kuipers skill score. Cost/Loss Value vises i figur 10 sammen den tilsvarende kurve for sandsynlighedsprognoser Sandsynlighedsprognoser Hvis sandsynlighedsprognoser er til rådighed, bliver spørgsmålet, over hvilket mindste sandsynlighedsniveau det er optimalt at beslutte og beskytte, og hvad værditilvæksten så bliver. Altså hvis sandsynligheden er over en hvis tærskelværdi beskyttes ellers ikke. For en 18

20 given tærskelværdi for sandsynligheden kan en kontingenstabel bestemmes på samme måde som for den kategoriske prognose og de tilhørende FAR og FOD bestemmes. Cost/Loss Value kan så beregnes for alle C/L. Ud fra et sæt af stigende tærskelsandsynligheder bestemmes ved hjælp af de tilhørende kontingenstabeller et sæt af FAR og FOD. Disse definerer så et helt sæt af kurver for Cost/Loss Value som funktion af C/L. Indhyldningskurven for dette sæt af kurver er da sandsynlighedsprognosernes totale Cost/Loss Value for brugere med forskellige C/L forhold. Figur 10 viser Cost/Loss Value kurver for den kategoriske prognose (sort) og for sandsynlighedsprognoserne (rød). For et lille C/L forhold har sandsynlighedsprognoserne langt den største værditilvækst i forhold til den tilhørende kategoriske prognose. Det er en stor fordel, da de fleste bruger vil have et lille C/L forhold, altså små omkostninger til beskyttelse og store tab ved at undlade og beskytte når hændelsen indtræffer. For stort C/L forhold Cost/Loss Value Cost/Loss Value C/L Figur 10. Cost/Loss Value kurver for kategoriske prognoser (sort) sandsynligheds prognoserne (rød). har ingen af prognoserne nogen værditilvækst, fordi det her stort set er ligegyldigt om der bliver beskyttet eller ej, da omkostningen ved beskyttelse er det samme som tabet ved ikke at beskytte. Ved store C/L forhold giver i dette eksempel den kategoriske prognose den største værditilvækst. 19

21 6.4 ROC kurver FAR og FOD for forskellige tærskelværdier for sandsynlighed kan afbildes i et diagram som en såkaldt ROC-kurve gennem (0,0) og (FAR,FOD) og (1,1). Den perfekte prognose har kun et sæt (FAR,FOD) nemlig, FAR=0 og FOD=1, ingen falske forudsigelser og alle hæ n- delser forudsiges korrekt. Den klimatologiske prognose har FAR=FOD=0 svarende til aldrig at forudsige hændelsen og dermed heller ingen falske eller FAR=FOD=1 svarende til altid at forudsige hændelsen, hvorved alle ikke hændelser bliver forudsagt falskt. Den klimatologiske prognoses ROC-kurve er den rette linie gennem (0,0) og (1,1). Arealet under denne kurve er ½. Arealet under ROC-kurven for den perfekte prognose, som går gennem (0,0), (0,1) og (1,1) er 1. Arealet under en given ROC-kurve kan derfor anvendes som skill for et givet prognosesystem. Hvis der er skill i systemet, skal arealet være så stort som muligt og større end ½, som svarer til ingen mulighed for værditilvækst for nogen brugere. Figur 11 viser ROC-kurverne for den kategoriske prognose (sort) og sandsynlighedsprognoserne (rød). Her ses tydeligt at sandsynlighedsprognoser har et klart større areal end den kategoriske prognose. ROC kurve FOD FAR Figur 11 ROC-kurverne for den kategoriske pr ognose (sort) og sandsynlighedsprognoserne (rød). 20

22 7. Konklusion DMI-HIRLAM s kategoriske prognoser er blevet analyseret. Der er opstillet en metode til bestemmelse af sandsynlighedsprognoser ved hjælp af et logistisk Kalman filter. Forskellige verifikationsmetoder af sandsynlighedsprognoser er blevet beskrevet i detaljer. Analysen af DMI-HIRLAM s kategoriske nedbørsprognoser viser, at disse underestimerer store nedbørsmængder. Sandsynlighedsprognoser baseret på logistisk Kalman filtrering af DMI-HIRLAM s kategoriske nedbørsprognoser forbedrer mulighederne for anvendelse, idet Cost/Loss Value for brugere med lille Cost/Loss forhold er væsentligt større end det tilsvarende Cost/Loss Value for den kategoriske prognose, hvilket yderligere illustreres ved et større areal under ROC-kurven. De nuværende sandsynlighedsprognoser er gode til at forudsige, hvornår der ikke kommer store nedbørsmængder. Altså mange pålidelige tilfælde med lille sandsynlighed for store nedbørsmængder. Forbedringer af DMI-HIRLAM vil også forbedre sandsynlighedsprognoserne for kraftig nedbør. Det forventes at disse forbedringer også vil øge muligheden for at forudsige større sandsynligheder for store nedbørsmængder. 21

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Analyse og sammenligning af Hellmann og Pluvio nedbørsmålere

Analyse og sammenligning af Hellmann og Pluvio nedbørsmålere Klima- og Energiministeriet Analyse og sammenligning af Hellmann og Pluvio nedbørsmålere Data fra perioden 15. december 2009-15. oktober 2010 Peter Riddersholm Wang www.dmi.dk/dmi/tr10-16 København 2010

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Udglatning af GWR-prisindeksene

Udglatning af GWR-prisindeksene Udglatning af GWR-prisindeksene En målsætning for GWR-prisindeksene er, at de er temporale og spartiale kontinuere. Den geografiske vægtede regression (GWR), beskrevet ovenover, sikrer geografisk spartial

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Kapitel 13 Reliabilitet og enighed

Kapitel 13 Reliabilitet og enighed Kapitel 13 Reliabilitet og enighed Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 Version 11. april 2011 1 / 23 Indledning En observation er sammensat af en sand værdi og en målefejl

Læs mere

Evaluering af Soltimer

Evaluering af Soltimer DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-16 Evaluering af Soltimer Maja Kjørup Nielsen Juni 2001 København 2001 ISSN 0906-897X (Online 1399-1388) Indholdsfortegnelse Indledning... 1 Beregning

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Sammenligning af nedbørdata fra Skagen

Sammenligning af nedbørdata fra Skagen DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-22 Sammenligning af nedbørdata fra Skagen Maja Kjørup Nielsen November 2001 København 2001 ISSN 0906-897X (Online 1399-1388) Indholdsfortegnelse Indledning...

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Anna Amilon Materiel vurdering Ved vurderingen af en afgørelses materielle indhold vurderes afgørelsens korrekthed i forhold

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-07. Opsætning og kalibrering af Mike21 til stormflodsvarsling for Limfjorden

DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-07. Opsætning og kalibrering af Mike21 til stormflodsvarsling for Limfjorden DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-07 Opsætning og kalibrering af Mike21 til stormflodsvarsling for Limfjorden Jesper Larsen og Jacob Woge Nielsen DMI København 2001 ISSN 0906-897X ISSN

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Matematisk modellering og numeriske metoder. Lektion 5

Matematisk modellering og numeriske metoder. Lektion 5 Matematisk modellering og numeriske metoder Lektion 5 Morten Grud Rasmussen 19. september, 2013 1 Euler-Cauchy-ligninger [Bogens afsnit 2.5, side 71] 1.1 De tre typer af Euler-Cauchy-ligninger Efter at

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning Statistik Introduktion Deskriptiv statistik Sandsynslighedregning Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software:

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

I dag. Kursus Data matrice. Formål med PCA. Statistik. Principal komponent analyse, PCA, Esbensen kapitel 3. Splus. Anna Helga Jónsdóttir

I dag. Kursus Data matrice. Formål med PCA. Statistik. Principal komponent analyse, PCA, Esbensen kapitel 3. Splus. Anna Helga Jónsdóttir I dag Kursus 02593 Statistik Anna Helga Jónsdóttir Principal komponent analyse, PCA, Esbensen kapitel 3. Splus ahj@imm.dtu.dk 18. november 2008 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere