Statistisk bearbejdning af overvågningsdata - Trendanalyser

Størrelse: px
Starte visningen fra side:

Download "Statistisk bearbejdning af overvågningsdata - Trendanalyser"

Transkript

1 Danmarks Miljøundersøgelser Miljøministeriet Teknisk anvisning fra DMU nr. 4, 006 Statistisk bearbejdning af overvågningsdata - Trendanalyser NOVANA

2 (Tom side)

3 Danmarks Miljøundersøgelser Miljøministeriet Teknisk anvisning fra DMU nr. 4, 006 Statistisk bearbejdning af overvågningsdata - Trendanalyser NOVANA Jacob Carstensen Søren E. Larsen

4 Datablad Serietitel og nummer: Teknisk anvisning fra DMU nr. 4 Titel: Undertitel: Statistisk bearbejdning af overvågningsdata - Trendanalyser NOVANA Forfattere: Jacob Carstensen ), Søren E. Larsen ) Afdelinger: ) Afd. for Marin Økologi, ) Afd. for Ferskvandsøkologi Udgiver: URL: Danmarks Miljøundersøgelser Miljøministeriet Udgivelsesår: November 006 Redaktion afsluttet: Oktober 006 Faglig kommentering: Amterne Finansiel støtte: Bedes citeret: NOVANA overvågningsmidler Carstensen, J. & Larsen, S.E. 006: Statistisk bearbejdning af overvågningsdata - Trendanalyser. NOVANA. Danmarks Miljøundersøgelser. 38 s. - Teknisk anvisning fra DMU nr Gengivelse tilladt med tydelig kildeangivelse Sammenfatning: Emneord: Layout: Illustrationer: Anvisningen beskriver statistiske metoder til trendanalyse af monotone og ikke-monotone udviklinger i overvågningsdata. Anvisningen indbefatter både parametriske og ikke-parametriske metoder. Fremstillingen er generel med eksempler til illustration af metoderne, men analyserne vil kunne tilpasses konkrete overvågningsdata. Anvisningen tjener som inspiration til nye måder at undersøge tidslige udviklinger i overvågningsdata. NOVANA, trendanalyser, overvågningsdata, statistisk bearbejdning Anne van Acker Anne van Acker ISBN: ISSN (elektronisk): Sideantal: 38 Internetversion: Kan købes hos: Rapporten er tilgængelig i elektronisk format (pdf) på DMU's hjemmeside Miljøministeriet Frontlinien Rentemestervej København NV Tlf.: 70 0 frontlinien@frontlinien.dk

5 Indhold Indledning 5 Monotone udviklinger 6. Mann-Kendall s trend test 6. Mann-Kendall s sæson trend test 9.3 Lineær regression 3.4 Lineær regression med sæsonvariation 5 3 Ikke-monotone udviklinger 8 3. Generalized additive models (GAM) GAM med korrektion for sæson 0 3. Change-point detektion 3.. Tilfælde A: Knækpunkt til et kendt tidspunkt Tilfælde B: Spring til et kendt tidspunkt Tilfælde C: Knækpunkt til et ukendt tidspunkt Tilfælde D: Spring til et ukendt tidspunkt 30 4 Diskussion af metoder 3 5 Anbefalinger 34 6 Referencer 35 Bilag A - Matematiske definitioner af gennemsnit, median, tidsvægtede gennemsnit og vandføringsvægtede gennemsnit 37 Danmarks Miljøundersøgelser

6 [Tom side]

7 Indledning Ved starten af det første nationale overvågningsprogram i 989 var et af formålene med indsamling og statistisk analyse af data at påvise forbedringer i vandmiljøet. Der var en umiddelbar forventning om, at der ville ske en stadig forbedring af vandmiljøet i takt med at belastningen af næringssalte fra land blev reduceret. Efterhånden som målene for henholdsvis kvælstof og fosfor nås, forventes kvaliteten af vandmiljøet at stabilisere sig på et nyt niveau. Ligeledes er diverse parametre for kvalitet af vandmiljøet påvirket af andre faktorer, hovedsageligt meteorologiske såsom temperatur og nedbør, som også kan indeholde en tidslig udvikling. Konsekvensen heraf er, at de efterhånden lange tidsserier ikke nødvendigvis kun har enten en konstant aftagende eller en konstant stigende tendens. Eksempelvis kunne der være tale om økologiske regimeskift, hvor tilstanden springer fra et niveau til et andet. Der er derfor et behov for at udvide de statistiske metoder til at kunne tage højde for ikkemonotone trends. Trendanalyser er ligeledes vigtige i vandrammedirektivet (VRD). Artikel 4 omhandler identifikation af trends, og derved vil anvendelse af statistiske metoder til trendanalyse få en vigtig rolle i implementeringen af VRD og den fremtidige monitering og analyse af data i VRD. Formålet med denne anvisning er at beskrive en række forskellige standardmetoder til at analysere for både monotone og ikke-monotone trends. Beskrivelsen vil være fokuseret på det anvendelsesmæssige i de statistiske metoder med henvisninger til litteraturen, hvor de statistiske detaljer er beskrevet mere udførligt. Beregningerne vil blive gennemgået ved passende valgte eksempler med data fra overvågningsprogrammerne. I denne anvisning præsenteres forholdsvis generelle metoder til analyse af monotone og ikke-monotone udviklinger. Udover de valgte metoder findes der et utal af andre metoder, ofte mere specifikke, som med fordel kan anvendes på en given tidsserie. Fremstillingen er derfor ikke udtømmende med hensyn til mulige statistiske metoder, men repræsenterer et basisgrundlag for trendanalyser, som kan give inspiration til mere detaljerede og specifikke analyser. 5

8 Monotone udviklinger I dette afsnit beskrives to simple metoder til analyse af monotone udviklinger, Mann-Kendall s trend test og lineær regression. Den første metode er non-parametrisk (forudsætter ingen specifik fordeling af data) og den anden metode er parametrisk (forudsætter en parametrisk fordeling af data). I deres mest enkle form undersøges tidsserier bestående af årlige værdier, men det vises også, hvordan metoderne kan udvides til at håndtere tidsserier indeholdende sæsonvariation, dvs. målinger foretaget på forskellige tidspunkter i et givet kalenderår.. Mann-Kendall s trend test Stigning eller fald i miljøvariable over en periode på T år kan testes med Mann-Kendall s trend test (Hirsch et al. 98). Testen er også kendt som Kendall s τ (Kendall 975). Formålet med denne test er at påvise, om tidsserien af miljøvariable har en statistisk signifikant stigende eller faldende udviklingstendens over perioden med T år, eller om tidsserien blot består af en række tilfældige udsving i den målte størrelse. Mann-Kendall s trend test er en ikke-parametrisk statistisk metode. Dette betyder, at den har mindre skrappe forudsætninger. Det er således ikke nødvendigt, at data stammer fra normalfordelinger så som i lineær regression (se afsnit.3). Ligeledes beskriver den alternative hypotese, som metoden tester, monotone tendenser og ikke nødvendigvis lineære. Trends behøver altså ikke at være lineære, men er ordnet i kun én retning (stigende eller faldende). Man betaler for disse mindre skrappe forudsætninger ved en anelse mindre effektivitet (statistisk power), hvis data viser sig at opfylde forudsætningerne for linearitet og normalfordeling. Mann-Kendall s test og især Kendall s τ er beskrevet i en del statistiske lærebøger og artikler og kan være omtalt under navnet Kendall s coefficient of rank correlation. De fleste ikke-parametriske tests indeholder beregninger, som er svære at gennemføre på lommeregnere eller i et regneark. Der kræves en form for programmering eller et statistikprogram, som indeholder metoden. Udgangspunktet for Mann-Kendall s test er en tabel med årstal og tilhørende værdier af miljøvariable, som kan være gennemsnit, median, tidsvægtede eller vandføringsvægtede gennemsnit af det pågældende års målinger (se Bilag A). Det kan også være beregnede værdier så som stoftransport for året eller værdien af en enkelt måling, hvis der kun foretages én måling i løbet af året. Lad x,x,...,x n betegne værdierne for miljøvariablen for årene,,...,n. Mann-Kendall teststørrelsen beregnes som S n n i j i+ ( ) sgn x j x i 6

9 hvor sgn ( x ) 0 x > 0 x 0 x < 0 Hvis x j eller x i er angivet som manglende værdi, så er sgn(x j x i ) 0 pr. definition. Trenden testes ved at beregne Z S ( var( S )) 0 S + ( var( S )) S S S > 0 0 < 0 Variansen af S under nulhypotesen (ingen udviklingstendens) kan beregnes eksakt som var ( S ) n g m ( ng )( ng + 5) t j ( t j )( t j + 5) 8 j hvor n g er antallet af ikke-manglende observationer. I formlen for variansen af S har vi antaget, at der forekommer grupper af observationer med helt ens værdier (såkaldte ties), m grupper i alt og i den j te gruppe er der t j ens værdier. Ens værdier optræder typisk, når der er censorerede observationer i tidsserien (fx værdier under en detektionsgrænse), eller når observationer er diskrete tælletal, fx antal arter i en prøve. En positiv S-værdi betyder, at tendensen er stigende, og for S negativ drejer det sig om en faldende tendens. Både faldende og stigende tendenser er interessante (det er en tosidet test), så nulhypotesen om tilfældigt ordnede observationer skal forkastes, hvis den numeriske værdi af Z er mindre end ( α / )-fraktilen eller større end ( α / )-fraktilen (tosidigt test) i normalfordelingen med middelværdi 0 og varians. Her står α for signifikansniveauet, som typisk vil være 5%. Grunden til, at Z skal vurderes i standard normalfordelingen er, at S under nulhypotesen er normalfordelt med middelværdi 0 og varians var(s) for n. Standard normalfordelingen anvendes, når n > 0, og hvis n 0 anvendes (tabel.). Approksimationen er først tilstrækkelig god, når der er data fra mere end 0 år. 7

10 Tabel. Tabel med P-værdier, som skal anvendes ved trend test i korte tidsserier. Gengivet efter s. 469 i Helsel & Hirsch (99). P-værdier for Mann-Kendall s trend test for korte tidsserier (P prob (S x ) prob (S x)) Længden T af tidsserien Længden T af tidsserien x x ,59 0,548 0,540 0,500 0,500 0,500 0,408 0,45 0, ,360 0,386 0,43 4 0,4 0,360 0,38 5 0,35 0,8 0, ,7 0,74 0, ,36 0,9 0, ,04 0,99 0,38 9 0,068 0,9 0,4 0 0,0083 0,38 0,79 0,08 0,068 0,90 0,089 0,30 3 0,0083 0,035 0,46 4 0,054 0, ,004 0,05 0,08 6 0,03 0, ,0054 0, ,06 0, ,004 0, ,007 0,0 0,000 0,036 0,008 0,0 3 0,03 4 0,0009 0, ,04 6 0,000 0, , <0,000 0,00 9 0, , , , , , ,000 Er testen for en monoton udviklingstendens faldet signifikant ud for en tidsserie, så er det muligt at beregne et estimat for størrelsen af tendensen, under antagelse af konstant udviklingstendens og angivet som ændring pr. år. Hirsch et al. (98) introducerede Sen s hældningsestimator, som beregnes på følgende måde. For alle par af observationer (x i, x j ) med j < i n beregnes d ij x x i i j j Hældningsestimatoren er så medianen af alle d ij -værdierne og er robust, selv om tidsserien har seriel korrelation, sæsoneffekt og data ikke følger en normalfordeling. Et 00( α) % konfidensinterval for hældningen fås ved at gennemgå følgende beregninger (Gilbert 987). Vælg det ønskede konfidensniveau α (, 5 eller 0%) og anvend Z α,576,960,645 α 0,0 α 0,05 α 0,0 i de følgende beregninger. C α α ( var( )). Z S 8

11 M M N N + C α C α hvor N n( n ). Nedre og øvre konfidensgrænser er den M te størrelse og (M + ) te største værdi af de N ordnede hældningsestimater d ij. Det er ligeledes muligt at beregne et ikke-parametrisk estimat for skæringspunktet. Dette er vist i Conover (980). Vi vil ikke komme nærmere ind på denne metode her. Eksempel Ved anvendelse af Man-Kendall s trend test på middel klorofylkoncentrationen i danske fjorde for perioden en tidsserie på 7 år fås en teststørrelse på Z -,7 med en P-værdi på 0,03. Hvilket betyder, at nulhypotesen om tilfældighed forkastes, og der er et signifikant fald i tidsserien. Det årlige fald estimeres til -0,0436 med et 95% konfidensinterval, som er [-0,0870;-0,0087]. Værdien for 988 (skæring) estimeres til 3,96. Fortolkning Mann-Kendall s trend test viser således, om der er en signifikant stigende (hvis S er positiv) eller faldende (hvis S er negativ) tendens over årrækken af længde T. Især hvis årrækken er kort (kun 5-0 år), skal der en stor værdi af S (se tabel.) til at opnå signifikans, og derfor kan man ikke uden videre konkludere, at hvis der ikke er signifikans, er der ikke sket nogen ændring. Det er bare svært statistisk at bevise trend over korte årrækker og således er chancen for at finde trends i tidsserier med 5-0 års data meget små. Forudsætninger Modsat for lineær regression kræves det ikke i testen, at udviklingen er lineært stigende (eller faldende), og der er ikke noget krav om normalfordeling. Sen s hældningsestimator beregner dog (ligesom hældningen i lineær regression) et estimat for stigningen (eller faldet) pr. år. Det er for Mann-Kendall s test en forudsætning, at der ikke er nogen seriel korrelation ( afsmitning ) fra år til år, altså fx at en tilfældig høj værdi et år giver forventning om en høj værdi året efter.. Mann-Kendall s sæson trend test Når man har tidsserier med data fra forskellige sæsoner i hvert år (kvartalsvis, månedsvis), så kan man anvende Mann-Kendall s sæson trend test (Hirsch & Slack 984). Dette gøres ved at beregne teststørrelsen S for hver eneste sæson for sig. Derefter bliver teststørrelsen for hele tidsserien lig summen af de enkelte sæsonteststørrelser, dvs. 9

12 S p S s s hvor p er antallet af forskellige sæsoner pr. år. Variansen af S er defineret som var p ( S) var( S g ) + cov( S g, Sh ) g g, h: g h Det er ikke muligt under nulhypotesen at beregne kovariansen mellem S g og S h eksakt, men den kan estimeres ved (Hirsch & Slack 984) hvor ( S, S ) g h n K gh + 4 RigR cov i ih n 3 ( n + )( n + ) g h K gh n n i j i+ sgn [( x x )( x x )] jg ig jh ih og R ig n g + + n j sgn ( x x ) ig jg Her er R ig rangen af x ig blandt observationerne i sæson g, og alle manglende værdier får tildelt (n g +) / som rang. Man afgør, om den samlede tendens er statistisk signifikant ved at beregne størrelsen Z defineret ved S ( ( )) var S S > 0 Z 0 S 0 S + S < 0 ( var( S )) Hypotesen om tilfældigt ordnede observationer i hver sæson forkastes, hvis den numeriske værdi af Z er mindre end ( α / )-fraktilen eller større end ( α / )-fraktilen i normalfordelingen med middelværdi 0 og varians. Ovenfor beskrevet test kan anvendes i tidsserier med seriel korrelation. Er der ingen seriel korrelation i tidsserien udgår ledet med kovarianser i beregningen af var(s). I afsnit.4 beskrives en simpel grafisk metode til test af om der er seriel korrelation. Hvis Mann-Kendall s sæson trend test er faldet signifikant ud, så er det muligt at beregne et fælles hældningsestimat for hele tidsserien med sæsoner. Dette gøres ved følgende generalisering af Sen s hældningsestimator beskrevet i foregående afsnit. 0

13 For alle par af observationer (x ij, x kj ) med j,...,p og k < i n j beregnes xij xkj dijk i k Hældningsestimatoren er så medianen af alle d ijk -værdier og er robust, hvis tidsserien har seriel korrelation, sæsoneffekt og data ikke følger en normalfordeling (Hirsch et al. 98). Konfidensinterval for hældningsestimatet beregnes som i foregående afsnit. Homogenitets test Mann-Kendall s sæson trend teststørrelse S har den svaghed, at hvis der findes næsten lige mange sæsoner med positive udviklingstendenser som med negative, og hvis deres størrelse omtrent opvejes, så vil S ikke være signifikant. Derfor skal man, før Mann-Kendall s sæson trend test og hældningsestimator anvendes, teste om udviklingstendenserne i de forskellige sæsoner er homogene, hvilket vil sige udviklingstendenser i samme retning og af omtrentlig samme størrelse. Homogenitetstesten kan udføres som et Wald test på følgende måde: Beregn h ( S S S S, K, S S )., 3 p Definer (p ) p matricen A M 0 M 0 0 O L L O 0 0 M 0 Beregn p p matricen cov ( S) var cov cov ( S ) cov( S, S ) L cov( S, S ) ( S, S ) O Beregn (p ) (p ) matricen ( ) ( ) ( ) ( ) M O cov S p, S p S p, S L cov S p, S p var S p M p T A cov t ( S) A hvor t står for transponering af matricer. Teststørrelsen beregnes til h t T h Teststørrelsen skal vurderes i en χ -fordeling med (p ) frihedsgrader. Hvis hypotesen om homogenitet ikke accepteres, er det bedst at anvende teststørrelser og hældningsestimater for hver sæson for sig. I van Belle &

14 Hughes (984) og i Gilbert (987) er der angivet en anden test, som kun kan anvendes, hvis der ikke er seriel korrelation. Eksempel Nedenfor er vist outputtet fra analyse af månedsmidler for klorofylkoncentrationen i danske fjorde. Data er beregnet på basis af alle NOVANAstationer for perioden 989 til 005 i alt 7 år. Vi har anvendt både Mann-Kendall s sæson trend test med korrektion for seriel korrelation (tabel.). De to test giver meget forskellige resultater, så det er vigtigt at se på den serielle korrelation. Homogenitetstesten er signifikant i det ene tilfælde men accepteres i det andet, og konfidensintervallet er bredere, når der korrigeres for seriel korrelation. Tabel. Testresultater for Mann-Kendall s sæson trend test anvendt på månedlige klorofyl koncentrationer. Test med seriel korrelation Test uden seriel korrelation Hældningsestimat βˆ -0,034 βˆ -0,034 Test for homogenitet HOM 3, P 0,794 HOM 0,99 P 0,0334 Trend teststørrelse Z -,5438 P 0,00 Z -4,05 P 0, % konfidensinterval for hældning [-0,035;-0,0039] [-0,085;-0,0076] I tabel.3 har vi gengivet resultatet af Mann-Kendall s trend test anvendt for hver måned for sig. De fleste måneder viser en faldende klorofylkoncentration på nær februar og marts. Faldet er signifikant for april, maj og juni. Tabel.3 Mann-Kendall s trend test anvendt for hver måned for sig af klorofyldata. 95% konfidensinterval Måned Teststørrelse Hældningsestimat for hældning Januar Z -0,883 βˆ -0,009 [-0,08;0,069] P 0,773 Februar Z,946 βˆ 0,095 [-0,003;0,0498] P 0,3 Marts Z 0,8650 βˆ 0,0059 [-0,054;0,064] P 0,3870 April Z -3,504 βˆ -0,0379 [-0,057;-0,07] P 0,0005 Maj Z -,595 βˆ -0,07 [-0,046;-0,0063] P 0,0095 Juni Z -,656 βˆ -0,037 [-0,0404;-0,0037] P 0,035 Juli Z -,770 βˆ -0,065 [-0,044;0,000] P 0,06 August Z -,6889 βˆ -0,057 [-0,036;0,003] P 0,09 September Z -0,05355 βˆ -0,0066 [-0,039;0,030] P 0,593 Oktober Z -,773 βˆ -0,053 [-0,0335;0,0050] P 0,0765 November Z -,098 βˆ -0,058 [-0,034;0,06] P 0,303 December Z -,098 P 0,303 βˆ -0,0 [-0,0403;0,075]

15 Fortolkning Mann-Kendall s sæson trend test fortolkes på præcis den samme måde som Mann-Kendall s trend test. Som tommelfingerregel er det muligt at anvende normalfordelingsapproksimationen for tidsserier med 5 år elle mere, dvs. hvis der er målinger hvert kvartal så består tidsserien af 0 værdier. Homogenitetstesten bør ikke være signifikant, hvis man vil anvende den samlede test for trend. Forudsætninger Brugen af Mann-Kendall s sæson trend test følger de samme forudsætninger som testen uden sæsonvariationer. Dog er der den forskel, at det er muligt at teste trenden i tidsserier, hvor der forekommer seriel korrelation. Det er muligt ved at korrigere variansen af S, som beskrevet ovenfor..3 Lineær regression Stigning eller fald i årlige værdier kan testes med en lineær regression med det formål at få en statistisk vurdering af, om data har en stigende eller faldende tendens over årene, eller om tidsserien kan antages blot at vise tilfældige udsving. Denne metode er parametrisk, hvilket betyder, at den forudsætter, at data er normalfordelt, eventuelt efter en passende transformation, med ens spredning omkring en ret linie i tiden. Endvidere forudsættes ligesom ved anvendelse af Mann-Kendall s trend test at der ikke er tidslig afhængighed mellem de enkelte årsværdier. Dette betyder, at observationen i et givent år er uafhængig af forrige års værdier. Endelig undersøges ved den lineære regression om udviklingen er tilnærmelsesvis lineær, hvor Mann-Kendall s trend test undersøger, om udviklingen er stigende eller faldende. Lineær regression er, som tidligere beskrevet, mere effektiv til at detektere en udvikling i tidsserien end Mann-Kendall s trend test, såfremt udviklingen er tilnærmelsesvis lineær og data er normalfordelt. Metode Den lineære regression beregnes med årstal som forklarende variabel. Resultaterne af en regressionsanalyse opstilles i en ANOVA tabel sammen med en tabel for parameterestimaterne, hvor der ligeledes findes en teststørrelse med tilhørende P-værdi. De fleste regnearksprogrammer og statistikprogrammer kan udføre en lineær regression. I tabel.4 er vist outputtet fra en lineær regression af middel klorofylkoncentrationen i danske fjorde mod tiden foretaget med Excel. Data er beregnet på basis af alle NOVANA-stationer for perioden 989 til 005, i alt 7 år. 3

16 Tabel.4 ANOVA tabel og parameter estimater fra lineær regression. ANOVA fg SK MK F Signifikans F Regression,07553, , ,00676 Residualer 5, ,0979 I alt 6,739 Koefficienter Standardfejl t-stat P-værdi Skæring 06,35 3, ,564 0, X-variabel -0,0534 0, ,386 0,00676 Fortolkning For at vurdere om der er sket en tidslig udvikling testes om hældningsparameteren β, som er estimeret til -0,0534, kan antages at være lig 0. Dette testes i ovenstående ved både en F-test og en t-test med samme resultat: Sandsynligheden for at β 0 er ca. 0,7%, og da denne P-værdi er mindre end 5%, forkaster vi nulhypotesen om, at hældningen er lig nul, dvs. der er sket et signifikant fald. Estimatet for β viser, at klorofylniveauet i de danske fjorde i den givne periode er faldet med 0,05 µg l - i middel om året. Data og den bestemte regressionslinie er vist i figur.. Figur. Observationer og den bestemte lineære regression for middel klorofylkoncentrationer i danske fjorde. Metodens forudsætninger Forudsætningen for en lineær regression er, at residualerne er uafhængige og normalfordelte med middelværdi 0 og samme spredning. Dette undersøges lettest ved at plotte residualerne fra regressionen mod årstal (figur.). Figur. Residualer fra regressionen af middel klorofyl mod årstal. 4

17 Ud fra dette plot vurderes grafisk om:. residualerne fordeler sig pænt omkring nullinien og har samme størrelsesorden (middelværdi 0 og samme spredning). de fleste residualer ligger tæt på nullinien og færre større residualer (normalfordelte residualer) 3. residualerne fordeler sig tilfældigt omkring nullinien, så der ikke er lange sekvenser af henholdsvis positive og negative residualer (uafhængighed). Sammenligning med Kendall s τ Ved anvendelse af Kendall s τ på de samme data fås en non-parametrisk korrelation på -0,476 med en P-værdi på 0,0, hvilket betyder, at i dette tilfælde er Kendall s τ mindre effektiv end den lineære regression, forudsat at der er sket en udvikling. Den lineære hældning på -0,05 er lidt større end Sen s hældningsestimator på -0,044, men begge estimater ligger indenfor 95% konfidensgrænserne..4 Lineær regression med sæsonvariation Formålet med denne analyse er at undersøge, om der er sket en generel udvikling med tiden, og om denne udvikling er fælles for alle sæsoner, eller om den er drevet af enkelte sæsoner. Samtidig er det vigtig, at der tages højde for en eventuel sæsonvariation i data. Data kan typisk være arrangerede som månedsværdier (månedsgennemsnit). Forudsætningerne til data er som ovenfor anført for den lineære regression. Metode Den lineære regression med sæsonvariation har to forklarende variable: årstal som kvantitativ variabel og måned som kvalitativ (kategorisk) variabel. En sådan type analyse kaldes også ANCOVA. Variablen årstal beskriver en generel lineær trend fælles for alle måneder. Variablen måned beskriver en generel sæsonvariation fælles for alle år med separate værdier for hver måned. Krydsvariationen mellem årstal og måneder beskriver en separat lineær trend i data for hver enkelt måned. Signifikansen af denne krydsvariation benyttes til at undersøge, om der er forskel i trenden mellem måneder. Resultaterne af denne analyse opstilles i en ANOVA tabel, hvor der ligeledes findes en teststørrelse med tilhørende P-værdier. Denne analyse er ikke velegnet til regnearksprogrammer og bør udføres med et statistikprogram. Nedenfor er vist outputtet fra analyse af månedsmidler for klorofylkoncentrationen i danske fjorde (tabel.5). Data er beregnet på basis af alle NOVANA-stationer for perioden 989 til 005, i alt 7 år. 5

18 Tabel.5 Variansanalysetabel for lineær regression med sæsonvariation af månedsmidler for klorofyl. ANOVA fg SK MK F Signifikans F Fælles trend 6,0055 6,0055 0,58 <0,000 Sæsonvariation 39,4099,7645 7,99 <0,000 Trend f. måned 5,035,3668,76 0,0644 Residualer 80 39,9683 0,7776 I alt 03 40,488 Selv om krydsvariationen mellem årstal og måned overordnet set ikke er signifikant på 5% niveau, var der en vis variation i de bestemte trends for de enkelte måneder. Nedenstående hældningskoefficienter viser, at der er sket et signifikant fald i april, maj, juni og august. Tabel.6 Parameter estimater fra den lineære regression med sæsonvariation af månedsmidler for klorofyl. Hældning Koefficienter Standardfejl t-stat P-værdi Januar -0,0043 0,0437-0,0 0,98 Februar 0,0503 0,0437,5 0,505 Marts 0,00 0,0437 0,5 0,8008 April -0,44 0,0437-3,30 0,00 Maj -0,04 0,0437 -,3 0,03 Juni -0,38 0,0437 -,84 0,005 Juli -0,086 0,0437 -,89 0,060 August -0,097 0,0437 -,0 0,0370 September -0,0380 0,0437-0,87 0,385 Oktober -0,0859 0,0437 -,97 0,0507 November -0,0448 0,0437 -,03 0,3066 December -0,0308 0,0437-0,7 0,480 Fortolkning Resultaterne i ANOVA-tabellen viser, at der er signifikant forskel på klorofyl-niveauerne mellem de måneder, og at der er sket et signifikant fald for alle månederne som helhed. Derimod er variationen i de bestemte udviklinger mellem måneder ikke signifikant, idet P-værdien er større end 5%. Selv om månedsspecifikke udviklingstendenser ikke kan påvises med tilstrækkelig signifikans, er det dog værd at bemærke, at udviklingen hovedsageligt er styret af forårs- og sommermånederne, hvor klorofylniveauet er faldet med ca. 0, µg l - om året. Udviklingen for april måned er vist i figur.3. Figur.3 Månedsmidler for april måned med den bestemte lineære regression. 6

19 Metodens forudsætninger Forudsætningen er som for den simple lineære regression, at residualerne er uafhængige og normalfordelte med middelværdi 0 og samme spredning. Dette kan undersøges ved plots, som beskrevet ovenfor. Da der er flere observationer ved denne analyse i forhold til analysen baseret på årsmidler, kan det ligeledes være en ide at plotte et histogram over residualerne for at vurdere om de er normalfordelte (figur.4). I vores eksempel er der 3 outliers ud af 04 observationer, som giver en højreskæv fordeling. Ses der bort fra disse 3 outliers, kan normalfordeling af residualerne accepteres ved anvendelse af Kolmogorov-Smirnov test. Fordelingen af residualer er vist nedenfor. Figur.4 Histogram for beskrivelse af residualernes fordeling. Endvidere kan forudsætningen om uafhængige residualer undersøges ved at plotte residualer mod de forrige residualer, dvs. plotte residualerne mod sig selv forskudt med observation (figur.5). I det konkrete tilfælde er der signifikant korrelation (r 0,47) mellem residualerne. Metoden kan forbedres ved at inkludere en korrelationsparameter til at beskrive afhængigheden mellem observationer, men det ligger udenfor nærværende anvisning at beskrive denne metodik. Figur.5 Residualer afbildet mod forrige måneds residual til analyse af seriel korrelation i data. 7

20 3 Ikke-monotone udviklinger I dette afsnit beskrives to metoder, som benyttes til at beskrive afvigelser fra en lineær udvikling, herunder ikke-monotone trends. Generalized additive models (GAM) er en ikke-parametrisk metode, som undersøger tidsserien for systematiske, lokale afvigelser fra linearitet. Change-point detection er en parametrisk metode til at identificere et ukendt tidspunkt, hvor der sker en ændring i den tidsmæssige udvikling, typisk et knækpunkt eller et spring. Metoderne beskrives først til at håndtere tidsserier bestående af årlige værdier, hvorefter det vises, hvordan metoderne kan udvides til at håndtere tidsserier indeholdende sæsonvariation. 3. Generalized additive models (GAM) I nogle tidsserier med observationer fra vandmiljøet kan der optræde udviklingstendenser, som i starten er stigende men efter et vist tidspunkt begynder at falde igen. Det er især lange tidsserier, der kan indeholde udviklinger, som er vendte. For eksempel i tidsserier som starter i perioden før vedtagelsen af Vandmiljøplan I. Man vil typisk se en stigende tendens i starten og indtil ca. et par år efter 989, derefter vil man se en faldende tendens, når effekten af de forskellige virkemidler slår igennem. Udviklingen i disse tidsserier kan beskrives ved anvendelse af en GAM analyse. GAM (generalized additive model) er en række stærke statistiske værktøjer baseret på ikke-parametrisk regression og matematisk udglatningsteknikker (Hastie & Tibshirani 990; Chambers & Hastie 99). GAM løsner op for den sædvanlige antagelse om linearitet og gør en i stand til at udforske data mere fleksibelt og derved finde strukturer, som ellers ikke ville blive fundet ved anvendelse af normal lineær regressionsanalyse. En udglatningsteknik er et værktøj til at opsummere udviklingstendensen for responsen som en funktion af tidspunkt (år, måned). Den producerer et estimat for responsen, som varierer mindre end selve responsen (responsen er udglattet). GAM egner sig bedst til analyse af tidsserier, hvor udviklingen er vendt langsomt i perioden (en eller flere gange). Hvis ændringen er mere pludselig (spring i målingerne fra et niveau til et andet), så er change-point metoder et bedre alternativ til GAM samt metoderne beskrevet i kapitel. Tidsserier med varierende trend samt step changes vil ikke kunne spores ved brug af Mann-Kendall s test eller lineær regression, som er rettet mod monotone og lineære udviklingstendenser. Change-point detection metoder er beskrevet i afsnit 3.. GAM er en analysemetode, som tillader os at lade data bestemme, hvilken kurve som skal fittes til data. Modellen i GAM er y i f () i + i ε hvor y i betegner responsen (årlige eller månedlige værdier af en miljøvariable) for årene i, i,,...,n. Størrelsen ε i angiver afvigelserne fra kurven 8

21 (residualer). Det antages, at disse afvigelser følger en normalfordeling. Endelig betegner f kurven som fittes til data. I GAM er det muligt at teste for signifikans af kurven, samt beregne hvor mange frihedsgrader kurven har. En kurve med frihedsgrader svarer til en ret linie, 3 til et. grads polynomium, osv. I GAM kan man vælge mellem flere forskellige udglatningsteknikker. Vi foreslår, at man enten bruger LOESS (Cleveland & Devlin 988) eller smoothing splines (Wahba 990). Det er muligt at teste, om man kan reducere sammenhængen mellem respons og måletidspunkt til en lineær sammenhæng. Dette gør man ved at beregne følgende størrelse F hvor ( RSS RSS) ( df df ) RSS ( n df ) RSS RSS n df df total varians minus model varians ved linær sammenhæng total varians minus total antal observationer varans ved kurve fitting antal frihedsgrader i lineær model antal frihedsgrader i udglattet model. Teststørrelsen F skal vurderes i en F-fordeling med frihedsgrader (df df, n df). Eksempel Som et eksempel på anvendelsen af GAM til trendanalyse har vi analyseret nitratkoncentrationer målt i Odense Å ved Nr. Broby i perioden 967 til og med 005 (figur 3.). I analysen har vi anvendt simple årsmiddelkoncentrationer. Som man kan se i følgende graf, så påvirkes kurvefittet ikke af outlieren i 977. Der er et tydeligt toppunkt i koncentrationen omkring 978 og efter dette år er koncentrationerne svagt faldende indtil 990 og faldet kraftigt derefter til et niveau lavere end i starten af tidsserien. Vi har ligeledes vist den lineære model i figuren. GAM giver et LOESS fit med 3,4 frihedsgrader og en lineær kurve afvises med en testsandsynlighed på 0,007. Variansanalysen er vist i tabel 3.. Tabel 3. Variansanalysetabel for GAM og lineær regression. ANOVA Fg SK MK F Signifikans F Lineær trend 4,79 4,79,95 0,385 LOESS fit*,4,4* 8,9* 5,58 0,0056 Residualer lineær trend (RSS) 36 75,6,09 Residualer LOESS fit (RSS) 33,6 53,89,60 I alt 37 79,96,6 * Bemærk, at varianstabellen ikke helt passer i GAM, idet der er et konstantled, som har frihedsgrad, som ikke er medregnet i LOESS fittet. 9

22 Analysen er gennemført i softwaren S-PLUS. Man kan også gennemføre analysen i SAS. Denne software benytter sig af en χ -test for signifikansen af LOESS fittet. Denne test giver en testsandsynlighed på 0,0005. Figur 3. Udvikling i nitratkoncentrationer analyseret vha. lineær og GAM komponenter. Fortolkning Metodens resultat illustreres bedst ved et plot, som viser observationer plottet mod årstal sammen med den fittede kurve. Grafen viser strukturen, og selve GAM analysen giver antallet af frihedsgrader, som kurven i grafen estimeres til at være sammensat af. En GAM analyse skal ledsages af en test for, om det er muligt at reducere til en model bestående af en ret linie. Forudsætninger GAM metoden benytter sig matematisk af ikke-parametriske udglatningsteknikker. I testen af nulhypotesten om linearitet har man behov for at afvigelserne følger en statistisk fordeling. Vi har i denne anvisning antaget, at det er en normalfordeling, men andre fordelinger kan også antages (Hastie & Tibshirani 990). Metoden fungerer bedst i tidsserier uden abrupte ændringer. Beregninger er særdeles komplicerede og kræver anvendelse af statistik software, fx SAS eller S-PLUS. 3.. GAM med korrektion for sæson For tidsserier med sæsonvariation er det muligt også at fitte en GAM kurve igennem de observerede værdier. Tidsserier med sæsonvariation kan fx bestå af månedsværdier for en given miljøvariabel. GAM giver mulighed for kurvefitting af hele tidsserien med alle sæsoner, fitting af en kurve for hver enkelt sæson, samt en kurve for trenden på årsniveau. Kurverne, som fittes til hver sæson, har det samme forløb, men er parallel forskudt. Det er altså muligt at undersøge, om der er sket en generel udviklingstendens med tiden. Udviklingstendensen antages at være fælles for alle sæsoner, men er flyttet op eller ned alt efter det generelle niveau for den pågældende sæson. 0

23 Ligesom for regressionsanalyse med sæsonkorrektion, så indgår der to variable i GAM med sæsonkorrektion. Dels årstal som forklarende variabel (kvantitativ størrelse) og dels måned som kategorisk variable (kvalitativ størrelse). Eksempel Anvendelsen af GAM for data med sæson er illustreret med månedsmiddelkoncentrationer af nitrat målt i Odense Å ved Nr. Broby i perioden 967 til og med 005. Resultaterne af GAM analysen med sæsonvariation er vist i figur 3.. Trenden for januar måned har de største værdier og tilsvarende har juli de mindste værdier i figur 3.. Figur 3. Nitratobservationer sammenholdt med GAM model med sæsonvariation, model for årlig udvikling samt trend for januar og august måneder. Figur 3. viser, at månedstrends har ens forløb, men er parallelforskudt i forhold til gennemsnitlige månedsværdier. Den generelle årlig trend er ens med månedstrend og angiver den gennemsnitlige forløb på årsværdier. Den årlige kurve har samme forløb som i figur 3.. Denne analyseform kan kun foretages i SAS. χ -testen giver en testsandsynlighed på en værdi <0,000. Ved anvendelse af ovennævnte F- test, kan man teste om GAM modellen kan reduceres til en regressionsmodel med sæsonkorrektion (se afsnit.4). F-testen giver en test sandsynlighed på <0,000. Fortolkning Kurverne fortolkes på samme vis, som for ovenfor beskrevne GAM metode for årsdata. Det er som nævnt ikke muligt at teste signifikansen af udviklingstendensen, men det er muligt at teste for reduktionen til en simpel lineær model via en F-test, som beskrevet ovenfor. Forudsætninger GAM med korrektion for sæson har nøjagtig de samme forudsætninger som GAM kurvefitning med data på årsniveau. Man skal dog være opmærksom på, at der ikke må forefindes seriel korrelation i datasættet. 3. Change-point detektion Analyse af lange tidsserier viser ofte at udviklingen ikke nødvendigvis er monoton og i langt de fleste tilfælde ikke lineær. Change-point detek-

24 tion indbefatter en lang række parametriske og non-parametriske metoder til at undersøge, om der sker et skift i den tidslige udvikling. Problemstillingen omkring change-point detektion går tilbage til udviklingen af CUSUM kort indenfor statistisk kvalitetskontrol (Page 954), hvorved det kunne spores, om en produktionsproces var ved at løbe af sporet. Der skal skelnes mellem fire typer af problemstillinger i relation til changepoint detektion (figur 3.3), som er kombinationer af, hvorvidt tidspunktet for ændringen, k, er kendt eller ukendt, og hvorvidt skiftet er kontinuert (knækpunkt) eller diskontinuert (spring). Eksempler på de første to tilfælde (A og B) kunne være, om metodeskift til et kendt tidspunkt har påvirket tidsserien, eller om tidsserierne ændrer sig efter politiske handlingsplaner. Identifikation af skift i tidsserien til et ukendt tidspunkt (tilfælde C og D) har en mere undersøgende tilgang, hvor signifikante ændringer i tidsserien vil lede til diskussioner af, hvad der har forårsaget dette skift. I de to tilfælde med knækpunkter (A og C) er tidspunktet for ændringen, k, en kontinuert størrelse, idet k frit kan variere mellem observationstidspunkterne. Derimod er k en diskret størrelse i de to tilfælde med spring (B og D), idet det kun er muligt at vurdere, om springet er sket mellem to observation, men det er ikke muligt at vurdere præcist, hvor imellem de to observationer skiftet er sket. Figur 3.3 Fire forskellige typer af ændringer i tidsserier, som vil blive behandlet. De fire typer af modeller kan udvides til forskellige typer af funktionaliteter på hver side af tidspunktet k. Alle statistiske test er opbygget omkring formulering af en nulhypotese, hvilket er en model for tidsserien uden ændringer, samt en alternativ hypotese, som er en model indeholdende et knækpunkt eller et spring (change-point). Formuleringen af nulhypotesen og den alternative hypotese er forskellig i de 4 tilfælde, og disse vil blive gennemgået i det følgende. Der findes mange forskellige teststørrelser, som kan bruges til at teste hypotesen om et change-point. De hyppigst benyttede teststørrelser er t- test og F-test under antagelse af normalfordelte data. Disse test er faktisk special-tilfælde af det langt mere generelle likelihood kvotient test, hvor likelihood-funktionen regnes ud for nulhypotesen L 0 (X;θ 0 ) og den alter-

25 native hypotese L (X;θ ), hvor θ 0 og θ angiver parametrene i modellen for henholdsvis nulhypotesen og den alternative hypotese. Test-størrelsen for kvotient testet udregnes som forholdet mellem de to likelihoodfunktioner, idet værdier tæt på betyder, at de to modeller (hypoteser) er stort set lige gode, og små værdier vil angive, at den alternative hypotese er bedre til at beskrive data end nulhypotesen LR Λ L0 ( X ; θ0 ) L ( X ; θ ) Denne formulering er meget generel og kan anvendes for mange forskellige hypoteser, når blot fordelingen af data kendes. Problemet er dog, at fordelingen af Λ under H 0 ikke altid er kendt, men hvis modellen under H 0 udgør en undermodel af H, så er log(λ) asymptotisk (n ) χ - fordelt med antal frihedsgrader lig med forskellen i frie parametre mellem H og H 0 (rang(θ ) rang(θ 0 )). For normalfordelte data med kendt spredning er χ -approksimationen eksakt. 3.. Tilfælde A: Knækpunkt til et kendt tidspunkt I dette tilfælde undersøges om trenden skifter karakter undervejs i tidsserien til et kendt tidspunkt. Nulhypotesen formuleres som en simpel lineær sammenhæng mod alternativet af to sammensatte lineære stykker, som er forbundet i det kendte knækpunkt k (figur 3.4). Figur 3.4 Afbildning af nulhypotesen og den alternative hypotese for knækpunkt til kendt tidspunkt k. Lad os antage, at observationerne i tidsserien X, X,... X n er normalfordelte, og at deres udvikling med tiden beskrives med følgende model X μ + β t t μ + β t + δ ( t k ) t < k t k Signifikansen af knækpunktet kan derfor undersøges ved følgende hypotese: H 0 : δ 0 mod alternativet H : δ 0 Denne model kan formuleres inden for rammerne af generelle lineære modeller, og signifikansen af knækpunktet kan derfor undersøges ved t- test på størrelsen af parameteren δ eller F-test for den variation, som udelukkende kan tilskrives den alternative hypotese. Alternativt kan likelihood-funktionerne for de to hypoteser udregnes, og signifikansen af knækpunktet undersøges vha. kvotient testet. 3

26 Eksempel : Fosforniveauet i danske fjorde og kyster Fosforkoncentrationerne har været faldende efter Vandmiljøplanen blev vedtaget i 987. Vi vil derfor undersøge, om der er sket en mærkbar ændring i trenden efter 987. Dette kan udføres som en multipel regression med to variable, hvor den ene er årstal (t ) og den anden variabel, δ, har værdien 0 for og derefter antallet af år siden 987. Resultaterne opstilles i et variansanalyseskema og med parameter estimater (tabel 3.). Tabel 3. Variansanalyseskema og parameterestimater for eksemplet med fosfor middelkoncentrationer. Variation SAK F S F-test P År 7874, ,34 37,69 <0,000 Knækpunkt 5,79 5,79 0,7 0,680 Residual 695,69 33,3 Total 8575,8 3 Parameter Estimat Spredning t-test P μ (skæringspunkt) 464,0 607,98,87 0,009 β (år) -,9 0,8 -,8 0,00 δ (ændring) -0,40 0,97-0,4 0,680 Likelihood-funktionerne under nulhypotesen og den alternative hypotese bliver log(l 0 (X;θ 0 )) -74,56 og log(l (X;θ )) -74,46, hvilket resulterer i log( Λ) log( L ( X ; )) + log( L ( X ; )) 0,98 0 θ0 θ som for χ -fordelingen med frihedsgrad svarer til en P-værdi på 0,6595. Dette viser, at de to eksakte test (F-test og t-test) og det approksimative χ -test giver det samme resultat: der er ikke noget signifikant knækpunkt i 987 for TP-koncentrationer (accept af nulhypotesen). Den meget lidt signifikante ændring af hældningen i 987 fremgår tydeligt, når de to trend-modeller plottes, idet de stort set ikke kan skelnes (figur 3.5). Ud fra denne analyse er der derfor intet belæg for at hævde, at den nedadgående trend i TP-niveauerne ændrede sig som følge af vedtagelsen af Vandmiljøplanen. Det skal dog bemærkes, at residualerne omkring linien ikke ser ud til at være uafhængige, hvilket vil blive behandlet senere. Figur 3.5 Årsmiddelkoncentrationer af TP for danske fjorde og kystnære områder. De to linier viser en lineær trend og en sammensat lineær trend. 4

27 3.. Tilfælde B: Spring til et kendt tidspunkt I dette tilfælde undersøges, om trenden skifter fra et niveau til et andet til et kendt tidspunkt i tidsserien. Nulhypotesen formuleres som et konstant niveau mod alternativt to forskellige niveauer, hvor springet sker til det kendte knækpunkt k (figur 3.6). Figur 3.6 Afbildning af nulhypotesen og den alternative hypotese for spring til kendt tidspunkt k. Lad os antage, at observationerne i tidsserien X, X,..., X n er normalfordelte, og at deres udvikling med tiden beskrives med følgende model X t μ μ + δ t < k t k Signifikansen af springet kan derfor undersøges ved følgende hypotese: H 0 : δ 0 mod alternativet H : δ 0 Denne model svarer til en simpel to-stikprøve, men kan også formuleres inden for rammerne af generelle lineære modeller, og signifikansen af knækpunktet kan derfor undersøges ved t-test på størrelsen af parameteren δ eller F-test for den variation, som udelukkende kan tilskrives den alternative hypotese. Alternativt kan likelihood-funktionerne for de to hypoteser udregnes, og signifikansen af knækpunktet undersøges vha. kvotient testet. Eksempel : Metodeskift i primærproduktionsmålinger Ved overgangen til NOVA i 998 blev den tekniske anvisning for udførelse af primærproduktionsmålinger ændret, og dette påvirkede de beregnede arealproduktioner (figur 3.7). Selv om årsproduktionen (ny produktion) i de åbne farvande afhænger af tilførslen af kvælstof (Carstensen et al. 003), er der ikke en direkte signifikant sammenhæng mellem kvælstoftilførsel og årsproduktion, og der tages derfor ikke højde for variationer i kvælstoftilførsler i perioden før og efter metodeskiftet. 5

28 Figur 3.7 Årlig primærproduktion i Storebælt (station ) og kvælstofbelastningen til de indre danske farvande (oktoberseptember). Nulhypotesen er derfor, at årsproduktionen er konstant mod den alternative hypotese, at der sker et niveauspring, δ 0, i k 998 som følge af den ændrede beregning for arealproduktionen. Resultaterne opstilles i et variansanalyseskema sammen med parameterestimaterne (tabel 3.3). Tabel 3.3 Variansanalyseskema og parameterestimater for eksemplet med primærproduktion. Variation SAK F S F-test P Spring ,45 0,0005 Residual Total Parameter Estimat Spredning t-test P μ (middel) 6,89,0 3,55 <0,000 δ (niveauspring) 8, 8,8 4,5 0,0005 Likelihood-funktionerne under nulhypotesen og den alternative hypotese bliver log(l 0 (X ; θ 0 )) -86, og log(l (X ; θ )) -79,00, hvilket resulterer i log( Λ) log( L ( X ; )) + log( L ( X ; )) 4,4 0 θ0 θ som for χ -fordelingen med frihedsgrad svarer til en P-værdi på 0,000. Dette viser, at de to eksakte test (F-test og t-test) og det approksimative χ -test giver det samme resultat: der er sket en forøgelse af årsproduktionen på ca. 50% (figur 3.8) ved metodeskiftet (afvisning af nulhypotesen). Kvælstoftilførslen til de indre farvande var ca. 6% højere i perioden end for , så sandsynligvis giver den nye beregningsmetode mere end 50% højere værdier. Figur 3.8 Årlig primærproduktion på station i Storebælt udregnet ved den gamle metode ( ) og den nye metode ( ). 6

29 3..3 Tilfælde C: Knækpunkt til et ukendt tidspunkt I dette tilfælde undersøges om trenden skifter karakter undervejs i tidsserien til et ukendt tidspunkt. Nulhypotesen formuleres som en simpel lineær sammenhæng mod alternativet af to sammensatte lineære stykker, der er forbundet i et knækpunkt k, som kontinuert kan variere over tidsserien (figur 3.4). Lad os antage, at observationerne i tidsserien X, X,...X n er normalfordelte, og at deres udvikling med tiden beskrives med følgende model: X μ + β t t < k t μ + β t + δ ( t k ) t k Signifikansen af det ukendte knækpunkt kan derfor undersøges ved følgende hypotese: H : δ 0 mod alternativet H : δ 0 og k n 0 Modellen under den alternative hypotese har to ekstra frie parametre (δ og k) i forhold til modellen under nulhypotesen. Modellen kan ikke formuleres inden for rammerne af generelle lineære modeller, idet der ikke kan opstilles to design variable for δ og k (eksempelvis vil kolonnen med 0- og -taller, som skitseret i eksempel, for parameteren δ afhænge af parameteren k). Derfor kan de traditionelle t-test og F-test inden for generelle lineære modeller ikke bruges, hvorimod kvotient testet stadig kan anvendes. Modellen er en ikke-lineær model, som bestemmes ved iterativt at optimere fx likelihood-funktionen med hensyn til parametrene. For at få optimeringsalgoritmen til at konvergere er det ofte en fordel at give et startgæt på parameterværdierne, som er i nærheden af de forventede værdier men ikke alt for tæt på de endelige estimater. Ofte må man prøve sig frem med flere forskellige startgæt. Det vil også være nemmere at opnå konvergens, hvis k begrænses til at variere mellem start- og sluttidspunktet i tidsserien. Eksempel 3: Fosforniveauet i danske fjorde og kyster (fortsat) I eksempel forudsattes at en eventuel ændring i trenden for fosforkoncentrationerne skulle ske i 987 som følge af Vandmiljøplanens vedtagelse. Der var intet påviselig knækpunkt i tidsserien i 987. Alternativt kunne det undersøges, om der er sket en ændring i trenden et tilfældigt sted i tidsserien. Under nulhypotesen var likelihood-funktionen log(l 0 (X ; θ 0 )) -74,56, og ved at formulere en model under den alternative hypotese finder vi parameterestimaterne i tabel 3.4. Tabel 3.4 Parameterestimater med tilhørende statistik for knækpunktsmodellen for fosfor middelkoncentrationer. Parameter Estimat Spredning t-test P μ (skæringspunkt) 6,3 546,,39 <0,000 β (starthældning) -3,0 0,7 -,6 <0,000 δ (ændring),54,7,8 0,043 k (knækpunkt) 997,83,4 85,53 <0,000 Likelihood-funktionen bliver log(l (X ; θ )) -69,55, hvilket resulterer i log( Λ) log( L ( X ; )) + log( L ( X ; )) 0,0 0 θ0 θ 7

30 som for χ -fordelingen med frihedsgrader svarer til en P-værdi på 0,0067 (afvisning af nulhypotesen). Der er altså et signifikant knækpunkt i tidsserien for fosforkoncentrationer, således at middelkoncentrationerne er faldet med ca. 3 µg l - i perioden , hvorefter der kun har været et svagt fald på ca. 0,5 µg l - (figur 3.9). Figur 3.9 Årsmiddelkoncentrationer af TP for danske fjorde og kystnære områder. De to linier viser en lineær trend og en sammensat lineær trend med et frit varierende knækpunkt. Det kunne være interessant at undersøge, om der faktisk er sket et signifikant fald i den sidste del af tidsserien, altså om hældningen er lig nul. Dette kan ligeledes undersøges ved hjælp af kvotient testet, idet hypoteserne kan formuleres: H : β +δ 0 mod alternativet H : β + δ 0 0 hvor modellen under den alternative hypotese, som før, har likelihoodfunktionen log(l (X;θ )) -69,55 og modellen under nulhypotesen har likelihood-funktionen log(l 0 (X;θ 0 )) -69,85, hvilket resulterer i: log( Λ) log( L ( X ; )) + log( L ( X ; )) 0,6 0 θ0 θ som for χ -fordelingen med frihedsgrad svarer til en P-værdi på 0,435 (accept af nulhypotesen). Modellen for et knækpunkt med nulhældning i den sidste del af tidsserien bliver da: X t 637,6 3,5 t 37,0 t < 998, t 998, hvor det bemærkes, at de andre parametre også ændrer sig marginalt. Tidspunktet, hvor knækket i trenden sker, er heller ikke en fast parameter men er ca. 998,±,3 ifølge den sidst opstillede model. Analysen med et ukendt knækpunkt kan principielt udvides til at undersøge for flere potentielle knækpunkter. Modellen for to knækpunkter ser således ud (men kan også formuleres anderledes): X t μ + β t μ + β t + δ ( t k) μ + β t + δ ( t k) + δ ( t k ) k t < k t < k t k 8

31 hvor det første af de tre liniestykker har hældningen β, det andet liniestykke har hældningen β + δ og det tredje liniestykke har hældningen β + δ + δ. De tre liniestykker er forbundet i de to knækpunkter k og k. Nulhypotesen er da, at der kun eksisterer et knækpunkt mod alternativet to knækpunkter. Likelihood-funktionen under nulhypotesen er nu lig log(l 0 (X;θ 0 )) -69,55, som skal sammenlignes med log(l (X;θ )) -60,84, hvilket resulterer i en kvotient test: log( Λ) log( L ( X ; )) + log( L ( X ; )) 7,43 0 θ0 θ som med χ -fordelingen med frihedsgrader (der benyttes to frie parametre til beskrivelse af hvert knækpunkt) svarer til en p-værdi på 0,000 (afvisning af nulhypotesen). Data taler derfor for, at der er to knækpunkter i tidsserien frem for et enkelt. Den estimerede model med to knækpunkter viser dog kun svage hældninger i det første og sidste liniestykke. Et konstant niveau i første del af tidsserien undersøges med hypotesen H 0 : β 0, som resulterer i log(l 0 (X;θ 0 )) -60,89 og deraf log(λ) 0,0. Da P 0,7468 i χ fordelingen med frihedsgrad accepteres nulhypotesen om et konstant niveau i den første del af tidsserien. På tilsvarende vis undersøges for et konstant niveau i sidste del af tidsserien med hypotesen H 0 : δ + δ 0, hvilket resulterer i log(l 0 (X;θ 0 )) -6,77 og deraf log(λ) 3,75. Da P 0,057 for χ ()-fordelingen er større end det valgte 5% signifikansniveau, accepteres nulhypotesen om et konstant niveau i den sidste del af tidsserien. Den estimerede model for udviklingen i TP-koncentrationerne viser et konstant niveau på 8 µg l - frem til ca. 986 (tabel 3.5), hvor TP faldt med 4, µg l - om året indtil ca. 997, hvor niveauet stabiliserede sig omkring 37 µg l - (figur 3.0). Tabel 3.5 Parameterestimater med tilhørende statistik for modellen med knækpunkter og konstante niveauer i starten og slutningen af tidsserien. Parameter Estimat Spredning t-test P μ (startniveau) 8,09,4 7,7 <0,000 β (hældning) -4,4 0,5-8,09 <0,000 k (. knækpunkt) 985,83 0,85 345,98 <0,000 k (. knækpunkt) 996,66 0,7 789,8 <0,000 Figur 3.0 Den fundne udvikling i årsmiddelkoncentrationer af TP for danske fjorde og kystnære områder. Modellen består af to konstante niveauer med et fald mellem 986 og

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

)DJOLJ UDSSRUW IUD '08 QU 129$1$ 0DULQH RPUnGHU 7LOVWDQG RJ XGYLNOLQJ L PLOM RJ QDWXUNYDOLWHWHQ *XQQL UWHEMHUJ UHG %LODJ Bilag-1

)DJOLJ UDSSRUW IUD '08 QU 129$1$ 0DULQH RPUnGHU 7LOVWDQG RJ XGYLNOLQJ L PLOM RJ QDWXUNYDOLWHWHQ *XQQL UWHEMHUJ UHG %LODJ Bilag-1 )DJOLJUDSSRUWIUD'08QU 129$1$ 0DULQHRPUnGHU 7LOVWDQGRJXGYLNOLQJLPLOM RJQDWXUNYDOLWHWHQ *XQQL UWHEMHUJUHG %LODJ Bilag-1 %LODJ %HVNULYHOVHDIDQYHQGWHLQGHNVRJNRUUHNWLRQHUIRU NOLPDWLVNHYDULDWLRQHU 1 ULQJVVWRINRQFHQWUDWLRQHUNORURI\ORJVLJWG\EGH

Læs mere

Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden

Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden Præcisering af trendanalyser af den normaliserede totale og diffuse kvælstoftransport i perioden 2005-2012 Notat fra DCE - Nationalt Center for Miljø og Energi Dato: 7. april 2014 30. april 2014 Søren

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Vejledende løsninger kapitel 9 opgaver

Vejledende løsninger kapitel 9 opgaver KAPITEL 9 OPGAVE 1 a) Hypoteser H 0 : Der er uafhængighed (ingen sammenhæng) i kontingenstabellen H 1 : Der er afhængighed (sammenhæng) i kontingenstabellen Observerede værdier Ny metode Gammel metode

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Bilag 1 Beskrivelse af anvendte indeks og korrektioner for klimatiske variationer

Bilag 1 Beskrivelse af anvendte indeks og korrektioner for klimatiske variationer Bilag 1 Beskrivelse af anvendte indeks og korrektioner for klimatiske variationer Næringsstofkoncentrationer Tresidet variansanalyse for stations-, måneds- og årsvariation Koncentrationer af næringsstoffer

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Ekstremregn i Danmark

Ekstremregn i Danmark Ekstremregn i Danmark Supplement til statistisk bearbejdning af nedbørsdata fra Spildevandskomiteens regnmålersystem 1979-96 Henrik Madsen August 2002 Miljø & Ressourcer DTU Danmark Tekniske Universitet

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Løsninger til kapitel 14

Løsninger til kapitel 14 Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere