Statistik. Dagens program. Hovedbudskabet. Statistisk inferens. Mediemålinger & statistik. Repræsentativitet. og validitet

Statistik Mediemålinger & statistik Statistikkens forudsætninger og finurligheder 1 Dagens program Hovedbudskabet Statistik metoden og faldgruberne: Repræsentativitet Reliabilitet Validitet Statistisk inferens Desuden efter tid, behov og engagement: Kort genopfriskning af nøgletal. Kort om statistikken bag livsstilssegmenter. 3 Give et indblik i de forbehold, man skal tage for mediebrugstallene. Tal har det med at fremstå troværdige men tag forbehold! Tallene fra mediebrugsdatabaserne er klart det bedste bud, der findes. Derfor spiller alle mediebrugsdatabaserne også en markant rolle ved placering af og afregning for reklamer. Hver dag handles der for mio. af kr. på baggrund af disse tal. Alene af den grund er de væsentlige at forholde sig til. Men det gør ikke tallene fra mediebrugsdatabaserne til sandheden specielt ikke set i et akademisk/forskningsmæssigt øjemed. 4 Statistisk inferens Repræsentativitet og validitet Princippet bag anvendelsen af kvantitative mediebrugs-målinger er, at man på baggrund af en lille stikprøve (f.eks. Index Danmark) kan sige noget om en langt større population (f.eks. alle danskere). Disse to begreber berører i en vis udstrækning samme tema: Eksempelvis kan man således nøjes med at måle på ca. 24.000 respondenter i Index Danmark i stedet for 5.000.000 danskere og sige noget næsten lige så præcist. Måler man på det, man ønsker? Er der tale om et validt mål for det, man udtaler sig om? Men for at kunne inferere fra den lille stikprøve til den store population, er der nogle betingelser, der skal tages højde for: Repræsentativitet Validitet Reliabilitet Eller måler man systematisk lidt forkert enten fordi stikprøven er skæv, eller fordi man måler på noget lidt andet, end det var meningen. Statistisk usikkerhed 5 6 1

Repræsentativitet Forbehold omkring repræsentativiteten Stikprøven skal udgøre et mini-danmark. På baggrund af data fra Danmarks Statistik og store undersøgelser som f.eks. Annual Survey (Gallups undersøgelser) eller Catinéts offline survey (Gemius undersøgelse) ved man, hvordan danskerne fordeler sig på en række parametre. Dermed ved man også, hvilke respondenter, man skal rekruttere til undersøgelsen, og/eller hvordan de deltagende respondenter skal vejes lidt op/ned, for at udgøre et repræsentativt udsnit af befolkningen. Nogle af udvælgelsesparametrene er (blandt mange andre): Baggrund køn, alder, amt, bystørrelse m.m. Mediebrug stort/lille forbrug, antal tv-apparater, kanaludvalg m.m. Holdninger og livsstil. Opdeler man i store grupper, svarer fordelingen i panelet til befolkningens variation. Men opdeler man i snævre målgrupper, så får man dels en stor statistisk usikkerhed, dels risikerer man en skævvridning i stikprøvens sammensætning i forhold til virkelighedens. 7 8 Forbehold, fortsat Forbehold, fortsat Eksempel: Gruppen af højtuddannede, nordjyske mænd i parcelhus med en indtægt over 500.000 er så lille, at den andel, de udgør i stikprøven, let kan variere væsentligt ift. deres andel af befolkningen. Index Danmark: Måler ikke på dem, der ikke kan tale dansk. TV-meter/Radio-meter: Skævhed som følge af, at paneldeltagere i TV-meter/Radio-meter forbruger lidt mere tv/radio end ellers. Man måler ikke på de 1½%, som ikke har tv. Altså: Selvom Gallup og Gemius gør alt hvad de kan for at få en sammensætning af stikprøven, der svarer til befolkningens også når man bryder den ned i mindre målgrupper så er der alligevel en grænse for, hvor meget man kan bryde stikprøven op og stadig sikre en virkelighedsnær fordeling. 9 gemiusaudience: Populationen er ikke alle danskere, men internetdanskerne. Er det bestemte grupper, der sletter cookies mv.? Generelt: Lavtuddannede og ældre er svære at få med. Unge og storbymennesker er ikke gode til at få tilbagesendt spørgeskemaer. 10 Validitet systematiske fejl Validitet systematiske fejl Men hvad med selve det fænomen, vi måler på hvad er det reelt, vi måler på? Måler vi på det, vi vil udtale os om? Men hvad med selve det fænomen, vi måler på hvad er det reelt, vi måler på? Måler vi på det, vi vil udtale os om? Allerførst: Et par eksempler fra den virkelig verden. Hvor mange af jer forstår ikke denne sætning: Jeg har godt 50 kroner i lommen. 11 Index Danmark: 2 minutters sanseposition. TV-meter/Radio-meter: Sening/lytning vs. eksponering. Hvor dedikeret er man? Hvor meget husker/forstår man overhovedet? gemiusaudience: De har været på siden, men hvilken del af siden har de bemærket? 12 2

Validitet, fortsat Validitet, fortsat Respondenternes ærlighed: Den prekære brug. Eksempel: Ugens Rapport og den sorte side Den snobbede respondent. Belønnings -mekanismen. Det kvalitative udbytte. 13 Validiteten af målgruppeoplysningerne: Ved panelundersøgelser som TV-/Radio-meter og gemiusaudience: Paneldeltagernes data (indkomst, uddannelse osv.) opdateres løbende, så man kan være ret sikker på, at når man eksempelvis måler på de 20-årige i panelet, så er det rent faktisk også de 20-årige, man kan udtale sig om. Anvendelsen af seermålene: Vær opmærksom på jeres anvendelse af de forskellige nøgletal! Dette er for så vidt ikke et validitetsproblem ved selve mediebrugs-databaserne, men jeres udtalelser/påstande kan blive invalide, hvis I udtaler jer på baggrund af et forkert nøgletal. 14 Reliabilitet tilfældige fejl Reliabilitet, fortsat Lad os antage, at vi rent faktisk måler på det rigtige (validiteten er altså i orden) og vores stikprøve matcher den population, vi ønsker at udtale os om (repræsentativiteten er altså også sikret). Hvor sikre kan vi så være på, at vores målinger er korrekte/præcise? Sker der tilfældige fejl? Overordnet set foregår der ganske mange former for kvalitetskontrol hos Gallup. I Index Danmark og Gallup Radio Index tjekkes for, om man har været sløset og er sprunget over for mange spørgsmål eller om man har svaret modstridende på nogle af dem. TV-meter, Radio-meter og ikke mindst gemiusaudience er så systematiseret og automatisk opbygget med mange kontroller og alarmer indbygget at muligheden for reliabilitets-problemer er reduceret til et minimum. Med andre ord: Har vi styr på målingernes reliabilitet?? Der er dog stadig nogle aspekter omkring målingernes tilblivelse/behandling, man skal have med i tankerne. 15 16 Reliabilitet, fortsat Reliabilitet, fortsat Respondenternes hukommelse: De tilfældige fejl ved selve datahåndteringen: Huskede man at trykke sig ind/ud af TV-meter Og husker man at medbringe sin PPM ved TV-/Radio-meter? Risiko for at man kommer til at sætte krydset det forkerte sted i spørgeskemaet. Kan man huske, hvad det nu lige var for et blad, man læste hos frisøren eller veninden? Husker man i sin vurdering af sit forbrug at tage højde for, at man ikke læser den daglige avis i sommerferien, julen etc.? Kunne man ved de gamle radio-målinger huske, når dagen var omme, hvilke kanaler man havde hørt i løbet af dagen? Var man overhovedet opmærksom på dem alle? 17 Risiko for, at der sker fejl i indtastning ved spørgeskemaer. Ved TV-meter, Radio-meter og gemiusaudience er der (næsten) ingen fejl i indtastning/behandling af data (sker jo automatisk). MTGs og SBS kanaler er ofte meget sløsede/indskrænkede i deres indrapporteringer af programdata. Det resulterer dog tilsyneladende ikke i decideret fejlagtige oplysninger, men blot i at en del oplysninger slet ikke gives og dermed ikke kan søges i TV-meter-systemet. 18 3

Statistikkens finurligheder Statistik Den fair mønt Statistikkens arbejdsgrundlag: Kendt fordeling af stikprøve vil gerne sige noget om en ukendt virkelighed. Vi har altså brug for at vide, hvilke forbehold vi skal tage, når vi udtaler os om virkeligheden/populationen på baggrund af stikprøven. Under forudsætning af at målingernes repræsentativitet, reliabilitet og validitet er i orden, så kan man matematisk forudsige, hvor sikker man er på, at stikprøvens resultat svarer nogenlunde overens med virkelighedens. 19 Slår jeg plat-eller-krone én gang med en (fair) mønt, så vil der være 50% chance for at slå krone. Slår jeg 4 gange med en mønt, kan jeg meget vel ende ud med at have slået 2 plat og 2 krone. Det vil være den mest sandsynlige fordeling. Men andre kan bestemt også tænkes f.eks. 3 plat og 1 krone... eller 4 plat og 0 krone for den sags skyld. Faktisk vil sandsynlighedsfordelingen for de forskellige kombinationsmuligheder ved 4 kast 16 gange i træk så sådan ud: 1 ud af 16 gange slår jeg ALLE plat. 1 ud af 16 gange slår jeg ALLE krone. 4 ud af 16 gange slår jeg én plat og tre krone. 4 ud af 16 gange slår jeg én krone og tre plat. 6 ud af 16 gange slår jeg to af hver. Prøv engang selv 20 3 stikprøver á 4 forespørgsler ( respondenter ) Statistik Plat-eller-krone-test Præsenteret grafisk ser sandsynlighedsfordelingen således ud: Sandsynlighedsfordeling Sandsynglighed i % 40 30 20 10 0 6,25 25 37,5 25 6,25 Antal plat/krone Teoretisk set vil et givet antal stikprøver bestående af 4 plat/krone-kast altså fordele sig som vist her. 21 22 1 stikprøve á 10 forespørgsler ( respondenter ) Det samme ville gælde, hvis det i stedet for stikprøver over fordelingen af plat/krone-kast var stikprøver for 4 tilfældige amerikanske vælgeres stemme ved sidste præsidentvalg. At slå plat/krone X antal gang er altså en form for opinionsundersøgelse af, hvordan stemmerne på hhv. plat/krone fordelser sig, hvis man spørger X forskellige mønter. Prøv igen, denne gang med én stikprøve á 10 kast. 5 Kr 6 Kr 7 Kr 8 Kr 9 Kr 10Kr 1 9 Pl 8 Pl 7 Pl 6 Pl 5 Pl 23 24 4

Sandsynlighedsfordeling Generelt gælder der, at desto større stikprøvestørrelsen er, desto mere vil fordelingen af et antal stikprøver samle sig i en normalfordeling omkring den sande værdi: Sandsynlighed i % 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0,25 0,21 0,21 0,12 0,12 0,04 0,04 0,00 0,01 0,01 0,00 Antal plat/krone 25 Stadigt flere stikprøver fordeler sig indenfor et stadigt snævrere interval, når antallet af adspurgte øges. 26 27 28 HPD tegner og fortæller HPD tegner og fortæller 29 30 5

Der er stadig mere end en time til I har fri Der er stadig mere end en time til I har fri 31 32 Der er stadig mere end en time til I har fri Det store spørgsmål er nu: Hvor stort et sikkerhedsinterval skal vi bruge for at være 95% sikre på, at vi i en given, tilfældig stikprøve rammer indenfor dette interval? 33 34 Problemet med at regne ud, hvor stort intervallet omkring vores stikprøveestimat skal være, før vi med nogenlunde sikkerhed tør udtale os, afhænger af 3 ting: Hvor sikre vil vi være på at sige noget korrekt? Hvor mange har vi spurgt? Hvilken andel har vi estimeret? Normalt arbejder man ud fra et princip om, at man vil være 95% sikker på at have indfanget virkeligheden/den sande værdi. Stikprøvens størrelse (antallet af respondenter i vores målgruppe) kan vi se: Index Danmark/Gallup Radio Index: Nøgletallet Stikprøve. TV-meter/Radio-meter: Under fanebladet Technical Card. gemiusaudience: Under Target Group Definition. Stikprøvestørrelsen angives som n. 35 Den andel, vi har estimeret (dækning eller rating i procent) Den estimerede andel angives som p. 36 6

Formlen til at beregne vores konfidensinterval er følgende: p * (100-p) 95%-signifikansniveau: p ± 1,96 * n Med lad os gentage i kor: Usikkerheden afhænger af stikprøvens størrelse samt den estimerede andel af læsere/brugere. Vil man udtale sig med 95% sikkerhed om antallet af læsere/lyttere/seere/brugere, skal der altså lægges et konfidensinterval (beregnet med den formel, I netop så) omkring det estimat som mediebrugsdatabasen spytter ud. Vil man sammenligne to estimater og f.eks. udtale sig om, at der er forskel mellem mænds og kvinders sening så skal der lægges konfidensinterval om begge estimater, hvorefter der tjekkes for, om intervallerne overlapper hinanden. Øvelser! 37 38 Lad os tage eksemplet fra øvelse 1: Der viser sig dog alligevel lige akkurat at være en forskel, når vi kigger på tallene i tusinder i stedet for procent det skyldes formentlig afrundinger i procenttallene Mænd, TV-Avisen: 9,8% ± 1,7% = [8,1% ; 11,5%] Mænd, Nyhederne: 13,4% ± 1,9% = [11,5% ; 15,3%] Mænd, TV-Avisen: 249.000 ± 42.000 = [207.000 ; 291.000] Mænd, Nyhederne: 339.000 ± 47.000 = [292.000 ; 386.000] I værste fald kan det altså være, at 11,5% er den sande andel danske, mandlige seere til både TV-Avisen og Nyhederne. 39 I øvrigt: Vær varsom! TV-meter har tidligere (efteråret 2006) haft en indbygget regnefejl i netop denne funktion. 40 Lad os se på eksemplet fra øvelse 3: Sagen er derimod en noget anden, hvis vi kigger nærmere på Århus Stiftstidende: Mænd, Berlingske: 9,0% ± 0,5% = [8,5% ; 9,5%] Kvinder, Berlingske: 7,1% ± 0,4% = [6,7% ; 7,5%] Vi er altså 95% sikre på, at mændenes dækningsprocent ligger (et stykke) over 8%, og på at kvindernes dækningsprocent ligger (et stykke) under 8%. Vi tør derfor godt påstå, at der på en gennemsnitlig hverdag i 2005 var flere mænd, end kvinder, der læste Berlingske Tidende. 41 Mænd, Stiften: 3,4% ± 0,3% = [3,1% ; 3,7%] Kvinder, Stiften: 3,8% ± 0,3% = [3,5% ; 4,1%] Måske er den sande værdi for både kvinder og mænd 3,6%. Vi kan derfor ikke være 95% sikre på, at kvinderne er mere flittige læsere af Stiften, end mændene er. 42 7

Gode råd, der sikrer mod misbrug af data Beregn altid usikkerheden ved den foretagne analyse. Tag højde for stikprøvestørrelsen lav så store målgrupper som muligt. Ved TV-meter/Radio-meter: Tag hele programrækker i stedet for enkeltudsendelser (hvis muligt) det vil minimere risikoen for tilfældige fejl/udsving. Vær ydmyge i fortolkningen af data selv med ovennævnte statistiske forudsætninger og forbehold vil I kunne tage fejl hver 20. gang! 43 8