Sådan fandt vi forfatteren til Den Hemmelige Socialdemokrat*



Relaterede dokumenter
Hvordan høre Gud tale?

kære forældre, søskende og bedsteforældre, kære medarbejdere og sidst men ikke mindst kære dimittender. Tillykke med overstået - eller tør jeg sige

Jeg vil se Jesus -2. Natanael ser Jesus

DE KAN IKKE TALE, MEN HVOR KAN DE SIGE MEGET!

Find værdierne og prioriteringer i dit liv

Hvordan gør de professionelle?

At være to om det - også når det gælder abort

INTERVIEW: HVAD ER TILLIDENS NUANCER?

DE MENTALE LOVE MÅDEN SINDET FUNGERER PÅ

Positiv Ridning Systemet Arbejder min hest korrekt? Af Henrik Johansen

JO STÆRKERE DIT BRAND ER, JO STÆRKERE MARKEDSPOSITION KAN DU BYGGE

RETTEN ER IKKE ET STED FOR BØRN

"Mød dig selv"-metoden

Stil ind på et foto af en afdød

KVALITATIV DELEVALUERING AF STOFRÅDGIVNINGEN

På 2. forelæsning lavede vi test og resultatet blev 8,5 i gennemsnit i fejl på 10 ord.

En fortæller fortæller - et møde med Lars Lilholt på papiret, på scenen og i hjemmet ved Gudenåen

Hvad gør forskerne med deres referencehåndtering, når de forsker?

Tid til refleksion. - at opdage dét du tror, du ikke ved...

Spørgeskemaundersøgelser man selv står for

KÆRLIGHED ER OGSÅ AT VILLE HINANDEN

Bibellæsning helt konkret hvordan gør vi det i medvandring

Hvordan kommer man i Himlen?

Kom godt fra start. - inklusion af børn med ADHD i folkeskolen. Dorthe Holm

Her er et spørgsmål, du måske aldrig har overvejet: kan man finde to trekanter med samme areal?

Unge på kanten af livet. Spørgsmål og svar om selvmord. Bente Hjorth Madsen Center for Selvmordsforebyggelse, Risskov

Eksil fra Verden. Af Asbjørn Olsen

Transkript:

Sådan fandt vi forfatteren til Den Hemmelige Socialdemokrat* * med stor sandsynlighed. Blandt en gruppe af mistænkte 1:0 strategisk brug af data Kontakt: Claus Dahl, claus@etnul.dk, tlf: 22901886 At genkende en forfatter til en anonym tekst, er ikke helt som at finde et fingeraftryk, eller et DNA- spor men hvis man har en god liste af mistænkte, så kan man med ret stor sikkerhed udpege hvem af de mistænkte der er den mest sandsynlige forfatter til en tekst med ukendt forfatter. Vi har taget nogle af de etablerede teknikker til stylometri, eller forfattergenkendelse, og anvendt dem på Den Hemmelige Socialdemokrat. Dit spor i ordene Mennesker skriver ikke ens. Vi har alle vores eget sprog, og vores egne sproglige vaner. De er forbløffende konstante over tid, og svære at kaste af sig. Måske kan man lave om på alle de svære ord, men alle vanerne - skriver man 'der' eller 'som', som forbindelsesord, har man en særlig kærlighed til ordet 'især' - sidder forbavsende godt fast. Når vi forsøger at fastslå forfatteren til en anonym tekst, er det den slags sproglige vaner, som er personlige, og svære at komme af med, vi er på jagt efter. Det findes en stor litteratur om emnet. I tiden efter den amerikanske uafhængighedserklæring udgav nogle af den amerikanske stats fædre en serie artikler kendt som "The Federalist Papers". De blev udgivet anonymt, men var forfattet af Alexander Hamilton, James Madison og John Jay. Siden har man fået identificeret forfatteren til mange af dem - men ikke dem alle. De sidste har man analyseret men tekstanalyseteknikker af den type vi har brugt her, og på den måde med held identificeret forfatterne. De mistænkte Det statistiske spor er dog ikke stærkere end at man er nødt til at have en liste af kandidater at sammenligne med, og noget tekst de har skrevet. Man sammenligner så sproget i de kendte tekster, med den ukendte - og vælger en mest sandsynlig kandidat blandt dem ud. I tilfældet Den Hemmelige Socialdemokrat kan vi regne ud fra teksten, at vi har at gøre med en velskrivende forfatter. Der er simpelthen for meget farve, for

meget kvalitet i teksten til at det bare er en tilfældig backbenchers dagbogsbekendelser, der er tale om. Vi leder efter skribenter, der kan lave levende reportage, en slags new journalism, og som har den rigtige splint i øjet, til at skrive en god sladderhistorie. Vi landede til denne analyse på dette felt Kristian Madsen - kender sit socialdemokrati, og er velskrivende, om det så ikke primært er reportagejournalistik vi kender ham for. Mads Brügger - forstår intriger, er velskrivende, og har tidligere arbejdet på randen mellem fiktion og virkelighed i sine bøger Rene Fredensborg - har bestemt ambitioner om at kunne skrive en bog som DHS. Jakob Kvist - har skrevet i genren før, Ambassadøren, hans bog om Laudrup; og så er han jo ihvertfald involveret i bogens tilblivelse, og har selv skrevet forord. Michael Jeppsen - kan skrive, vi anbefaler en ubetalelig scene fra et pressemøde med Kronprinsen, fra hans store klimareportagebog. Og holder vel også af en god skandale Arne Hardis - er måske ikke kulørt nok, men har kilderne til at kunne de rigtige historier Rasmus Prehn - er blevet anklaget så meget, så vi er nødt til at have ham i feltet. Nils Krause- Kjær - kan sin fiktion, og kan sine politiske intriger Jan Kjærgaard - hvem kan glemme hans demaskering af Peter Arnfeldt? Han er en naturlig kandidat. Analysen Med en liste mistænkte i hånden var det tid til at komme igang. Vi fremskaffede - i samarbejde med Infomedia - en god bunke materiale skrevet af vores 9 mistænkte. Materialet blev ensrettet og renset. Patrick Juola fra Duquesne University udgiver en pakke open source software specifikt til at lave denne slags analyser, JGAAP. I JGAAP kan man vælge mellem et hav af analyser - vi valgte nogle af de bedst dokumenterede teknikker ud, nemlig Tegn 4- grammer - dvs, analyser hvilke sekvenser af 4 på hinanden følgende bogstaver, der forekommer hyppigt i teksten. Ordpar - dvs, analyser hvilke par af ord, der forekommer hyppigt Enkeltord - dvs., identificér de hyppigst forekommende ord i teksten. Det er som regel forholdsord og forbindelsord, lige præcis den slags man slet ikke tænker over, mens man skriver, der er almindelige.

Udover test- statistikkerne så skal man bruge en fornuftig måde at sammenligne de forskellige statistikker med - her valgte vi to forskellige modeller for hvor langt to tekster er fra hinanden, for at sikre os at vi ikke lavede en systematisk fejl med en fjollet sammenligningsteknik. Vi brugte "Burrow's Delta", og "Sequential Minimal Optimization". Validering For at være sikker på at de valgte statistikker siger noget fornuftigt om forfatterskab testede vi dem først på de kendte tekster. Vi holdt en smule kendt tekst af hver forfatter tilbage, og forsøgte så at identificere den tilbageholdte tekst med de øvrige data vi havde på de 9 mistænkte. Teknikken hedder krydsvalidering, vi lavede en såkaldt 10- fold krydsvalidering. Det mundede ud i omkring 700 tests - og ca 85% af dem viste den rigtige forfatter. Vores statistik,ker og den måde vi sammenligner dem på, viser altså den rigtige forfatter i 85% af alle tilfælde, så vi har en god tillid til at de valgte statistikker korrekt kan skelne mellem vores 9 mistænkte. De 6 forskellige tests (3 statistikker x 2 måder at sammenligne på) performede alle nogenlunde ens. Den skyldige Endelig var det tid til at prøve af finde den rigtige mistænkte. Vi har altså 6 variationer over temaet, "Hvem har skrevet bogen?". Alle 6 pegede på den samme: Jakob Kvist. Redaktøren har ikke bare skrevet forordet, men hele bogen. Hvis ellers vi har gjort vores detektivarbejde ordentligt. Alle 6 tests pegede på Kvist, når vi tog udgangspunkt i hele teksten - for en god ordens skyld har vi også skåret den op i 10 portioner og sammenlignet hver enkelt portion med vore 9 mistænkte. Det giver i alt 60 tests - 90% af dem, 54 i alt - peger på Kvist. Er det så afgjort? Man skal aldrig være skråsikker - og der er forskellige måder vi kan have taget fejl på: For det første er ingen af de her statistiske sammenligner 100% sikre. I vores validering så vi at de lavede fejl i omkring 1 ud af 10 tilfælde. For det andet kan det jo være at vi har glemt den skyldige i vores 9- mands felt. Radioprogrammet AK 24/7 lavede en lignende analyse forleden, men kun med Kjærgaard, Jeppesen og Prehn i feltet. Vi kan bekræfte deres resultat, blandt de tre tror vi også mest på Jeppesen, med samme analyse, som AK 24/7 lavede, men vi tror bare ikke de havde husket at få de rigtige mistænkte med i kandidatfeltet. Og sidst men ikke mindst: Kvists kilde i partiet - hvis det altså er Kvist, der er forfatteren - har vi ikke fundet. Detektivarbejdet fortsætter. Claus Dahl claus@etnul.dk