NyS. NyS og artiklens forfattere

Størrelse: px
Starte visningen fra side:

Download "NyS. NyS og artiklens forfattere"

Transkript

1 NyS Titel: Forfatter: Manuel og maskinel excerpering af neologismer Jakob Halskov og Pia Jarvad Kilde: NyS Nydanske Sprogstudier 38, 2010, s Udgivet af: URL: NyS i samarbejde med Dansk Sprognævn NyS og artiklens forfattere Betingelser for brug af denne artikel Denne artikel er omfattet af ophavsretsloven, og der må citeres fra den. Følgende betingelser skal dog være opfyldt: Citatet skal være i overensstemmelse med god skik Der må kun citeres i det omfang, som betinges af formålet Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger. Søgbarhed Artiklerne i de ældre NyS-numre (NyS 1-36) er skannet og OCR-behandlet. OCR står for optical character recognition og kan ved tegngenkendelse konvertere et billede til tekst. Dermed kan man søge i teksten. Imidlertid kan der opstå fejl i tegngenkendelsen, og når man søger på fx navne, skal man være forberedt på at søgningen ikke er 100 % pålidelig.

2 Manuel og maskinel excerpering af neologismer jakob halskov & pia jarvad indledning I denne artikel vil vi beskrive arbejdet med Dansk Sprognævns Ordtrawler som er udviklet af Jakob Halskov. Ordtrawleren har til formål automatisk at finde nyordskandidater (konstruktioner som kandiderer til at blive regnet for nye) i de meget store tekstkorpusser som nu til dags er tilgængelige på nettet, og dermed bidrage til at følge sprogets udvikling. Vi har foretaget en formel og kvalitativ evaluering af dette automatiske excerperingssystem, og vi diskuterer styrker og svagheder ved automatiseret kontra menneskelig excerpering. I evalueringen udgør menneskelige vurderinger den guldstandard som systemet holdes op imod. Hvad er et nyt ord? Klatfravær, mælkeskandale, boliggaranti ver. 2.0, bøllebank, udsatteråd, caucusvalg, popsprog, bandekrig, bitterfisse, burkaudvalg, dialogmedicinering, feelgood, grønvask, kant (ny brug), klimacertifikat, kontraktpolitik, sundhedskort (= sygesikringskort), nederen, oldschool, prettyboy, tudefjæs, uhellig alliance, underfrankeret (billedlig brug om svagtbegavet), überseksuel En tilfældig række af nye ord fra de seneste år. Nogle af dem er benævnelser for nye ting og fæno mener, fx udsatteråd kommunalt råd for varetagelse af udsattes (fx hjemløse) tarv, grønvask det at varer o.l. fremstår som mere økologiske og klimavenlige end de i realiteten er, mælkeskandale (om skandale i Kina hvor der blev tilsat melamin i mælken med skrækkelige sundhedsmæssige konsekvenser). Andre er nye ord for et fænomen som kendes i forvejen og som i forvejen kan have en benævnelse for sig, fx klatfravær og sundhedskort (= sygesikringskort). Gamle ord får tillagt nye betyd ninger, fx kant og underfrankeret. Til nye ord regnes også at ordet bruges på en ny måde, fx dumpe eksamen 39

3 hvor det traditionelle er dumpe til eksamen. Udtryk som boliggaranti ver. 2.0, uhellig alliance har, selvom de består af to ord, som helhed en fast betydning og fast form, og de er således nye faste udtryk, og de hører med i beskrivelsen af nye ord. Nye ord og ny brug af gamle ord er nyheder i forhold til det inventar af ord som findes i forvejen, dvs. at vi regner nye ord for nye når de ikke står i gængse ordbøger (fx Den Danske Ordbog, Retskrivningsordbogen, Nudansk Ordbog, og ikke mindst Nye ord i dansk på nettet fra 1955 til i dag 1 og Dansk Sprognævns Samling). I excerperingen undgås de ord som ikke antages at ville blive etablerede i ordforrådet. Det er banale sammensætninger, lejlighedsdannelser og herunder kometord (se nedenfor). Banale sammensætninger er fx klimakonference, klimakunst, klageantal, værdipapirsammensætning, risikoappetit. De er dannet af sprogets byggeklodser efter de regler som vi opbygger et ord på, og de er gennemskuelige og uproblematiske at forstå hvis man kender førsteled og andetled. De er karakteriseret ved at de kan dannes nu, men de kunne lige så godt have været dannet for 50 år siden hvis der havde været behov for det. Lejlighedsdannelser (øjebliksdannelser eller individualdannelser som de også kaldes) har et mere til fældigt præg, fx tefest (jf. vinfest), tesøster (jf. kaffesøster), tetår (jf. kaffetår), og tetelt (jf. øltelt). Sådan set er tefest mfl. fuldgode regelret dannede danske ord - men de er dannet til denne lejlighed her og nu og bliver næppe brugt nogensinde mere. Disse ord forstås umiddelbart, men det bagved liggende ord som fx kaffesøster, øltelt med disse ords bibetydninger gør forståeligheden større. En tesøster skal derfor ikke forstås som en søster der holder af te, men derimod som person som holder meget af te. I Politiken kunne man læse en politikers udtalelse om sit eget barns gåen i privatskole versus politikerens officielle udtalelser om folkeskolen: Når det gælder mit barns uddannelse, er min morkasket trods alt vigtigere end min politikerkasket. 40 NYS 38

4 Her er der forudsat en del viden om betydningen af kasket (jf. Nye ord på nettet: kasket sb. (1977) (billedlig brug i forbindelser som have to el. flere kasketter på, skifte kasket) som udtryk for en funktion, et hverv, at have en dobbeltrolle). En variant af lejlighedsdannelserne er ord som bliver almindelige i sprogsamfundet og forsvinder igen inden for en kort perio de. De kaldes kometord. Det er fx burkaudvalg og klimakaravane bus som kører rundt i landet i med oplysning om den globale opvarmnings betydning for klimaet, og mælkeskandale (se mere herom nedenfor). Sådanne kometord har stærk affinitet til bestemte hændelser og kan ikke forstås uden at man kender til hændelserne. De er leksikaliserede. De har potentiale til at blive varige tilskud, men det finder man først ud af når der er gået et stykke tid. Prægnante ord er de nye ord som bliver varige i sproget, mens de ovennævnte er uprægnante og uinteressante i nyordsperspektivet (men ikke i et orddannelsesperspektiv). De uprægnante er der rigtig mange af; det kommer vi ind på senere i artiklen. Det er selvsagt de prægnante nye ord og udtryk som har størst interesse for beskrivelsen af sprogets udvikling. excerpering og kilder Dansk Sprognævn blev oprettet i 1955 og fik som én blandt flere opgaver at følge med i ordforrådets udvik ling. Der står således i bekendtgørelsen om Sprognævnet at en af nævnets arbejdsop gaver er: At følge det danske sprogs udvikling navnlig ved at indsamle og regi strere nye ord, ordfor bindelser og ordanvendel ser, her under forkortelser 2. Dansk Sprog nævn er den eneste insti tution herhjemme der systema tisk arbejder med indsam lingen af nye ord, og Sprog nævnets ordkartotek, både i dets elektroniske og fysiske form bruges som udgangspunkt for opdatering af mange ord bøger, leksikoner og andre op slagsværker. I Sprognævnets ordkartotek findes også andet end nye ord. Der excerperes (udtrækkes) varianter af de officielle staveformer og bøjningsformer af hensyn til arbejdet med retskrivningsordbogen, og der excerperes sprogbrug og syntaks af hensyn til den sproglige 41

5 rådgivning, men her er fokus de nye ord. For at indsamle nye ord og ordanvendelser læses der aviser, ugeblade, tidsskrifter, bøger og mange andre typer tekster som repræsenterer forskellige genrer. Teksterne er fra hele landet og er fordelt på emner og efter hvilken aldersgruppe de forskellige tekster retter sig imod. Der læses lige fra romaner og digtsamlinger til varekataloger, fra dagbladet Politiken til Folkebladet, Dagblad for Vejen, Brørup, Holsted og omegn, fra tidsskriftet Press til Statstidende og fra magasinet Vi unge til sundhedsbladet Helse sammen med dameblade, mandeblade og etiketter på madvarer. Der lyttes til Danmarks Radio, lokalradioer, de forskellige tv-stationer, og til hvad der siges i de daglige samta ler. Den sidsttilkomne kilde til nye ord er de nye elektronisk bårne medier, chat, blogs mv. på nettet, twitter, konsol spil osv. Teksterne har gennem årene fordelt sig såle des: Tabel 1. Fordeling på kilder i procent. 1963/ / Plan avis, kbh avis, provins distriktsblade kortgenre ugeblade faglige ugeblade officielt sprog bøger fremmedsprog tidsskriftet Bogmarkedet mundtlig andet internet 0 1 metasprog NYS 38

6 Det drejer sig om kilder excerperet og opgjort årligt i mere end 50 år. Der er derfor fluktuationer i måden at opgøre kilderne på, og der er i denne opgørelse slået kilder sammen af hensyn til sammenligneligheden. Tallene i tabel 1 er i procent af det samlede antal excerpter det pågældende år. Alle procenter er rundet op til nærmeste hele tal, og derfor kan tallet i alt afvige fra 100 %. Der er mange fodnoter som redegør for baggrunden for tallet/kilden/resultatet. Kilderne til excerperingen er begrænsede og udvalgt af excerpisterne nogle gange efter erfaring med hvor man finder mest, fx at aviser rummer flest nye ord. Kilderne som har været excerperet i Dansk Sprognævn siden begyndelsen af 1960 erne, fordeler sig som man kan se det i tabel 1. Som man kan se, er aviserne langt den største kilde. Det skyldes at aviserne har nyhedsfor midling som primær funk tion, både nyheder i politik, sam fundsfor hold og kultur - og som følge deraf er det der de nye ord oftest dukker op på skrift første gang. Det er også i almin delighed avi serne der formidler de nye ord videre til andre me dier. Men det er ikke nok at notere sig ordet den første gang det optræder. Ordet skal verificeres som nyt, som brugbart i mange genrer (alle genrer?) og blandt mange forskellige grupperinger af mennesker både socialt og geografisk, for at man kan sige at ordet tilhører det almene, fælles sprog i Danmark. 5 FIGUR Figur 1. ANTAL Antal EXCERPTER excerpter FORDELT fordelt PÅ på ÅR år FRA fra ALLE alle KILDER kilder I de første år var excerperingen beskeden, og finansåret 1962/63 var det første 43 hvor man kom o de magiske excerpter som man i mange år anså som det optimale for at excerperingen v dækkende. Dette antal holdt sig helt frem til år-2000-skiftet hvor de første store maskinlæsbare

7 I de første år var excerperingen beskeden, og finansåret 1962/63 var det første hvor man kom op på de magiske excerpter som man i mange år anså som det optimale for at excerperingen var dækkende. Dette antal holdt sig helt frem til år-2000-skiftet hvor de første store maskinlæsbare tekster blev tilgængelige, og hvor et nyt ord kunne verificeres med hensyn til udbredelse, betydning mv., som den manuelle excerpering tidligere havde haft som opgave. Den manuelle excerpering har derfor kunnet koncentrere sig om udelukkende at finde nye ord. Men faldet er så stort at man næppe kan sige at der excerperes tilstrækkeligt. Faldet har i høj grad at gøre med at de to storexcerpister (Jørgen Eriksen og Arne Hamburger) blev pensionerede og derefter nedtrappede deres pensionistarbejde og dette afløstes ikke af øget excerpering internt i Sprognævnet. I plan 2007 (se tabel 1 med fodnote) opstilles et minimumskrav til excerperingen, men desværre har prioritering af arbejdsopgaver i Sprognævnet i øvrigt gjort at planen ikke har været mulig at gennemføre. Derudover er 2008-resultatet alene udtryk for det som kom i den elektroniske samling, ikke det som rent faktisk er indsamlet. I 2009 er der således store forhåbninger til Jakob Halskovs Ordtrawler og dens bidrag til øgning af nye ord i samlingen. I 2008 iværksattes også en funktion på nettet hvor det var muligt for almindelige mennesker at indberette ord som opfattes som nye. Det har dog ikke givet synderligt resultat. nyhedsmarkeringer En almindelig udbredelsesmåde for et nyt ord er at det dukker op i en avis, og tingen eller fæno menet bliver omtalt, det bliver forklaret og måske sat i citationstegn eller løftede kommaer, og brug af kursiv eller anden grafisk særmarkering ses, fx Italien sender nu grundløse asylansøgere tilbage. (Politiken ) Ofte er nye ord forklaret rent betydningsmæssigt, og skribenten kommen terer ordet. Ikke sjældent sættes et såkaldt foran ordet, fx Meget af denne vold er såkaldt opdragelsesvold. (Politiken ) 44 NYS 38

8 Hvis det er et ord fra fremmed sprog, kan det være forsøgt oversat, fx I dag er det anonyme ghostwriters, der lægger ord i munden på toppolitikere... nutidens spøgelsesskribenter. (Politiken ) Sammensætninger er ikke sjældent skrevet i to ord eller med bindestreg mellem leddene. Alle disse træk er signaler for at det pågældende ord er en nyhed. Er det nye ord, der betegner fænomenet eller tingen, et ord der er blivende, så anvendes det i en periode med disse typer af nyhedsmarkering, senere forsvinder nyheds markeringen, og ordet indgår på lige fod med det øvrige ordforråd. Ordet bliver så også almindeligt i kilder som ikke er nyhedsformid lende, fx ugeblade og bøger for senere evt. at blive brugt i officielt sprog som love og be kendt gørelser. Fx blev ordet knallert brugt om det man officielt kaldte cykel med hjælpemo tor allere de omkring 1950, men først med 1976-færd selsloven blev ordet brugt i officiel sam menhæng. manuel kontra automatiseret excerpering Nyhedsmarkeringer er gode clues for den nye excerpist, men nyhedsmarkeringer er der ikke altid. Eftersom det nye ord ikke findes i forvejen, er der ikke egentlige metoder man kan benytte når teksten læses for at finde de nye ord. Derimod bruger excerpisten sin viden om modersmålets orddannelse og ordforråd, og jo større erfaring med arbejdet med nye ord, jo bedre en excerpist. Ord som er i kikkerten, undersøges i ordbøger, ordsamlinger mv. for at verificere at ordet ikke er gammelt. Nudansk Ordbogs seneste udgave har været rettesnor hvis ordet ikke var dér, blev det excerperet. Den manuelle excerpering repræsenterer en høj grad af abstraktion i forhold til et ubearbejdet korpus, og resultatet, excerpterne på seddel eller i database, kan i mange tilfælde betragtes som midtvejs mellem korpus og ordbog. I den manuelle excerpering har excerpisten som modersmålstalende viden om sproget og kan derfor se bort fra grafiske elementer hvis det er nødvendigt, og hun kan lemmatisere (dvs. henføre til opslagsform) og normalisere (dvs. slå ortografiske varianter 45

9 sammen), og hun kan vurdere ordet og dets betydning i forhold til konteksten samtidig med excerperingen, og hun har tillige viden om omverden. I den manuelle excerpering filtreres således en stor del fra helt umiddelbart. Atkins & Rundell (2008: 51) hævder, med visse forbehold, at det er en smal sag at excerpere nye ord automatisk, men i Halskov og Jarvad (2009, 2010) redegøres der for de ganske store problemer der er med at fremfinde egnede kandidater; der er simpelthen for meget støj ved at Ordtrawleren finder for mange kandidater som ved et nærmere eftersyn ikke ville blive fundet excerperingsværdige i en manuel excerpering. Ligeledes er antallet af fundne rigtige kandidater for lille når søgningen foregår med visse filtre (filtre der fx udelukker kandidater som ikke er nyhedsmarkeret med citationstegn eller såkaldt(e)). hvordan excerperer en maskine? Der findes et hav af natursprogsbehandlingssystemer til automatisk fremfinding af termkandidater (altså potentielt fagsproglige udtryk) i et tekstkorpus, men der er nærmest ikke publiceret nogen tekniske detaljer om systemer som kan excerpere almensproglige (eller fagsproglige) nydannelser. Dette betyder imidlertid ikke at sådanne systemer ikke eksisterer. Det engelske APRIL-projekt (A knowledge-rich tool for the analysis and prediction of innovation in the lexicon) 15 er måske det mest velkendte af slagsen, men forfatterne er også bekendt med et lignende projekt som forskere ved Universitetet i Bergen står bag. Desværre er det svært at vide præcist hvilke teknikker der benyttes, og dermed afgøre i hvilket omfang det nærværende system (Ordtrawleren) udgør en decideret nyudvikling. Ordtrawleren består i sin nuværende form af en håndfuld tekstbearbejdningsprocedurer (små programstumper), en stor database (til lagring af tekstmateriale, filtre og nyordskandidater), en korpusservice og en simpel brugergrænseflade til forskellige korpusværktøjer. Før Ordtrawleren kan excerpere, underkastes de elektroniske tekster en række automatiserede behandlinger i en bestemt rækkefølge. 46 NYS 38

10 1. Tokenisering: Brødteksten deles op i sætninger, og sætningerne hakkes op i en sekvens af ordformer. 2. Part of Speech-tagging: Hver ordform tildeles automatisk en ordklasse (her anvendes de forenklede Parole tags (Keson 1998). 3. Lemmatisering: Hver ordform tildeles automatisk et lemma (her anvendes en udfoldet version af Retskrivningsordbogen 2001). 4. Indeksering: De enkelte oplysninger om hver ordform, dvs. formen, ordklassen og lemmaet lagres og indekseres i en database så man hurtigt kan gennemsøge store mængder tekst for bestemte mønstre (her anvendes Corpus Workbench 16 -formatet). 5. Filtrering/sortering: Inventaret af samtlige forskellige ordformer (det samlede ordforråd) filtreres og/eller sorteres ved hjælp af ord- og frekvenslister over allerede kendte ord. Den automatiske tokenisering, tagging og lemmatisering er naturligvis ikke fejlfri. Taggeren som anvendes, er beskrevet i Hansen (2000) hvor den vurderes at have en træfrate på 96,5 %, men dog bliver kun ca. 80 % af alle ukendte ord gættet (Hansen 2000: 7). Ord som ikke er indeholdt i værktøjets ordbog, volder altså særligt store problemer, og det er jo netop en delmængde af disse ord vi er ude efter. Problemet gælder i særlig grad den lemmatiseringsteknik som i øjeblikket anvendes af Ordtrawleren (punkt 3 ovenfor). Der anvendes nemlig en udfoldet version af Retskrivningsordbogen 2001, og ordformer som ikke kan henføres til et opslagsord i dette værk, lemmatiseres dermed ikke. Vi vender tilbage til denne problematik senere i artiklen. Tabel 2 nedenfor indeholder et eksempel på hvordan sætningen, At forbyde salg af tobak er ikke en måde at forlænge danskernes levetid med., ser ud efter ovenstående automatiserede behandlinger. 47

11 Tabel 2. En bearbejdet sætning i det særlige Corpus Workbench-format Ordform Ordklasse Lemma At UKONJ at Forbyde V_INF forbyde Salg N salg Af PRAEP af Tobak N tobak Er V_PRES være Ikke ADV ikke En PRON_UBST en Måde N måde At UKONJ at Forlænge V_INF forlænge Danskernes N_GEN dansker Levetid N levetid Med PRAEP med. TEGN. Når al tekstmaterialet (analysekorpusset) foreligger i ovenstående format, trækkes hele dets ordforråd ud (dvs. alle ordformer, også kaldet types ) og sammenlignes form for form med det ordforråd systemet kender i forvejen. Senere i artiklen vil vi beskrive hvilke eksisterende ordbøger og referenceværker der anvendes til filtrering og sortering. Da den kunstige intelligens lader vente på sig, så har maskiner stadig vanskeligt ved at abstrahere med mindre de er blevet eksplicit programmeret til det. En maskine vil således som udgangspunkt opfatte stavevarianter som vidt forskellige ord og altså foreslå U.S.A. som nyordskandidat selvom den har formen USA i sin liste over allerede kendte ord. På tilsvarende vis skal en maskine også have detaljerede instrukser om hvordan den skal håndtere bindestreger, små/store bogstaver, citationstegn osv. I modsætning til menneskelige excerpister, for hvem det er helt naturligt at inddrage et ords kontekst, så kræver det temmelig avancerede programmeringsteknikker at få maskiner til at tage hensyn til den sproglige kontekst hvori et ord optræder. Således vil 48 NYS 38

12 ny brug af eksisterende udtryk, ny valens, nye flerordsforbindelser osv. være vanskelige at få en maskine til at identificere. Der er altså ingen tvivl om at automatisk natursprogsbehandling er en vanskelig opgave, og i næste afsnit vil vi kort beskrive nogle fundamentale lovmæssigheder som nærmere kan forklare hvorfor det er særligt vanskeligt for en maskine at identificere sproglige nydannelser. Det drejer sig om lovmæssigheder som stammer fra to beslægtede grene af lingvistikken, nemlig datalingvistikken og især korpuslingvistikken. det korpuslingvistiske paradigmeskift Den korpuslingvistiske metode er en induktiv tilgang til lingvistikken i modsætning til mere deduktive tilgange som repræsenteret ved Noam Chomskys generative lingvistik og universelle grammatik. Den grundlæggende forskel på de to tilgange er at korpuslingvistikkens primære forskningsobjekt er den konkrete sprogbrug, altså parole, mens den generative tradition fokuserer på det abstrakte system af sprogbrugsregler der kan afledes af parole, dvs. langue. De to aspekter af natursprog hænger naturligvis sammen i et dialektisk kredsløb, men det korpuslingvistiske paradigmeskift som især tog fart i løbet af 1980 erne med britiske leksikografiprojekter som John Sinclairs COBUILD, gjorde det pludseligt lødigt i datalingvistiske kredse at tage udgangspunkt i sprogbrugen, hvilket det ikke havde været siden computerens absolutte barndom. Inden for sprogteknologien (anvendt datalingvistik) og natursprogsbehandlingen (Natural Language Processing) betød paradigmeskiftet at eksempelvis maskinoversættelsessystemer i højere grad begyndte at anvende automatisk genereret sprogbrugsstatistik end manuelt kodede regler og at ontologiopbygning inden for Kunstig Intelligens også gradvist ophørte med at foregå manuelt, men i højere grad blev afledt af store mængder sprogbrug. En målbar effekt af paradigmeskiftet var at værktøjerne blev mere robuste og resurserne fik en langt større dækningsgrad. 49

13 Efterhånden som mere og mere tekst digitaliseres og tilgængeliggøres på internettet, så er korpussernes størrelser vokset fra ca. 1 mio. løbende ord i 1960 erne (jf. Brown-korpusset) til 100 mio. ord i 1990 erne (jf. British National Corpus 17 og det danske Korpus ). Efter årtusindskiftet er man nu begyndt at anvende delmængder af hele internettet som en slags brug-og-smid-væk-korpusser (Kilgarriff 2003) og empirisk funderede fraseologer kan dermed boltre sig i ngram-data 19 fra Google baseret på tekstmateriale fra ikke mindre end 1 billion hjemmesider 20. Datarigeligheden kombineret med hurtigere computere har desuden medført at korpuslingvistiske studier ikke længere blot er korpusbaserede, men i stigende grad tilmed er korpusdrevne (Tognini- Bonelli 2001). Hvor det før var et spørgsmål om at efterprøve introspektivt funderede hypoteser empirisk, så tages der nu ofte direkte afsæt i automatiske analyser af store mængder data, og det er dermed computeren der præsenterer korpuslingvisten for en empirisk funderet hypotese som denne så introspektivt må tage stilling til. Et eksempel på en korpusdrevet sprogteknologisk applikation er Adam Kilgarriffs Sketch Engine (Kilgarriff et al. 2004) som automatisk kan danne en skitseagtig ordbogsartikel på basis af et lemma og et stort tekstkorpus. Et andet eksempel er Dansk Sprognævns Ordtrawler som evalueres i denne artikel. Korpuslingvistikkens succes har altså i høj grad været betinget af den digitale revolution som informationssamfundet har medført. Det kræver imidlertid store mængder data at beskrive sprogbrugsmønstre for indholdsord. Og så snart man inddrager fx registervarians i sin analyse (jf. Biber 1998) eller bevæger sig over ordniveau for at analysere kollokationer, fraseologi og semantik, så øges behovet for empiri i endnu højere grad takket være ngram-analysens kombinatoriske eksplosion. Hvis der fx er forskellige ordformer i et sprogs ordforråd, så kan der dannes mulige unigrammer 21, men , dvs. 250 mia., (teoretisk set) mulige bigrammer 22 (fx ispind drøm ) og så fremdeles. Selvom det naturligvis kun er en brøkdel af bigrammerne som rent faktisk vil være grammatisk mulige (fx gul drøm ) og kun en brøkdel af disse som i realiteten vil forekomme med nogen nævneværdig frekvens i et korpus (fx interessant drøm ), så illustrerer eksemplet at det kræver store mængder data 50 NYS 38

14 at kunne udtale sig om hvorvidt en nulforekomst af et givet ngram i et givet korpus betyder at konstruktionen er ugrammatisk eller blot mindre hyppig. Denne udfordring kaldes the data sparseness issue eller datautilstrækkelighedsproblemet og fører os videre til en kort bemærkning om Zipfs lov. George K. Zipf beskrev allerede i 1935 (Zipf 1935) det fænomen at halvdelen af alle types (typisk indholdsord) i et givet korpus kun forekommer én gang, mens ganske få, særdeles hyppige types (typisk funktionsord) udgør ca. halvdelen af de løbende ord i ethvert korpus. Denne lovmæssighed betyder som sagt at det kræver store mængder data at kunne drage lødige konklusioner om sproglige fænomener som vedrører det åbne ordforråd, kollokationer og især nydannelser. Da nye ord begynder deres tilværelse med frekvensen 1, er det altså altafgørende at statistiske excerperingsteknikker ikke undervurderer betydningen af sjældne begivenheder i korpusset. Det bør nævnes at Zipfs lov primært gælder almensprog, idet de såkaldte subsprog, fx fagsprog, typisk har et fattigere og i princippet endeligt ordforråd (jf. begrebet lexical closure i McEnery (1996: )). ordtrawlerens empiri: ubegrænset sproglig kreativitet I dette afsnit vil vi kort illustrere den grænseløse sproglige kreativitet og produktivitet som Ordtrawleren må forsøge at navigere i. Figur 2 nedenfor illustrerer hvordan Ordtrawleren måned for måned registrerer tusinder af ukendte ordformer i nyhedsartiklerne fra Infomedia. Det gør den også selvom man fjerner ca. 1,2 millioner allerede kendte ordformer fra et antal ordbøger og referencekorpusser og ser bort fra ikke-ord (der er tekststrenge med grafisk tegn som ikke er bogstaver; typisk URL er og -adresser) og proprier og tilmed anvender akkumulativ filtrering af alle hidtil observerede ordformer. 51

15 selvom man fjerner ca. 1,2 millioner allerede kendte ordformer fra et antal ordbøger og referencekorpusser og ser bort fra ikke-ord (der er tekststrenge med grafisk tegn som ikke er bogstaver; typisk URL er og -adresser) og proprier og tilmed anvender akkumulativ filtrering af alle hidtil observerede ordformer. FIGUR Figur 2. UBEGRÆNSET SPROGLIG 2. Ubegrænset sproglig KREATIVITET. kreativitet. : (okt aug. 2009) Selv efter 20 måneder observerer systemet stadig mellem fire og fem ukendte ordformer per 1000 Selv efter 20 måneder observerer systemet stadig mellem fire og løbende ord. En enkelt måneds data fra Infomedia (ca. 7 mio. løbende ord) bidrager således med fem ukendte ordformer per 1000 løbende ord. En enkelt måneds ikke mindre end nye ord. Citationstegnene tilkendegiver at en menneskelig excerpist data fra Infomedia (ca. 7 mio. løbende ord) bidrager således med naturligvis aldrig vil betragte mere end en brøkdel af disse tekststrenge som sproglige nydannelser ikke mindre end nye ord. Citationstegnene tilkendegiver at der kan indgå i en nyordsordbog, men for en maskine er det anderledes vanskeligt at skelne skidt fra kanel. en menneskelig Tallet kan virke overraskende, excerpist for naturligvis der er meget aldrig sjældent tale vil om betragte stave- eller mere slåfejl end i redigeret en brøkdel af disse tekststrenge som sproglige nydannelser der kan indgå i en nyordsordbog, men for en maskine er det anderledes vanskeligt at skelne skidt fra kanel. Tallet kan virke overraskende, for der er meget sjældent tale om stave- eller slåfejl i redigeret nyhedstekst, men læseren kan blot tænke på hvor mange sammensatte ord sprogbrugeren kan danne på basis af et enkelt mønster som tal-tal-(sejr/nederlag) (fx sejren). Anvendes de førnævnte nyhedsmarkeringer, så kan antallet af kandidater imidlertid reduceres fra ca per måned til ca. 150 per måned. Man risikerer dermed at udmærkede nydannelser ignoreres fordi de ikke ledsages af en nyhedsmarkering, så denne teknik kan altså ikke stå alene. Hvis det analyserede tekstmateriale imidlertid er omfattende nok, så vil de fleste nydannelser sandsynligvis kollokere med et nyordssignal før eller siden (og måske især inden nydannelsen for alvor etablerer sig). 52 NYS 38

16 nydannelser sandsynligvis kollokere med et nyordssignal før eller siden (og måske især inden nydannelsen for alvor etablerer sig). TO to EKSPERIMENTER eksperimenter I I de de følgende to afsnit to afsnit vil vi vil beskrive vi beskrive resultaterne resultaterne af to eksperimenter af to eksperimenter hvor Ordtrawleren har forsøgt at hvor fremfinde Ordtrawleren nyordskandidater har forsøgt i to forskellige at fremfinde tekstsamlinger. nyordskandidater De to eksperimenter i to har til formål at forskellige tekstsamlinger. De to eksperimenter har til formål at evaluere tre forskellige succeskriterier fra feltet Information Retrieval, nemlig recall, precision og evaluere tre forskellige succeskriterier fra feltet Information Retrieval, F-score. nemlig recall, precision og F-score. Mens recall og precision er defineret som følger, så udtrykker F-score balancen Mens recall og precision er defineret som følger, så udtrykker F-score mellem balancen de to mellem succeskriterier. de to succeskriterier. Antal _ relevante _ dokumenter Antal _ fremfundne_ dokumenter recall = Antal _ relevante _ dokumenter Antal _ relevante _ dokumenter Antal _ fremfundne_ dokumenter precision = Antal _ fremfundne_ dokumenter I I Information Retrieval er er informationsenhederne typisk repræsenteret typisk repræsenteret ved dokumenter, men i denne ved dokumenter, sammenhæng kan men dokumenter i denne sammenhæng i ovenstående formler kan dokumenter oversættes med sproglige i nydannelser. oven stående For formler at evaluere oversættes systemets med recall sproglige (dvs. genkaldelsesrate) nydannelser. er Systemets det nødvendigt (manuelt) at etablere recall (dvs. en såkaldt genkaldelsesrate) guldstandard (dvs. er således facitliste) givet som ved omfatter delmængden samtlige nydannelser mellem i materialet, mængden af fremfundne nyordskandidater og mængden af samtlige med andre ord alt hvad systemet burde fremfinde i teksterne hvis det var perfekt. Med relevante relevante nye ord i materialet sat i forhold til mængden af samtlige menes der således nydannelser som er en del af denne guldstandard. Precision bliver i dette relevante nye ord i materialet.for at evaluere systemets recall (dvs. genkaldelsesrate) eksperiment dermed er det udtryk nødvendigt for hvor (manuelt) stor en andel at af etablere alle maskinens en såkaldt fundne guldstandard kandidater (dvs. i guldstandarden, facitliste) som recall omfatter fortæller samtlige hvor mange nydannelser af guldstandardens i materialet, kandidater maskinen kandidater der svarer til finder med i andre materialet, ord alt og hvad F-score systemet er et vægtet burde gennemsnit fremfinde af de i to teksterne andre mål. hvis det var perfekt. Med relevante menes der således nydannelser som er en del af denne guldstandard. Precision bliver i dette eksperiment dermed et udtryk for hvor stor en andel af alle maskinens fundne kandidater der svarer til kandidater i guldstandarden, recall fortæller hvor mange af guldstandardens kandidater maskinen finder i materialet, og F-score er et vægtet gennemsnit af de to andre mål. Når man skal evaluere et systems recall, så må man vide præcis hvor mange relevante informationsenheder analysekorpusset indeholder. Manuel opmærkning er imidlertid meget tidskrævende, og derfor er det første eksperiments analysekorpus begrænset og består af et mindre 53

17 antal avisartikler som i alt udgør ca løbende ord. For at evaluere systemets precision (dvs. træfrate) er det imidlertid ikke nødvendigt at gennemgå hele analysekorpusset og opmærke samtlige nydannelser. Det er tilstrækkeligt at analysere den sorterede liste nyordskandidater systemet genererer. Empirien for det andet eksperiment er således et omfattende antal avisartikler som udgør knap 100 mio. løbende ord. 1. eksperiment: evaluering af recall og precision på mindre korpus Udgangsteksten er 177 korte avisartikler (ca løbende ord fra Jyllands-Posten i 2008) som en praktikant 23 ved Dansk Sprognævn manuelt har excerperet. Hun har opmærket nyordskandidater og sikret sig at disse ikke i forvejen var registreret i Sprognævnets ordbase. Nyordskandidaterne er vurderet i forhold til excerperingens mål, i dette tilfælde en nyordsbog. En seniorexcerpist har gennemgået de samme tekster, og det samlede resultat af excerperingen giver 252 ord som er guldstandarden. Formålet med denne guldstandard er at vurdere hvor stor en del af samtlige nydannelser i avisartiklerne Ordtrawleren formår at identificere. Af de 252 nyordskandidater er 33 nye ordforbindelser, fx gå kort, og 11 er ny betydning af et i forvejen eksisterende ord, fx retorik, og 208 ord er nye ord i form og indhold (fx klangmassage og straksdom). Ordtrawleren finder en del nye ord som også blev fundet i guldstandarden, men den finder også ord som i en resultatliste ville være støj. Det er bøjningsformer af ord, fx inuitterne (inuit står i Retskrivningsordbogen), fx fagsprog som vasopressin (medicinsk fagsprog), gamle ord som kan stå i Ordbog over det Danske Sprog, men ikke forekommer i andre ordbøger, fx fiskeplads og vurderingspris. Men den største gruppe af ord som giver støj, er banale sammensætninger som rejserådgivning, rejsevaccination, eller kometord som mælkeskandale. En støjkilde er at maskinen tager fragmenter af flerordsudtryk med som nyordskandidater, fx medtager den 24-års når det nye ord 24-årsregel bliver skrevet 24-års regel, altså uden bindestreg. Institutionsnavne som FEMA, ABX, BRC er også kilde til støj, langt de fleste skal ikke 54 NYS 38

18 med, men det er vanskeligt at opstille maskinregler for medtagelse og udelukkelse. Alt i alt er Ordtrawlerens største udfordring håndteringen af banale sammensætninger, fagsprog og institutionsnavne. I de følgende afsnit vil vi med tørre tal evaluere hvor godt/dårligt Ordtrawleren excerperer i forhold til den menneskelige guldstandard. I eksperimentet har Ordtrawleren anvendt tre forskellige teknikker, 15 og disse teknikker evalueres hver for sig. I de følgende afsnit vil vi med tørre tal evaluere hvor godt/dårligt Ordtrawleren excerperer i forhold til den menneskelige guldstandard. I eksperimentet har Ordtrawleren anvendt Første fremgangsmåde: primitiv filtrering Som tre forskellige tabel 3 teknikker, nedenfor og disse viser, teknikker så er evalueres én tilgang hver for til sig. maskinel excerpering at lade Ordtrawleren fjerne et større antal allerede kendte ordformer fra Første analysekorpusset. fremgangsmåde: De primitiv kendte filtrering ordformer kan stamme fra relevante ordbøger og korpusser, og i alt kan ca. 1,2 millioner ordformer elimineres på denne facon. For Den Danske Ordbog og Ordsamlingen var det imidlertid ikke muligt at generere samtlige bøjningsformer automatisk, og derfor det kun lemmaformerne fra disse kilder som tæller med i filter nr. 2 og 3. Det reelle antal ordformer for alle fem filtre er dermed væsentligt højere end angivet i tabellen. Som tabel 3 nedenfor viser, så er én tilgang til maskinel excerpering at lade Ordtrawleren fjerne et større antal allerede kendte ordformer fra analysekorpusset. De kendte ordformer kan stamme fra relevante ordbøger og korpusser, og i alt kan ca. 1,2 millioner ordformer elimineres på denne facon. For Den Danske Ordbog og Ordsamlingen var det imidlertid ikke muligt at generere samtlige bøjningsformer automatisk, og derfor det kun lemmaformerne fra disse kilder som tæller med i filter nr. 2 og 3. Det reelle antal ordformer for alle fem filtre er dermed væsentligt højere end angivet i tabellen. TABEL Tabel 3. MASKINEL FILTRERING AF ALLEREDE KENDTE ORDFORMER 3. Maskinel filtrering af allerede kendte ordformer Nr. Filter Antal Antal ordformer lemmaer 1 Retskrivningsordbogen I Den Danske Ordbog, men ikke i ? (lemmaer anvendes) 3 I Ordsamlingen (sep. 2008), men ikke i ? (lemmaer anvendes) 4 I Korpus 90, men ikke i 1-3? I Korpus 2000, men ikke i 1-4? I alt?

19 16 TABEL Tabel 4. MASKINEL KONTRA MANUEL EXCERPERING 4. Maskinel kontra manuel excerpering Antal succesrate genkaldelsesrate træfrate nyordskandidater Menneske % 100 % Maskine (inklusive proprier) ,22 69 % 13 % Maskine (eksklusive proprier) 589 0,31 60 % 21 % Maskine (inklusive proprier og uden ,20 84 % 12 % Korpus 2000 som filter) Maskine (eksklusive proprier og uden 878 0,28 73 % 17 % Korpus 2000 som filter) Tabel 4 viser hvordan maskinen maskinen klarer sig i klarer forhold til sig den i forhold menneskelige til excerpist den menneskelige (som vi antager excerpist er 100 % perfekt). (som De vi tre antager mål, precision, er 100 recall % og perfekt). F-score, stammer De som tre sagt mål, fra precision, forskningsfeltet recall og Information F-score, stammer Retrieval og kan som på dansk sagt benævnes fra forskningsfeltet som henholdsvis træfrate, Information genkaldelsesrate Retrieval og og succesrate, hvilket vi vil gøre i resten af denne artikel. kan på dansk benævnes som henholdsvis træfrate, genkaldelsesrate og Den bedste balance mellem træfrate og genkaldelsesrate opnås ved at anvende samtlige filtre succesrate, hvilket vi vil gøre i resten af denne artikel. og samtidig udelukke alle proprier i materialet (589 kandidater hvoraf 124, eller 21 %, er korrekte). Den bedste balance mellem træfrate og genkaldelsesrate opnås ved Det fremgår også at filtrering med alle ordformer i Korpus 2000 eliminerer en del gode kandidater at (dvs. anvende reducerer samtlige genkaldelsesraten), filtre og men samtidig samtidig har udelukke en vis støjreducerende alle proprier effekt. Selvom i materialet Korpus ( kandidater repræsenterer tekster hvoraf fra , 124, eller kan 21 det %, altså er sagtens korrekte). indeholde ord Det som fremgår stadig kan også at betragtes filtrering som med relativt alle nye i dag. ordformer i Korpus 2000 eliminerer en del gode kandidater (dvs. reducerer genkaldelsesraten), men samtidig har en vis støjreducerende Anden fremgangsmåde: effekt. statistisk Selvom sortering Korpus 2000 repræsenterer tekster fra En , lidt mere sofistikeret kan tilgang det er altså at beholde sagtens alle ordformer indeholde i analysekorpusset, ord som men stadig sortere dem kan betragtes statistisk ved som at sammenligne relativt nye hver ordforms i dag. hyppighed i analysekorpusset med dens hyppighed i et stort referencekorpus af ældre dato. Det resulterer i et statistisk mål 24 for hvor bemærkelsesværdigt over- eller underrepræsenteret hver ordform i analysekorpusset er i forhold til referencekorpusset. Anden fremgangsmåde: statistisk sortering Hypotesen at ordformer som bemærkelsesværdigt overrepræsenterede i analysekorpusset (i En lidt mere sofistikeret tilgang er at beholde alle ordformer i dette eksperiment: artiklerne fra Jyllandsposten) i forhold til referencekorpusset (Korpus 2000) er analysekorpusset, men sortere dem statistisk ved at sammenligne hver mulige nydannelser. ordforms hyppighed i analysekorpusset med dens hyppighed i et stort referencekorpus af ældre dato. Det resulterer i et statistisk mål 24 for hvor bemærkelsesværdigt over- eller underrepræsenteret hver ordform i analysekorpusset er i forhold til referencekorpusset. Hypotesen er at ordformer som er bemærkelsesværdigt overrepræsenterede i analysekorpusset (i dette eksperiment: artiklerne fra Jyllandsposten) i forhold til referencekorpusset (Korpus 2000) er mulige nydannelser. 56 NYS 38

20 17 FIGUR Figur 3. STATISTISK SORTERING AF 3. Statistisk sortering NYORDSKANDIDATER: af nyordskandidater: TRÆFRATEN. træfraten. 17 FIGUR 3. STATISTISK SORTERING AF NYORDSKANDIDATER: TRÆFRATEN. 0,3 0,25 0,2 0,3 0,15 0,25 0,1 0,2 0,05 0,15 0 0, , Figur 3 ovenfor afbilder den akkumulerede træfrate 25 som en funktion af nyordskandidatens rang (dvs. position på resultatlisten). Det fremgår at træfraten ved statistisk sortering på intet tidspunkt kommer over 30 % (0,3). Figur 3 ovenfor afbilder den akkumulerede træfrate 25 som en funktion af nyordskandidatens rang (dvs. position på resultatlisten). Det fremgår at træfraten ved statistisk sortering på intet tidspunkt kommer Figur over 3 ovenfor 30 % (0,3). afbilder den akkumulerede træfrate 25 som en funktion af nyordskandidatens rang (dvs. position på resultatlisten). Det fremgår at træfraten ved statistisk sortering på intet tidspunkt FIGUR 4. STATISTISK SORTERING AF NYORDSKANDIDATER: SUCCESRATEN. kommer over 30 % (0,3). Figur FIGUR STATISTISK Statistisk SORTERING sortering AF NYORDSKANDIDATER: af nyordskandidater: SUCCESRATEN. succesraten. 0,3 0,25 0,2 0,3 0,15 0,25 0,1 0,2 0,05 0,15 0 0, , Én ting er hvor meget støj der er på den liste nyordskandidater som Ordtrawleren frembringer, en anden ting er hvor stor en del af samtlige gode kandidater i materialet systemet kan finde. Balancen mellem Én ting de to er succeskriterier hvor meget støj er som der sagt er på succesraten, den liste nyordskandidater og figur 4 viser som at den Ordtrawleren bedste balance frembringer, opnås en anden ting er hvor stor en del af samtlige gode kandidater i materialet systemet kan finde. Balancen mellem de to succeskriterier er som sagt succesraten, og figur 4 viser at den bedste balance opnås Én ting er hvor meget støj der er på den liste nyordskandidater som Ordtrawleren frembringer, en anden ting er hvor stor en del af samtlige gode kandidater i materialet systemet kan finde. Balancen mellem de to succeskriterier er som sagt succesraten, og figur 4 viser at den bedste balance opnås ved at tage de øverste godt 500 nyordskandidater i betragtning. Dette tal passer meget godt med det antal kandidater der er tilbage efter primitiv filtrering hvor proprier udelukkes (se tabel 4). 57

21 Statistisk sortering har altså, i dette eksperiment, næsten samme effekt som primitiv filtrering, men samtidig den fordel at nye betydninger af eksisterende ordformer ikke udelukkes (og ved større tekstmængder vil statistisk sortering være den mest attraktive løsning). Tredje fremgangsmåde: Nyhedsmarkeringer i konteksten En åbenlys svaghed ved de to ovenstående fremgangsmåder er at de ser helt isoleret på de enkelte ordformer i teksten og ignorerer konteksten, selvom denne ofte kan indeholde vigtige tegn på at der er en sproglig nydannelse i farvandet. En meget simpel teknik er således at lede efter et antal konkrete nyhedsmarkeringer og excerpere de ord som optræder ved siden af disse signaler. Vi har forsøgsvis anvendt signalerne såkaldt, såkaldte og citationstegn og bedt maskinen excerpere ordet umiddelbart til højre for de to førstnævnte signaler samt ord der er forsynet med citationstegn. Det resulterede i en fangst på 15 kandidater hvoraf de 6 var korrekte nydannelser ifølge guldstandarden. Eksperimentet viser at nyhedsmarkeringer medfører en høj grad af træfsikkerhed, men en lav genkaldelsesrate (rigtigt mange udmærkede kandidater overses fordi nyhedsmarkeringer er relativt sjældne). Nyhedsmarkeringer kan altså ikke stå alene og kræver desuden store mængder tekst, men informationssamfundet er jo netop karakteriseret ved en eksponentielt stigende tekstproduktion. Konklusion Efter vanlig målestok i Information Retrieval er vores træfrate (og succesrate) skuffende lav, og den viser at opgaven (excerpering af nye ord til en nyordsordbog) er overordentlig svær for en maskine. Med ca. én fuldtræffer for hvert femte ord vil toppen af Ordtrawlerens kandidatliste dog trods alt være anvendelig og udgøre en tidsbesparelse for den menneskelige excerpist. Samtidig er filtrering via nyhedsmarkeringer en meget lovende teknik når der er tale om store mængder tekst, for så er det mindre afgørende at optimere genkaldelsesraten. Derfor slippes Ordtrawleren i det følgende eksperiment løs på millioner af løbende ord og anvender nyhedsmarkeringer som excerperingsteknik. 58 NYS 38

22 2. eksperiment: evaluering af træfrate på stort korpus Til forskel fra det første eksperiment evalueres her alene de af systemet fremfundne nyordskandidater. Der er altså ingen evaluering af hvad analysekorpusset ellers måtte indeholde af genuine nydannelser og dermed af hvor meget systemet overser (dvs. silence). Empirien er 96,7 mio. løbende ord fra kortere nyhedsartikler i 55 forskellige danske dagblade i perioden 9. oktober 2007 til 11. oktober Baseret på resultaterne af evalueringen af artiklens 1. eksperiment valgte vi at lade Ordtrawleren anvende en meget restrik tiv excerperingsteknik som kombinerede den primitive filtrering med nyhedsmarkeringer i konteksten. Med andre ord skal alle nyordskandidater være hidtil usete ordformer som kollokerer med mindst én nyhedsmarkering og forekommer mindst to gange i analysekorpusset. Denne teknik resulterede i 1784 nyordskandidater hvorfra der blev udtrukket de 200 mest frekvente og de 200 mindst frekvente kandidater. Den implicitte hypotese var at høj frekvens ville være en indikation på høj nyordsværdi, og med denne fremgangsmåde var det muligt at undersøge om frekvens kunne fungere som relevansparameter. Træfrate Artiklens to forfattere fungerede som evaluatorer i dette eksperiment, og ud af de 400 nyordskandidater blev 152 (af begge evaluatorer) evalueret som relevante nok til at indgå i Ordsamlingen og dermed på længere sigt sandsynligvis også i en nyordsordbog. En træfrate på knap 40% er væsentligt bedre end hvad Ordtrawleren kunne for må med primitiv filtrering og statistisk sortering i artiklens 1. ekspe ri ment, og svarer til resultatet af et lille piloteksperiment hvor kollokerende nyhedsmarkeringer identificerede 6 korrekte nydannelser ud af 15 kandidater i dette eksperiments analysekorpus (artiklerne fra Jyllandsposten). Piloteksperimentet indikerer imidlertid at denne høje træfrate naturligvis opnås på bekostning af en kraftigt reduceret (men ikke praktisk målbar) genkaldelsesrate. Som tidligere nævnt bør nyhedsmarkeringer derfor ikke stå alene, og man skal også være klar over at visse nyhedsmarkeringer (fx såkaldt(e) ) kun kan fremfinde visse konstruktioner (fx NP er). 59

23 Intersubjektiv analyse De to evaluatorer vurderede at henholdsvis 173 og 157 nyordskandidater var korrekte. Foreningsmængden udgjorde 180 kandidater og fællesmængden 152. Der var med andre ord enighed i 152 ud af 180 tilfælde, hvilket giver en enighedsgrad på 84,4 %. Evaluering af støj Tabel 5 viser de forskellige typer af støj der blev observeret i systemoutput samt fordelingen på de forskellige støjtyper. Den støj der behandles, er de 400 nyordskandidater fra 2. eksperiment fratrukket de 152 kandidater som blev evalueret som relevante. Hver kandidat kan sagtens repræsentere mere end én støjkategori. Fx kan der være tale om en fagsproglig term som samtidig er stavet forkert. Tabel 5. Ordtrawlerens støj. Støjtype Eksempel Antal Andel Bøjningsform Enhedslønomkostninger, 83 28,8 % undersøgelseskommissioner Banale sammensætninger og lejlighedsdannelser forskningskvalitet, forårsprognose, fodboldekspert, pizzabande, havnepulje 81 28,1 % Fagsprog FISH-metode, kapillærvirkning 44 15,3 % Stavefejl billediagnostiske, denial-of-service-angreb 25 8,7 % Filterfejl nummerportering, artmoney 14 4,9 % Kodeskift Surge, caucus, caviats, stâuerna 13 4,5 % Proprium JPMorgan, SEA-Games, TMM 12 4,2 % Gammel epidemihus, dyppelys 11 3,8 % NP-fragment ( ) 20-spørgsmål, hospitality (manager), parkér (og rejs) 5 1,7 % I alt NYS 38

24 Bøjningsformen som støjkategori fremkommer ved at Ordtrawleren registrerer som nyt ord en bøjningsform som i grundformen allerede er i Ordsamlingen. På baggrund af tallene i tabel 5 er det tydeligt at bøjede former af allerede kendte ord er den støjtype som volder Ordtrawleren de største problemer. Årsagen er naturligvis den manglende lemmatisering af ukendte ordformer (altså ordformer som ikke kan lemmatiseres automatisk ved hjælp af Retskrivningsordbogen 2001). De næstmest problematiske støjtyper er banale sammensætninger og lejlighedsdannelser. Disse to typer har det vist sig at være vanskelige at adskille, og de er også nogle gange vanskelige at skelne fra de nye, blivende ord. Klare lejlighedsdannelser er kommunedans, pizzabande, sponsorsag, 2015-mål, 2015-plan, mens flere af de ord som vi selv i evalueringen bedømte forskelligt, er vanskelige at afgøre endeligt. Det er ord som biomassebekendtgørelse, burmarubin, designmaleri, enkeltmandskontor, højhastighedsskinne. I en manuel excerpering ville man undersøge disse ord nærmere for at afgøre om de skal excerperes og senere med i en nyordsbog. Det vil først og fremmest være at undersøge ordets udbredelse i tid og genre, at undersøge deres betydning og leksikaliseringsgrad, og om de findes i de ordbøger som ikke indgår i Ordtrawlerens filtre, i andre tekstkorpusser og i leksikoner og specialordbøger. Disse ordtyper vil desværre være ganske vanskelige at reducere maskinelt. Selv med en automatisk opløsningsalgoritme for sammensatte konstruktioner, så er semantikken mellem de enkelte led ikke triviel at analysere. Her er det eneste håb sandsynligvis en diakron analyse som beskrevet i afsnittet om reduktion af støj nedenfor. At skelne fagsprog fra almensprog er i sig selv en vanskelig opgave (også for et menneske), men opgaven bliver særlig svær for en maskine, når der er tale om at skelne ekstremt sjældne almensproglige ord fra fagsproglige udtryk (som optræder sjældent i almensprog). Igen kan en diakron analyse måske være en hjælp her. Stavefejl registreres som en nyhed, men er det naturligvis ikke. De fleste, ja hele 65 % af fejlene er fejl i brugen af bindestreg, fx exit-poll, denial-of-service-angreb, nul-tolerence-politik, nul-tolerancepolitik. Filterfejl er fejl i Ordtrawleren som burde have filtreret ordet fra fordi det findes fx i Ordsamlingen eller i et af de andre filtre, men det 61

25 er altså ikke sket. Det skal undersøges nærmere hvorfor, og selvfølgelig rettes i næste version af Ordtrawleren. Ordtrawleren finder sommetider ord som er gamle. Det kan være ord opført i ældre referenceværker som ikke indgår i systemets filtre. Ordet dyppelys står således i Ordbog over det Danske Sprog, og godt nok om lys, men her er det karakteriseret som forældet eller dialekt. Ordet er således et eksempel på at Ordtrawleren finder et gammelt ord i ny brug. Ordet hjælpearbejde er med i Ordbog over det Dansk Sprogs Supplement, bind 4. Ordtrawleren har i nogle tilfælde kun genkendt en del af en længere frase, fx 20-spørgsmål svarende til paragraf 20-spørgsmål. Det skyldes at retskrivningsnormen foreskriver at denne slags gruppesammensætninger skal skrives med kun én bindestreg, og at der mangler syntaktisk analyse i systemet. pingvinord Under redaktionen af Dansk Sprognævns Retskrivningsordbog, 1986, fremlagde en af redaktørerne sin prøveredaktion af bogstavet P og ordet pingvin manglede. Siden blev pingvinord betegnelsen for helt almindelige ord som af uransagelige årsager overses af mennesket af excerpisten, redaktøren osv. Pingvinordene er ikke helt ualmindelige, og det kan hænge sammen med at man fokuserer på ét ord og overser det der står lige ved siden af. Persillesovs, som næsten må siges at høre til dansk kulturarv, er først opdaget manglende i Retskrivningsordbogen i forbindelse med arbejdet med den kommende udgave 26. Ordet næsehjul støttehjul til campingvogn, fly o.l. findes af Ordtrawleren, og her har vi at gøre med et pingvinord; næsehjul er ikke med i Ordbog over det Danske Sprog, Den Danske Ordbog, Retskrivningsordbogen eller Nudansk Ordbog. Og det er heller ikke nyt. I John Foltmann: Flyveordbogen, 1945 er ordet næsehjul med i denne betydning: forreste understelshjul. Med hensyn til pingvinord giver Ordtrawleren overraskende og meget nyttig information. Som human excerpist kan man undre sig over at disse ord er overset: billigcigaret, F1-lån, forsvarsforbehold, klubånd, talentkonkurrence. 62 NYS 38

Gode råd om læsning i 3. klasse på Løjtegårdsskolen

Gode råd om læsning i 3. klasse på Løjtegårdsskolen Gode råd om læsning i 3. klasse på Løjtegårdsskolen Udarbejdet af læsevejlederne september 2014. Kære forælder. Dit barn er på nuværende tidspunkt sikkert rigtig dygtig til at læse. De første skoleår er

Læs mere

Forskel på Infomedia og Copydan Tekst & Node?

Forskel på Infomedia og Copydan Tekst & Node? Forskel på Infomedia og Copydan Tekst & Node? 2 3 Ja, der er forskel på Infomedia og Copydan Tekst & Node Vi tilbyder begge adgang til tekster, og derfor kan det nogle gange være svært at gennemskue, hvem

Læs mere

Arbejdsmiljøgruppens problemløsning

Arbejdsmiljøgruppens problemløsning Arbejdsmiljøgruppens problemløsning En systematisk fremgangsmåde for en arbejdsmiljøgruppe til løsning af arbejdsmiljøproblemer Indledning Fase 1. Problemformulering Fase 2. Konsekvenser af problemet Fase

Læs mere

Udsatte børn og unge Samfundets udgifter til anbragte børn

Udsatte børn og unge Samfundets udgifter til anbragte børn NOTAT Udsatte børn og unge Samfundets udgifter til anbragte børn Udarbejdet af LOS, januar 2010 Samfundets udgifter til gruppen af udsatte børn og unge har i stigende grad været i fokus gennem de seneste.

Læs mere

Vejledning til AT-eksamen 2016

Vejledning til AT-eksamen 2016 Sorø Akademis Skole Vejledning til AT-eksamen 2016 Undervisningsministeriets læreplan og vejledning i Almen Studieforberedelse kan findes her: http://www.uvm.dk/uddannelser/gymnasiale-uddannelser/fag-og-laereplaner/fagpaa-stx/almen-studieforberedelse-stx

Læs mere

Sprog i Norden Titel: Forfatter: Kilde: URL: Nordisk sprogmøde den 24. august 2000 i Katuaq Jonathan Motzfeldt Sprog i Norden, 2001, s. 5-7 http://ojs.statsbiblioteket.dk/index.php/sin/issue/archive Nordisk

Læs mere

Skolers arbejde med at forberede elever til ungdomsuddannelse

Skolers arbejde med at forberede elever til ungdomsuddannelse Skolers arbejde med at forberede elever til ungdomsuddannelse Denne rapport belyser, hvordan folkeskoler, og i særlig grad udskolingslærere, arbejder med at forberede deres elever til at påbegynde en ungdomsuddannelse.

Læs mere

Notat om håndtering af aktualitet i matrikulære sager

Notat om håndtering af aktualitet i matrikulære sager Notat om håndtering af aktualitet i matrikulære sager Ajourføring - Ejendomme J.nr. Ref. lahni/pbp/jl/ruhch Den 7. marts 2013 Introduktion til notatet... 1 Begrebsafklaring... 1 Hvorfor er det aktuelt

Læs mere

Fredagseffekt en analyse af udskrivningstidspunktets betydning for patientens genindlæggelse

Fredagseffekt en analyse af udskrivningstidspunktets betydning for patientens genindlæggelse Fredagseffekt en analyse af ets betydning for patientens genindlæggelse Formålet med analysen er at undersøge, hvorvidt der er en tendens til, at sygehusene systematisk udskriver patienterne op til en

Læs mere

Læsevejledning til resultater på regionsplan

Læsevejledning til resultater på regionsplan Læsevejledning til resultater på regionsplan Indhold 1. Overblik... 2 2. Sammenligninger... 2 3. Hvad viser figuren?... 3 4. Hvad viser tabellerne?... 5 5. Eksempler på typiske spørgsmål til tabellerne...

Læs mere

VIDEREGÅENDE UDDANNELSER

VIDEREGÅENDE UDDANNELSER 9. august 2004 Af Søren Jakobsen VIDEREGÅENDE UDDANNELSER Tilskuddet til de videregående er i gennemsnit faldet 0,6 procent eller 400 kr. pr. studenterårsværk fra 2001 til 2004. Dette dækker dog over store

Læs mere

Konsekvenser af direkte adgang til fysioterapeut

Konsekvenser af direkte adgang til fysioterapeut N O T A T Konsekvenser af direkte adgang til fysioterapeut Direkte adgang til fysioterapi uden en henvisning fra patientens praktiserende læge kræver en ændring i både overenskomsten med Danske Fysioterapeuter

Læs mere

LexicoNordica Titel: Halvautomatisk udvælgelse af lemmakandidater til en nyordsordbog Forfatter: Jakob Halskov Kilde: URL: LexicoNordica 17, 2010, s.73-97 http://ojs.statsbiblioteket.dk/index.php/lexn/issue/archive

Læs mere

Netbaseret Akademiuddannelse

Netbaseret Akademiuddannelse Netbaseret Akademiuddannelse VEJLEDNING I PROJEKTARBEJDE Forord For at kunne indstille sig til eksamen i de enkelte fagmoduler på 1. del og det obligatoriske fagmodul på 2. del på Akademiuddannelsen skal

Læs mere

Læsning og skrivning i 3. og 4. klasse

Læsning og skrivning i 3. og 4. klasse Læsning og skrivning i 3. og 4. klasse Center for Skoler og Dagtilbud FAKTA Læse- og skriveudvikling De fleste børn kan i starten af 3. kl. læse og forstå lette aldersvarende tekster, dvs. tekster, hvor

Læs mere

Psykisk arbejdsmiljø og stress blandt medlemmerne af FOA

Psykisk arbejdsmiljø og stress blandt medlemmerne af FOA Psykisk arbejdsmiljø og stress blandt medlemmerne af FOA November 2006 2 Medlemsundersøgelse om psykisk arbejdsmiljø og stress FOA Fag og Arbejde har i perioden 1.-6. november 2006 gennemført en medlemsundersøgelse

Læs mere

rørende Kulturstyrelsens afgørelse om manglende tildeling af biblioteksafgift to titler

rørende Kulturstyrelsens afgørelse om manglende tildeling af biblioteksafgift to titler Biblioteksafgiftsnævnet Sekretariatet: Kulturministeriet Nybrogade 2 1203 København K Tlf : 33 92 33 70 Fax : 33 91 33 88 E-mail : kum@kum.dk Web : www.kum.dk 1. maj 2013 Biblioteksafgiftsnævnets afgørelse

Læs mere

Sæt ord pa sproget. Indhold. Mål. November 2012

Sæt ord pa sproget. Indhold. Mål. November 2012 Sæt ord pa sproget November 2012 Indhold Mål... 1 Baggrund... 1 Projektets mål... 1 Sammenhæng... 2 1 Beskrivelse af elevernes potentialer og barrierer... 2 2 Beskrivelse af basisviden og hverdagssprog...

Læs mere

Det siger FOAs medlemmer om det psykiske arbejdsmiljø, stress, alenearbejde, mobning og vold. FOA Kampagne og Analyse April 2012

Det siger FOAs medlemmer om det psykiske arbejdsmiljø, stress, alenearbejde, mobning og vold. FOA Kampagne og Analyse April 2012 Det siger FOAs medlemmer om det psykiske arbejdsmiljø, stress, alenearbejde, mobning og vold FOA Kampagne og Analyse April 2012 Indhold Resumé... 3 Psykisk arbejdsmiljø... 5 Forholdet til kollegerne...

Læs mere

Variabel- sammenhænge

Variabel- sammenhænge Variabel- sammenhænge Udgave 2 2009 Karsten Juul Dette hæfte kan bruges som start på undervisningen i variabelsammenhænge for stx og hf. Hæftet er en introduktion til at kunne behandle to sammenhængende

Læs mere

Reagér på bivirkninger

Reagér på bivirkninger Reagér på bivirkninger - Og hjælp med at gøre medicin mere sikker for alle Vejledning til PowerPoint-præsentation om bivirkninger 2 Indhold 1. Indledning 2. Introduktion til slides 3. Opfølgning på undervisning

Læs mere

Vejledning til skriftlig prøve i biologi

Vejledning til skriftlig prøve i biologi Vejledning til skriftlig prøve i biologi Styrelsen for Undervisning og Kvalitet Januar 2016 1 Indholdsfortegnelse Indledning... 3 Mål og krav... 4 Indhold... 5 Hjælpemidler... 5 Opgavetyper... 6 Vurdering

Læs mere

2013-7. Vejledning om mulighederne for genoptagelse efter såvel lovbestemte som ulovbestemte regler. 10. april 2013

2013-7. Vejledning om mulighederne for genoptagelse efter såvel lovbestemte som ulovbestemte regler. 10. april 2013 2013-7 Vejledning om mulighederne for genoptagelse efter såvel lovbestemte som ulovbestemte regler Ombudsmanden rejste af egen drift en sag om arbejdsskademyndighedernes vejledning om mulighederne for

Læs mere

UNDERSØGELSE AF ELETRONISKE SERVICEYDELSER HOS DANSKE FAGFORENINGER. En sammenfattende rapport

UNDERSØGELSE AF ELETRONISKE SERVICEYDELSER HOS DANSKE FAGFORENINGER. En sammenfattende rapport UNDERSØGELSE AF ELETRONISKE SERVICEYDELSER HOS DANSKE FAGFORENINGER En sammenfattende rapport Indholdsfortegnelse Introduktion... 2 Undersøgelsen... 3 Undersøgelsens konklusion... 4 Oprettelse af henvendelser...

Læs mere

Team Succes Vestre Engvej 10, 1. Sal, Vejle 7100 E-mail: info@team-succe.dk Tlf. Nr.: 75 73 22 99

Team Succes Vestre Engvej 10, 1. Sal, Vejle 7100 E-mail: info@team-succe.dk Tlf. Nr.: 75 73 22 99 Team Succes Vestre Engvej, 1. Sal, Vejle E-mail: info@team-succe.dk Tlf. Nr.: 5 3 99 Udarbejdet af foreningen Team Succes daglige ledelse Statusrapport for årgang /11 Denne statusrapport er udarbejdet

Læs mere

Klare tal om effektiviteten i vandsektoren Partner Martin H. Thelle 22. januar 2014

Klare tal om effektiviteten i vandsektoren Partner Martin H. Thelle 22. januar 2014 Klare tal om effektiviteten i vandsektoren Partner Martin H. Thelle 22. januar 2014 Den 30. september 2013 offentliggjorde Foreningen af Vandværker i Danmark (FVD) rapporten Forbrugerejede vandværker og

Læs mere

EKSEMPEL PÅ INTERVIEWGUIDE

EKSEMPEL PÅ INTERVIEWGUIDE EKSEMPEL PÅ INTERVIEWGUIDE Briefing Vi er to specialestuderende fra Institut for Statskundskab, og først vil vi gerne sige tusind tak fordi du har taget dig tid til at deltage i interviewet! Indledningsvis

Læs mere

Gentofte Kommune. Brugertilfredshedsundersøgelse. (Forældre) Delrapport for Maglegårdsskolen. Januar 2007. NIRAS Konsulenterne A/S

Gentofte Kommune. Brugertilfredshedsundersøgelse. (Forældre) Delrapport for Maglegårdsskolen. Januar 2007. NIRAS Konsulenterne A/S Gentofte Kommune Brugertilfredshedsundersøgelse (Forældre) Delrapport for Maglegårdsskolen Januar 2007 NIRAS Konsulenterne A/S 1. Indledning Skole og Fritid i Gentofte Kommune har bedt NIRAS Konsulenterne

Læs mere

Wikipedia. Gratis encyklopædi på dansk (og andre sprog) Version: August 2012

Wikipedia. Gratis encyklopædi på dansk (og andre sprog) Version: August 2012 Wikipedia Gratis encyklopædi på dansk (og andre sprog) Version: August 2012 Indholdsfortegnelse Hvad er Wikipedia?...4 Find Wikipedia på nettet...4 Omfanget af encyklopædien...4 At arbejde med Wikipedia...5

Læs mere

Gratis E-kursus. Få succes med din online markedsføring - Online markedsføring alle kan være til

Gratis E-kursus. Få succes med din online markedsføring - Online markedsføring alle kan være til Gratis E-kursus Få succes med din online markedsføring - Online markedsføring alle kan være til Bloggens styrke Indledning 3 Hvad er en blog? 5 Hvorfor blogge? 7 Sådan kommer du i gang 9 Få succes med

Læs mere

BILAG A SPØRGESKEMA. I denne At-vejledning præsenteres et kort spørgeskema med i alt 44 spørgsmål fordelt på otte skalaer.

BILAG A SPØRGESKEMA. I denne At-vejledning præsenteres et kort spørgeskema med i alt 44 spørgsmål fordelt på otte skalaer. 16 BILAG A SPØRGESKEMA I denne At-vejledning præsenteres et kort spørgeskema med i alt 44 spørgsmål fordelt på otte skalaer. Skalaernes spørgsmål indgår i et større spørgeskema, der omfatter i alt 26 skalaer

Læs mere

Ministeren bedes redegøre for, om ministeren

Ministeren bedes redegøre for, om ministeren Trafikudvalget 2010-11 L 173 Bilag 11 Offentligt Samrådstale til et kommende lukket samråd om forslag til lov om ændring af lov om taxikørsel m.v. (Tilladelser til offentlig servicetrafik og krav til beklædning

Læs mere

Flemming Jensen. Parforhold

Flemming Jensen. Parforhold Flemming Jensen Parforhold Papyrus Publishing Art direction: Louise Bech Illustatorer: Lea Maria Lucas Wierød Louise Bech Forskningsleder: Flemming Jensen Faglige konsulenter: Gitte S. Nielsen Lene V.

Læs mere

Kursusmappe. HippHopp. Uge 29: Nørd. Vejledning til HippHopp guider HIPPY. Baseret på førskoleprogrammet HippHopp Uge 29 Nørd side 1

Kursusmappe. HippHopp. Uge 29: Nørd. Vejledning til HippHopp guider HIPPY. Baseret på førskoleprogrammet HippHopp Uge 29 Nørd side 1 Uge 29: Nørd Vejledning til HippHopp guider Kursusmappe Baseret på førskoleprogrammet HippHopp Uge 29 Nørd side 1 HIPPY HippHopp uge_29_guidevejl_nørd.indd 1 06/07/10 10.42 Denne vejledning er et supplement

Læs mere

APV og trivsel 2015. APV og trivsel 2015 1

APV og trivsel 2015. APV og trivsel 2015 1 APV og trivsel 2015 APV og trivsel 2015 1 APV og trivsel 2015 I efteråret 2015 skal alle arbejdspladser i Frederiksberg Kommune udarbejde en ny grundlæggende APV og gennemføre en trivselsundersøgelse.

Læs mere

Medlemsundersøgelse 2007

Medlemsundersøgelse 2007 Medlemsundersøgelse 2007 Skole og Samfund, august 2007 1 Skole og Samfunds medlemsundersøgelse 2007 Afsluttet d. 14. august 2007. Indholdsfortegnelse 1. Sammenfatning...3 2. Baggrund...5 3. Metode...5

Læs mere

Hvad lærer børn når de fortæller?

Hvad lærer børn når de fortæller? Liv Gjems Hvad lærer børn når de fortæller? Børns læreprocesser gennem narrativ praksis Oversat af Ea Tryggvason Bay Indhold Dansk introduktion af Ole Løw 5 Forord 7 Kapitel 1 Indledning 9 Børns læring

Læs mere

Aktindsigt Relevante lovregler

Aktindsigt Relevante lovregler Aktindsigt Aktindsigt er i Patientskadeankenævnet relevant i to situationer. Problemstillingen er først og fremmest relevant, når der fremsættes anmodning om aktindsigt i sager, der verserer eller har

Læs mere

LUP læsevejledning til regionsrapporter

LUP læsevejledning til regionsrapporter Indhold 1. Overblik... 2 2. Sammenligninger... 2 3. Hvad viser figuren?... 3 4. Hvad viser tabellerne?... 5 5. Eksempler på typiske spørgsmål til tabellerne... 6 Øvrigt materiale Baggrund og metode for

Læs mere

Tal, funktioner og grænseværdi

Tal, funktioner og grænseværdi Tal, funktioner og grænseværdi Skriv færdig-eksempler der kan udgøre en væsentlig del af et forløb der skal give indsigt vedrørende begrebet grænseværdi og nogle nødvendige forudsætninger om tal og funktioner

Læs mere

Inklusion i Rebild Kommune de ansattes besvarelser

Inklusion i Rebild Kommune de ansattes besvarelser Inklusion i Rebild Kommune de ansattes besvarelser Nærværende rapport er en udarbejdelse af statistisk materiale, der er dannet på baggrund af spørgeskemaer vedr. inklusion, besvaret af ledere, lærere

Læs mere

Undersøgelse om frivilligt socialt arbejde

Undersøgelse om frivilligt socialt arbejde FOA Kampagne & Analyse Oktober 2009 Undersøgelse om frivilligt socialt arbejde Denne undersøgelse er gennemført blandt FOA-medlemmer tilmeldt forbundets elektroniske medlemspanel, MedlemsPulsen, i perioden

Læs mere

Bilag 14: Transskribering af interview med Anna. Interview foretaget d. 20. marts 2014.

Bilag 14: Transskribering af interview med Anna. Interview foretaget d. 20. marts 2014. Bilag 14: Transskribering af interview med Anna. Interview foretaget d. 20. marts 2014. Anna er 14 år, går på Virupskolen i Hjortshøj, og bor i Hjortshøj. Intervieweren i dette interview er angivet med

Læs mere

Københavns åbne Gymnasium

Københavns åbne Gymnasium Københavns åbne Gymnasium Information om eksamen i Almen Studieforberedelse AT 2015 Redaktion Nina Jensen Vigtige datoer: 26. januar udmelder Undervisningsministeriet emnet og det såkaldte ressourcerum,

Læs mere

Det siger FOAs medlemmer om ytringsfrihed og kritisable forhold på arbejdspladsen

Det siger FOAs medlemmer om ytringsfrihed og kritisable forhold på arbejdspladsen FOA Kampagne og Analyse Marts 2013 Det siger FOAs medlemmer om ytringsfrihed og kritisable forhold på arbejdspladsen FOA har i perioden fra 5. - 14. februar 2013 gennemført en undersøgelse gennem forbundets

Læs mere

Fransk fortsættersprog B stx, juni 2010

Fransk fortsættersprog B stx, juni 2010 Fransk fortsættersprog B stx, juni 2010 1. Identitet og formål 1.1. Identitet Fransk er et færdighedsfag, et vidensfag og et kulturfag. Fagets centrale arbejdsområde er det franske sprog, dels som alment

Læs mere

Kanalstrategi en strategi for henvendelseskanaler til og fra kommunen [Udkast] Juni 2013. Natur og Udvikling

Kanalstrategi en strategi for henvendelseskanaler til og fra kommunen [Udkast] Juni 2013. Natur og Udvikling Kanalstrategi en strategi for henvendelseskanaler til og fra kommunen [Udkast] Juni 2013 Natur og Udvikling Kanalstrategi Hvert år håndterer Halsnæs Kommune rigtig mange henvendelser til og fra borgere

Læs mere

Trivsel og fravær i folkeskolen

Trivsel og fravær i folkeskolen Trivsel og fravær i folkeskolen Sammenfatning De årlige trivselsmålinger i folkeskolen måler elevernes trivsel på fire forskellige områder: faglig trivsel, social trivsel, støtte og inspiration og ro og

Læs mere

Når mor eller far er ulykkesskadet. når mor eller far er ulykkesskadet

Når mor eller far er ulykkesskadet. når mor eller far er ulykkesskadet Når mor eller far er ulykkesskadet når mor eller far er ulykkesskadet 2 Til mor og far Denne brochure er til børn mellem 6 og 10 år, som har en forælder, der er ulykkesskadet. Kan dit barn læse, kan det

Læs mere

Helbred og sygefravær

Helbred og sygefravær 8. juli 2016 Helbred og sygefravær Langt størstedelen af FOAs medlemmer vurderer, at deres helbred er godt eller nogenlunde godt. Til gengæld forventer hvert femte medlem ikke at kunne arbejde, til de

Læs mere

Der er i de senere år kommet mere opmærksomhed på barnets sprogudvikling. Sprogudviklingen har indflydelse på barnets kommunikation med andre og

Der er i de senere år kommet mere opmærksomhed på barnets sprogudvikling. Sprogudviklingen har indflydelse på barnets kommunikation med andre og Der er i de senere år kommet mere opmærksomhed på barnets sprogudvikling. Sprogudviklingen har indflydelse på barnets kommunikation med andre og senere barnets læse-og skrivefærdigheder. Faktorer der

Læs mere

Censorvejledning engelsk B, hf Maj 2014. Fagkonsulent hanne.kaer.pedersen@uvm.dk 25324494

Censorvejledning engelsk B, hf Maj 2014. Fagkonsulent hanne.kaer.pedersen@uvm.dk 25324494 Censorvejledning engelsk B, hf Maj 2014 Fagkonsulent hanne.kaer.pedersen@uvm.dk 25324494 Indholdsfortegnelse Censorvejledning engelsk B, hf... 1 Maj 2014... 1 Opgavesættet... 1 Bedømmelsen... 1 Opgaveinstruksens

Læs mere

Vejledning til skriftlig prøve i fysik/kemi

Vejledning til skriftlig prøve i fysik/kemi Vejledning til skriftlig prøve i fysik/kemi Styrelsen for Undervisning og Kvalitet Januar 2016 1 Indhold Indledning... 3 Mål og krav... 4 Indhold... 5 Hjælpemidler... 5 Opgavetyper... 6 Eksempler på opgaver...

Læs mere

VEJLEDNING SPAMFILTERET. 1. Udgave, august 2015 Tilpasset FirstClass version 12.1, Dansk

VEJLEDNING SPAMFILTERET. 1. Udgave, august 2015 Tilpasset FirstClass version 12.1, Dansk VEJLEDNING SPAMFILTERET 1. Udgave, august 2015 Tilpasset FirstClass version 12.1, Dansk Udarbejdet af: Styrelsen for IT og Læring Vester Voldgade 123, 1552 København V Indholdsfortegnelse Vejledning -

Læs mere

Opgaveproduktion og kvalitetssikring af opgaver til de nationale test

Opgaveproduktion og kvalitetssikring af opgaver til de nationale test Afdeling for Almen Uddannelse og Tilsyn Frederiksholms Kanal 26 1220 København K Tlf. 3392 5000 Fax 3392 5567 E-mail stuk@stukuvm.dk www.stukuvm.dk CVR nr. 29634750 Opgaveproduktion og kvalitetssikring

Læs mere

It-støttet excerpering og registrering af nye ord og ordforbindelser

It-støttet excerpering og registrering af nye ord og ordforbindelser It-støttet excerpering og registrering af nye ord og ordforbindelser Møde i Selskab for Nordisk Filologi 30. oktober 2008 Jakob Halskov Projektforsker, ph.d. Dansk Sprognævn jhalskov@dsn.dk Disposition

Læs mere

L29 - Forslag til Lov om ændring af ligningsloven (Skattekreditter for forsknings- og udviklingsaktiviteter) H143-11

L29 - Forslag til Lov om ændring af ligningsloven (Skattekreditter for forsknings- og udviklingsaktiviteter) H143-11 Skatteministeriet Nicolai Eigtveds Gade 28 1402 København K E-mail: js@skat.dk 24. november 2011 mbl (X:\Faglig\HORSVAR\2011\H143-11.doc) L29 - Forslag til Lov om ændring af ligningsloven (Skattekreditter

Læs mere

Ved aktivt medborgerskab kan vi gøre Silkeborg Kommune til en attraktiv kommune med plads til alle. Silkeborg Kommunes Socialpolitik

Ved aktivt medborgerskab kan vi gøre Silkeborg Kommune til en attraktiv kommune med plads til alle. Silkeborg Kommunes Socialpolitik Ved aktivt medborgerskab kan vi gøre Silkeborg Kommune til en attraktiv kommune med plads til alle. Silkeborg Kommunes Socialpolitik 1 Indhold Socialpolitikken og Socialudvalgets MVV... 3 Politikkens fokusområder...

Læs mere

Advarsel til kommunerne Pas på det administrative underskud

Advarsel til kommunerne Pas på det administrative underskud Advarsel til kommunerne Pas på det administrative underskud 1 Hvad er et administrativt underskud? 2 Hvorfor vokser underskuddet? 3 Hvem betaler prisen? 4 Hvad kan der gøres i kommunen? 1 Hvad er et administrativt

Læs mere

Forbuddet mod ansættelse omfatter dog ikke alle stillinger. Revisor er alene begrænset fra at:

Forbuddet mod ansættelse omfatter dog ikke alle stillinger. Revisor er alene begrænset fra at: Krav om cooling off-periode for alle (også SMV) revisorer inden ansættelse i tidligere reviderede virksomheder Det nye ændringsdirektiv om lovpligtig revision af årsregnskaber og konsoliderede regnskaber

Læs mere

Efterlevelse af Komitéens anbefalinger for god selskabsledelse 2010

Efterlevelse af Komitéens anbefalinger for god selskabsledelse 2010 Efterlevelse af Komitéens anbefalinger for god selskabsledelse 2010 Komitéen har i samarbejde med NASDAQ OMX Copenhagen A/S i foråret 2011 gennemført en undersøgelse af oplysninger om corporate governance

Læs mere

UDBUDS- GUIDEN VEJLEDNING TIL OFFENTLIGE INDKØBERE VED INDKØB AF KOMMUNIKATIONSYDELSER. udbud2.indd 1 16-12-2008 15:16:10

UDBUDS- GUIDEN VEJLEDNING TIL OFFENTLIGE INDKØBERE VED INDKØB AF KOMMUNIKATIONSYDELSER. udbud2.indd 1 16-12-2008 15:16:10 UDBUDS- GUIDEN VEJLEDNING TIL OFFENTLIGE INDKØBERE VED INDKØB AF KOMMUNIKATIONSYDELSER udbud2.indd 1 16-12-2008 15:16:10 INDLEDNING OG BAGGRUND FOR VEJLEDNINGEN Som offentlig indkøber er det en svær og

Læs mere

Hvordan ligger verdenshjørnerne i forhold til den måde, du ønsker huset placeret?

Hvordan ligger verdenshjørnerne i forhold til den måde, du ønsker huset placeret? 20 Vi bygger hus Trin 3: Find grunden Trin 3: Find grunden I dette kapitel ser vi nærmere på overvejelserne omkring køb af selve grunden til byggeriet. Her skal du blandt andet sikre dig, at drømmehuset

Læs mere

Lokal bedømmelsesplan for naturfag niveau F til C

Lokal bedømmelsesplan for naturfag niveau F til C Lokal bedømmelsesplan for naturfag niveau F til C Den lokale bedømmelsesplan for naturfag niveau F til C tager udgangspunkt i de bindende og vejledende tekster fra Undervisningsministeriet, skolens overordnede

Læs mere

Bilag 1 3 til. 5.3 Sikkerhedsorganisationens værktøj til læring af ulykker

Bilag 1 3 til. 5.3 Sikkerhedsorganisationens værktøj til læring af ulykker Bilag 1 3 til 5.3 Sikkerhedsorganisationens værktøj til læring af ulykker 1 Bilag 1: Definition af Arbejdsskadebegrebet Arbejdsulykker og arbejdsbetingede lidelser er forskellige former for Arbejdsskader.

Læs mere

L: Præsenterer og spørger om han har nogle spørgsmål inden de går i gang. Det har han ikke.

L: Præsenterer og spørger om han har nogle spørgsmål inden de går i gang. Det har han ikke. Bilag 4 Transskription af Per Interviewere: Louise og Katariina L: Louise K: Katariina L: Præsenterer og spørger om han har nogle spørgsmål inden de går i gang. Det har han ikke. L: Vi vil gerne høre lidt

Læs mere

SKOLESTART For at barnet kan få en god og lærerig skolestart, og opleve tryghed og

SKOLESTART For at barnet kan få en god og lærerig skolestart, og opleve tryghed og TORSTORP SKOLE SKOLESTART 2 For at barnet kan få en god og lærerig skolestart, og opleve tryghed og fortrolighed med at gå i skole, er det vigtigt at vide, hvad barnet har brug for af færdigheder og forudsætninger

Læs mere

Brøkregning. Navn: Klasse: Matematik Opgave Kompendium. Opgaver: 24 Ekstra: 5 Point:

Brøkregning. Navn: Klasse: Matematik Opgave Kompendium. Opgaver: 24 Ekstra: 5 Point: Navn: Klasse: Matematik Opgave Kompendium Brøkregning Følgende gennemgås: Brøk typer Forlængning Forkortning Addition Subtraktion Blandede tal Multiplikation Division Heltal & Brøk Brøk & decimal & Procent

Læs mere

Fra Fælles Mål til læringsmål for forløbet:

Fra Fælles Mål til læringsmål for forløbet: Mein Sport Af Christian Falkesgaard Brendholdt Kompetencenområder: Mundtlig kommunikation og skriftlig kommunikation Færdigheds-vidensområder: Lytning (trin 1, fase 3) Læsning (trin 1, fase 3) Tekster

Læs mere

Beskæftigelsesministerens tale på samrådet den 10. februar 2016 om Arbejdsskadestyrelsens sagsbehandlingstider

Beskæftigelsesministerens tale på samrådet den 10. februar 2016 om Arbejdsskadestyrelsens sagsbehandlingstider Beskæftigelsesudvalget 2015-16 BEU Alm.del endeligt svar på spørgsmål 239 Offentligt T A L E Beskæftigelsesministerens tale på samrådet den 10. februar 2016 om Arbejdsskadestyrelsens sagsbehandlingstider

Læs mere

Til underviseren. I slutningen af hver skrivelse er der plads til, at du selv kan udfylde med konkrete eksempler fra undervisningen.

Til underviseren. I slutningen af hver skrivelse er der plads til, at du selv kan udfylde med konkrete eksempler fra undervisningen. Til underviseren Her er nogle små skrivelser med information til forældrene om Perspekt 3. Du kan bruge dem til løbende at lægge på Forældreintra eller lignende efterhånden som undervisningen skrider frem.

Læs mere

Deltidsansattes psykiske arbejdsmiljø

Deltidsansattes psykiske arbejdsmiljø 1 Deltidsansattes psykiske arbejdsmiljø Deltidsansatte oplever oftere end fuldtidsansatte psykiske belastninger i deres job. Det tyder dog ikke på, at det skyldes tidspres og andre arbejdsmæssige faktorer.

Læs mere

Måling af graffiti i Frederiksberg Kommune

Måling af graffiti i Frederiksberg Kommune Måling af graffiti i Frederiksberg Kommune Delrapport nummer 5 Uge 39-2014 Rostra Kommunikation & Research A/S Indhold Baggrund og formål... 4 Konklusioner... 5 Fordelingen på individuelle ruter... 6 Rute

Læs mere

Teori U - Uddannelsen

Teori U - Uddannelsen Tina Bue og Pia Brøgger Teori U - Uddannelsen En uddannelse, der frisætter mennesker. Skaber energi og giver dig et grundlæggende kendskab til teorien. Uddannelsen er rettet mod praksis hverdagen er den

Læs mere

Bedømmelseskriterier Engelsk

Bedømmelseskriterier Engelsk Bedømmelseskriterier Engelsk Grundforløb 1 Grundforløb 2 Social- og sundhedsassistentuddannelsen Den pædagogiske assistentuddannelse ENGELSK NIVEAU F... 2 ENGELSK NIVEAU E... 5 ENGELSK NIVEAU D... 8 Gældende

Læs mere

Kender du nogen med høreproblemer? Information om hvad høreproblemer kan betyde for kommunikationen

Kender du nogen med høreproblemer? Information om hvad høreproblemer kan betyde for kommunikationen Kender du nogen med høreproblemer? 5 Information om hvad høreproblemer kan betyde for kommunikationen Denne brochure er nummer 5 i en serie fra Widex om hørelse og høreapparater. Kommunikation Når et menneske

Læs mere

Det siger FOAs medlemmer om mobning på arbejdspladsen

Det siger FOAs medlemmer om mobning på arbejdspladsen FOA Kampagne og Analyse 3. oktober 2012 Det siger FOAs medlemmer om mobning på arbejdspladsen FOA har undersøgt medlemmernes oplevelse af mobning på arbejdspladsen i april og juni 2012. Dette notat belyser,

Læs mere

Formål Fremgangsmåde Trækteori generelt

Formål Fremgangsmåde Trækteori generelt Formål En kritisk gennemgang af trækteori, med fokus på Allport og femfaktor teorien som formuleret af Costa & McCrae. Ønsket er at finde frem til de forskellige kritikpunkter man kan stille op i forhold

Læs mere

Spørgsmål og svar om håndtering af udenlandsk udbytteskat marts 2016

Spørgsmål og svar om håndtering af udenlandsk udbytteskat marts 2016 Indhold AFTALENS FORMÅL... 2 Hvilken service omfatter aftalen?... 2 Hvad betyder skattereduktion, kildereduktion og tilbagesøgning?... 2 AFTALENS INDHOLD OG OPBYGNING... 3 Hvilke depoter er omfattet af

Læs mere

årsrapport 2010: eksperimentel behandling

årsrapport 2010: eksperimentel behandling årsrapport 2010: eksperimentel behandling 2011 Årsrapport 2010: Eksperimentel behandling Sundhedsstyrelsen Islands Brygge 67 2300 København S URL: http://www.sst.dk Emneord: Eksperimentel behandling; Kræftbehandling;

Læs mere

Henning Thiesen, tale 15. januar 2014, til Folketingets konference om brugen af parlamentariske

Henning Thiesen, tale 15. januar 2014, til Folketingets konference om brugen af parlamentariske Henning Thiesen, tale 15. januar 2014, til Folketingets konference om brugen af parlamentariske høringer. Jeg vil gerne indlede med at takke Folketingets Præsidium for lejligheden til - på vegne af Djøf

Læs mere

Delmængder af Rummet

Delmængder af Rummet Delmængder af Rummet Frank Nasser 11. juli 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Resultater af test og evaluering af Stress Graph i Psykiatriens hverdagstestere. Testperiode: 25. januar 30. marts 2016

Resultater af test og evaluering af Stress Graph i Psykiatriens hverdagstestere. Testperiode: 25. januar 30. marts 2016 Resultater af test og evaluering af Stress Graph i Psykiatriens hverdagstestere Testperiode: 25. januar 30. marts 2016 April 2016 1. Baggrund Virksomheden Sumondo ønskede at få testet monitoreringsløsningen

Læs mere

Lederadfærdsanalyse II egen opfattelse af ledelsesstil

Lederadfærdsanalyse II egen opfattelse af ledelsesstil Lederadfærdsanalyse II egen opfattelse af ledelsesstil Instruktion Formålet med Lederadfærdsanalyse II Egen er at give dig oplysninger om, hvordan du opfatter din ledelsesstil. I det følgende vil du blive

Læs mere

Social- og Indenrigsudvalget 2015-16 SOU Alm.del endeligt svar på spørgsmål 53 Offentligt

Social- og Indenrigsudvalget 2015-16 SOU Alm.del endeligt svar på spørgsmål 53 Offentligt Social- og Indenrigsudvalget 2015-16 SOU Alm.del endeligt svar på spørgsmål 53 Offentligt Social- og indenrigsminister Karen Ellemanns talepapir Det talte ord gælder Anledning: Samråd i SOU om forsinkede

Læs mere

Sikker Slank kort fortalt Til indholdsfortegnelsen side: 1

Sikker Slank kort fortalt Til indholdsfortegnelsen side: 1 Sikker Slank kort fortalt Til indholdsfortegnelsen side: 1 Sikker Slank Kort fortalt Af John Buhl e-bog Forlaget Nomedica 1. udgave juni 2016 ISBN: 978-87-90009-34-2 Sikker Slank kort fortalt Til indholdsfortegnelsen

Læs mere

Forskellen på gode og dårlige ledergrupper - ifølge lederne selv

Forskellen på gode og dårlige ledergrupper - ifølge lederne selv Forskellen på gode og dårlige ledergrupper - ifølge lederne selv Af: Susanne Teglkamp, ledelsesrådgiver i Teglkamp & Co. www.teglkamp.dk 244 ledere har i en undersøgelse evalueret deres egen ledergruppe.

Læs mere

Secret Sharing. Olav Geil Institut for Matematiske Fag Aalborg Universitet email: olav@math.aau.dk URL: http://www.math.aau.dk/ olav.

Secret Sharing. Olav Geil Institut for Matematiske Fag Aalborg Universitet email: olav@math.aau.dk URL: http://www.math.aau.dk/ olav. 1 Læsevejledning Secret Sharing Olav Geil Institut for Matematiske Fag Aalborg Universitet email: olav@math.aau.dk URL: http://www.math.aau.dk/ olav September 2006 Nærværende note er tænkt som et oplæg

Læs mere

Sluttelig vil vi gøre opmærksom på, at det er trygt og lovligt at udlevere CPR-nr., registrerings nr. og konto nr. over telefonen:

Sluttelig vil vi gøre opmærksom på, at det er trygt og lovligt at udlevere CPR-nr., registrerings nr. og konto nr. over telefonen: 15. Betalingsservice Når de strategiske overvejelser er på plads, planerne er afstemt og metoderne er valgt, er det vigtigt at opkræve bidragsyder mest optimalt, så administrationen fylder mindst muligt

Læs mere

1RWDWRP. $QWDOVNnQHRJIOHNVMRE XJHXJH &HQWHUIRU /LJHEHKDQGOLQJDI+DQGLFDSSHGH $XJXVW

1RWDWRP. $QWDOVNnQHRJIOHNVMRE XJHXJH &HQWHUIRU /LJHEHKDQGOLQJDI+DQGLFDSSHGH $XJXVW 1RWDWRP $QWDOVNnQHRJIOHNVMRE XJHXJH &HQWHUIRU /LJHEHKDQGOLQJDI+DQGLFDSSHGH $XJXVW Kolofon Notatet er udarbejdet af Center for Ligebehandling af Handicappede Notatet kan rekvireres ved henvendelse til Center

Læs mere

Afstand fra et punkt til en linje

Afstand fra et punkt til en linje Afstand fra et punkt til en linje Frank Villa 6. oktober 2014 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold

Læs mere

Kvalitetsrapporter. Folkeskolelovens bestemmelser om kvalitetsrapporter. Almindelige bemærkninger til lovforslag der vedrører den nye kvalitetsrapport

Kvalitetsrapporter. Folkeskolelovens bestemmelser om kvalitetsrapporter. Almindelige bemærkninger til lovforslag der vedrører den nye kvalitetsrapport Kvalitetsrapporter Folkeskolelovens bestemmelser om kvalitetsrapporter 40 a. Kommunalbestyrelsen udarbejder en kvalitetsrapport hvert andet år. Kvalitetsrapporten skal beskrive skolevæsenets og de enkelte

Læs mere

Lektion 9 Statistik enkeltobservationer

Lektion 9 Statistik enkeltobservationer Lektion 9 Statistik enkeltobservationer Middelværdi med mere Hyppigheds- og frekvens-tabeller Diagrammer Hvilket diagram er bedst? Boxplot Lektion 9 Side 1 Når man skal holde styr på mange oplysninger,

Læs mere

Indhold. Vigtige pointer. Hvordan ser en god jobannonce ud? Gode råd til teksten

Indhold. Vigtige pointer. Hvordan ser en god jobannonce ud? Gode råd til teksten Indhold 3 4 6 Vigtige pointer Hvordan ser en god jobannonce ud? Gode råd til teksten Vigtige pointer Du skal se jobannoncen som en salgsannonce. Du skal sælge din arbejdsplads og den ledige stilling så

Læs mere

Lavere kontanthjælpssatser er en dårlig løsning på et meget lille problem

Lavere kontanthjælpssatser er en dårlig løsning på et meget lille problem Fakta om økonomi 18. maj 215 Lavere kontanthjælpssatser er en dårlig løsning på et meget lille problem Beregningerne nedenfor viser, at reduktion i kontanthjælpssatsen kun i begrænset omfang øger incitamentet

Læs mere

Partikelbevægelser i magnetfelter

Partikelbevægelser i magnetfelter Da fusion skal foregå ved en meget høj temperatur, 100 millioner grader, så der kan foregå en selvforsynende fusion, kræves der en metode til indeslutning af plasmaet, idet de materialer vi kender med

Læs mere

Speciale på Kandidatuddannelsen i Socialt Arbejde AAU CPH Sarah 20127119 & Matilde 20111134, September 2014 Bilagsdokumenter

Speciale på Kandidatuddannelsen i Socialt Arbejde AAU CPH Sarah 20127119 & Matilde 20111134, September 2014 Bilagsdokumenter Bilag 1: Beskrivelse af Dansk Flygtningehjælps Ungenetværk DFUNK Følgende redegørelse er baseret på skriftlig information fra DFUNK s sekretariat omkring deres ung-til-ung grupper, informationer fra organisationens

Læs mere

Victor, Sofia og alle de andre

Victor, Sofia og alle de andre Victor, Sofia og alle de andre Victor betyder vinder, og Sofia betyder vis dom. Begge er egenskaber, som vi alle sammen gerne vil eje. I denne bog er det navnene på to af de børn, vi møder i mange af bogens

Læs mere

Samråd i Folketingets Kulturudvalg om Statens Forsvarshistoriske Museum Åbent eller lukket: Dato og klokkeslæt: Tirsdag d. 19. juni, kl. 9.

Samråd i Folketingets Kulturudvalg om Statens Forsvarshistoriske Museum Åbent eller lukket: Dato og klokkeslæt: Tirsdag d. 19. juni, kl. 9. Kulturudvalget 2011-12 KUU alm. del Bilag 210 Offentligt TALE Arrangement: Samråd i Folketingets Kulturudvalg om Statens Forsvarshistoriske Museum Åbent eller lukket: Åbent Dato og klokkeslæt: Tirsdag

Læs mere

Vejledning til ledelsestilsyn

Vejledning til ledelsestilsyn Vejledning til ledelsestilsyn Ledelsestilsynet er et væsentligt element i den lokale opfølgning og kan, hvis det tilrettelægges med fokus derpå, være et redskab til at sikre og udvikle kvaliteten i sagsbehandlingen.

Læs mere