Kvantitative metoder inden for korpuslingvistiske projekter

Størrelse: px
Starte visningen fra side:

Download "Kvantitative metoder inden for korpuslingvistiske projekter"

Transkript

1 Kvantitative metoder inden for korpuslingvistiske projekter Illustreret ved eksempler fra Den Danske Ordbogs korpus, Korpus 2000 og Korpus 90 Jørg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 1

2 1. metodiske forhold 2. en introduktion hvordan? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 2

3 metodiske forhold Øvelse 1.1 (15 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 3

4 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ Kvalitativ Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

5 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter Kvalitativ subjekter Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

6 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør Kvalitativ subjekter deltager Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

7 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk Kvalitativ subjekter deltager hermeneutisk Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

8 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ subjekter deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

9 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ subjekter deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

10 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ intersubjektivitet subjekter deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

11 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ intersubjektivitet subjekter deltager deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

12 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ intersubjektivitet subjekter deltager tællelighed deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

13 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ intersubjektivitet subjekter deltager tællelighed kodifikation deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

14 Kvantitativ vs. kvalitativ Overvej, hvorved den kvantitative metode adskiller sig fra den kvalitative mht.... Holdningen til fænomenernes grundlæggende beskaffenhed Forskerens position i forhold til disse fænomener Måden, fænomenerne kategoriseres på Præsentation af resultater Kvantitativ objekter observatør statistisk, heuristisk numerisk Kvalitativ intersubjektivitet subjekter deltager tællelighed kodifikation deltager hermeneutisk tekst Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser bevis begrundelse Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 4

15 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet Grammatikalitet Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

16 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy Grammatikalitet regelbundet Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

17 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør Grammatikalitet regelbundet deltager Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

18 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik Grammatikalitet regelbundet deltager introspektion Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

19 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelbundet deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

20 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelbundet deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

21 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelmæssighed regelbundet deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

22 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelmæssighed regelbundet deltager deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

23 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelmæssighed regelbundet deltager tællelighed deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

24 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelmæssighed regelbundet deltager tællelighed kodifikation deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

25 Probabilitet vs. grammatikalitet Dikotomien kvantitativ vs. kvalitativ kommer i (strukturel) lingvistik bl.a. til udtryk ved... Holdningen til sprogets grundlæggende beskaffenhed Forskerens position i forhold til sproget Måden, sproglige fænomener kategoriseres på Præsentation af resultater Probabilitet fuzzy observatør statistik numerisk Grammatikalitet regelmæssighed regelbundet deltager tællelighed kodifikation deltager introspektion binære regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Afprøvning af hypoteser empirisk rationalistisk Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 5

26 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Genstanden for beskrivelse Materialegrundlaget Metode Beskrivelse af sproglig regelmæssighed Empirisme Rationalisme Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

27 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget Metode Beskrivelse af sproglig regelmæssighed Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

28 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode Beskrivelse af sproglig regelmæssighed Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

29 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

30 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

31 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Altså er I live in New York mere grammatisk end I live in Dayton, Ohio... Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

32 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Altså er I live in New York mere grammatisk end I live in Dayton, Ohio... One doesn t study all of botany by making artificial flowers Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

33 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Grundantagelsen her: målet er at beskrive og måske forklare sprogets regelmæssigheder. Ingen teoretisk ramme eller metode klarer dette fuldkomment, men belyser forskellige sproglige aspekter fra forskellige vinkler. Ingen er per se bedre end de andre, men alle kan supplere hinanden. Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

34 Empirisme vs. rationalisme Inden for sprogbeskrivelsen er den empiriske over for den rationalistiske tilgang bl.a. karakteriseret ved... Empirisme Rationalisme Genstanden for beskrivelse performans kompetens Materialegrundlaget tekstkorpora sproglige ytringer Metode optælling introspektion Beskrivelse af sproglig regelmæssighed sandsynligheder regler Kvantitativ vs. kvalitativ Probabilitet vs. grammatikalitet Empirisme vs. rationalisme Grundantagelsen her: målet er at beskrive og måske forklare sprogets regelmæssigheder. Ingen teoretisk ramme eller metode klarer dette fuldkomment, men belyser forskellige sproglige aspekter fra forskellige vinkler. Ingen er per se bedre end de andre, men alle kan supplere hinanden. Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 6

35 en introduktion Opgave 2.1 (10 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 7

36 Definition: korpus ordbog stak aviser??? korpus eksplicit struktureret Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? ordseddelsamling?? samling sprogvidenskab udskrevet jobsamtale uoverskuelig stor båndoptaget radioudsendelse tekst digitaliseret sammenhængende og autentisk (ned)skrevet objektsprog Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 8

37 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

38 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

39 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

40 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

41 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

42 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

43 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

44 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

45 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

46 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

47 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på særlig: download og ekspert-interface Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

48 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på særlig: download og ekspert-interface Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Korpus 2000 (K2000): Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

49 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på særlig: download og ekspert-interface Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Korpus 2000 (K2000): 28 mio. ords løbende tekst Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

50 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på særlig: download og ekspert-interface Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Korpus 2000 (K2000): 28 mio. ords løbende tekst skriftsprog, 1998 til 2002 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

51 Referencekorpora for dansk Den Danske Ordbogs Korpus (DDOC): 40 mio. ords løbende tekst skrift- og talesprog, kommunikativt og sociolingvistisk inspireret, på tekstniveau download fra sammen med konkordansværktøjet Semaskop Korpus 90 (K90): 28 mio. ords løbende tekst, delmængde af DDOC skriftsprog, lemma, morfologi og syntaks, på ordniveau online tilgængelig på særlig: download og ekspert-interface Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Korpus 2000 (K2000): 28 mio. ords løbende tekst skriftsprog, 1998 til 2002 svarende til K90 sammenlignende undersøgelser Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 9

52 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

53 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

54 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

55 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

56 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

57 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Årsag til fokusændringen: it-udviklingen i de seneste 20 år Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

58 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Årsag til fokusændringen: it-udviklingen i de seneste 20 år Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? ken er som metodevidenskab i dag Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

59 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Årsag til fokusændringen: it-udviklingen i de seneste 20 år Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? ken er som metodevidenskab i dag stærkt datalingvistisk orienteret Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

60 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Årsag til fokusændringen: it-udviklingen i de seneste 20 år Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? ken er som metodevidenskab i dag stærkt datalingvistisk orienteret tiltagende datalogisk/matematisk orienteret Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

61 Beskrivelse: korpuslingvistik Oprindelig vel formet som modsætning til introspektiv lingvistik Med tiden er lingvistikken dog blevet nedtonet: sprogbeskrivelse er sprogbeskrivelse uanset materialegrundlaget... Nu snarere: videnskab om metoder til opbygning af korpora udnyttelse af korpora m.m. Årsag til fokusændringen: it-udviklingen i de seneste 20 år Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? ken er som metodevidenskab i dag stærkt datalingvistisk orienteret tiltagende datalogisk/matematisk orienteret... og står derfor svagt i Danmark Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 10

62 Korpuslingvistisk eller -baseret? Korpuslingvistisk: Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

63 Korpuslingvistisk eller -baseret? Korpuslingvistisk: som beror på state-of-the-art korpuslingvistisk metodologi Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

64 Korpuslingvistisk eller -baseret? Korpuslingvistisk: som beror på state-of-the-art korpuslingvistisk metodologi stikord: algoritmisk-statistisk analyse Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

65 Korpuslingvistisk eller -baseret? Korpuslingvistisk: som beror på state-of-the-art korpuslingvistisk metodologi stikord: algoritmisk-statistisk analyse Korpusbaseret: Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

66 Korpuslingvistisk eller -baseret? Korpuslingvistisk: som beror på state-of-the-art korpuslingvistisk metodologi stikord: algoritmisk-statistisk analyse Korpusbaseret: som beror på et korpus som grundlæggende materiale Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

67 Korpuslingvistisk eller -baseret? Korpuslingvistisk: som beror på state-of-the-art korpuslingvistisk metodologi stikord: algoritmisk-statistisk analyse Korpusbaseret: som beror på et korpus som grundlæggende materiale stikord: lingvistens umiddelbare kvantitative og kvalitative iagttagelser Definition: korpus Referencekorpora for dansk Beskrivelse: korpuslingvistik Korpuslingvistisk eller -baseret? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 11

68 Finde tælle konkludere Opgave 3.1 (10 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 12

69 Ordhyppigheder Eksempel regn Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

70 Ordhyppigheder Eksempel regn Ordhyppigheder Formhyppigheder Fortolkning af data Konklusion: øjensynlig ingen nævneværdig hyppighedsforskel i de to korpora Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

71 Ordhyppigheder Eksempel mobiltelefon (K2000: 1500, K90: 60) Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

72 Ordhyppigheder Eksempel mobiltelefon (K2000: 1500, K90: 60) Ordhyppigheder Formhyppigheder Fortolkning af data Konklusion: hyppighedsforskel formentlig betinget af den tekniske udvikling, som afspejler sig i sprogbrugen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

73 Ordhyppigheder Eksempel biltelefon (K2000: 9, K90: 51) Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

74 Ordhyppigheder Eksempel biltelefon (K2000: 9, K90: 51) Ordhyppigheder Formhyppigheder Fortolkning af data Konklusion: hyppighedsforskel formentlig igen betinget tekniske forandringer, som afspejler sig i sprogbrugen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

75 Ordhyppigheder Eksempel kambrium (K2000: 0, K90: 4) Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

76 Ordhyppigheder Eksempel kambrium (K2000: 0, K90: 4) Konklusion: tilfælde eller uensartet sammensatte korpora? Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 13

77 Formhyppigheder Morfologi: genitiver af substantiver Genitivformer af: Korpus 2000 Korpus 90 bil cykel mand Ordhyppigheder Formhyppigheder Fortolkning af data Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 14

78 Formhyppigheder Morfologi: genitiver af substantiver Genitivformer af: Korpus 2000 Korpus 90 bil cykel mand Ordhyppigheder Formhyppigheder Fortolkning af data Genitivformer af: Korpus 2000 Korpus 90 bil 4,7% 5,7% cykel 1,7% 2,0% mand 6,5% 6,5% Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 14

79 Fortolkning af data Diskuter på baggrund af nedenstående figur udsagnet: I materialet er der flere forekomster af C end af B. Ordhyppigheder A D C A Formhyppigheder Fortolkning af data A D C D C B D D C D B Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 15

80 Fortolkning af data Diskuter på baggrund af nedenstående figur udsagnet: I materialet er der flere forekomster af C end af B. Ordhyppigheder A D C A Formhyppigheder Fortolkning af data A D C D C B D D C D Hvis fænomenets form (cirkel eller kvadrat) tages med i betragtning, er der relativt ingen forskel på B antallet af B er og C er. Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 15

81 Fortolkning af data Diskuter på baggrund af nedenstående figur udsagnet: I materialet er der flere forekomster af C end af B. Ordhyppigheder A D C A Formhyppigheder Fortolkning af data A D C D C B D D C D Hvis fænomenets form (cirkel eller kvadrat) tages med i betragtning, er der relativt ingen forskel på B antallet af B er og C er. 2 B er ud af 5 mulige er det samme som 4 C er ud af 10 mulige. Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 15

82 hvordan? Opgave (30 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 16

83 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

84 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

85 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk kvantitative udsagn skal være statistisk velbegrundede... Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

86 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk kvantitative udsagn skal være statistisk velbegrundede... og de skal være komplette (ikke kun vedrøre nogle få udvalgte fænomener) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

87 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk kvantitative udsagn skal være statistisk velbegrundede... og de skal være komplette (ikke kun vedrøre nogle få udvalgte fænomener) vokabularundersøgelser betyder, at vi her kun interesserer os for isolerede ord, fordi... Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

88 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk kvantitative udsagn skal være statistisk velbegrundede... og de skal være komplette (ikke kun vedrøre nogle få udvalgte fænomener) vokabularundersøgelser betyder, at vi her kun interesserer os for isolerede ord, fordi... vi her kun principielt vil demonstrere bestemte kvantitative metoder inden for korpuslingvistikken Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

89 Vokabularundersøgelser I det følgende skal der gennemføres vokabularundersøgelser på en række tekster. Disse undersøgelser skal være... rent korpuslingvistiske, ikke blot korpusbaserede, dvs. det, vi interesserer os for, skal kunne bestemmes algoritmisk kvantitative udsagn skal være statistisk velbegrundede... og de skal være komplette (ikke kun vedrøre nogle få udvalgte fænomener) vokabularundersøgelser betyder, at vi her kun interesserer os for isolerede ord, fordi... vi her kun principielt vil demonstrere bestemte kvantitative metoder inden for korpuslingvistikken men metoderne kan sagtens bruges til at håndtere mere komplekse sproglige størrelser også, forudsat de kan bestemmes algoritimisk (eksempel: syntagmer) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 17

90 Eksempelmaterialet Fork. Udtryk Tekst Type if. DDOC Længde S1 skrift Kirsten Fink og Ole Terney: Sådan Fagsproglig monografi om emnet bi ord reguleres genteknologi. Praksis og ologi. erfaringer. Foreningen af Bioteknologiske Industrier i Danmark, Kapitel 1-3. S2 skrift Vita Andersen: Petruskas laksko. Gyldendal, Side 5-8, og T1 tale Tekstuddrag fra Projekt Bysociolingvistik fra Roman for børn. Gruppeinterview med en voksen interviewer og unge interviewede ord 5621 ord Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner T2 tale Fjernsynsinterview under titlen Gamle mennesker fortæller. DR TV, Interviewet handler om historie. Der medvirker en speaker med et par replikker, ellers en interviewer og en in ord terviewet. Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

91 Eksempelmaterialet S1: Sådan reguleres genteknologi <Tekst ID=GxCa> <p>kap. 1</p> {NL} <p>anvendelse AF GENTEKNOLOGI</p> {NL} <p>hvad er genteknologi?</p> {NL} <p>genteknologi betegner en samling teknikker, der er specielt beregnede til at ændre organismers arveegenskaber på målrettet måde.</p> <p>traditionelt forædlingsarbejde har de samme mål, men må bruge metoder, der er mere tidskrævende, og som ofte gør det svært eller umuligt at overskride artsbarriererne.</p> <p>de nye genteknologi-metoder tillader derimod overførsel af arveegenskaber mellem principielt alle organismer.</p> <p>baggrunden for dette er, at alle levende organismer fra bakterier til mennesket indeholder arvemasse, der er opbygget på principielt samme måde. De arvelige egenskaber findes i lange, trådformede molekyler. Det kemiske navn for dette arvemateriale er DNA <note>dna. På engelsk: Deoxyribonucleic acid, dvs. deoxyribonukleinsyre.</note>.</p> <p>i begyndelsen af 1970 erne fandt man ud af metoder til at klippe DNA-tråden over på bestemte steder og at klæbe stykkerne sammen igen på en ny måde. Denne rekombination af arvemateriale kan celler foretage naturligt, men det havde ikke tidligere kunnet gøres i laboratoriet.</p> <p>rekombineret DNA betegnes også rdna. Teknikken betegnes undertiden rekombinant-dna-teknik eller gensplejsning.</p> <p>den traditionelle forædlingsteknik benytter sig som sagt også af rekombination af arvemateriale. Når en kornart krydses med en vild, nærtbeslægtet plante, håber man netop på at opnå en gunstig rekombination.</p> <p>den nye genteknologi tillader, at man i højere grad specifikt kan styre og kontrollere, hvad der sker. Og den tillader, at et arveanlæg fra en fremmed art indsættes i en organismes arvemasse.</p> {NL} Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

92 Eksempelmaterialet S2: Petruskas laksko <Tekst ID=RREo> <p> <kommentar>side 5-8:</kommentar> </p> {NL} <p> <f>hvordan Petruska fik sine laksko</f> </p> {NL} <p>midt om natten vågnede Marie og løb ind til far og mor. Hun krøb op i deres seng og lagde sig på mor.</p> <p>- Mor, der er en lyd, sagde hun, - det kan være en alf eller en tyveknægt, der vil tage vores ting. Eller måske er det drillenissen, eller spøgelset.</p> <p>mor vågnede og lyttede.</p> <p>- Ja, der er noget der pusler. Nu skal jeg se efter.</p> <p>- Jeg er bange, sagde Marie.</p> <p>- Det skal du ikke være, der er ingen der kan komme ind.</p> <p>- Et spøgelse kan komme ind, sagde Marie, - jeg har selv set det.</p> <p>- Der findes ingen spøgelser, sagde mor og kyssede hende. - Put dig her, og pas på du ikke vækker far, hviskede hun.</p> <p>det, der puslede, var ikke inde i Maries og Petruskas værelse, og heller ikke inde i stuen.</p> <p>men ude i køkkenet stod Petruska oppe på spisebordet og smed rosiner op i luften. Hun havde rosiner i håret og på skuldrene og på nattøjet, hendes bare fødder var næsten dækket med rosiner.</p> <p>- Jeg laver snevejr, sagde Petruska og grinede til mor.</p> <p>man skulle skynde sig at grine, når man lavede noget de voksne ikke ville have. Så grinede de sommetider med, og så fik man ikke skældud. Petruska hadede at få skældud. Heldigvis grinede mor.</p> <p>- Din tossede Petruska, sagde hun, - det er midt om natten.</p> <p>- Men det er min fødselsdag, sagde Petruska. - Og på min fødselsdag skal der være sne. Jeg kiggede ud ad vinduet og det var så mørkt, men der var ingen sne. Så måtte jeg selv lave det. Snevejr er godt vejr, og når vejret er godt, så har man været sød.</p> <p>- Tillykke med fødselsdagen, sagde mor, - tillykke med de fem år.</p> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

93 Eksempelmaterialet T1: BySoc (DDOC-repræsentation) <Tekst ID=HQUa> <replik id=int> <p>din broder som bor her hva- hvad hedder han</p> </replik> <replik id=md1> <p>steen</p> </replik> <replik id=int> <p>hn{pause} og det er ham der er syvogtyve?</p> </replik> <replik id=md1> <p>otteogtyve</p> </replik> <replik id=int> <p>otteogtyve {pause}</p> </replik> <replik id=md1> <p>jeg har også en anden broder der er femogtyve {pause}</p> </replik> <replik id=int> <p>nå</p> </replik> <replik id=md1> <p>men han er {tøven} han er en uge indenfor soldaterne {pause} han er lige blevet ind for soldaterne, ikke?</p> </replik> <replik id=int> <p>hjnå</p> </replik> <replik id=md1> <p>altså {tøven} {uf} hvad hedder det {latter}</p> </replik> <replik id=md2> <p>{uf} genindkaldt</p> </replik> <replik id=md1> <p>genindkaldt</p> </replik> <replik id=int> <p>njå {pause}</p> </replik> <replik id=md1> <p>så til ham {tøven} kan vi ikke {uf} foreløbig så</p> </replik> <replik id=int> <p>hvor {tøven} i {tøven} Søværnet?</p> </replik> <replik id=md1> <p>usikker>næe det er lige</usikker> ovre på Holmen {pause} i Søværnet {pause} lige der hvor jeg er {latter} {pause}</p> </replik> <replik id=int> <p>jaer. jaer. men plejer I at tænke på Holmen som lige derovre {pause}</p> </replik> <replik id=md1> <p>{pause} jaer {pause}</p> </replik> <replik id=int> <p>hvor- hvor- hvordan kommer jeres fader på arbejde?</p> </replik> <replik id=md1> <p>han {tøven} tager cyklen klokken halv fem om morgenen {pause} så tager han en tur ud over Knippelsbro og den vej {latter} {pause}</p> </replik> <replik id=int> <p>men ka- kan er der ikke en båd man kan tage dernede nu?</p> </replik> <replik id=md1> <p>jo men den kører først klokken syv om morgenen</p> </replik> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

94 Eksempelmaterialet T1: BySoc (partitur-repræsentation) 1> mm S%%%% 2> A>tten B%%%%%% din bror som bor her hva- hvad hedder han mm og det K> > otteogtyve jeg har også en anden bro 2> A> er ham der er syvogtyve? otteogtyve K> >r der er femogtyve men han er~ han er en uge indenfor soldaterne han 2> A> nå K> > er lige blevet ind for soldaterne ik altså~ (fu) hvad hedder det (lat 2> A> hjnå K> >ter) genindkaldt så til ham~ kan vi ikke (uf) foreløbi 2> (uf) genindkaldt A> nå~ K> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

95 Eksempelmaterialet T1: BySoc (partitur-repræsentation) notation i DDOC 1> mm S%%%% ingen anonymisering broder hn 2> {pause} A>tten B%%%%%% din bror som bor her hva- hvad hedder han mm og det K> broder > otteogtyve jeg har også en anden bro 2> A> er ham der er syvogtyve? otteogtyve K> indenfor inden for? >r der er femogtyve men han er~ han er en uge indenfor soldaterne han 2> A> nå K> ikke {tøven} {uf} > er lige blevet ind for soldaterne ik altså~ (fu) hvad hedder det (lat 2> A> hjnå K> {uf} >ter) genindkaldt njå så {pause} til ham~ kan vi ikke (uf) foreløbi 2> (uf) genindkaldt A> nå~ K> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

96 Eksempelmaterialet T2: Gamle mennesker fortæller <Tekst ID=Qydz> <replik id=spe> <p>i den næste film, Jeg kom fire år for tidligt, kan I høre en ældre dame, Paula Skorup, fortælle om sin barndom i begyndelsen af århundredeskiftet.</p> </replik> <kommentar> <p>klavermusik</p> </kommentar> <replik id=sko> <p>ja, det startede jo sådan, at jeg kom jo fire år for tidligt, og min far og mor de blev ikke gift før jeg var fire år, da vi skulle have min næste søster.</p> </replik> <replik id=int> <p>ja, det var jo ikke godt den gang.</p> </replik> <replik id=sko> <p>nej, det var det sandelig ikke da. Men min mor boede jo hjemme ved sine forældre, og jeg er jo født der oppe i møllen oppe i Tindrup. Og brud men der var sandelig, de havde sandelig et barnebarn før også, og han var ti år den gang jeg var der. Og det var herremanden.</p> </replik> <replik id=int> <p>men, når man øh, skal tænke sådan lidt på Møllegården der, hvordan var det at være der?</p> </replik> <replik id=sko> <p>ja, se det kan jeg slet ikke huske. For jeg var jo ikke ret gammel, da de flyttede ned til Tindrup.</p> </replik> <replik id=int> <p>nå.</p> </replik> <replik id=sko> <p>ja, flyttede ned til Tindrup by. Husk på, jeg har jo været ung lidt for længe også.</p> </replik> <replik id=int> <p>ja, det er jo det. Når du nu siger, at du var ung lidt for længe, hvad mener du så egentlig med det?</p> </replik> <replik id=sko> <p>ja, jeg er jo blevet gammel, ikke. Men du vil jo gerne snakke med gamle koner.</p> </replik> <replik id=int> <p>ja. Herman og dig I var hjemme hos bedstefar og bedstemor.</p> </replik> <replik id=sko> <p>ja, og der havde de sådan et lille hus dernede, men en stor have, men den var delt i to, for det stod som vejen var gået gennem haven.</p> </replik> <replik id=int> <p>så var der have på den anden side af vejen også.</p> </replik> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 18

97 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

98 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

99 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof kvalitets-produkt, sprog- og litteraturselskab, f.eks., ,-, Alex Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

100 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof kvalitets-produkt, sprog- og litteraturselskab, f.eks., ,-, Alex sær- og samskrevne ord Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

101 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof kvalitets-produkt, sprog- og litteraturselskab, f.eks., ,-, Alex sær- og samskrevne ord kvalitets produkt, f. eks., underskrive vs. skrive under Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

102 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof kvalitets-produkt, sprog- og litteraturselskab, f.eks., ,-, Alex sær- og samskrevne ord kvalitets produkt, f. eks., underskrive vs. skrive under store/små bogstaver Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

103 Algortimisk ord-definition Ord: tegnsekvens, der afgrænses af mellemrum i en skreven tekst Problemer: interpunktionstegn m.m., fx punktum, bindestreg, apostrof kvalitets-produkt, sprog- og litteraturselskab, f.eks., ,-, Alex sær- og samskrevne ord kvalitets produkt, f. eks., underskrive vs. skrive under store/små bogstaver man vs. Man, hans vs. Hans Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 19

104 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

105 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

106 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

107 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

108 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Holmen eller H%%%%%? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

109 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Holmen eller H%%%%%? introduktion af ordgrænser ved nedskrift af tale hvad er den mest hensigtsmæssige transskription? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

110 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Holmen eller H%%%%%? introduktion af ordgrænser ved nedskrift af tale hvad er den mest hensigtsmæssige transskription? ord? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

111 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Holmen eller H%%%%%? introduktion af ordgrænser ved nedskrift af tale hvad er den mest hensigtsmæssige transskription? ord? morfer? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

112 Ortografisk normalisering Hvordan skal man forholde sig til ortografisk normalisering af sit materiale? Eksempler: kvalitets produkt og kvalitets-produkt kvalitetsprodukt? fader eller far? inden for eller indenfor? Holmen eller H%%%%%? introduktion af ordgrænser ved nedskrift af tale hvad er den mest hensigtsmæssige transskription? ord? morfer? foner? Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 20

113 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

114 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

115 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

116 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum flere på hinanden følgende punktummer eller bindestreger Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

117 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum flere på hinanden følgende punktummer eller bindestreger højre- og venstreparenteser Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

118 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum flere på hinanden følgende punktummer eller bindestreger højre- og venstreparenteser dobbelte anførselstegn Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

119 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum flere på hinanden følgende punktummer eller bindestreger højre- og venstreparenteser dobbelte anførselstegn enkelte anførselstegn forudgået eller efterfulgt af mellemrum Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

120 Tokeniserens funktion Tokeniser, som anvendes i de følgende forsøg, opererer med flg. ord-definition: ord er de karaktersekvenser, som afgrænses af mellemrum følgende tegn fjernes helt: punktum, udråbstegn, spørgsmålstegn, komma, semikolon, bindestreg efterfulgt af mellemrum flere på hinanden følgende punktummer eller bindestreger højre- og venstreparenteser dobbelte anførselstegn enkelte anførselstegn forudgået eller efterfulgt af mellemrum ord omgivet af < og > hhv. { og } (tags) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 21

121 Tekstrepræsentation, tagget <s s_id="wbnhkkze" s_nr="471465" txt_id="gxca" preom="0" bop="1" eop="1"> Traditionelt [traditionel] ADJ NEU S IDF forædlingsarbejde [forædlingsarbejde] N NEU S IDF har [have] <mv> V PR de [den] ART ng P samme [samme] DET ng nn mål [mål] N NEU P IDF $, men [men] <co-acc> må [måtte] <aux> V PR bruge [bruge] <mv> V INF metoder [metode] N UTR P IDF $, der [der] <rel> INDP ng nn er [være] <mv> <np-close> V PR mere [meget] <aquant> ADV tidskrævende [tidskrævende] ADJ ng nn nd $, og [og] <co-fin> som [som] <rel> INDP ng ofte [ofte] <atemp> gør [gøre] <mv> <np-close> V PR det [den] PERS NEU 3S svært [svær] ADJ NEU S IDF eller [eller] <co-oc> umuligt [umulig] ADJ NEU S IDF at [at] overskride [overskride] <mv> V INF artsbarriererne [art+barriere] <compound> N UTR P DEF $. </s> Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 22

122 Type- og tokenstatistik Simple ordoptællinger i eksempelteksterne Tekst Tokens Types TTF S ,02 S ,64 T ,68 T ,43 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 23

123 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

124 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) Hvordan kan hyppighedsforskellene på at og og mellem taleog skriftsprogstekster fortolkes? = Er koordination mere udbredt i talesprog, subordination mere udbredt i skriftsprog? det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

125 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) Hvad med hyppighedsforskellene for det? = Mere deiksis i talesprog? i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

126 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Frekvent brug af jeg i T2 = Person, der taler om sig selv? Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

127 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) Frekvent brug af var i T2 = Handler teksten om noget fortidigt? det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

128 Hyppigste types Sammenligning af de tre hyppigste types i hver af eksempelteksterne S1 S2 T1 T2 K90 at 3,18 (1) 1,19 (16) 0,93 (22) 1,01 (21) 2,41 (3) i 2,50 (2) 2,60 (3) 1,32 (14) 1,73 (9) 2,76 (2) er 2,27 (3) 2,02 (5) 2,81 (4) 0,88 (24) 1,90 (4) og 1,67 (6) 3,72 (1) 2,38 (7) 4,43 (1) 3,00 (1) Petruska 0 (-) 2,64 (2) 0 (-) 0 (-) 0,00 (14103) det 1,20 (11) 1,90 (6) 4,80 (1) 3,39 (2) 1,59 (6) Frekvent brug af Petruska i T2 = Handler teksten om en person af samme navn? ikke 0,89 (18) 1,88 (7) 3,82 (2) 1,92 (8) 1,00 (15) der 1,43 (9) 0,69 (26) 3,10 (3) 2,31 (6) 1,14 (12) jeg 0,02 (1193) 1,49 (11) 2,40 (6) 3,32 (3) 0,52 (26) Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 24

129 Statistisk signifikans Endelig kan man med udgangspunkt vores K90-K2000-sammenligninger spørge... Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 25

130 Statistisk signifikans Endelig kan man med udgangspunkt vores K90-K2000-sammenligninger spørge... om frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok til, at man kan fortolke dem som indikatorer for sproglig forandring om kambrium med sikkerhed ikke kan fortolkes som indikator for en sproglig forandringsproces Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 25

131 Statistisk signifikans Endelig kan man med udgangspunkt vores K90-K2000-sammenligninger spørge... om frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok til, at man kan fortolke dem som indikatorer for sproglig forandring om kambrium med sikkerhed ikke kan fortolkes som indikator for en sproglig forandringsproces om hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, har konsekvenser for sammenlignende undersøgelser mellem de to korpora Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 25

132 Statistisk signifikans Endelig kan man med udgangspunkt vores K90-K2000-sammenligninger spørge... om frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok til, at man kan fortolke dem som indikatorer for sproglig forandring om kambrium med sikkerhed ikke kan fortolkes som indikator for en sproglig forandringsproces om hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, har konsekvenser for sammenlignende undersøgelser mellem de to korpora om der kan opstilles en komplet liste over samtlige lemmaer, der i deres udbredelse i de to korpora afviger så meget fra hinanden, at der næppe kan være tale om et tilfælde. Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 25

133 Statistisk signifikans Endelig kan man med udgangspunkt vores K90-K2000-sammenligninger spørge... om frekvensforskellene for mobiltelefon, benchmarking og biltelefon faktisk er sikre nok til, at man kan fortolke dem som indikatorer for sproglig forandring om kambrium med sikkerhed ikke kan fortolkes som indikator for en sproglig forandringsproces om hyppighedsforskelle for lemmaerne bil, land, Danmark, cykel, hus og mand, som kan konstateres mellem K90 og K2000, har konsekvenser for sammenlignende undersøgelser mellem de to korpora om der kan opstilles en komplet liste over samtlige lemmaer, der i deres udbredelse i de to korpora afviger så meget fra hinanden, at der næppe kan være tale om et tilfælde. Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 25

134 Signifikanstest Log likelihood (G 2 ) er en meget brugt test inden for korpuslingvistikken Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 26

135 Signifikanstest Log likelihood (G 2 ) er en meget brugt test inden for korpuslingvistikken χ 2 derimod egner sig mindre godt til korpuslingvistiske formål Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 26

136 Signifikanstest Log likelihood (G 2 ) er en meget brugt test inden for korpuslingvistikken χ 2 derimod egner sig mindre godt til korpuslingvistiske formål Log likelihood er... let at bruge lavet mhp. sammenligning af vokabular o.l. ikke helt optimal til sammenligning af store (inhomogene) tekstsamlinger ikke helt ligetil rent matematisk Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 26

137 Signifikanstest Log likelihood (G 2 ) er en meget brugt test inden for korpuslingvistikken χ 2 derimod egner sig mindre godt til korpuslingvistiske formål Log likelihood er... let at bruge lavet mhp. sammenligning af vokabular o.l. ikke helt optimal til sammenligning af store (inhomogene) tekstsamlinger ikke helt ligetil rent matematisk Log likelihood beror som alle statistiske signifikanstest på grundantagelsen: at der nok ikke er forskel på de data, man vil sammenligne: nul-hypotese Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 26

138 Resultater Ord, der adskiller S1 og T1 mest signifikant fra hinanden rang type S1 T1 G 2 1 jeg + 174,1 2 så + 145,4 3 det + 128,9 4 ikke + 109,4 5 var + 100,3 6 sådan + 82,6 7 jaer + 81,9 8 af + 78,3 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 at + 72,8 10 altså + 71,9 11 du + 71,2 12 hun + 69,9 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

139 Resultater Ord, der adskiller S1 og T1 mest signifikant fra hinanden rang type S1 T1 G 2 13 vi + 65,1 14 for + 56,7 15 mikroorganismer + 44,8 16 organismer + 39,4 17 noget + 36,0 18 der + 34,7 19 men + 34,7 20 gensplejsede + 34,1 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 her + 33,6 22 Det + 32,0 23 naej + 30,4 24 som + 29,7 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

140 Resultater Ord, der adskiller S1 og T1 mest signifikant fra hinanden rang type S1 T1 G 2 25 han + 29,2 26 om + 28,7 27 hedder + 27,8 28 f.eks + 26,1 29 havde + 25,8 30 arbejde + 25,4 OBS! Vi sammenligner to tekster umiddelbart med hinanden ikke over et referencekorpus! Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

141 Resultater Ord, der adskiller S1 og K90 mest signifikant fra hinanden rang type K90 S1 G 2 1 mikroorganismer + 295,2 2 f.eks + 229,6 3 organismer + 227, ,8 5 gensplejsede + 197,2 6 udsætning + 177,5 7 miljøstyrelse + 132, ,7 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 EPA + 98,8 10 Marcker + 95,4 11 Bacillus + 85,4 12 klasse + 83,3 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

142 Resultater Ord, der adskiller S1 og K90 mest signifikant fra hinanden rang type K90 S1 G 2 13 bakterie + 77,4 14 K12-kolibakterien + 71,5 15 genteknologi + 70, , ,2 18 forsøg + 68, ,0 20 Kjeld + 66,9 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 subtilis + 66, ,5 23 K ,5 24 anvendes + 64,6 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

143 Resultater Ord, der adskiller S1 og K90 mest signifikant fra hinanden rang type K90 S1 G 2 25 bakterier + 62,7 26 organismen + 60,4 27 retningslinier + 59,1 28 amerikanske + 58,5 29 NAS-rapporten + 57,2 30 sygdomsorganismer + 55,9 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

144 Resultater Ord, der adskiller S2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 1 Petruska ,9 2 Marie ,0 3 mor + 557,1 4 sagde + 454,1 5 laksko + 452,6 6 lakskoene + 273,6 7 Petruskas + 173,6 8 Mor + 168,8 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 du + 120,7 10 børnehave + 105,8 11 osse + 92,7 12 hun + 89,3 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

145 Resultater Ord, der adskiller S2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 13 far + 80,0 14 gaver + 77,4 15 børnehaven + 77,0 16 Maries + 76,1 17 drillenissen + 57,9 18 dig + 57,9 19 jeg + 56,5 20 lyserøde + 56,3 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 vågnede + 55,1 22 Bvadr + 53,7 23 spurgte + 48,3 24 så + 46,9 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

146 Resultater Ord, der adskiller S2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 25 numsen + 46,3 26 spøgelset + 45,1 27 sko + 44,0 28 chokoladefrøer + 43,4 29 løb + 42,8 30 at + 42,5 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

147 Resultater Ord, der adskiller T1 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 1 jaer ,4 2 naej + 436,2 3 sådan + 342,7 4 ikke + 272,2 5 altså + 256,8 6 det + 230,8 7 så + 222,0 8 njå + 199,3 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 hn + 197,3 10 jeg + 194,0 11 Nyboder + 189,3 12 najåer + 182,5 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

148 Resultater Ord, der adskiller T1 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 13 njaer + 182,5 14 jamen + 171,3 15 njaåer + 165,7 16 njåer + 165,7 17 jae + 163,6 18 najå + 148,8 19 der + 128,5 20 hedder + 105,9 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 fru + 104,9 22 derovre + 101,1 23 nåer + 98,6 24 vi + 97,7 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

149 Resultater Ord, der adskiller T1 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 25 du + 89,9 26 hnn + 81,9 27 Suensonsgade + 81,9 28 Tyttebær-Maja + 81,9 29 hvad + 81,7 30 moder + 80,3 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

150 Resultater Ord, der adskiller T2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 1 Ja + 435,2 2 jeg + 348,5 3 jo + 341,6 4 så + 248,7 5 sådan + 207,3 6 var + 205,9 7 Rodskov + 149,7 8 ja + 132,7 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 da + 116,4 10 hm + 112,5 11 han + 112,1 12 sæbe + 95,6 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

151 Resultater Ord, der adskiller T2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 13 far + 93,4 14 huske + 85,1 15 det + 79,7 16 havde + 78,6 17 dernede + 71,2 18 Tindrup + 65,7 19 bedstemor + 64,2 20 at + 61,4 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 du + 60,5 22 flyttelæsset + 56,1 23 oppe + 54,4 24 som + 51,5 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

152 Resultater Ord, der adskiller T2 og K90 mest signifikant fra hinanden rang type K90 S2 G 2 25 bedstefar + 50,9 26 henne + 50,9 27 der + 49,9 28 nede + 49,6 29 gangbrættet + 49,2 30 persillesovs + 48,0 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 27

153 Sammeligning K90-K2000 Log-likelihood-sammenligning af K2000 og K90 rang type K2000 K90 G 2 1 EU du $ var hun mio at havde Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 9 $ $ ham siger Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 28

154 Sammeligning K90-K2000 Log-likelihood-sammenligning af K2000 og K90 rang type K2000 K90 G 2 13 $ EF hende % han jeg NN mill Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 21 Du $ dig danske Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 28

155 Sammeligning K90-K2000 Log-likelihood-sammenligning af K2000 og K90 rang type K2000 K90 G 2 25 $ pct direktør Hun har Internettet mig EUs Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner 33 $ Dansk=Folkeparti Ytring Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 28

156 Konklusioner G 2 -værdier for udvalgte ord i K2000 over for K90 lemma K2000 K90 G 2 overrepræsenteret (p 0, 99) mobiltelefon i K2000 benchmarking i K2000 biltelefon i K90 kambrium nej bil i K90 land i K2000 Danmark i K2000 cykel i K90 hus i K90 Vokabularundersøgelser Eksempelmaterialet Algortimisk ord-definition Ortografisk normalisering Tokeniserens funktion Tekstrepræsentation, tagget Type- og tokenstatistik Hyppigste types Statistisk signifikans Signifikanstest Resultater Sammeligning K90-K2000 Konklusioner mand i K90 Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 29

157 Opgave 5.1 (10 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 30

158 Frekvensprofiler og struktur Frekvensprofiler har vi hidtil kun anvendt på enkeltord men metoden lader sig også anvende på andre sproglige enheder, fx grupper af (på hinanden følgende) ord: n-grammer (grupper af) ordklasse-tags (grupper af) syntaktiske tags (grupper af) bogstaver (grupper af) stavelser (grupper af) foner (grupper af) morfer Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Ved at opstille frekvensprofiler for forskellige n-grammer i et sprog vil man kunne få et indtryk af de kombinatoriske muligheder i sproget Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 31

159 Frekvensprofilers begrænsing Men hvilken ulempe har frekvensprofiler over n-grammer? Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Hvilken kolonne indeholder ord, der typisk står foran stærk hhv. kraftig? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 32

160 Frekvensprofilers begrænsing Men hvilken ulempe har frekvensprofiler over n-grammer? Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Hvilken kolonne indeholder ord, der typisk står foran stærk hhv. kraftig? Løsning: kraftig til venstre, stærk til højre... Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 32

161 Mutual Information Mutual Information (MI) vil her blive eksemplificeret i forbindelse med fremfinding af iøjnefaldende samforekomster af ord = kandidater for faste udtryk m.m. Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 33

162 Mutual Information Mutual Information (MI) vil her blive eksemplificeret i forbindelse med fremfinding af iøjnefaldende samforekomster af ord = kandidater for faste udtryk m.m. Baggrunden for MI informationsteori teori til matematisk beskrivelse af informationshåndtering i tekniske systemer, fx inden for telekommunikation og it en hypotetisk forventning om, at alle ord eller andre relevante sproglige enheder i et korpus kommer i vilkårlig, tilfældig rækkefølge: der er ingen tilbagevendende mønstre eller regelmæssigheder Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 33

163 Mutual Information Mutual Information (MI) vil her blive eksemplificeret i forbindelse med fremfinding af iøjnefaldende samforekomster af ord = kandidater for faste udtryk m.m. Baggrunden for MI informationsteori teori til matematisk beskrivelse af informationshåndtering i tekniske systemer, fx inden for telekommunikation og it en hypotetisk forventning om, at alle ord eller andre relevante sproglige enheder i et korpus kommer i vilkårlig, tilfældig rækkefølge: der er ingen tilbagevendende mønstre eller regelmæssigheder Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Hvordan hænger denne forventning sammen med nul-hypotesen? Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 33

164 Eksempler: kraftig/stærk Venstre kollokater for kraftig og stærk i Korpus 2000 fundet vha. MI kraftig regnskyl sb. magnetfelt sb. jordskælv sb. eksplosion sb. blæst sb. vind sb. stigning sb. ryk sb. reduktion sb. udbygning sb. vækst sb. orgasme sb. stød sb. støj sb. vendinger sb. stærk kritisabelt adj. psyke sb. overdrevet sb. smerter sb. syre sb. kontrast sb. vendinger sb. sammenhold sb. back sb. kræfter sb. følelser sb. personlighed sb. position sb. modstander sb. farver sb. Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 34

165 Eksempel fra øvelsen Skemaet viser MI-beregnede kollokater for bevægelse: Frekvensprofiler og struktur Frekvensprofilers begrænsing Mutual Information Eksempler: kraftig/stærk Eksempel fra øvelsen Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 35

166 Opgave 6.1 (10 minutter) Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 36

167 DDO og Ordnet.dk Korpbusbaseret ordbog over moderne dansk Udgivet af DSL i seks bind Integreres i Ordnet.dk... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 37

168 DDO og Ordnet.dk Korpbusbaseret ordbog over moderne dansk Udgivet af DSL i seks bind Integreres i Ordnet.dk... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 37

169 DDO og Ordnet.dk Korpbusbaseret ordbog over moderne dansk Udgivet af DSL i seks bind Integreres i Ordnet.dk... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 37

170 DDO og Ordnet.dk Korpbusbaseret ordbog over moderne dansk Udgivet af DSL i seks bind Integreres i Ordnet.dk... Ordnet.dk udvides løbende med nye ord og nye betydninger... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 37

171 Kilder til nye ord Til det her beskrevne formål benyttes især avismateriale, leveret gennem DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 38

172 Opdateringsprocessen Før nye ord beskrives i Ordnet.dk, deles de op i emnegrupper (domæner): 1. Hver tekst tilordnes et domæne 2. Påfaldende nye ord inden for hvert domæne udtrækkes 3. De udtrukne ord er kandidater til optagelse i DDO/Ordnet DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 39

173 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

174 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? Decimalklassifikationssystemet DK5 DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

175 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? Decimalklassifikationssystemet DK5 2. Klassifikationsprocedure hvordan tilordnes en tekst et bestemt domæne? DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

176 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? Decimalklassifikationssystemet DK5 2. Klassifikationsprocedure hvordan tilordnes en tekst et bestemt domæne? Heuristisk, baseret på DDO s korpus DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

177 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? Decimalklassifikationssystemet DK5 2. Klassifikationsprocedure hvordan tilordnes en tekst et bestemt domæne? Heuristisk, baseret på DDO s korpus 88,6% af tekststykkerne er tilordnet ét af 66 domæner DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

178 Forudsætninger 1. En brugbar domæneklassifikation: (a) granularitet antal domæner? (b) indhold intensionel definition af et domæne? Decimalklassifikationssystemet DK5 2. Klassifikationsprocedure hvordan tilordnes en tekst et bestemt domæne? Heuristisk, baseret på DDO s korpus 88,6% af tekststykkerne er tilordnet ét af 66 domæner Herfra udtrækkes 66 domænespecifikke vokabularer, som grundlag for klassifikation af ukendt tekst DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 40

179 Domænespecifikke vokabularer 1. Opbygning af domænespecifikke subkorpora: DDOC-domænekoder = 66 domænespecifikke subkorpora DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 41

180 Domænespecifikke vokabularer 1. Opbygning af domænespecifikke subkorpora: DDOC-domænekoder = 66 domænespecifikke subkorpora 2. Opstilling af frekvensprofiler: DDOC + subkopora = frekvensprofiler DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 41

181 Domænespecifikke vokabularer 1. Opbygning af domænespecifikke subkorpora: DDOC-domænekoder = 66 domænespecifikke subkorpora 2. Opstilling af frekvensprofiler: DDOC + subkopora = frekvensprofiler 3. Sammenligning af frekvensprofiler: Hver af de 66 domænespecifikke frekvensprofiler sammenlignes med frekvensprofilen for hele korpusset Signifikanstest: log likelihood Overrepræsenterede typer (p 0.99) inden for et domæne udgør dets domænespecifikke vokabular D. DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 41

182 Eksempel D edb D filosofi D oekonomi data mennesket kr programmer kierkegaard X,X computer moral pct computeren løgstrup procent edb aristoteles kroner computere filosofi rente ibm fornuft offentlige pc platon økonomiske kan kierkegaards bank mb tim X apple den økonomi amiga menneskets vil commodore filosof mia DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 42

183 Metodiske problemstillinger Det arbitrære signifikansniveau (p 0.99) = antal typer i de domænespecifikke vokabularer DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 43

184 Metodiske problemstillinger Det arbitrære signifikansniveau (p 0.99) = antal typer i de domænespecifikke vokabularer De domænespecifikke subkorpusser har forskellig størrelse = afledte vokabularer er forskelligt store, fx Folklore: 1957 typer Sport: typer Gennemsnit for alle domæner: 7256 typer DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 43

185 Metodiske problemstillinger Det arbitrære signifikansniveau (p 0.99) = antal typer i de domænespecifikke vokabularer De domænespecifikke subkorpusser har forskellig størrelse = afledte vokabularer er forskelligt store, fx Folklore: 1957 typer Sport: typer Gennemsnit for alle domæner: 7256 typer Ved domænetilordningen må der tages højde for de domænespecifikke vokabulares forskellige størrelser DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 43

186 Metodiske problemstillinger Det arbitrære signifikansniveau (p 0.99) = antal typer i de domænespecifikke vokabularer De domænespecifikke subkorpusser har forskellig størrelse = afledte vokabularer er forskelligt store, fx Folklore: 1957 typer Sport: typer Gennemsnit for alle domæner: 7256 typer Ved domænetilordningen må der tages højde for de domænespecifikke vokabulares forskellige størrelser Højfrekvente funktionsord optræder som signifikante, fx den vil DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 43

187 Metodiske problemstillinger Det arbitrære signifikansniveau (p 0.99) = antal typer i de domænespecifikke vokabularer De domænespecifikke subkorpusser har forskellig størrelse = afledte vokabularer er forskelligt store, fx Folklore: 1957 typer Sport: typer Gennemsnit for alle domæner: 7256 typer Ved domænetilordningen må der tages højde for de domænespecifikke vokabulares forskellige størrelser Højfrekvente funktionsord optræder som signifikante, fx den vil Fjernes ikke fra de domænespecifikke vokabularer (faste udtryk, kollokationer) DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 43

188 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

189 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

190 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

191 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én Løsning: største fællesmængde mellem D og mængden af teksttokens W DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

192 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én Løsning: største fællesmængde mellem D og mængden af teksttokens W Domæner med store vokabularer vil have lettere ved at score højt DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

193 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én Løsning: største fællesmængde mellem D og mængden af teksttokens W Domæner med store vokabularer vil have lettere ved at score højt Løsning: der må tages højde for størrelsen af de enkelte domænespecifikke vokabularer DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

194 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én Løsning: største fællesmængde mellem D og mængden af teksttokens W Domæner med store vokabularer vil have lettere ved at score højt Løsning: der må tages højde for størrelsen af de enkelte domænespecifikke vokabularer Funktionsord kan få for høj vægt DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

195 Tekstklassifikationen Udgangspunkt: Største fællesmængde D T mellem et domænespecifikt vokabular D og vokabularet T i den tekst, som skal klassificeres Overvejelser: Højfrekvente domænespecifikke typer tæller kun som én Løsning: største fællesmængde mellem D og mængden af teksttokens W Domæner med store vokabularer vil have lettere ved at score højt Løsning: der må tages højde for størrelsen af de enkelte domænespecifikke vokabularer Funktionsord kan få for høj vægt Løsning: der må tages højde for antallet af domæner et givet token er medlem af DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 44

196 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

197 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t 2 Denne værdi w skal være omvendt proportional til antallet af domæner d, i hvis specifikke vokabularer tekst-tokenet optræder: mange domæner = lav værdi (og omvendt) w = 1 d hvor d = i t D i DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

198 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t 2 3 Denne værdi w skal være omvendt proportional til antallet af domæner d, i hvis specifikke vokabularer tekst-tokenet optræder: mange domæner = lav værdi (og omvendt) Beregn en vægt v for den samlede score, som er omvendt proportional til omtrent størrelsen af domænets specifikke vokabular D: stort vokabular = lidt vægt (og omvendt) w = 1 d hvor d = i t D i v = 1 D DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

199 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t Denne værdi w skal være omvendt proportional til antallet af domæner d, i hvis specifikke vokabularer tekst-tokenet optræder: mange domæner = lav værdi (og omvendt) Beregn en vægt v for den samlede score, som er omvendt proportional til omtrent størrelsen af domænets specifikke vokabular D: stort vokabular = lidt vægt (og omvendt) Beregn en vægt for den samlede score, som tager højde for forholdet mellem de tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: mange kendte tokens = høj vægt (og omvendt) w = 1 d hvor d = i t D i v = 1 D k u DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

200 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t Denne værdi w skal være omvendt proportional til antallet af domæner d, i hvis specifikke vokabularer tekst-tokenet optræder: mange domæner = lav værdi (og omvendt) Beregn en vægt v for den samlede score, som er omvendt proportional til omtrent størrelsen af domænets specifikke vokabular D: stort vokabular = lidt vægt (og omvendt) Beregn en vægt for den samlede score, som tager højde for forholdet mellem de tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: mange kendte tokens = høj vægt (og omvendt) Gør endelig scoren relativ til tekstlængden i antal tokens n w = 1 d hvor d = i t D i v = 1 D k u 1 n DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

201 Beregning af domæne-score 1 Lad hvert token t fra teksten W, som også er i domænets specifikke vokabular D, addere en bestemt værdi w til scoren t D W w t Denne værdi w skal være omvendt proportional til antallet af domæner d, i hvis specifikke vokabularer tekst-tokenet optræder: mange domæner = lav værdi (og omvendt) Beregn en vægt v for den samlede score, wsom er t omvendt proportional til omtrent størrelsen af t D W domænets specifikke vokabular D: stort vokabular = lidt vægt (og omvendt) s D = 1 n k u v Beregn en vægt for den samlede score, som tager højde for forholdet mellem de tekst-tokens, som optræder i et af de domænespecifikke vokabularer k, og dem, som ikke gør u: mange kendte tokens = høj vægt (og omvendt) Gør endelig scoren relativ til tekstlængden i antal tokens n w = 1 d hvor d = i t D i v = 1 D k u 1 n DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 45

202 Bestemmelse af nye ord 1. Sammenlign frekvensprofiler vha. log likelihood: nyt domænespecifikt materiale DDO s Korpus 2. fremtrædende ord i det nye materiale = kandidater til optagelse i OrdNet DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 46

203 Eksempel: tekst Du skal bruge en diskette til installationen. På et tidspunkt bliver du spurgt om du vil lave en bootdiskette. Erfaringen siger at det godt kan betale sig at formatere en diskette i forvejen med tjek for dårlige sektorer. Før du installerer Linux, skal der være en partition til rådighed, der er stor nok til at rumme det hele (samt en swap-partition). I løbet af Linux-installationen vil der blive lejlighed til at repartitionere så meget, du har behov for, inden for den plads, der nu er blevet til rådighed. DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 47

204 Eksempel: procedure Klassifikation Teksten klassificeres som edb-tekst Sammenligning OBS! Tekstens lille størrelse vil forvrænge resultatet! Men vi laver en sammenligning alligevel... og dets mest fremtrædende ord listes som kandidater sammen med domæne-/fagtilordninger i DDO s definitioner DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 48

205 Nye ord? Type f DDOC f eks DDO-fagkoder diskette 78 2 edb bootdiskette 0 1 artikel mangler formatere 0 1 edb linux 0 1 artikel mangler linux-installationen 0 1 artikel mangler partition 0 1 artikel mangler repartitionere 0 1 artikel mangler swap-partition 0 1 artikel mangler DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 49

206 Nye betydninger? Type f DDOC f eks DDO domains rådighed alment installerer 16 1 alment teknik du alment installationen 34 1 teknik kunst militær tjek alment sektorer samfund politik matematik DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 50

207 Diskussion af metoden Opgave: Bestem ny domænespecifikke ord til leksikografisk beskrivelse Fremgangsmåde: 1. Korpus = domænespecifikke vokabularer 2. Domænespecifikke vokabularer = tekstklassifikation 3. Domæneklassificeret nyt materiale oprindeligt korpus 4. Fremtrædende ord = kandidater for nye artikler/definitioner Hvert af disse skridt involverer nogle grundlæggende beslutninger som utilsigtet kan have indflydelse på resultatet DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 51

208 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

209 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne Færre domæner, mindre mængdeforskel? DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

210 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne Færre domæner, mindre mængdeforskel? Signifikanstest Log likelihood DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

211 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne Færre domæner, mindre mængdeforskel? Signifikanstest Log likelihood Bedre egnede tests (fx Mann-Whitney ranks-testen)? Afspejler de det undersøgte fænomens natur? DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

212 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne Færre domæner, mindre mængdeforskel? Signifikanstest Log likelihood Bedre egnede tests (fx Mann-Whitney ranks-testen)? Afspejler de det undersøgte fænomens natur? Klassifikationsproceduren Den bør afspejle egenskaber ved teksten Token-overlapning, vokabularstørrelse, unikhed, kendte vs. ukendte tokens DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

213 beslutninger DDO-Korpussets domæneklassifikation Stort antal domæner og store forskel på mængden af tekstmateriale for hvert domæne Færre domæner, mindre mængdeforskel? Signifikanstest Log likelihood Bedre egnede tests (fx Mann-Whitney ranks-testen)? Afspejler de det undersøgte fænomens natur? Klassifikationsproceduren Den bør afspejle egenskaber ved teksten Token-overlapning, vokabularstørrelse, unikhed, kendte vs. ukendte tokens Andre egenskaber, fx G 2 -rangen? Intuitionsbaserede egenskaber: konsevenser? Er kvantificeringen passende? Ja: acceptable resultater Nej: hverken forklarer eller afspejler sprogets natur DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 52

214 Testning Gensidige afhængigheder mellem disse beslutninger er komplekse DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 53

215 Testning Gensidige afhængigheder mellem disse beslutninger er komplekse Test af forskellige alternerende parametre DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 53

216 Testning Gensidige afhængigheder mellem disse beslutninger er komplekse Test af forskellige alternerende parametre Sådan kan klassifikationsproceduren testes: DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 53

217 Testning Gensidige afhængigheder mellem disse beslutninger er komplekse Test af forskellige alternerende parametre Sådan kan klassifikationsproceduren testes: Del DDOC op i to dele Samme relative andel tekst fra hvert domæne Del 1 = domænespecifikke vokabularer Del 2 = testning DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 53

218 Konklusion Godt: Skidt: Og... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 54

219 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Og... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 54

220 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Ingen forklaring på, hvad der gør et ord eller en tekst domæne-specifik Ingen forklaringen på, hvad der gør et ord til et nyt ord Og... DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 54

221 Konklusion Godt: Metoden er brugbar til opgaven Skidt: Ingen forklaring på, hvad der gør et ord eller en tekst domæne-specifik Ingen forklaringen på, hvad der gør et ord til et nyt ord Og... Selvom metoden er kvantitativ... så er den stadig baseret på menneskelige intuition om sproget... Men mon ikke den deler denne skæbne med de fleste kvantitative metdoer inden for sprogvidenskaben? DDO og Ordnet.dk Kilder til nye ord Opdateringsprocessen Forudsætninger Domænespecifikke vokabularer Eksempel Metodiske problemstillinger Tekstklassifikationen Beregning af domæne-score Bestemmelse af nye ord Eksempel: tekst Eksempel: procedure Nye ord? Nye betydninger? Diskussion af metoden beslutninger Testning Konklusion Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 54

222 Jf. særskilt udleveret liste... Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 55

223 Slut for i dag! Tak! Ph.d.-metodekursus, GradEast, 2005 Jørg Asmussen: Kvantitative metoder - p. 56

Hvad sker der med sin i moderne dansk og hvorfor sker det? Af Torben Juel Jensen

Hvad sker der med sin i moderne dansk og hvorfor sker det? Af Torben Juel Jensen Hvad sker der med sin i moderne dansk og hvorfor sker det? Af Torben Juel Jensen De fleste danskere behøver bare at høre en sætning som han tog sin hat og gik sin vej, før de er klar over hvilken sprogligt

Læs mere

Intro til design og brug af korpora

Intro til design og brug af korpora Intro til design og brug af korpora Jørg Asmussen [email protected] Det Danske Sprog- og Litteraturselskab www.dsl.dk Intro til design og brug korpuslingvistik af korpora Jørg Asmussen [email protected] Det Danske Sprog-

Læs mere

Klods Hans, H. C. Andersen Genfortalt af Jens Andersen Målgruppe: 3. 5. klase

Klods Hans, H. C. Andersen Genfortalt af Jens Andersen Målgruppe: 3. 5. klase Forslag til forløb: Forforståelse Snak om titlen. Kender nogen eventyret? Hvad kan de huske? Hvem har skrevet det? Eventyret læses. Fælles eller i grupper. Personkarakteristik. Hold undervejs i læsningen

Læs mere

Transskription af interview med Hassan den 12. november 2013

Transskription af interview med Hassan den 12. november 2013 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Bilag J Transskription af interview med Hassan den 12. november 2013 Kursiv:

Læs mere

Gemt barn. Tekst fra filmen: Flugten til Sverige #5 Tove Udsholt

Gemt barn. Tekst fra filmen: Flugten til Sverige #5 Tove Udsholt Følgende er en transskription af filmen,, som er produceret af DIIS, 2013. I filmen fortæller Tove Udsholt om sine oplevelser som gemt barn under Besættelsen. Flugten til Sverige #5 Tove Udsholt Mit navn

Læs mere

Jeg synes, at eftermiddagen går langsomt. Jeg er så spændt på at det bliver aften og vi skal i biografen. Jeg går op på mit værelse og prøver, om jeg

Jeg synes, at eftermiddagen går langsomt. Jeg er så spændt på at det bliver aften og vi skal i biografen. Jeg går op på mit værelse og prøver, om jeg Jeg synes, at eftermiddagen går langsomt. Jeg er så spændt på at det bliver aften og vi skal i biografen. Jeg går op på mit værelse og prøver, om jeg kan finde Robin Hood-bladet. Mor siger, at jeg roder,

Læs mere

Et oplæg til dokumentation og evaluering

Et oplæg til dokumentation og evaluering Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6

Læs mere

Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47

Korpus 2000 m.fl. Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL. 24. april Korpus / 47 Korpus 2000 mfl Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, DSL 24 april 2006 Korpus 2000 1 / 47 Overblik ODS Den Danske Ordbog Korpus 2000 Flere korpora Søgeværktøjer Det Danske Sprog- og Litteraturselskab:

Læs mere

Julemandens arv. Kapitel 23. Efter et kort øjeblik blev døren åbnet, og Frederikke Severinsen stod foran dem.

Julemandens arv. Kapitel 23. Efter et kort øjeblik blev døren åbnet, og Frederikke Severinsen stod foran dem. Kapitel 23 Efter et kort øjeblik blev døren åbnet, og Frederikke Severinsen stod foran dem. Goddag og velkommen Hr. Branzoo sagde hun henvendt til Johnny. Hun vendte sig om mod Jenny med et spørgende blik.

Læs mere

Interview med drengene

Interview med drengene Interview med drengene Interviewer: Julie = J og Michelle = M. Interviewpersoner: Christian = C og Lasse = L. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 J: Hvad er det I

Læs mere

L Æ R E R V E J L E D N I N G. Kom til orde. Kørekort til mundtlighed. Hanne Brixtofte Petersen. medborgerskab i skolen. Alinea

L Æ R E R V E J L E D N I N G. Kom til orde. Kørekort til mundtlighed. Hanne Brixtofte Petersen. medborgerskab i skolen. Alinea L Æ R E R V E J L E D N I N G Kom til orde Kørekort til mundtlighed Hanne Brixtofte Petersen medborgerskab i skolen Alinea Medborgerskab og mundtlighed I artiklen Muntlighet i norskfaget af Liv Marit Aksnes

Læs mere

Personlige utopier. Af Annemarie Telling

Personlige utopier. Af Annemarie Telling Personlige utopier Hvorfor beskæftige sig med utopi? Hvorfor i alverden bruge tid på noget som alle fra starten ved er urealistisk? Hvorfor sætte sig og tage skyklapper på? Og lukke den konkrete tilværelse

Læs mere

ALMEN GRAMMATIK 1. INDLEDNING. At terpe eller at forstå?

ALMEN GRAMMATIK 1. INDLEDNING. At terpe eller at forstå? ALMEN GRAMMATIK 1. INDLEDNING At terpe eller at forstå? For mange har ordet grammatik en kedelig klang. Nogle vil endda gå så vidt som til at mene, at grammatik er et af de kedeligste og unyttigste fag

Læs mere

Semantikopgave Ved Tobias Scavenius

Semantikopgave Ved Tobias Scavenius Semantikopgave Ved Tobias Scavenius Opgaveformulering Undersøg hvordan verbet bære er beskrevet semantisk i DDO, sammenhold beskrivelsen med Ruus beskrivelse i Kognitiv semantik på dansk. Undersøg hvordan

Læs mere

Prøve i Dansk 1. Skriftlig del. Læseforståelse 1. November-december 2015. Tekst- og opgavehæfte. Delprøve 1: Opgave 1 Opgave 2 Opgave 3

Prøve i Dansk 1. Skriftlig del. Læseforståelse 1. November-december 2015. Tekst- og opgavehæfte. Delprøve 1: Opgave 1 Opgave 2 Opgave 3 Prøve i Dansk 1 November-december 2015 Skriftlig del Læseforståelse 1 Tekst- og opgavehæfte Delprøve 1: Opgave 1 Opgave 2 Opgave 3 Hjælpemidler: Ingen Tid: 60 minutter Udfyldes af prøvedeltageren Navn

Læs mere

1. BAGGRUNDEN FOR UNDERSØGELSEN...

1. BAGGRUNDEN FOR UNDERSØGELSEN... Social- og Sundhedsforvaltningen og Skole- og Kulturforvaltningen, efterår 2008 Indholdsfortegnelse 1. BAGGRUNDEN FOR UNDERSØGELSEN... 3 1.1 DATAGRUNDLAGET... 3 1.2 RAPPORTENS STRUKTUR... 4 2. OPSAMLING

Læs mere

Juleudstilling i Fåborg

Juleudstilling i Fåborg Juleudstilling i Fåborg I dag skal vi til Fåborg. Mor, Ulrik og jeg. Vi skal til byen for at handle og se på juleudstilling. Det er vi hvert år, så det er noget, jeg har glædet mig til længe. Det er ikke

Læs mere

Jeg har hørt, at I har lært alt om venner, og jeg ved, at I alle er meget hjælpsomme.

Jeg har hørt, at I har lært alt om venner, og jeg ved, at I alle er meget hjælpsomme. Besked nr. 1. Kære drenge og piger. Jeg har hørt, at I har lært alt om venner, og jeg ved, at I alle er meget hjælpsomme. Det er derfor jeg sender denne besked til jer, og jeg tror I kan hjælpe mig. Jeg

Læs mere

Ph.d. Afhandling finansieret af RUC, Metropol og Børn & Familier

Ph.d. Afhandling finansieret af RUC, Metropol og Børn & Familier Slægtskabelser - relationer mellem børn i pleje, forældre, og plejeforældre Ph.d. Afhandling finansieret af RUC, Metropol og Børn & Familier [email protected] Program for formiddagen Lidt om undersøgelsen

Læs mere

BØRNEINDBLIK 6/14 STRESSEDE FORÆLDRE SKÆLDER UD OG RÅBER

BØRNEINDBLIK 6/14 STRESSEDE FORÆLDRE SKÆLDER UD OG RÅBER BØRNEINDBLIK 6/14 ANALYSENOTAT FRA BØRNERÅDET NR. 6/2014 1. ÅRGANG 15. SEPTEMBER 2014 ANALYSE: 13-ÅRIGES SYN PÅ FORÆLDRE STRESSEDE FORÆLDRE SKÆLDER UD OG RÅBER Mange 13-årige oplever stressede forældre,

Læs mere

TIPS TIL SAMARBEJDET OM SAMTALEGUIDEN

TIPS TIL SAMARBEJDET OM SAMTALEGUIDEN Samtaleguiden 36 Samtaleguiden er lavet primært til unge, der ryger hash. Som vejleder, mentor m.fl. kan du bruge Samtaleguiden som et fælles udgangspunkt i samtalen med den unge. Du kan dog også blot

Læs mere

Magnetfelter og børnekræft - er der en sammenhæng?

Magnetfelter og børnekræft - er der en sammenhæng? NOTAT NP92-961b JKJ/BT-DGR 4. december 1997 Magnetfelter og børnekræft - er der en sammenhæng? Revideret januar 1993 NOTAT NP92-961b 2 1. Om børnekræft I perioden fra 1945 og frem til i dag har udviklingen

Læs mere

Side 1. Jack og lygten. historien om græskarlygten.

Side 1. Jack og lygten. historien om græskarlygten. Side 1 Jack og lygten historien om græskarlygten Side 2 Personer: Jack Fanden Side 3 Jack og lygten historien om græskarlygten 1 En tom pung 4 2 Fanden 6 3 En mønt 8 4 Et år mere 10 5 Fanden kommer igen

Læs mere

SKOLESTART. Nr. 7, 2004 Børnehaveklasseforeningen. Af Kirsten Wangebo

SKOLESTART. Nr. 7, 2004 Børnehaveklasseforeningen. Af Kirsten Wangebo SKOLESTART. Nr. 7, 2004 Børnehaveklasseforeningen Alting starter et sted Hvis alle undervisere vidste, hvilken betydning børnehaveklasselederen kan have for børnenes senere succes i skolen med læsning

Læs mere

Kvinden Med Barnet 1

Kvinden Med Barnet 1 Kvinden Med Barnet 1 Du blev født. Du voksede op. Du blev voksen, flyttede hjemmefra og så dig aldrig tilbage. Du fik dig en god uddannelse. Du blev forelsket, og I blev kærester. I var sammen i flere

Læs mere

Interview med K, medhjælper i Hotel Sidesporets restaurantkøkken

Interview med K, medhjælper i Hotel Sidesporets restaurantkøkken BILAG H Interview med K, medhjælper i Hotel Sidesporets restaurantkøkken Informanten var udvalgt af Sidesporets leder. Interviewet blev afholdt af afhandlingens forfattere. Interview gennemført d. 24.09.2015

Læs mere

Bilag 6: Transskription af interview med Laura

Bilag 6: Transskription af interview med Laura Bilag 6: Transskription af interview med Laura Interviewet indledes med, at der oplyses om, hvad projektet handler om i grove træk, anonymitet, at Laura til enhver tid kan sige, hvis der er spørgsmål,

Læs mere

Prædiken til 2. Påskedag kl. 10.00 i Engesvang

Prædiken til 2. Påskedag kl. 10.00 i Engesvang Prædiken til 2. Påskedag kl. 10.00 i Engesvang 2. påskedag 408 Nu ringer alle klokker 222 Opstanden er den Herre Krist 234 Som forårssolen 241 Tag det sorte kors fra graven Nadververs 478 v. 4 af Han står

Læs mere

Bilag nr. 8: Interview med Lars

Bilag nr. 8: Interview med Lars Bilag nr. 8: Interview med Lars I: Se Lasse du tegnede denne her tegning i går. Kan du huske det? I: Kan du ikke starte med at fortælle os lidt om, hvad der er på den? 5 L: Det det mig og min far på vej

Læs mere

Det Rene Videnregnskab

Det Rene Videnregnskab Det Rene Videnregnskab Visualize your knowledge Det rene videnregnskab er et værktøj der gør det muligt at redegøre for virksomheders viden. Modellen gør det muligt at illustrere hvordan viden bliver skabt,

Læs mere

Hjem. Helsingør Gymnasium Eksamen dansk Emma Thers, 3.U Torsdag d. 22. maj

Hjem. Helsingør Gymnasium Eksamen dansk Emma Thers, 3.U Torsdag d. 22. maj Hjem Min mor er ude at rejse, og jeg har lovet at se efter hendes lejlighed. Der er ingen blomster, som skal vandes, men en masse post og aviser 1. Sådan lyder indledningen til Maja Lucas novelle fra novellesamlingen,

Læs mere

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold.

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold. Social arv 163 8. Social arv nes sociale forhold nedarves til deres børn Seks områder undersøges Der er en klar tendens til, at forældrenes sociale forhold "nedarves" til deres børn. Det betyder bl.a.,

Læs mere

Transskription af interview med Sofie den 12. november 2013

Transskription af interview med Sofie den 12. november 2013 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Bilag I Transskription af interview med Sofie den 12. november 2013 Kursiv: Indikerer, der er lagt ekstra

Læs mere

Min morfar Min supermand

Min morfar Min supermand Dedikeret til min farmor og min far. Skrevet af Lilian Rask Andersen 2012. Manuskript doneret til Kræftens Bekæmpelse, i et håb om at bogen kan hjælpe familier og pårørende til at tale og græde sammen

Læs mere

Dansk Ken nel Klub Jens O. Pedersen. Ruhåret Hønsehund. Atelier

Dansk Ken nel Klub Jens O. Pedersen. Ruhåret Hønsehund. Atelier Dansk Ken nel Klub Jens O. Pedersen Ruhåret Hønsehund Atelier 2004 For la get Ate li er, www.atelier.dk ISBN 978-87-7857-755-9 Bogen er forfattet og fotograferet af Jens O. Pedersen 2004 Tekst og billeder

Læs mere

MORDET. EMIL (22) Hva gutter, skal vi ikke lige snuppe en øl oppe hos mig? Asger kigger grinende på Emil og svarer ham med et blink i øjet.

MORDET. EMIL (22) Hva gutter, skal vi ikke lige snuppe en øl oppe hos mig? Asger kigger grinende på Emil og svarer ham med et blink i øjet. EXT. VED DØR PÅ GADE. NAT MORDET Tre unge mænd ude foran en trappeopgang til en lejlighed i et mørkt København efter en bytur. Berusede folk og andre skøre skæbner råber og griner på gaden. Den ene af

Læs mere

Kære 10. klasse, kære dimittender Det er tid til at tage afsked med skolen og med hinanden.

Kære 10. klasse, kære dimittender Det er tid til at tage afsked med skolen og med hinanden. 1 Kære 10. klasse, kære dimittender Det er tid til at tage afsked med skolen og med hinanden. Først vil jeg ønske jer til lykke med eksamen. Det er for de fleste en tid med blandede følelser. Det er dejligt

Læs mere

TRISTAN Okay. Så sagde vi, at du mødte min mand. RUNE Hvor er jeg?

TRISTAN Okay. Så sagde vi, at du mødte min mand. RUNE Hvor er jeg? Gamemaster Manuskript 1. INT. Stue Aften To drenge (13) og (13) sidder i en stue i et parcelhuskvarter. Stuen er dunkel, og er indrettet i halvfjerdserstil. Der er et spisebord med stole til, et skrivebord

Læs mere

Energizere bruges til at: Ryste folk sammen Få os til at grine Hæve energiniveauet Skærpe koncentrationen Få dialogen sat i gang

Energizere bruges til at: Ryste folk sammen Få os til at grine Hæve energiniveauet Skærpe koncentrationen Få dialogen sat i gang FORSKELLIGE ENERGIZERS ENERGIZER Energizere er korte lege eller øvelser, som tager mellem to og ti minutter. De fungerer som små pauser i undervisningen, hvor både hjernen og kroppen aktiveres. Selv om

Læs mere

Krageungen af Bodil Bredsdorff

Krageungen af Bodil Bredsdorff Fokusområder Litterær analyse og fortolkning Mål: At eleverne prøver at indgå i et fortolkningsfællesskab omkring en fælles litterær oplevelse. At eleverne lærer at finde begrundelser i teksten for deres

Læs mere

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Humanistisk metode Vejledning på Kalundborg Gymnasium & HF Samfundsfaglig metode Indenfor det samfundsvidenskabelige område arbejdes der med mange

Læs mere

Skrevet af Peter Gotthardt Illustreret af Bodil Bang Heinemeier

Skrevet af Peter Gotthardt Illustreret af Bodil Bang Heinemeier Skrevet af Peter Gotthardt Illustreret af Bodil Bang Heinemeier Morgengry kommer fra skypaladset i himlen. Men hun vil hellere tage på eventyr med sine to venner nede på jorden. Aben Kókoro kan godt lide

Læs mere

Forord. Julen 2005. Hej med jer!

Forord. Julen 2005. Hej med jer! Indhold Julen 2005. Forord 2 1. Historien om jul i Muserup Yderkær. 4 2. Venner af Muserup Yderkær. 7 3. Den mærkeligste dag på året. 9 4. I nødens stund. 11 5. Bedste hædres som heltenisse. 14 6. Den

Læs mere

Bamse på klassebesøg - event for 0. klasse

Bamse på klassebesøg - event for 0. klasse Bamse på klassebesøg - event for 0. klasse Introduktion Ideen med Bamse på klassebesøg er, at eleverne i fællesskab med en slags maskot arbejder med emner, der har relation til det brede positive sundhedsbegreb.

Læs mere

Bilag 3: Elevinterview 2 Informant: Elev 2 (E2) Interviewer: Louise (LO) Interviewer 2: Line (LI) Tid: 10:45

Bilag 3: Elevinterview 2 Informant: Elev 2 (E2) Interviewer: Louise (LO) Interviewer 2: Line (LI) Tid: 10:45 Bilag 3: Elevinterview 2 Informant: Elev 2 (E2) Interviewer: Louise (LO) Interviewer 2: Line (LI) Tid: 10:45 LO: Det er egentlig bare en udbygning af de spørgsmål, der var på spørgeskemaet. Det er bare

Læs mere

Børnehave i Changzhou, Kina

Børnehave i Changzhou, Kina Nicolai Hjortnæs Madsen PS11315 [email protected] 3. Praktik 1. September 2014 23. Januar 2015 Institutionens navn: Soong Ching Ling International Kindergarten. Det er en børnehave med aldersgruppen

Læs mere

Hun er blevet gammel. Ældre udviklingshæmmede. Af Lone Marie Pedersen, [email protected] Foto: Carsten Ingemann

Hun er blevet gammel. Ældre udviklingshæmmede. Af Lone Marie Pedersen, lmp@sl.dk Foto: Carsten Ingemann Ældre udviklingshæmmede Vi prikker til hendes erindring Frida er blevet gammel og mister flere og flere færdigheder. Socialpædagog Monica Andersen er en af de medarbejdere, der skal hjælpe Frida med at

Læs mere

Peters udfrielse af fængslet

Peters udfrielse af fængslet Drama Peters udfrielse af fængslet Kan bruges som totalteater før eller efter tekstgennemgangen. Tekst: ApG 12,1-17 1. Forslag Roller: Peter (farvet lagen), to soldater (sorte affaldssække, evt. sværd),

Læs mere

Hvordan underviser man børn i Salme 23

Hvordan underviser man børn i Salme 23 Hvordan underviser man børn i Salme 23 De fleste børn er rigtig gode til at lære udenad, og de kan sagtens lære hele Salme 23. Man kan f.eks. lære børnene Salme 23, mens man underviser om Davids liv. Det

Læs mere

Modul 3 Læsning, Opgave 1

Modul 3 Læsning, Opgave 1 Modul 3 Læsning, Opgave 1 Instruktion: Tid: Læs spørgsmålet. Find svaret i teksten. Skriv et kort svar. 5 minutter. 1. Hvad tid lukker museet i januar? 2. Hvad koster entreen for børn? 3. Hvor længe varer

Læs mere

PIGEN GRÆDER KL. 12 I NAT

PIGEN GRÆDER KL. 12 I NAT PIGEN GRÆDER KL. 12 I NAT Et manuskript af 7.3, Helsinge Realskole 5. gennemskrivning, februar 2010 1 SC 1.ext. kvarterspladsen forår dag. THOMAS(13)kommer gående med armen rundt om foran vandrehjemmet.

Læs mere

DR Undersøgelse om graviditet

DR Undersøgelse om graviditet t DR Undersøgelse om graviditet Danmarks Radio 26. jan 2016 AARHUS COPENHAGEN MALMÖ OSLO SAIGON STAVANGER VIENNA 1 INDHOLDSFORTEGNELSE 1. Frekvenser... 3 2. Kryds med køn... 9 3. Kryds med alder... 13

Læs mere

Samspillet GIV PLADS TIL ALLE LÆRERVEJLEDNING TIL INDSKOLINGEN DEL DINE FIDUSER

Samspillet GIV PLADS TIL ALLE LÆRERVEJLEDNING TIL INDSKOLINGEN DEL DINE FIDUSER DEL DINE FIDUSER GIV PLADS TIL ALLE LÆRERVEJLEDNING TIL INDSKOLINGEN Samspillet 9 ud af 10 forældre mener, at debat om børnenes trivsel og problemer i klassen er det vigtigste indhold på et forældremøde.

Læs mere

Prædiken til midfaste søndag, Joh 6,24-37. 2. tekstrække. Grindsted Kirke Søndag d. 30. marts 2014 kl. 10.00 Steen Frøjk Søvndal.

Prædiken til midfaste søndag, Joh 6,24-37. 2. tekstrække. Grindsted Kirke Søndag d. 30. marts 2014 kl. 10.00 Steen Frøjk Søvndal. 1 Grindsted Kirke Søndag d. 30. marts 2014 kl. 10.00 Steen Frøjk Søvndal Prædiken til midfaste søndag, Joh 6,24-37. 2. tekstrække Salmer DDS 496: Af dybsens nød, o Gud, til dig DDS 289: Nu bede vi den

Læs mere

Opgaver hørende til undervisningsmateriale om Herons formel

Opgaver hørende til undervisningsmateriale om Herons formel Opgaver hørende til undervisningsmateriale om Herons formel 20. juni 2016 I Herons formel (Danielsen og Sørensen, 2016) er stillet en række opgaver, som her gengives. Referencer Danielsen, Kristian og

Læs mere

Interview gruppe 2. Tema 1- Hvordan er det at gå i skole generelt?

Interview gruppe 2. Tema 1- Hvordan er det at gå i skole generelt? Interview gruppe 2 Interviewperson 1: Hvad hedder i? Eleverne: Anna, Fatima, Lukas Interviewperson 1: Hvor gamle er i? Eleverne: 15, 16, 15. Interviewperson 1: Jeg ved ikke hvor meget i lige har hørt,

Læs mere

Nej sagde Kaj. Forløb

Nej sagde Kaj. Forløb Nej sagde Kaj Kaj siger nej til alle mors gode tilbud om rejser ud i verden. Han vil hellere have en rutsjebanetur - og det får han, både forlæns og baglæns gennem mærkelige og uhyggelige steder som Gruel

Læs mere

Diktat 1 Lørdag morgen

Diktat 1 Lørdag morgen Diktat 1 Lørdag morgen Det begyndte som en helt n l e. Til morgenmad fik vi o u med k f. Og som altid drak vi u. T e var at vi skulle se en film måske den der handler om en k r e. Eller også en s. Men

Læs mere

MIN. kristendom fra top til tå MARIA BAASTRUP JØRGENSEN ILLUSTRATOR KAMILLA WICHMAnN MINI KATEKISMUS

MIN. kristendom fra top til tå MARIA BAASTRUP JØRGENSEN ILLUSTRATOR KAMILLA WICHMAnN MINI KATEKISMUS MIN MINI KATEKISMUS kristendom fra top til tå MARIA BAASTRUP JØRGENSEN ILLUSTRATOR KAMILLA WICHMAnN 1 2 Den bog, du sidder med nu, er en katekismus. Det betyder, at det er en bog, der helt enkelt fortæller

Læs mere

Dyrestudier Billedhuggeren Anne Marie Carl-Nielsen

Dyrestudier Billedhuggeren Anne Marie Carl-Nielsen Dyrestudier Billedhuggeren Anne Marie Carl-Nielsen Introduktion Billedhuggeren Anne Marie Carl-Nielsen (1863-1945) var en af de mest banebrydende kvindelige billedhuggere i Danmark. Den Hirschsprungske

Læs mere

Gruppeopgave kvalitative metoder

Gruppeopgave kvalitative metoder Gruppeopgave kvalitative metoder Vores projekt handler om radikalisering i Aarhus Kommune. Vi ønsker at belyse hvorfor unge muslimer bliver radikaliseret, men også hvordan man kan forhindre/forebygge det.

Læs mere

Side 1. Ulvens børn. historien om romulus og remus.

Side 1. Ulvens børn. historien om romulus og remus. Side 1 Ulvens børn historien om romulus og remus Side 2 Personer: Numitor Amulius Rea Romulus Remus Side 3 Ulvens børn historien om romulus og remus 1 Tronen 4 2 Guden Mars 6 3 To sønner 8 4 Romulus og

Læs mere

1 Historien begynder

1 Historien begynder LÆS STARTEN AF 1 Historien begynder Rikka galoperede gennem skoven. Hendes hjerte hamrede i brystet, og hun var træt. Alle fire ben gjorde ondt, men hun kunne ikke stoppe nu. Klahons Drømmejæger havde

Læs mere

RAPPORT Natur i generationer September 2009 DANMARKS NATURFREDNINGSFORENING PROJEKT 56456. Udarbejdet af: Celia Paltved-Kaznelson

RAPPORT Natur i generationer September 2009 DANMARKS NATURFREDNINGSFORENING PROJEKT 56456. Udarbejdet af: Celia Paltved-Kaznelson Masnedøgade 22-26 DK-2100 København Ø Denmark RAPPORT Natur i generationer September 2009 DANMARKS NATURFREDNINGSFORENING PROJEKT 56456 Udarbejdet af: Celia Paltved-Kaznelson CVR 11 94 51 98 VAT DK 11

Læs mere

Prædiken til 1. s. e. trinitatis

Prædiken til 1. s. e. trinitatis Prædiken til 1. s. e. trinitatis Salmer 745 Vågn op og slå på dine strenge 292 Kærligheds og sandheds ånd 41 Lille Guds barn, hvad skader dig 411 Hyggelig rolig Nadver: 725 det dufter lysegrønt af græs

Læs mere

Skudt ned over Danmark

Skudt ned over Danmark Jørgen Hartung Nielsen Skudt ned over Danmark Sabotør-slottet, 3 Skudt ned over Danmark Sabotør-slottet, 3 Jørgen Hartung Nielsen Forlaget Cadeau 1. udgave, 1. oplag 2010 Illustrationer: Preben Winther

Læs mere

Scene 2 Int. Klasseværelse Total mørke(alexanders POV) ANNIKA(12) Nå. Endnu en gave? Hold da op. Se alle sammen. Alexander har givet mig en halskæde.

Scene 2 Int. Klasseværelse Total mørke(alexanders POV) ANNIKA(12) Nå. Endnu en gave? Hold da op. Se alle sammen. Alexander har givet mig en halskæde. Manus Luk Øjnene Op. 5th draft. Scene 1 Int. Drengeværelse - Morgen Alexander(12) sidder på sin seng med skoletaske på. Omkring i værelset står flere dinosaurfigurer, men væggene er tomme. Han må tydeligvis

Læs mere

Tag bedre billeder af dine. med disse 3 super nemme tricks

Tag bedre billeder af dine. med disse 3 super nemme tricks Tag bedre billeder af dine børn med disse 3 super nemme tricks Kender du det? Mini er simpelthen så charmerende at du slet ikke kan modstå at prøve at fange øjeblikket? Men når du ser billedet tænker du

Læs mere

Jeg fik den tanke i forgårs, at man ikke burde stille en skriveopgave, uden også selv at besvare den.

Jeg fik den tanke i forgårs, at man ikke burde stille en skriveopgave, uden også selv at besvare den. 17. jul. 2012 Jeg fik den tanke i forgårs, at man ikke burde stille en skriveopgave, uden også selv at besvare den. nedenfor er altså mit bud på en tekst der handler om kamp og kærlighed, kampaspektet

Læs mere

Bilag 4 Pædagog interview Interviewspørgsmål 5.1 Interviewsvar 5.1 Interviewspørgsmål 5.2 Interviewsvar 5.2 Interviewspørgsmål 5.3 Interviewsvar 5.

Bilag 4 Pædagog interview Interviewspørgsmål 5.1 Interviewsvar 5.1 Interviewspørgsmål 5.2 Interviewsvar 5.2 Interviewspørgsmål 5.3 Interviewsvar 5. Bilag 4 Pædagog interview Interviewspørgsmål 5.1: Hvad er arbejdsetik for dig? Interviewsvar 5.1: Jamen altså.. Etik så tænker jeg jo gerne i forhold til, ikke i forhold til personlig pleje, men i forhold

Læs mere

Vi introduceres til innovation som begreb og ideen om innovative krydsfelter.

Vi introduceres til innovation som begreb og ideen om innovative krydsfelter. Innovation som arbejdsmetode Underviser: Pia Pinkowsky Dag 1 10.00 Velkomst og præsentationer Mundtlig forventningsafklaring: Hvorfor er vi her? Vi ekspliciterer kursets formål og form for at: motivere

Læs mere

Snehvide. Lille spejl på væggen der, hvem er skønnest i landet her? svarede spejlet: Ingen i verden er dejlig som du.

Snehvide. Lille spejl på væggen der, hvem er skønnest i landet her? svarede spejlet: Ingen i verden er dejlig som du. Snehvide De brødrene Grimm - KHM 053 tid: 20' Det var midt om vinteren, og sneflokkene faldt som dun ned fra himlen. Dronningen sad ved vinduet og syede i en ramme af sort ibentræ, og mens hun syede og

Læs mere

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL

RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL RESUME TRANSLATION MEMORY-SYSTEMER SOM VÆRKTØJ TIL JURIDISK OVERSÆTTELSE. KRITISK VURDERING AF ANVENDELIGHEDEN AF TRANSLATION MEMORY-SYSTEMER TIL OVERSÆTTELSE AF SELSKABSRETLIG DOKUMENTATION. I den foreliggende

Læs mere

Lindvig Osmundsen Side 1 01-05-2016 Prædiken til 5.s.e. påske 2016. Prædiken til 5. søndag efter påske 2016. Tekst: Johs. 17,1-11.

Lindvig Osmundsen Side 1 01-05-2016 Prædiken til 5.s.e. påske 2016. Prædiken til 5. søndag efter påske 2016. Tekst: Johs. 17,1-11. Lindvig Osmundsen Side 1 01-05-2016 Prædiken til 5. søndag efter påske 2016. Tekst: Johs. 17,1-11. Et smukt billede. Et herligt billede. Ordet herlighed er et centralt ord i Jesu bøn. Jesu bad om at blive

Læs mere

Det ånder himmelsk over støvet, det vifter hjemligt gennem løvet, det lufter lifligt under sky fra Paradis, opladt på ny.

Det ånder himmelsk over støvet, det vifter hjemligt gennem løvet, det lufter lifligt under sky fra Paradis, opladt på ny. Gudstjeneste i Skævinge & Lille Lyngby Kirke den 8. juni 2014 Kirkedag: Pinsedag/B Tekst: Joh 14,15-21 Salmer: SK: 290 * 291 * 289 * 281,3 * 723 LL: 290 * 287 * 291 * 289 * 281,3 * 723 Det ånder himmelsk

Læs mere

MIN VEN ER ALBINO. om en svagtseende dreng

MIN VEN ER ALBINO. om en svagtseende dreng MIN VEN ER ALBINO om en svagtseende dreng MIN VEN ER ALBINO om en svagtseende dreng 1.udgave Udgivet af: Dansk Forening for Albinisme www.albinisme.dk [email protected] Redaktion: Susan Poulsen, Karina

Læs mere

sproget.dk en internetportal for det danske sprog

sproget.dk en internetportal for det danske sprog sproget.dk en internetportal for det danske sprog Ida Elisabeth Mørch, Dansk Sprognævn Lars Trap-Jensen, Det Danske Sprog- og Litteratuselskab 1 Baggrunden 2003 Sprog på spil 2005 Ekstrabevilling 2006

Læs mere

Fra Den strandede mand tolv fortællinger om havet og hjertet

Fra Den strandede mand tolv fortællinger om havet og hjertet Klaveret Fra Den strandede mand tolv fortællinger om havet og hjertet Skrevet af Louis Jensen For lang tid siden faldt et klaver i havnen. Dengang var min bedstemor en lille pige med en stor, rød sløjfe

Læs mere

15. søndag efter trinitatis 13. september 2015

15. søndag efter trinitatis 13. september 2015 Kl. 9.00 Kl. 14.00 Burkal Kirke Tinglev Kirke Tema: Ubekymrethed Salmer: 750, 42; 41, 31 15, 369; 41, 31 Evangelium: Matt. 6,24-34 "End ikke Salomo i al sin pragt var klædt som en af dem" Der var engang

Læs mere

Bachelorprojekt Bilag 4 fil nr. 3 Tysk Karin Rostgaard Henrichsen Studienummer: 30290440

Bachelorprojekt Bilag 4 fil nr. 3 Tysk Karin Rostgaard Henrichsen Studienummer: 30290440 Klasse: 6.x og y Fag: Tysk (Observering af 2. rang) Dato: 24.10.12. Situation: Stafette mit Zahlen Temaer: Igangsætning og mundtlighed Tema Person Beskrivelse: Hvad bliver der sagt? Hvad sker der? Igangsætning

Læs mere

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund.

Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund. Guldbog Kemi C Copyright 2016 af Mira Backes og Christian Bøgelund. Alle rettigheder forbeholdes. Mekanisk, fotografisk eller elektronisk gengivelse af denne bog eller dele heraf er uden forfatternes skriftlige

Læs mere

Skrevet af Kiki Thorpe Illustreret af Jana Christy Oversat af Lis Andersen

Skrevet af Kiki Thorpe Illustreret af Jana Christy Oversat af Lis Andersen Skrevet af Kiki Thorpe Illustreret af Jana Christy Oversat af Lis Andersen Ø n s k e ø e n Langt, langt væk fra den verden, vi kender, i et fjernt drømmehav ligger der en ø. Den hedder Ønske øen, og det

Læs mere

Side 1. De tre tønder. historien om Sankt Nicolaus.

Side 1. De tre tønder. historien om Sankt Nicolaus. Side 1 De tre tønder historien om Sankt Nicolaus Side 2 Personer: Nicolaus Side 3 De tre tønder historien om Sankt Nicolaus 1 Nicolaus 4 2 Naboen 6 3 Tre poser guld 8 4 Mere guld 10 5 Gaden er tom 12 6

Læs mere

»Ja. Heldigvis.«De to drenge går videre. De lader som om, de ikke ser Sally.»Hej drenge!«råber hun. Bølle-Bob og Lasse stopper op og kigger over på

»Ja. Heldigvis.«De to drenge går videre. De lader som om, de ikke ser Sally.»Hej drenge!«råber hun. Bølle-Bob og Lasse stopper op og kigger over på 1. Søde Sally Bølle-Bob og Lasse kommer gående i byen. De ser Smukke Sally på den anden side af gaden.»hende gider vi ikke snakke med,«siger Lasse.»Nej.«Bølle-Bob kigger den anden vej.»hun gider heller

Læs mere

Sprogtest til optagelsesprøven

Sprogtest til optagelsesprøven Sprogtest til optagelsesprøven Instruktion: Denne prøve tester, hvor god du er til retskrivning, grammatik og andre beslægtede emner. Du får 18 spørgsmål i alt. Der er fem svarmuligheder til hvert spørgsmål.

Læs mere

1. Hvad er LyLe? LyLe fordi vi har brug for hinanden! Du er ikke alene Kend din sygdom

1. Hvad er LyLe? LyLe fordi vi har brug for hinanden! Du er ikke alene Kend din sygdom 1. Hvad er LyLe? LyLe fordi vi har brug for hinanden! Hvert år får ca. 2.500 danskere enten lymfekræft, leukæmi, MDS eller andre blodkræftsygdomme, og godt 20.000 lever i dag med en af disse sygdomme.

Læs mere

Korpusbaseret lemmaselektion og opdatering

Korpusbaseret lemmaselektion og opdatering Korpusbaseret lemmaselektion og opdatering Jørg Asmussen Afdeling for Digitale Ordbøger og Tekstkorpora Det Danske Sprog- og Litteraturselskab www.dsl.dk Program 1. Introduktion til DSL 2. Introduktion

Læs mere

Lagoni SFO. Unionvej 4 6500 Vojens - Tlf. 7434 3210 Mobil 3089 7807 - E-mail: [email protected]

Lagoni SFO. Unionvej 4 6500 Vojens - Tlf. 7434 3210 Mobil 3089 7807 - E-mail: chsc@haderslev.dk Lagoni SFO Unionvej 4 6500 Vojens - Tlf. 7434 3210 Mobil 3089 7807 - E-mail: [email protected] Vojens 1. April 2012 Så blev det forår... jubii!!! Huset summer af liv. Vi nyder det gode vejr, og bruger

Læs mere