Internet hitlister. 1 Formål. En geometrisk præsentation af interesse-afstande Køreplan Matematik 1 - FORÅR 2006

Relaterede dokumenter
Internet hitlister. En geometrisk præsentation af interesse-afstande Køreplan Matematik 1 - FORÅR 2006

Symmetriske og ortogonale matricer Uge 7

Uge 11 Lille Dag. Opgaver til OPGAVER 1. Det ortogonale komplement

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Symmetriske og ortogonale matricer Uge 6

Diagonalisering. Definition (diagonaliserbar)

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Tidligere Eksamensopgaver MM505 Lineær Algebra

Symmetriske matricer

Københavns Universitet, Det naturvidenskabelige Fakultet. Forelæsningsnote 8. (NB: Noten er ikke en del af pensum)

Sylvesters kriterium. Nej, ikke mit kriterium. Sætning 9. Rasmus Sylvester Bryder

z 1 = z 1z 1z 1 z 1 2 = z z2z 1 z 2 2

Fejlkorligerende køder Fejlkorrigerende koder

LinAlgDat 2014/2015 Google s page rank

Egenværdier og egenvektorer

Hvor er mine runde hjørner?

Oversigt [LA] 1, 2, 3, [S] 9.1-3

Københavns Universitet, Det naturvidenskabelige Fakultet. Afleveringsopgave 3

Oversigt [LA] 11, 12, 13

Lineær algebra: Egenværdier, egenvektorer, diagonalisering

Besvarelser til Lineær Algebra Ordinær Eksamen Juni 2017

Lineær Algebra F08, MØ

Oversigt [LA] 10, 11; [S] 9.3

x 2 + y 2 dx dy. f(x, y) = ln(x 2 + y 2 ) + 2 1) Angiv en ligning for tangentplanen til fladen z = f(x, y) i punktet

Oversigt [LA] 1, 2, 3, [S] 9.1-3

Lokalt ekstremum DiploMat 01905

Andengradsligninger i to og tre variable

Nøgleord og begreber. Definition 15.1 Den lineære 1. ordens differentialligning er

Oversigt [S] 7.3, 7.4, 7.5, 7.6; [LA] 15, 16, 17

Biologisk model: Epidemi

Københavns Universitet, Det naturvidenskabelige Fakultet. Afleveringsopgave 4

Nøgleord og begreber Ortogonalt komplement Tømrerprincippet. [LA] 13 Ortogonal projektion

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

Egenværdier og egenvektorer

Teoretiske Øvelsesopgaver:

DESIGNMAT FORÅR 2012: UGESEDDEL Forberedelse Læs alle opgaverne fra tidligere ugesedler, og læg særlig mærke til dem du har spørgsmål til.

Besvarelser til Lineær Algebra Ordinær Eksamen Juni 2018

Om første og anden fundamentalform

Vektorer og lineær regression

Lineær Algebra eksamen, noter

Oversigt [LA] 1, 2, 3, [S] 9.1-3

Vektorer og lineær regression. Peter Harremoës Niels Brock

Definition multiplikation En m n-matrix og en n p-matrix kan multipliceres (ganges sammen) til en m p-matrix.

Nøgleord og begreber. Definition multiplikation En m n-matrix og en n p-matrix kan multipliceres (ganges sammen) til en m p-matrix.

3.1 Baser og dimension

Lineær algebra Kursusgang 6

Eksempel på den aksiomatisk deduktive metode

Køreplan Matematik 1 - FORÅR 2005

Eksamen i Lineær Algebra

DesignMat. Preben Alsholm. September Egenværdier og Egenvektorer. Preben Alsholm. Egenværdier og Egenvektorer

Matricer og lineære ligningssystemer

Aflevering 4: Mindste kvadraters metode

Lineær Algebra, kursusgang

GPS og geometri - 1 Baggrund. lineære og ikke-lineære ligninger. Køreplan Matematik 1 - FORÅR 2007

DesignMat Uge 1 Gensyn med forårets stof

Taylors formel. Kapitel Klassiske sætninger i en dimension

Besvarelse af Eksamensopgaver Juni 2005 i Matematik H1

Oversigt [LA] 3, 4, 5

Module 1: Lineære modeller og lineær algebra

Anvendt Lineær Algebra

Modulpakke 3: Lineære Ligningssystemer

Ølopgaver i lineær algebra

Matematik og dam. hvordan matematik kan give overraskende resultater om et velkendt spil. Jonas Lindstrøm Jensen

2010 Matematik 2A hold 4 : Prøveeksamen juni 2010

Kvadratiske matricer. enote Kvadratiske matricer

Eksamen i Lineær Algebra

Det Ingeniør-, Natur- og Sundhedsvidenskabelige basisår Matematik 2A, Forår 2007, Hold 4 Opgave A Kommenteret version

LiA 5 Side 0. Lineær algebra Kursusgang 5

Matematikkens metoder illustreret med eksempler fra ligningernes historie. Jessica Carter Institut for Matematik og Datalogi, SDU 12.

Noter til Lineær Algebra

MM502+4 forelæsningsslides

To find the English version of the exam, please read from the other end! Eksamen i Lineær Algebra

Lineær Algebra - Beviser

Uge 6 Store Dag. Opgaver til OPGAVER 1. Opgave 1 Udregning af determinant. Håndregning Der er givet matricen A =

Besvarelser til Lineær Algebra Ordinær eksamen - 6. Juni 2016

Den homogene ligning. Vi betragter den n te ordens, homogene, lineære differentialligning. d n y dt n. an 1 + any = 0 (1.2) dt. + a1 d n 1 y dt n 1

Symmetriske matricer. enote Skalarprodukt

Besvarelser til Lineær Algebra med Anvendelser Ordinær Eksamen 2016

Opholdstidsfordeling i Kemiske Reaktorer

Besvarelser til Lineær Algebra Ordinær Eksamen - 5. Januar 2018

Lineære 1. ordens differentialligningssystemer

Mat 1. 2-timersprøve den 5. december 2016.

Vektorfelter langs kurver

Matematik A, STX. Vejledende eksamensopgaver

Noter til Perspektiver i Matematikken

Tal. Vi mener, vi kender og kan bruge følgende talmængder: N : de positive hele tal, Z : de hele tal, Q: de rationale tal.

LINALG JULENØD 2013 SUNE PRECHT REEH

DTU. License to Thrill

Matricer og Matrixalgebra

EKSAMENSOPGAVELØSNINGER CALCULUS 2 (2005) JANUAR 2006 AARHUS UNIVERSITET.. Beregn den retningsafledede D u f(0, 0).

Matematikken former morgendagens satellitter

isearch Testsamling til evaluering af integreret søgning

DTU. License to Thrill

Reeksamen i Lineær Algebra. Første Studieår ved Det Tekniske Fakultet for IT og Design samt Det Ingeniør- og Naturvidenskabelige Fakultet

π can never be expressed in numbers. William Jones og John Machins algoritme til beregning af π

Fordybelsesprojekt Matematik 2, forår 2005 Potensrækker

Lineære 1. ordens differentialligningssystemer

Undersøgelser af trekanter

Undervisningsbeskrivelse

Transkript:

Internet hitlister En geometrisk præsentation af interesse-afstande Køreplan 01005 Matematik 1 - FORÅR 2006 1 Formål geuklidisk Formålet med denne projekt-opgave er at finde en geometrisk repræsentation (i 2D eller 3D) af den såkaldte interesse-afstand mellem et stort antal personer ud fra deres brug af internettet. Det er en simplere sag at finde en lineær liste (som i Google) der viser en (relevans-)rangordning i forhold til én given adresse. Det er en ikke-triviel opgave at vise flere indbyrdes relationer i ét display. Det er det, denne opgave går ud på. Dels at opstille en metode til dette og dels at vurdere metodens fejlmarginer. Formålet med denne projekt-opgave er således mere generelt formuleret at konstruere en umiddelbar intuitiv visualisering af relaterede data i 3D eller 2D. En aktuel bemærkning i den retning er f.eks. følgende: "Search engines such as Google and All-the-Web have taught users to expect that simple queries in a single search can result in meaningful answers. Not only are the resulting documents accessible but they are also seen as relevant, the latter based on different methodologies for analyzing the online version of the document. However, the real competitive advantage among the different approaches is in the introduction of phenomena such as ranking, clustering, data mining, and personalization - all based on detailed knowledge of the structure of the records and of the end user." From the call to a DEFF workshop, March 2006. Konkret betragtes 7 personer {A,...,G}, som i et givet tidsrum har besøgt adresser fra en mængde af ialt 2117 forskellige internetadresser. Nogle personer har besøgt samme adresse flere gange i det givne tidsrum. Definition. En afstandsmatrix D er en symmetrisk n n-matrix som har positive elementer på alle pladser undtagen på diagonalen, hvor alle diagonalelementer er 0, og som desuden tilfredsstiller trekants-uligheden: d i j d ik + d k j (1) for alle valg af tre (punkter) indices (i, j,k). 1. Vælg 7 tilfældige (men forskellige) konkrete punkter (vektorer) i R 5 som antages udstyret med den sædvanlige basis. Det eneste krav til punktsystemet er, at punkternes massemidtpunkt skal ligge i Origo, dvs. summen af (sted)vektorerne er 0. De 7 punkter har så koor- Mat1 05/06 side 1

Figur 1: Den totale kommunikation på det globale internet på et ganske bestemt tidspunkt i 2004. fignet Figur 2: En Google Scholar søgning med lineær hitliste figgoogle dinater som følger: hvor p 1 = (x 11,x 21,x 31,x 41,x 51 ), p 2 = (x 12,x 22,x 32,x 42,x 52 ),... p 7 = (x 17,x 27,x 37,x 47,x 57 ), 7 x ik = 0 for i = 1,2,3,4,5. (3) k=1 (2) eqpointma Sæt nu e i j til at være den sædvanlige Euklidiske afstand i R 5, dvs. følgende værdi for hvert valg af i og j : e i j = 5 (x ki x k j ) 2 (4) k=1 Mat1 05/06 side 2

Figur 3: Det såkaldte Venn diagram for den symmetriske differens mellem mængderne A og B figsymmdiff opgsqrt Argumentér for, at 7 7-matricen med disse elementer e i j er en afstandsmatrix i den ovenfor definerede forstand uanset valget af punkter. 2. I fortsættelse af ovenstående opgave: Vis, at den matrix, der har elementerne ê i j = e i j også er en afstandsmatrix. 3. (*) Vis helt generelt, at hvis d i j er (elementerne i) en vilkårlig afstandsmatrix, så er d i j også (elementerne i) en afstandsmatrix! Kig evt. i referencen [S] i materiale-sektionen. opgread 4. Indlæs de datafiler der indeholder de ovenfor omtalte hitlister til en Maple worksheet - dels den totale hitliste og dels de 7 personlige hitlister. De findes i materiale-sektionen hørende til denne projekt-opgave. Benyt eventuelt den indlæsnings-procedure, som er angivet i Maple hjælpe-filen, HitHelp.mw Vi definerer nu en abstrakt interesse -afstand mellem hvert par af de pågældende personer. I modsætning til eksemplerne med de 7 punkter i R 3 stammer denne afstand ikke fra nogen som helst Euklidisk afstand, men konstrueres direkte ud fra hvor stort et overlap der er mellem personernes hitlister: Definition. Lad A og B betegne to mængder (f.eks. hitliste-mængder for de tilsvarende personer). Den symmetriske differens A B mellem A og B er da følgende mængde: A B = (A B) (B A). (5) Dvs. den symmetriske differens mellem A og B indeholder de elementer i foreningsmængden A B, som ikke ligger i fællesmængden A B. For ethvert par af personer med hitlister henholdsvis H i og H j definerer vi nu en abstrakt afstand mellem personerne til at være: s i j = #(H i H j ), (6) hvor #(A) betyder antallet af elementer i mængden A. 5. Begrund, at denne abstrakte afstand i den foreliggende konkrete opgave vedrørende hitlisterne med rimelighed kan kaldes en interesse -afstand mellem de involverede personer. 6. Vis, at s i j faktisk er en afstand i den præcise forstand, at den tilhørende 7 7-matrix S = [ si j ] opfylder alle betingelserne for at blive kaldt en afstandsmatrix. I henhold til opgave 3 er d i j = s i j så også elementer i en afstandsmatrix D = [ d i j ]. Og det er disse afstande, vi fra nu af vil kalde interesse -afstandene mellem de 7 personer i forhold til deres hit-mængder. 7. Begrund, at kvadratroden ikke ændrer ved rimeligheden i betegnelsen interesse -afstand. Argumentér for, at s i j faktisk kan være bedre at benytte til visualiseringsformål end s i j. Mat1 05/06 side 3

geuklidisk 8. Konstruér interesse-afstandsmatricen for de 7 personer ud fra hitlisterne fra opgave 4 Den egentlige opgave er nu at synliggøre disse interesse-afstande, dvs. repræsentere dem med punkt-afstande i rummet eller i planen, således at de abstrakte afstande realiseres så godt som muligt. Det skal først bemærkes, at vi kun sjældent kan repræsentere abstrakte afstande helt præcis i 3D eller i 2D. Prøv f.eks. at realisere de 7 punkter fra opgave i rummet (3D) elller i en plan (2D). Til trods for trekantsulighederne i afstandsmatricerne er der ingen garanti for, at afstandene kan realiseres eksakt i rummet eller i en plan. En del af opgaven er således også at vurdere, hvor stor en fejl vi begår ved at tvinge afstandene ind i 3D eller 2D, se opgave??. Som et bemærkelsesværdigt hjælpemiddel til at finde en konfiguration af punkter, der approksimerer interesse-afstandene bedst muligt i et passende vektorrum R q, benytter vi den velkendte diagonaliseringsprocedure på en såkaldt Gram-matrix. Definition. For en given n n-afstandsmatrix D er den tilhørende Gram-matrix en symmetrisk n n-matrix A, som er givet ved sine elementer a i j således: a i j = 1 2 ( d 2 i j c i c j + d ), (7) hvor c i = 1 n n di 2 j og j=1 d = 1 n n n 2 di 2 j. i=1 j=1 (8) Hvis de afstande d i j, der benyttes til konstruktionen af Gram-matricen A faktisk er afstandene mellem n punkter i rummet, som i opgave 1, så kan Gram-matricen konstrueres meget simpelt, nemlig som følgende matrix-produkt: A = X T X, (9) eqgramptc opgdident hvor X er den matrix, der som søjlevektorer indeholder koordinatvektorerne for punkterne, som det også er antydet med notationen i eksemplet med punkterne i opgave 1. 9. Vis, at ligning 9 er opfyldt for de konkrete punkter som er valgt i opgave 1. 10. (*) Vis helt generelt, at ligning 9 er opfyldt uanset hvordan punkterne bliver valgt i opgave 1. Kig f.eks. i referencen [S]. 11. Konstruér Gram-matricen A for interesse-afstandene, som fundet i opgave?? 12. (*) Vis, at hvis to afstandsmatricer giver samme Gram-matrix, så er de to afstandsmatricer også ens. (Vink: vis evt. først, at d-værdien er den samme for begge afstandsmatricerne.) Det betyder, at hvis vi blot kan finde eller konstruere en matrix X med den egenskab, at der for den givne aktuelle 7 7-Gram-matrix for interesse-afstandsmatricen gælder: A = X T X, (10) eqxconstr så kan vi aflæse koordinaterne til de ønskede punkter i søjlerne i X-matricen!. Mat1 05/06 side 4

En sådan matrix X findes ved først at diagonalisere A, dvs. udtrykke A således: A = U ΛU T, (11) hvor Λ er en diagonalmatrix indeholdende egenværdierne λ i, i = 1,2,...,7, for A. Næste opgave er derfor følgende velkendte: 13. Diagonalisér interesse-gram-matricen A, således at diagonalmatricen Λ indeholder egenværdierne i størrelsesorden med største egenværdi i øverste venstre hjørne: λ 1 0. 0 Λ = 0 λ 2. 0...., (12) 0 0. λ 7 således at λ 1 λ 2... λ 7. Observér, at alle egenværdier er ikke-negative, således at vi kan tage kvadratroden af dem og betragte matricen 14. Vis, at Λ = λ1 0. 0 0 λ2. 0.... 0 0. λ7 X = (13) ( U Λ) T (14) 15. - 16. - er en matrix med den søgte egenskab, altså at X opfylder ligning (10). 17. Ovenfor har vi betragtet hvert hit med vægt 1 selv om en given adresse jo kan være besøgt mange gange i løbet af året. Overvej, hvordan afstands-definitionen skal eller kan modificeres, således at der også tages hensyn til antallet af besøg på en given adresse. 18. En nærmere analyse vil afsløre, at den fælles interesse hos 3 af personerne især har at gøre med undervisningsinstitutioner (i hvilket land?) mens den fælles interesse hos tre andre især handler om virksomheder (i hvilket land?) En endnu mere detaljeret analyse vil endda afsløre, at alle personerne - undtagen een (hvem?) interesserer sig for en ganske bestemt Italiensk hjemmeside, hvis navn ofte associeres med en velkendt Polytekniker (hvem?) Litteratur BB [BB] M. W. Berry and M. Browne, Understanding Search Engines: Mathematical Modeling and Text Retrieval, SIAM Society for Industrial and Applied Mathematics, 1999. Mat1 05/06 side 5

C ND S [C] B. Casselman, Communications - Networks Notices of the American Mathematical Society 51 Issue 4 (2004) 392 393. [ND] B. Noble and J. W. Daniel, Applied Linear Algebra, 3.rd. edition, Prentice Hall, 1988. Title Communications - Networks Author Casselman, Bill Journal Title Notices of the American Mathematical Society Issue Vol.51 Issue.4 Page no. 392-393 [S] M. Schroeder, Using Singular Value Decomposition to Visualise Relations within Multi- Agent Systems, Proceedings of the third international conference on autonomous agents, (1999) 313 318. Mat1 05/06 side 6