Studieretningsprojekter i machine learning

i machine learning 1 Introduktion Machine learning (ml) er et område indenfor kunstig intelligens, der beskæftiger sig med at konstruere programmer, der kan kan lære fra data. Tanken er at give en computer en mængde data, som computeren derefter selv finder mønstre i. Man kan derefter give computeren et nyt sæt ukendte datapunkter som den, på baggrund af sin erfaring om datasættet, kan forudsige ønskede værdier for. ml er efterhånden blevet et uundværligt værktøj indenfor dataanalyse, specielt når det kommer til big data, hvor man ofte har alt for mange data og data i alt for mange dimensioner til at mennesker kan arbejde med dem. I ml skelner man ofte mellem to typer af metoder, nemlig regression og klassifikation: Regression handler om at beregne en værdi, typisk et decimaltal, ud fra en række parametre. Et eksempel er at bestemme prisen på et hus givet f.eks. boligareal, grundareal, afstand til havet osv. Klassifikation handler om at tildele en bestemt klasse til et datapunkt på baggrund af en række parametre. Et eksempel er at afgøre om en given mail er spam eller ej, f.eks. baseret på ordene i mailen, afsenderen, tidspunktet for modtagelsen osv. I alle ml-metoder skal man bruge parametre, ofte kaldet features, som er relevante for den pågældende opgave. I eksemplet med husprisen må man formode at prisen afhænger af f.eks. grundarealet, så dette vil være en god parameter at tage med i beregningerne. Til gengæld har farven på den forrige ejers bil nok ikke den store indflydelse på husprisen, så det vil ikke gøre modellen bedre at tage denne parameter med. At vælge de rigtige parametre er altafgørende for hvor godt modellen kommer til at fungere, og ofte er det her at størstedelen af arbejdet og snilden ligger. Den følgende tekst giver en kort introduktion til tankegangen i ml og beskriver nogle få metoder, der relativt let kan implementeres selv. I afsnit 2 beskrives ideén om at se data som koordinatsæt, mens afsnit 3 og afsnit 4 beskriver nogle metoder til at analysere sådanne data. Afsnit 5 beskriver nogle metoder til at identificere de vigtigste parametre i et datasæt. Slutteligt giver afsnit 6 et bud på et muligt projekt indenfor ml og dataanalyse. 2 Data som koordinatsæt Når man skal analysere store mængder data, er det nødvendigt at tage matematiske redskaber i brug. For at kunne arbejde matematisk med data, bliver man nødt til at betragte dem på en måde, så de kan indgå i ligninger. Lad os sige, at vi ønsker at lave et program, der kan forudsige prisen på et hus. Nu kan man jo ikke bare tage et billede af et hus og ud fra det gætte prisen, så vi må finde nogle tal eller parametre der beskriver huset, og som vi mener bør have en indflydelse på husprisen. Dette kunne f.eks. være boligarealet, grundarealet, antal værelser, byggeår, afstand til havet osv. Vi kan nu undersøge, om der virkelig er en sammenhæng mellem vores parametre og husprisen. Har vi adgang til nogle huse med kendte salgspriser, kan vi jo f.eks. lave en graf med boligarealet ud ad x-aksen og husprisen op ad y-aksen og se, om boligerne ser ud til at ligge på en ret linje, en parabel eller lignende. 1

I ovenstående eksempel har vi faktisk allerede lavet vores data om til matematiske størrelser nemlig koordinatsæt i en graf! Ved at bruge boligarealet som x-koordinat og husprisen som y-koordinat, har vi nemlig lavet punkter, der svarer til (x, y) = (boligareal, huspris), i et koordinatsystem, og disse punkter kan vi bruge på præcis samme måde, som vi normalt bruger punkter. Der er overhovedet ingen forskel på disse punkter og de punkter, der bruges i matematikundervisningen. Vi kan f.eks. beregne afstande mellem vores hus -punkter, beregne arealet mellem dem, tilpasse (fitte) en ret linje til dem osv. Nogle af disse beregninger er måske ligegyldige for bestemmelsen af husprisen, men andre er måske nyttige. At fitte en ret linje til punkterne kunne f.eks. godt være en god idé. Nu skal vi nok ikke regne med, at der er en perfekt sammenhæng mellem boligarealet og husprisen. Nogle af de andre parametre, der blev nævnt ovenfor, har sandsynligvis også en indflydelse på husprisen og der er helt sikkert flere parametre, vi slet ikke har tænkt på. Spørgsmålet er nu, hvordan vi kan gøre brug af alle disse parametre på én gang. I eksemplet ovenfor, hvor der var to parametre, boligareal og huspris, fik vi et koordinatsæt på et punkt i to dimensioner, nemlig (x, y) = (boligareal, huspris). (1) Tilføjer vi en ekstra parameter, f.eks. grundarealet, kan vi stadig betragte det som et koordinatsæt til et punkt, nu bare i tre dimensioner: (x, y, z) = (grundareal, boligareal, huspris). (2) Disse punkter kan også indtegnes i et koordinatsystem, men det skal gøres i tre dimensioner, og så bliver det lidt sværere at visualisere på en god måde. Man kan blive ved med at tilføje parametre til koordinatsættet tilføjer vi også byggeåret, får vi et punkt i fire dimensioner: (x, y, z, æ) = (byggeår, grundareal, boligareal, huspris). (3) Nu begynder vi dog at løbe tør for bogstaver, der stadig ser matematiske ud, til parametrene, så i stedet kalder man ofte parametrene x 1, x 2, x 3 osv. Punktet vil da kunne skrives som (x 1, x 2, x 3, x 4 ) = (byggeår, grundareal, boligareal, huspris). (4) Vi kan selvfølgelig tilføje flere og flere parametre, men det er svært at visualisere punkter i mere end tre dimensioner, så herefter må vi stole på matematikken, når vi skal finde sammenhænge i vores data. 3 Lineær klassifikation og regression En simpel metode til både regression og klassifikation bygger på et førstegradspolynomium (også kaldet lineært polynomium): y = w 0 + D w i x i = w 0 + w 1 x 1 + w 2 x 2 + w 3 x 3 + (5) i=1 Her er D antallet af parametre, man bruger i sin model, w erne er konstanter, mens x erne er parametre. Har man kun én parameter, får man det velkendte y = ax+b. Variablen y i ligning (5) er værdien eller klassen, man ønsker at forudsige. Opgave 1 Hvorfor bliver ligning (5) til y = ax + b, når man kun har én parameter? Side 2 af 7

3.1 Metoden Metoden bygger som sagt på et førstegradspolynomium. Dette kan virke meget simpelt, men metoden er enormt effektiv hvis ens data faktisk opfører sig (nogenlunde) lineært. Metoden bruges forskelligt alt efter om man ønsker at bruge den til klassifikation eller regression. Klassifikation Metoden kan kun implementeres let, hvis man arbejder med to klasser, så dette vil vi tage udgangspunkt i. Variablen y i ligning (5) repræsenterer de to klasser, men det er ikke ligegyldigt, hvad vi kalder disse klasser. For at metoden virker, skal den ene klasse have klassen +1, men den anden skal have 1. Giv derfor hver kombination af parametre den y-værdi, som svarer til klassen. Når dette er gjort, kan datapunkterne konstrueres med +1 eller 1 på y s plads og førstegradspolynomiet fittes derefter til punkterne, f.eks. ved hjælp af Excel. Man kan slutteligt forudsige en klasse for et nyt datapunkt ved at beregne y for den nye kombination af paramtre. Klassen bestemmes da ved: { +1 hvis y > 0 Klasse = (6) 1 hvis y < 0 I tilfældet hvor y = 0, kan man ikke umiddelbart tildele punktet en klasse. Regression At forudsige værdier for datapunkter ved hjælp af et førstegradspolynomium er et kendt problem, som de fleste har løst mange gange i f.eks. Excel har man kun én parameter reducerer problemet nemlig til at fitte en ret linje til datapunkterne. Efterfølgende kan man forudsige y-værdier for ukendte værdier af parameteren x. Har man mere end én parameter, er løsningen stadig den samme, nemlig at fitte et førstegradspolynomium til dataene. Har man f.eks. to parametre, skal man fitte en funktion af formen y = ax 1 + bx 2 + c til dataene. Opgave 2 Hvilket geometrisk objekt svarer en funktion af formen y = ax 1 + bx 2 + c til? Desværre kan Excel ikke følge med, når man arbejder med mere end én parameter, men der findes mange gratis programmer på internettet, der kan. 4 k nearest neighbours k nearest neighbours (k-nn) er en metode til at forudsige en værdi eller klasse på baggrund af allerede kendte observationer (datapunkter). Basalt set bruger metoden de k nærmeste datapunkter ( naboer ) til at forudsige enten værdien eller klassen for et nyt datapunkt. Præcis hvor mange naboer man skal vælge (dvs. for stor k skal være) varierer fra situation til situation, og man må ofte bare prøve sig frem. 4.1 Metoden Givet et nyt datapunkt t skal afstanden d fra dette til alle andre datapunkter beregnes. Dette kan f.eks. gøres ved at beregne den Euklidiske afstand: d(t, x) = n (t i x i ) 2 = (t 1 x 1 ) 2 + (t 2 x 2 ) 2 + + (t n x n ) 2, (7) i=1 Side 3 af 7

hvor t 1, t 2,..., t n er koordinaterne for det nye datapunkt (t), og x 1, x 2,..., x n er koordinaterne for et af de eksisterende datapunkter (x). De kendte datapunkter (dvs. ikke det nye) sorteres herefter afstand, og man kigger nu kun på de k datapunkter med den korteste afstand. Man kan nu bestemme enten en værdi eller en klasse som følger: Klassifikation Vælg den klasse, som de fleste af de k datapunkter tilhører. Hvis to eller flere klasser har lige mange datapunkter, vælges der tilfældigt. Hvis man kun har to klasser at vælge imellem, kan det være en fordel at vælge et ulige k, f.eks. 3, 5, 7 osv. Dette sikrer, at én af klasserne altid vil være i overtal. Regression Skal man bestemme en værdi t for datapunktet, er der mulighed for at gøre flere ting den simpleste er blot at tage gennemsnittet af de k nærmeste: t = 1 k k x i, (8) i=1 hvor x i indikerer værdien af det i te nærmeste datapunkt. En anden mulighed er at vægte de enkelte datapunkter, når man tager gennemsnittet. Ofte vægtes datapunkterne med d 1, dvs. jo større afstanden til datapunktet er, jo mindre betydning får det. Bruges denne vægtning kan værdien for det nye datapunkt beregnes som t = hvor d i er afstanden fra t til datapunktet x i. 5 Parameterudvælgelse k i=1 d 1 i x i k i=1 d 1 i, (9) Parameterudvælgelse (feature selection på engelsk) handler om at identificere de parametre, der indeholder mest information. Med andre ord prøver man at finde ud af hvilke parametre, der betyder mest for klassificeringen eller værdibestemmelsen af et datapunkt. Det kan nogle gange være nødvendigt at sortere de dårligste parametre fra, for at få en god klassifikation eller regression. Specielt k-nn kan give dårlige resultater, når man har relativt få datapunkter i forhold til antallet af parametre. Har man meget få parametre, kan man prøve at bruge alle tænkelige kombinationer af disse og se, hvilken giver det bedste resultat. Dette bliver dog hurtigt uoverkommeligt, når antallet af parametre stiger. Herunder præsenteres to simple teknikker, der kan hjælpe med at finde de mest informationsrige parametre. 5.1 Fremadrettet parameterudvælgelse Fremadrettet parameterudvælgelse (forward feature selection på engelsk) går ud på, at man træner sin model med én parameter ad gangen og finder den parameter, der indeholder mest information. Denne parameter beholder man og leder nu efter den af de resterende parametre, der sammen med den udvalgte giver det bedste fit. Dette fortsættes indtil man opnår den ønskede nøjagtighed. På punktform ser metoden således ud: 1. Træn modellen med én parameter ad gangen, indtil alle parametre har været afprøvet. 2. Udvælg den parameter (lad os kalde den x 0 ), der gav det bedste fit. 3. Lav nye parameterkombinationer af x 0 og hver af de resterende parametre, én ad gangen dvs. (x 0, x 1 ), (x 0, x 2 ), (x 0, x 3 ) osv. Side 4 af 7

4. Udvælg den parameterkombination (f.eks. (x 0, x 1 )), der gav det bedste fit. 5. Lav nye parameterkombinationer af (x 0, x 1 ) og hver af de resterende parametre, én ad gangen dvs. (x 0, x 1, x 2 ), (x 0, x 1, x 3 ), (x 0, x 1, x 4 ) osv. 6. Udvælg den parameterkombination (f.eks. (x 0, x 1, x 2 )), der gav det bedste fit. 7. Fortsæt med dette indtil den ønskede nøjagtighed er nået. En fordel ved fremadrettet parameterudvælgelse er, at man relativt hurtigt finder en parameterkombination, der giver en god nøjagtighed. En ulempe er, at fremadrettet parameterudvælgelse i starten finder den parameter, der i sig selv indeholder mest information men det er ikke nødvendigvis den parameter, der kombineret med andre vil være bedst. Dette tager den næste metode højde for. 5.2 Baglæns parameterelimination Baglæns parameterelimination (backwards feature elimination på engelsk) er, så at sige, en baglæns version af fremadrettet parameterudvælgelse. I stedet for at starte med at træne med én parameter ad gangen, starter man nu med alle parametre, men fjerner én ad gangen. Man finder så den kombination, der giver det bedste fit, og proceduren fortsætter, til man opnår sin ønskede nøjagtighed. På punktform ser metoden således ud: 1. Træn modellen med alle på nær én parameter, indtil alle parametre har været fjernet på skift. 2. Udvælg den kombination af paramtre, der gav det bedste fit. 3. Træn modellen på den nye kombination, hvor der igen fjernes én parameter ad gangen. 4. Udvælg den kombination af paramtre, der gav det bedste fit. 5. Fortsæt med dette indtil den ønskede nøjagtighed er nået. En fordel ved baglæns parameterelimination er, at metoden hele tiden ser på, hvilken kombination af parametre, der giver det bedste fit, og ikke kun ser på hvor godt de enkelte parametre virker. Til gengæld er metoden meget langsommere end fremadrettet parameterudvælgelse, da de fleste modeltræninger ligger i starten, hvor man stadig har de fleste parametre med. 5.3 Kombineret parameterudvælgelse Begge ovennævnte metoder har styrker og svagheder, og hvilken der virker bedst kommer meget an på ens data og parametre. Som en sidste mulighed skal det nævnes, at man kan forsøge at tage det bedste fra de to metoder ved at kombinere dem. Man kan f.eks. lave baglæns parameterelimination 5 gange efterfulgt fremadrettet parameterudvælgelse 2 gange, indtil man opnår den ønskede nøjagtighed. Man kan selvfølgelig ændre antallet af gentagelser, eller vælge at starte med fremadrettet parameterudvælgelse man må simpelthen bare prøve sig frem, indtil man finder en god kombination. At kombinere de to metoder kan kun lade sig gøre, hvis man har få data og/eller få parametre, da metoden hurtigt kommer til at tage alt, alt for lang tid. Side 5 af 7

6 Projekt i astronomi Herunder følger et projekt, der vil være mulighed for at lave. Projektet er ment som forslag, så der er rig mulighed for at ændre både emne og indhold tag en snak med os om mulighederne! Programmeringserfaring er på ingen måde et krav, da færdige programmer vil blive udleveret. 6.1 Introduktion I de seneste par årtier er mængden af astronomiske data steget eksplosivt i takt med at større og større teleskoper bliver bygget og det er ikke slut endnu. Om mindre end 10 år tager Large Synoptic Survey Telescope (LSST) sit første billede, og det vil i de efterfølgende år producere intet mindre end 30 TB data per nat. Det giver os to store udfordringer: for det første skal billederne analyseres i real time, så man med det samme kan give andre teleskoper verden over besked om interessante begivenheder såsom supernovaer, der hurtigt skal følges op på; for det andet vil LSST kunne kigge meget længere ud i universet og se meget svagere objekter, end man kan i dag. Man vil kunne se milliarder af stjerner, galakser og andre astronomiske objekter hver nat, og det er alt, alt for mange til at man kan lave detaljerede studier af hvert eneste objekt. Der er derfor brug for ekstremt effektive machine learning-teknikker til at udvælge de mest interessante objekter til videre undersøgelser. Det er dog et endnu uløst problem for ml-teknikkerne at overføre erfaring fra et datasæt (f.eks. SDSS) til et andet (f.eks. LSST). Det fungerer meget dårligt i dag, men problemet skal løses, hvis vi skal maksimere det videnskabelige udbytte. 6.2 Projektbeskrivelse Projektet tager udgangspunkt i data fra Sloan Digital Sky Survey (SDSS), som siden 2000 har taget billeder af himlen. Der er taget billeder af næsten en milliard objekter, og der bliver stadig fundet nye, ukendte objekter i billederne. Astronomerne selv bruger dog ikke billederne til så meget, simpelthen fordi det er svært at bestemme parametre (f.eks. størrelse, afstand og masse) for objekterne alene ud fra billederne. I stedet bruger man spektre af lyset fra objekterne, da disse indeholder en masse information. Desværre er det enormt tidskrævende og meget dyrt at tage spektre, så kun særligt lovende objekter bliver observeret på denne måde. Det gør dels, at man ikke får set det store billede, dels at man kun sjældent opdager helt nye objekter. Også her kan ml hjælpe, og det er det, projektet her undersøger. Vi vil benytte data fra omkring 800 000 objekter fra SDSS-databasen (http://www.sdss3. org/). Vi skal bl.a. se på stjernedannelsesraten i galakser, dvs. hvor mange stjerne, der bliver dannet per år i galakserne. Dette tal kan fortælle om galaksernes dannelse og udvikling, men man skal som regel bruge et spektrum for at bestemme det. Vi vil forsøge at gøre det alene ud fra billederne. Vi vil også forsøge at finde kvasarer i SDSS-dataene. En kvasar er et meget fjerntliggende objekt, der udsender enorme mængder energi en enkelt kvasar kan udsende tusind gange så meget energi som Mælkevejen, der indeholder 200 til 400 milliarder stjerner. Kvasarer menes at være aktive områder omkring supertunge sorte huller i centrene af meget fjerne galakser, og siden de ligger så langt væk, kan vi få et unikt indblik i, hvordan universet så ud, da det var meget ungt. Kvasarer er dog svære at finde, da de til forveksling ligner stjerner, men vil vi vha. ml-teknikker forsøge at komme med kvalificerede bud på, hvilke objekter, der kunne være kvasarer. 6.3 Læringsmål I løbet af projektet vil den studerende blive bekendt med: ml-metoder til både regression og klassifikation. Hvordan disse metoder virker og hvilke fordele og ulemper de hver især har. Side 6 af 7

Galaksers opbygning og udvikling. Hvordan man kan bruge regression til at estimere stjernedannelsesraten i galakser og hvor præcist, dette kan gøres. Hvordan kvasarer fungerer og observeres. Hvordan man kan bruge klassificering til at finde kvasarer hvor fjerne kvasarer kan vi finde? Hvilken effekt det har, at antallet af kendte kvasarer falder med afstanden om det gør vores klassifikation dårligere, og om vi i så fald kan gøre noget for at afhjælpe problemet. Hvad ml-metoder kan (og ikke kan) hjælpe astronomien med. Side 7 af 7