Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk

Størrelse: px
Starte visningen fra side:

Download "Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk"

Transkript

1 Machine learning automatisk læring med computere Af Mads Nielsen, DIKU Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk læring, er baseret på det særlige område inden for datalogisk forskning, der hedder algoritmer kombineret med statistisk analyse. Det går ud på at lade computeren lære at genkende mønstre ud fra eksempler og data og vel at mærke lære mere end eksemplerne selv: På basis af data kan computeren også lære at generalisere til nye eksempler og træffe såkaldt intelligente beslutninger. Et illustrerende eksempel I 1994 var jeg på vej med bussen til DIKU til en ph.d.-skole, som handlede om læring ved hjælp af minimum description length-princippet, sad en vel 5-årig dreng på sædet foran mig i bussen. Han sagde til sin mormor: Se, der er en bus med flag på! Et øjeblik efter kom næste bus: Se, mormor, alle busser har flag på i dag! Han generaliserede ud fra to eksempler til en regel. Gennem machine learning forsøger computeren at gøre det samme: at finde den hypotese, der passer bedst til de erfarede data og samtidig har størst mulig chance for at passe til fremtidige data. Med udviklingen af computeres lager- og beregningskapacitet og også som følge af metodernes udvikling over de sidste årtier er machine learning blevet et konkurrencedygtigt alternativ til at opfinde den dybe tallerken selv. Som eksempler på services, der anvender machine learning, kan nævnes Googles søgemaskine, stemmegenkendelse i telefonsvarere, kunstige modspillere i computerspil, forudsigelse af aktiekurser og programmer til visuel genkendelse af ansigter (prøv fx Polar Rose der automatisk genkender personer i dine fotografier), men også mere prosaiske eksempler som centrifugeringsprogrammer i vaskemaskiner. Senest har Volvo kørt rundt i København for at arbejde med deres machine learning-algoritme til automatisk genkendelse af fodgængere i bybilledet. Teknikken er lanceret i 2010 med det formål at få bilen til at bremse automatisk for at undgå kollision. Kunstig intelligens vs. machine learning Kunstig intelligens er et begreb, der længe har spøgt i litteraturen, og som offentligheden har stiftet bekendtskab med i bl.a. Arthur C. Clarkes Rumrejsen år 2001 fra 1968 (filmatiseret af Stanley Kubrick) og Brian Aldiss AI fra 2001 filmatiseret af Steven Spielberg. Machine learning kan opfattes som en del af dette begreb. I faglitteraturen er begreberne dog typisk adskilte: Hvor kunstig intelligens i højere grad beskæftiger sig med at finde løsninger til komplekse, men fuldt ud specificerede problemer, beskæftiger machine learning sig med at udlede regler fra data. Et godt eksempel er de populære sudokuer, hvor man med brug af kunstig intelligens ville indkode de kendte regler og lave et program, der finder en løsning til at udfylde spillepladen med tal. 92 DATALOGISK INSTITUT

2 Machine learning-tilgangen kræver ikke, at man kender reglerne for sudoku, men derimod at man ser nogle løsningseksempler. Computeren vil derefter forsøge at regne reglerne ud og samtidig lave et program, der kan anvende reglerne til at finde nye løsninger. Denne tilgang kaldes også inferens eller ræsonnement. Kunstig intelligens anvender deduktiv inferens, dvs. slutter sig frem til løsningen ved brug af udelukkelsesmetoden (Sherlock Holmesmetoden), mens machine learning benytter induktiv inferens, dvs. en form for sandsynliggørelse gennem sammenligning med lignende eksempler. Sidstnævnte er, hvad matematikerne kalder et dårligt stillet problem (Hadamard) et problem uden en entydig løsning. Drengen i bussen ville kunne finde mange forskellige regler for, hvilke busser der har flag, og hvilke der ikke har flag. Vel at mærke regler, der alle er i overensstemmelse med hans observationer af, at de to første busser har flag. Han valgte reglen Alle busser har flag på i dag, men kunne lige vel have valgt reglen Alle busser på Christianshavns Torv har flag på eller for den sags skyld en mere kompliceret regel som Når jeg tæller busser og giver dem fortløbende numre, har alle primtalsbusser et flag på. Alle tre regler svarer fuldt ud til observationerne, og vi må udvikle et princip til at vælge den regel, der har størst chance for at stemme overens med fremtidige observationer. At vælge dette princip og komme frem til algoritmer på baggrund af princippet er kunsten og videnskaben i machine learning. Minimum description length-princippet Fra en lidt mere filosofisk vinkel kan minimum description length (MDL)-princippet nævnes. Det bygger på Occams razor: Den simpleste af lige gode hypoteser er at foretrække. Dette er formaliseret i MDL, hvor man forsøger at indkode data så kompakt som muligt med mange konkurrerende komprimeringsmetoder. Den metode, der så bruger færrest mulige bit til at indkode data, anses som den bedste. Forbindelsen til statistisk machine learning kommer gennem Shannons informationsteori, hvor sandsynlighedsfordelingers entropi er den teoretiske nedre grænse for, hvor mange bit der skal bruges til at indkode instanser trukket fra fordelingen. Der er på denne måde etableret mange forbindelser mellem bayesiansk tankegang og MDL. Tages MDL-filosofien alvorligt i sin yderste konsekvens, drejer machine learning sig således om at komprimere data mest muligt. Den nederste grænse for komprimeringen kendes også som Kolmogorov-kompleksiteten af data: længden af det korteste computerprogram, der udskriver data. Desværre er det vist, at Kolmogorov-kompleksiteten ikke generelt er beregnelig. Vi kan kun på vores togt efter gode komprimeringer håbe at finde et kort program. Vi kan aldrig garantere, at vi har fundet det korteste. Boris Ryabko har for en stor klasse af data vist, at i gennemsnit vil den ekstra kodelængde, vi får, fordi vi ikke bruger uendelig lang beregningstid, være omvendt proportional med den anvendte beregningstid. Derved har han formaliseret det berømte citat af Blaise Pascal: If I had had more time, I would have written you a shorter letter. KØBENHAVNS UNIVERSITET 93

3 At estimere med statistisk modellering (Bernoulli-processen) Når vi ønsker at finde den regel, der har størst chance for at generalisere korrekt, bevæger vi os hurtigt ind i sandsynlighedsregning og statistik, når det nu er chancer, vi taler om. Her vil vi gå gennem Bernoulli-processen som et kanonisk eksempel på mekanismerne i et modelvalg: Vi har en mønt til at slå plat eller krone med, men mønten er muligvis skæv, hvorfor plat og krone ikke giver samme sandsynlighed (se figur 1). Vi kaster nu mønten gentagne gange og vil forsøge at udregne sandsynligheden for krone i fremtidige kast. Denne proces er det første simple eksempel, men allerede her kan det blive komplekst at finde en god løsning. Den umiddelbare tilgangsvinkel vil være ud fra vores træningskast at udregne den fremtidige sandsynlighed for krone som: Θ = antal krone / antal kast = antal krone / (antal krone + antal plat) Dette er maximum likelihood-estimatet af sandsynligheden Θ: Af alle mulige valg af Θ er dette valget, hvor sandsynligheden for det udfald (antal krone og plat), vi har opnået, er størst. Vi beskriver dette som: Θ ml = arg max Θ p(d Θ) Det vil sige, at maximum likelihood-estimatet af Θ (som tilhører intervallet fra og med 0 til og med 1) findes som det Θ, der maksimerer sandsynligheden for data, D (i dette tilfælde antal krone og plat), når værdien af sandsynligheden for krone, Θ, antages kendt. Abstraktionen er altså, at vi gætter løsningen, ser, hvor sandsynlige data er, og så gætter igen og igen, indtil vi har fundet det gæt af løsningen, hvor data er mest sandsynlige. Maximum likelihood-estimering er standardmetoden for statistisk analyse, men lider i ovennævnte anvendelse af en mangel: Hvis vi kun har kastet mønten en enkelt gang, altså forsøger at lære møntens karakteristika ud fra et enkelt kast, vil Θ blive 0 eller 1, afhængigt af om vi tilfældigvis har fået krone eller plat i første forsøg. Det virker urimeligt, at vi dermed laver en model, som siger, at alle fremtidige kast bliver som det første: Vi bliver ved med at slå krone hver eneste gang. Specielt hvis vi faktisk har haft mønten i hånden og synes, at den minder om en almindelig, fair mønt. Denne forhåndsviden er ikke med i likelihood-estimatet. I stedet for at analysere p(d Θ), sandsynligheden for data D, når Θ er kendt, kunne vi analysere p(θ D), sandsynligheden for Θ, når D er kendt. Det virker mere rimeligt at finde sandsynligheden for en model Θ baseret på data. Dette kan gøres ved hjælp af Bayes formel for a posteriori-sandsynligheden for Θ: p(θ D) = p(d Θ) p(θ) / p(d) Her udregnes sandsynligheden for modellen Θ baseret på likelihoodet p(d Θ), forhåndssandsynligheden (eller a priorisandsynligheden) p(θ) og evidensen p(d). Evidensen p(d) afhænger ikke af Θ og fungerer som en konstant, der sørger for normalisering af p(θ D), så sandsynlighedsvolumen er 1 summeret over alle værdier af Θ. A priori-sandsynligheden p(θ) indkoder vores forhåndsantagelser om Θ. Dette er vores væsentligste værktøj, når vi ønsker estimater, der generaliserer bedre end maximum likelihood-estimatet. Krone Plat Plat Krone Krone Plat } P(Krone) = Θ Figur 1: Bernoulli-processen. En mønt kastes gentagne gange, og vi ønsker at estimere sandsynligheden for udfaldet krone i fremtidige kast. 94 DATALOGISK INSTITUT

4 Ud fra a posteriori-fordelingen p(θ D) ønsker vi at vælge et enkelt bedste Θ, som vi kalder Θ*. Dette bedste valg kan foretages efter mange principper, men ofte vil vi vælge den løsning, der minimerer den forventede kvadratfejl. Θ* = arg min Θ ( Θ Θ )2 p(θ D) dθ = E(Θ) Det svarer til a posteriori-middelværdien af Θ. Nu kan vi lege med, hvilken a priori-fordeling p(θ) vi vil antage. Klassisk vil man vælge en ligefordeling på intervallet [0;1]. Dette er en såkaldt ikke-informativ prior, da vi antager en fordeling, der bestemmer så lidt som muligt. Laplace udregnede under antagelse af ligefordelingen, at: Θ* = (antal krone + 1) / (antal krone + antal plat + 2) Løsningen her svarer til, at vi, før vi startede Bernoulliprocessen, allerede havde kastet mønten to gange og fået én plat og én krone og derefter benyttede maximum likelihoodestimatoren. Ovenfor minimerede vi kvadratfejlen og ankom derved til middelværdien som Bayes-estimat. Dette er et fornuftigt men dog vilkårligt valg. Generelt vil man kunne erstatte kvadratfejlen med en anden tabsfunktion og derved ændre sin estimator. Et specielt valg er at antage tabsfunktionen, hvor kun det rigtige valg giver lavt tab, og alle andre valg gives et ens og højere tab. For kontinuerte parametre modelleres dette ved minus Diracdelta-fordelingen. Man får så en Bayes-estimator, der minimerer tabsfunktionen, der er identisk med den, der maksimerer a posteriori-fordelingen. Denne kaldes maksimum-a posterioriestimatet, eller normalt i kort form MAP-estimatet. I kort opsummering: Normalt laves induktiv inferens som maximum likelihood-estimat, men Bayes formel giver mulighed for at tage højde for forhåndsviden og bestemme a posteriorifordelingen. Derudover vil valget af en tabsfunktion gøre det muligt at beregne det forventede tab for alle parameterværdier og vælge den med mindst forventet tab. Nu da vi har nået målet med et Bayes-estimat, vil vi undersøge dette nærmere: Formlen giver også mulighed for at indsætte resultatet af 0 kast og få Θ* = ½ som løsning. Dette er middelværdien af vores a priori-fordeling. Uden data er dette naturligt vores bedste bud. Man kan ændre forhåndsantagelserne til en anden fordeling. Hvis man antager en beta-fordeling af Θ, kan Bayes-estimatet udregnes som: Θ* = (antal krone + R) / (antal krone + antal plat + 2R) hvor R er en parameter i beta-fordelingen. Her kan man som en finurlighed tage grænsen, hvor R sænkes mod 0. I dette tilfælde bliver Bayes-estimatet identisk med maximum likelihoodestimatet. Den a priori-fordeling, der giver dette Bayes-estimat, er speciel, da det er den fordeling, der betyder, at vi tror helt på, hvad vi opdager i fremtiden. Det er fordelingen, som Jaynes kalder state of total confusion. KØBENHAVNS UNIVERSITET 95

5 Machine learning Lad os nu kigge en smule mere formelt på, hvad machine learning er. Vi starter processen med et datasæt S med N instanser, som vi skal lære fra, også kaldet træningssættet: S = { s 1, s 2,, s N } Hver instans består af data (x) med tilhørende label (y: s i = (x i, y i )). I eksemplet i tekstboksen med Bernoulli-processen var data, i dette tilfælde nummeret på kastet med mønten, ikke af større betydning, hvorimod udfaldet (label), plat/krone, var vigtigt. I andre tilfælde er data af stor betydning. Et eksempel kan være ansigtsgenkendelse. Her er billedet data (x), og identiteten på personen label (y). Når labels er kendte i træningssættet, taler vi om supervised learning. Når labels ikke forefindes, er vi i den vanskeligere situation, der kaldes unsupervised learning. Alt, hvad vi kan gøre her, er at finde naturlige grupperinger af data og selv opfinde en label til disse grupperinger. I supervised learning forsøger vi at finde en model, der afbilder data til labels: m: x -> y. Modellen skal gerne afbilde så korrekt som muligt både for træningssættet og for hidtil usete instanser, så den også generaliserer godt. Modellen vælges som én blandt mange modeller i hypoteserummet H = {m 1, m 2, m 3, }. Ligesom vi i forbindelse med Bernoulli-processen valgte maximum likelihood, kan vi her vælge den model, der har det laveste antal fejl på træningssættet. Denne strategi kalder vi empirisk fejlminimering. Vi kan nu også vælge en tabsfunktion, hvor forskellige fejltyper vægtes forskelligt. Med tabsfunktionen inkluderet kalder vi det for empirisk risikominimering. Machine learning-algoritmer, der implementerer empirisk risikominimering, har mange gode egenskaber. Man kan vise, at man finder den bedste model i hypoteserummet, hvis træningssættet er stort nok. I dette tilfælde siger man, at algoritmen er konsistent. Endvidere kan man vise, at algoritmen generaliserer. Generalisering er den vigtige egenskab til sikring af, at hidtil usete data også får rette label, så godt det nu kan lade sig gøre i hypoteserummet. At minimere risikoen på træningssættet til en meget lille risiko betyder blot, at man har en meget fleksibel modelklasse i sit hypoteserum. At opnå en meget lav risiko på hidtil usete data, dvs. data, som ikke er indgået i at udvælge modellen i hypoteserummet, er gavnligt, så algoritmen faktisk kan rubricere nye data. Med empirisk risikominimering generaliserer man i matematisk forstand, men desværre kun når træningssættet bliver stort nok. Ved Bernoulli-processen klarer maximum likelihood-estimatet sig også godt, når der er data nok at lære fra. Derimod klarer det sig dårligere på usete data, hvis det kun har ganske få kast at lære fra. Derfor erstattede vi maximum likelihood-estimatet med Bayes-estimatet. Den tilsvarende regel ved små træningssæt benyttes også i machine learning. Kunsten er ud fra et begrænset træningssæt at opnå så god generalisering som muligt Hvis hypoteserummet er meget stort, kan man potentielt finde en hypotese, der generaliserer 96 DATALOGISK INSTITUT

6 meget godt. Desværre vil der også være mange hypoteser, der tilfældigvis har en lille fejl på træningssættet, men ikke generaliserer godt (se figur 2). Figur 2: Består hypoteserummet kun af lige linjer, kan man adskille de røde og blå bolde på hver sin side af linjen. Hvis man vælger et hypoteserum med meget større kapacitet, kan man stadig adskille blå og røde bolde, endda med større margin. Spørgsmålet er blot, hvad der sker, når nye bolde dukker op. Det er svært at tro, at den bugtede kurve tilfældigvis vil generalisere vel. Error rater (%) Generalisation High model complexity Generelt taler man om hypoteserummets kapacitet. Jo større hypoteserum med mere fleksibel modelklasse, jo større kapacitet. Når kapaciteten bliver større, vil træningsfejlen altid blive mindre for fornuftige algoritmer. Derimod vil generaliseringsfejlen ikke nødvendigvis blive mindre, da den model, der minimerer den empiriske risiko, blot tilfældigvis passer til de sete data men ikke til de hidtil usete, se figur 3. Optimal Train a Error rater (%) Generalisation Optimal Data set size Low model complexity Train b Data set size Error rater (%) Figur 3: Træningsfejl versus generaliseringsfejl. (a) Udviklingen af trænings- og generaliseringsfejl som funktion af størrelsen af træningssættet for en fleksibel modelklasse. (b) Udviklingen af fejl for en mindre fleksibel modelklasse. (c) Generaliseringsfejlen for de to modelklasser afbildet mod hinanden. c Generalisation large model Generalisation small model Generalisation error Data set size KØBENHAVNS UNIVERSITET 97

7 En måde at karakterisere kapaciteten af en modelklasse på er ved VC-dimensionen (Vapnik- Chervonenkis-dimensionen). Intuitivt angives antallet af frihedsgrader i modelklassen. Mere formelt udregnes dette som antallet af datapunkter, som altid vil kunne adskilles i to klasser uanset deres position. Kunsten i machine learning er at vælge en modelkapacitet, der gør, at den forventede generalisering bliver så god som muligt. Der findes et utal af algoritmer til at indkode vores forhåndsviden, således at generaliseringen er så god som muligt, også ved en begrænset størrelse af træningssættet. En klassisk løsning til machine learning-problemer er neurale netværk. Inspireret af Minsky og Paperts perceptron laves et netværk af celler, der hver summerer deres input og lader summen blive slået op i en ikke-lineær funktion, og resultatet er så input til endnu en neuron. Typisk er neurale netværk organiseret i lag med beregningerne gående fremad lag for lag (se figur 4). De blev meget populære, da back-propagation-algoritmen viste sig forholdsvis effektivt at kunne indstille vægtene, så netværket samlet minimerede træningsfejlen. Mange resultater fra og generelle metoder til machine learning er blevet udviklet i forbindelse med neurale netværk, også metoder til at indstille kapaciteten til bedst mulig generaliseringsevne. Et eksempel med et morsomt navn er optimal brain damage, der forsøger at estimere, hvilke neuroner der skal slettes for at gøre generaliseringen bedre. Figur 4: Neuralt netværk med et skjult lag. Data fødes ind i de røde input-neuroner. Herfra sendes de videre til de blå beregningsneuroner i det skjulte lag. Resultater herfra sendes videre til output-neuronen, der har samme funktionalitet som de skjulte neuroner: n vægtet summering af input og opslag i en ikke-lineær funktion. Siden de neurale netværk er mange andre algoritmer blevet opfundet. Her kan blandt andet nævnes Support Vector Machines (SVM). De forsøger at udvælge de datapunkter, der skal støtte løsningen, således at marginen mellem de to forskellige labels bliver så stor som muligt. Dette er et eksempel på en algoritme, der maksimerer marginen. Vapnik har vist, at optimering af marginen medfører generalisering i matematisk betydning. SVM er har dog også vist deres store potentiale til at løse praktiske problemer og er en af de mest populære algoritmer. 98 DATALOGISK INSTITUT

8 En anden type algoritme er de såkaldte boosting-algoritmer. Tricket her er at have en hel lille hær af meget simple klassifikationer. Herefter anvendes de enten som flertalsafstemninger eller i en anden struktur. Meget populær er AdaBoost, der automatisk arrangerer de simple klassifikationer i en træstruktur, så træningsfejlen bliver så lille som muligt. Herefter kan principper til at forsøge at minimere generaliseringsfejlen også anvendes. Et generelt trick til at estimere generaliseringsevnen er at dele data op i et træningssæt og et testsæt. Træningssættet anvendes til at vælge den bedste hypotese, og testsættet benyttes herefter til at estimere generaliseringsevnen. Dette trick kan gøres mange gange med tilfældige opdelinger i test- og træningssæt. Denne procedure kaldes bootstrapping og har udviklet sig som en hel disciplin for sig selv i forbindelse med udviklingen af statistiske test. Det mest populære eksempel på bootstrapping i machine learning er nok random forest-algoritmen. På samme måde som AdaBoost opbygger et beslutningstræ, kan man opdele data i trænings- og testsæt. Herved kan man teste på generaliseringen af træet under dets opbygning og stoppe opbygningen, når træets generaliseringevne ikke længere forbedres. Nu kan en ny opdeling i trænings- og testsæt tilfældigt trækkes, og derved kan et nyt træ, som er optimalt for denne splitning af data, opbygges. Processen fortsættes, indtil man har træer nok til, at man synes, man har en hel skov. Klassifikationen består så i, at træerne stemmer, og flertallet bestemmer. Fordelen ved denne algoritme er, at man automatisk styrer kapaciteten af modellen. Random forest er uhyre populære i bioinformatik, hvor det efterhånden er en standardmetode til at analysere gener for association til for eksempel sygdomme. Machine learning bruges bl.a. til at diagnosticere sygdomme Et af de mere omtalte projekter i den seneste tid er Learning Imaging Biomarkers et projekt, der meget kort fortalt går ud på at anvende billedanalyse og machine learning til tidlig diagnosticering af en lang række sygdomme, herunder bl.a. brystkræft. Metoden går ud på at kigge efter markører eller indikatorer, altså særlige mønstre i brystvævet, der er typiske for personer, der senere viser sig at få brystkræft. Her har machine learning vist sig uhyre anvendelig, fordi man kan få computeren til at gennemregne et uendeligt antal eksempler af billeder og mønstre og herudfra skabe nogle generaliseringer om, hvorvidt der er forskelle i udseendet på vævstyperne hos hhv. personer, der får, og personer, der ikke får brystkræft. Normalt er brystvævet hos kvinder stribet fra brystvorten og ind mod kroppen. Den nye forskning viser, at kvinder, hvis bryster viser tegn på, at striberne går på tværs, har forøget risiko for at udvikle brystkræft. Det stribede mønster kan bruges som indikation, uafhængigt af andre faktorer, som kan læses ud af et mammografibillede. Der er brugt en ny slags algoritme til billedanalysen, som kan genkende hundredvis af forskellige mønstre. Derefter er softwaren blevet optrænet ved anvendelse af machine learning-tilgangen med mammografier fra 500 hollandske kvinder, hvor 250 på trods af en negativ diagnose senere udviklede brystkræft. KØBENHAVNS UNIVERSITET 99

9 Algoritmerne er inspireret af processer i hjernen, nemlig dem der foregår i de første niveauer af den visuelle cortex, som er det yderste lag af hjernen. Computeren kan se kvantitativt på talmaterialet, og det betyder, at den kan foretage en meget præcis mønstergenkendelse og dermed skelne kvantitativt mellem sunde mammografier og mammografier fra kvinder, som er i risikogruppen for at udvikle kræft. Det er samme type statistisk mønstergenkendelse, som kendes fra fx neurale netværk. I praksis fungerer diagnosticeringen ved, at et program analyserer et mammografibillede ved at genkende, om punkter i mammografiet er en del af en tynd eller en tyk linje, en forhøjning eller en kant. Analysen korreleres med statistiske data om, hvilke kvinder der rent faktisk har fået brystkræft. Med computerens hjælp når man således frem til en hypotese om, hvilke vævsmønstre der øger risikoen for brystkræft. Metoden anvendes også til diagnosticering af en række andre sygdomme, fx knogleskørhed, slidgigt, åreforkalkning og rygerlunger (KOL). Optræningen af den anvendte software foregår på en supercomputer med meget stor regnekapacitet (læs også Brian Vinters artikel om supercomputere). Hvor det måske ville tage flere år at få en almindelig pc til at gennemløbe de millioner af billeder og afprøve de millionvis af hypoteser under optræningen, der er nødvendige for at nå frem til et pålideligt resultat, kan en beregningssession gennemføres på få dage takket være den høje kapacitet, som forskningscomputere er udstyret med. Projektet har således brugt af de pc-noder, som supercomputer-klyngen på H.C. Ørsted Instituttet er opbygget af. Når først softwaren er optrænet, kan den også bruges på en almindelig pc. Forskningsprojektet, der i skrivende stund fortsat er i gang, er et resultat af et intensivt samarbejde mellem KU og Nordic Bioscience Imaging A/S. Det gennemføres på escience-centret, der er etableret som en tværfaglig enhed med basis på H.C. Ørsted Instituttet på Det Naturvidenskabelige Fakultet på KU. Eksempler på anvendelse af machine learning til fortolkning af sundhedsdata kan ses i figur DATALOGISK INSTITUT

10 AC NCD MACD RISK LOW MEDIUM HIGH Density Medio Medio Structure Organized Unorganized Type Network Blobs Rice Low High Medial Section 0 (a) Cartilage Homogeneity (b) Cartilage Volume (c) Cartilage Thickness Figur 5: Første eksempel er analysen af forkalkninger i hovedpulsåren. Det viser sig, at ikke kun mængden af forkalkninger men også deres fordeling, form og størrelse spiller ind på den enkelte patients prognose. Andet eksempel viser en analyse af mammografier. Her kan man se, at den desorganiserede struktur er en indikation af brystkræft. Tredje eksempel viser genkendelsen af meget tidlige symptomer på knogleskørhed ud fra ryggens form, og endelig viser det sidste eksempel diagnose af slidgigt ud fra MR-skanninger af knæet. I alle tilfælde er machine learning anvendt til den visuelle analyse, der er vanskelig for mennesker at gennemføre kvantitativt. KØBENHAVNS UNIVERSITET 101

11 Scanningbillede af lunger. Lungen til højre er delvis angrebet 102 DATALOGISK INSTITUT

12 Afrunding Machine learning i kombination med supercomputerens kapacitet og moderne billedanalyseværktøjer er en af moderne computerforsknings meget lovende metoder, der finder anvendelse på en lang række områder. At lade computeren finde den bedste hypotese på løsningen af et problem vil ofte både være tidsbesparende og fejlminimerende men naturligvis er man nødt til at alliere sig med erfarne forskere på det pågældende område for at sikre sig, at man ikke stoler blindt på computerens intelligente forslag, men at der er mennesker bagved, der kan validere hypoteserne. Der er således ikke tegn i sol og måne på, at vi kommer til at opleve forsøg fra computerens side på at overtage magten over menneskene ligesom computeren Hal i Rumrejsen år Ikke kun inden for medicinsk forskning, men også på mange andre områder vinder machine learning indpas som metode til at automatisere og forkorte processer og styrke pålideligheden af beregninger. Det gælder fx på slagterier, hvor kødudskærings- og bearbejdningsprocesserne kan effektiviseres væsentligt, inden for klima- eller vejrmodeller eller inden for maskinoversættelse og tekstbehandling for blot at nævne få eksempler. Læs mere Hertz, J., Krogh, A. & Palmer, R.G. (1991). Introduction to the Theory of Neural Computation. Westview Press. Shannon, C.E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal, 27, s , , juli, oktober. Cortes, C. & Vapnik, V. (1995). Support Vector Networks. Journal of Machine Learning, 20(3), s MADS NIELSEN Mads Nielsen er kandidat i datalogi fra 1992 og ph.d. fra 1995, i begge tilfælde fra DIKU. Som led i sit ph.d.-studium var han et år tilknyttet INRIA-universitetet i Sophia Antipolis i Frankrig. Herudover har han været ansat som postdoc ved Image Sciences Institute, Utrecht Universitet, Holland. I 1996 blev han tilknyttet DIKU som postdoc parallelt med sin ansættelse i 3D-Lab under den daværende Tandlægehøjskolen (i dag SUND v. Københavns Universitet), hvor han var adjunkt i I april 1999 blev han den første lektor ved det nyetablerede IT-Universitetet i København, og i juni 2002 blev han professor og leder af Image Analysis Group samme sted. I 2007 skiftede Mads tilbage til DIKU, hvor han i dag er professor og leder af Billedgruppen. Fra en lang liste af publikationer kan fremhæves Regularization, Scale-Space, and Edge Detection Filters (1997), Classification in Medical Image Analysis Using Adaptive Metric KNN (2010) og Distribution, Size, Shape, Growth Potential and Extent of Abdominal Aortic Calcified Deposits Predict Mortality in Postmenopausal Women som repræsentative eksempler på forskning i anvendt matematik, datalogi og medicin. Mads Nielsen leder en række aktuelle forskningsprojekter på disse felter. KØBENHAVNS UNIVERSITET 103

13 Den digitale revolution fortællinger fra datalogiens verden Bogen er udgivet af Datalogisk Institut, Københavns Universitet (DIKU) i anledning af instituttets 40 års jubilæum med bidrag fra forskere tilknyttet instituttet. Redaktion: Tariq Andersen, phd-studerende, Jørgen Bansler, professor, Hasse Clausen, lektor, Inge Hviid Jensen, kommunikationsmedarbejder og Martin Zachariasen, institutleder. Forsidemotiv: Foto af skulptur af Alan Turing, basegreen lokaliseret på flickr.om/photos/basegreen Oplag: 1000 eks. Grafisk design og produktion: Westring + Welling A/S ISBN: Datalogisk Institut Citater er tilladt under creative commons. 2 DATALOGISK INSTITUT

Den digitale revolution

Den digitale revolution datalogisk institut københavns universitet Den digitale revolution fortællinger fra datalogiens verden DIKU 1970 2010 Den digitale revolution fortællinger fra datalogiens verden Datalogisk Institut, Københavns

Læs mere

Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang.

Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang. Den tekniske platform Af redaktionen Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang. Teknologisk udvikling går således hånd i hånd med videnskabelig udvikling.

Læs mere

Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger

Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger Menneskers omgang med den digitale teknik Af redaktionen Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger deres mobiltelefon, ser tv, søger oplysninger på Wikipedia,

Læs mere

Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund.

Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund. Den digitale verden et barn af oplysningstiden Af redaktionen Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund. Den elektroniske computer er blevet

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Forskningsmiljøer på KU inden for sundheds-it

Forskningsmiljøer på KU inden for sundheds-it Forskningsmiljøer på KU inden for sundheds-it Finn Kensing Center for IT Innovation Dias 1 Udfordringer for sundhedsvæsenet: Det aldrende samfund Flere (multi) kronikere Der er bl.a. behov for: Bedre koordinering

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

it fagene i de gymnasiale uddannelser

it fagene i de gymnasiale uddannelser it fagene i de gymnasiale uddannelser Machine learning, datamining og big data Benjamin Rotendahl April 17, 2016 1 benjamin rotendahl Hvem er jeg? Datalogistuderende ved Københavns Universitet. Frivillig/studentermedhjælper/bestyrelsesmedlem

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

BM121 Resume af tirsdags forlæsningen, Uge 47

BM121 Resume af tirsdags forlæsningen, Uge 47 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg (kallberg@imada.sdu.dk) 22/11-2005 1 Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Studieretningsprojekter i machine learning

Studieretningsprojekter i machine learning i machine learning 1 Introduktion Machine learning (ml) er et område indenfor kunstig intelligens, der beskæftiger sig med at konstruere programmer, der kan kan lære fra data. Tanken er at give en computer

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Fra registrering til information

Fra registrering til information Dyrlægeregningens størrelse afspejler sundheden i en kvægbesætning!? Dansk Boologisk Selskabs forårsseminar 2001 Erik Jørgensen Forskergruppe for Biometri Danmarks Jordbrugsforskning mailto:erikjorgensen@agrscidk

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Lidt historisk om chancelære i grundskolen

Lidt historisk om chancelære i grundskolen Lidt historisk om chancelære i grundskolen 1976 1.-2.klassetrin Vejledende forslag til læseplan:.det tilstræbes endvidere at eleverne i et passende talmaterialer kan bestemme for eksempel det største tal,

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard Mandags Chancen En optimal spilstrategi Erik Vestergaard Spilleregler denne note skal vi studere en optimal spilstrategi i det spil, som i fjernsynet går under navnet Mandags Chancen. Spillets regler er

Læs mere

Data-analyse og datalogi

Data-analyse og datalogi Det Naturvidenskabelige Fakultet Data-analyse og datalogi Studiepraktik 2014 Kristoffer Stensbo-Smidt Datalogisk Institut 23. oktober 2014 Dias 1/15 Hvorfor bruge tid på dataanalyse?! Alle virksomheder

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet

Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet Vi deler ikke bare viden fordi det er en god ide Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet af adjunkt Karina Skovvang Christensen, ksc@pnbukh.com, Aarhus Universitet

Læs mere

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau Roskilde Tekniske Gymnasium Eksamensprojekt Programmering C niveau Andreas Sode 09-05-2014 Indhold Eksamensprojekt Programmering C niveau... 2 Forord... 2 Indledning... 2 Problemformulering... 2 Krav til

Læs mere

8 danske succeshistorier 2002-2003

8 danske succeshistorier 2002-2003 8 danske T E K N I S K - V I D E N S K A B E L I G F O R S K N I N G succeshistorier 2002-2003 Statens Teknisk-Videnskabelige Forskningsråd Små rør med N A N O T E K N O L O G I stor betydning Siliciumteknologien,

Læs mere

Regneark hvorfor nu det?

Regneark hvorfor nu det? Regneark hvorfor nu det? Af seminarielektor, cand. pæd. Arne Mogensen Et åbent program et værktøj... 2 Sådan ser det ud... 3 Type 1 Beregning... 3 Type 2 Præsentation... 4 Type 3 Gæt... 5 Type 4 Eksperiment...

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Integralregning Infinitesimalregning

Integralregning Infinitesimalregning Udgave 2.1 Integralregning Infinitesimalregning Noterne gennemgår begreberne integral og stamfunktion, og anskuer dette som et redskab til bestemmelse af arealer under funktioner. Noterne er supplement

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere

Trekanter. Frank Villa. 8. november 2012

Trekanter. Frank Villa. 8. november 2012 Trekanter Frank Villa 8. november 2012 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion 1 1.1

Læs mere

Matematikkens filosofi filosofisk matematik

Matematikkens filosofi filosofisk matematik K Ø B E N H A V N S U N I V E R S I T E T Det Naturvidenskabelige Fakultet Matematikkens filosofi filosofisk matematik Flemming Topsøe, topsoe@math.ku.dk Institut for Matematiske Fag, Københavns Universitet

Læs mere

Computerassisteret fysioterapi og fysisk træning

Computerassisteret fysioterapi og fysisk træning D E P A R T M E N T O F C O M P U T E R S C I E N C E U N I V E R S I T Y O F C O P E N H A G E N Computerassisteret fysioterapi og fysisk træning Kim Steenstrup Pedersen Image Group Datalogisk Institut,

Læs mere

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760 Pædagogisk vejledning til Materialesæt Sphero http://via.mitcfu.dk/99872760 Pædagogisk vejledning til materialesættet Sphero Materialesættet kan lånes hos VIA Center for Undervisningsmidler og evt. hos

Læs mere

Kønsproportion og familiemønstre.

Kønsproportion og familiemønstre. Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM58) Institut for Matematik & Datalogi Syddansk Universitet Torsdag den 7 Januar 010, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger,

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Almen studieforberedelse. 3.g

Almen studieforberedelse. 3.g Almen studieforberedelse 3.g. - 2012 Videnskabsteori De tre forskellige fakulteter Humaniora Samfundsfag Naturvidenskabelige fag Fysik Kemi Naturgeografi Biologi Naturvidenskabsmetoden Definer spørgsmålet

Læs mere

Projektevaluering. Caretech Innovation. Optimized Brain reading (C-63)

Projektevaluering. Caretech Innovation. Optimized Brain reading (C-63) 1 Projektevaluering Caretech Innovation Optimized Brain reading (C-63) Deltagere/partnere: Brainreader Institut for datalogi, Aarhus Universitet Caretech Innovation Dato: 3. oktober 2012 Version: c-63

Læs mere

Programmering, algoritmik og matematik en nødvendig sammenblanding?

Programmering, algoritmik og matematik en nødvendig sammenblanding? Programmering, algoritmik og matematik en nødvendig sammenblanding? Oplæg til IDA møde, 29. november 2004 Martin Zachariasen DIKU 1 Egen baggrund B.Sc. i datalogi 1989; Kandidat i datalogi 1995; Ph.D.

Læs mere

Hvad er matematik? C, i-bog ISBN 978 87 7066 499 8. 2011 L&R Uddannelse A/S Vognmagergade 11 DK-1148 København K Tlf: 43503030 Email: info@lru.

Hvad er matematik? C, i-bog ISBN 978 87 7066 499 8. 2011 L&R Uddannelse A/S Vognmagergade 11 DK-1148 København K Tlf: 43503030 Email: info@lru. 1.1 Introduktion: Euklids algoritme er berømt af mange årsager: Det er en af de første effektive algoritmer man kender i matematikhistorien og den er uløseligt forbundet med problemerne omkring de inkommensurable

Læs mere

Sandsynlighedsregning og statistik

Sandsynlighedsregning og statistik og statistik Jakob G. Rasmussen, Institut for Matematiske Fag jgr@math.aau.dk Litteratur: Walpole, Myers, Myers & Ye: Probability and Statistics for Engineers and Scientists, Prentice Hall, 8th ed. Slides

Læs mere

Om sandhed, tro og viden

Om sandhed, tro og viden Om sandhed, tro og viden Flemming Topsøe Institut for Matematiske Fag Københavns Universitet http://www.math.ku.dk/ topsoe med mange manuskripter se specielt http://www.math.ku.dk/ topsoe/sandhednatfest09.pdf

Læs mere

Phd-projekt om individualiseret screening

Phd-projekt om individualiseret screening Phd-projekt om individualiseret screening Brystdensitet - en risikofaktor for brystkræft DRS og DSKFNM årsmøde den 30. januar 2014 Odense Rikke Rass Winkel, læge, klinisk assistent Ph.d. titel Risk stratification

Læs mere

Simulering og modellering af robotter og mennesker er vel nok et af de ældste emner inden for

Simulering og modellering af robotter og mennesker er vel nok et af de ældste emner inden for Simulering og modellering af robotter og mennesker Af Kenny Erleben, DIKU Simulering og modellering af robotter og mennesker er vel nok et af de ældste emner inden for datalogien. Simulering anvendes i

Læs mere

Introduktion til differentialregning 1. Jens Siegstad og Annegrethe Bak

Introduktion til differentialregning 1. Jens Siegstad og Annegrethe Bak Introduktion til differentialregning 1 Jens Siegstad og Annegrete Bak 16. juli 2008 1 Indledning I denne note vil vi kort introduktion til differentilregning, idet vi skal bruge teorien i et emne, Matematisk

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Acceleration af Kollisionsdetektion på Parallelle Computerarkitekturer

Acceleration af Kollisionsdetektion på Parallelle Computerarkitekturer af Kollisionsdetektion på Parallelle Computerarkitekturer Speciale Andreas Rune Fugl anfug03@student.sdu.dk Thomas Frederik Kvistgaard Ellehøj ththy03@student.sdu.dk Datateknologi ved Teknisk Fakultet

Læs mere

Maja Tarp AARHUS UNIVERSITET

Maja Tarp AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjylland Student år 005 fra Dronninglund Gymnasium Efter gymnasiet: Militæret Australien Startede på

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Computer Vision: Fysisk rehabilitering i eget hjem

Computer Vision: Fysisk rehabilitering i eget hjem D E P A R T M E N T O F C O M P U T E R S C I E N C E U N I V E R S I T Y O F C O P E N H A G E N Computer Vision: Fysisk rehabilitering i eget hjem Kim Steenstrup Pedersen Datalogisk Institut, Københavns

Læs mere

Sandsynlighedsregning

Sandsynlighedsregning Mogens Bladt www2.imm.dtu.dk/courses/02405 7. September, 2007 Hvad er sandsynlighedsregning? Formel matematisk måde til at håndtere tilfældigheder. Dybest set en formalisering af udregninger med proportioner.

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80)

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80) Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80) Opgave 1 Vi skal tegne alle de linjestykker, der forbinder vilkårligt valgte punkter blandt de 4 punkter. Gennem forsøg finder

Læs mere

EXCEL 2011 TIL MAC GODT I GANG MED PETER JENSEN GUIDE VISUEL

EXCEL 2011 TIL MAC GODT I GANG MED PETER JENSEN GUIDE VISUEL PETER JENSEN EXCEL 2011 TIL MAC GODT I GANG MED EXCEL 2011 TIL MAC VISUEL GUIDE 59 guides der får dig videre med Excel En instruktion på hver side - nemt og overskueligt Opslagsværk med letforståelig gennemgang

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Test for strukturelle ændringer i investeringsadfærden

Test for strukturelle ændringer i investeringsadfærden d. 6.10.2016 De Økonomiske Råds Sekretariat Test for strukturelle ændringer i investeringsadfærden Dette notat redegør for de stabilitetstest af forskellige tidsserier vedrørende investeringsadfærden i

Læs mere

BRAIN+, kognitionstræning og spil Om hjernetræning nu og i fremtiden

BRAIN+, kognitionstræning og spil Om hjernetræning nu og i fremtiden BRAIN+, kognitionstræning og spil Om hjernetræning nu og i fremtiden 2. Nationale teknologikonference Velfærdsteknologi i praksis 31 oktober 2013 Postdoc Inge Wilms, Ph.D, daglig leder af BRATLab, Institut

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Efterår 2016 Institution Niels Brock Uddannelse Fag og niveau Lærer Hold HHX Matematik - Niveau B Peter Harremoës GSK hold: t16gymabu1o1 Oversigt over gennemførte undervisningsforløb

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Grundlæggende køretidsanalyse af algoritmer

Grundlæggende køretidsanalyse af algoritmer Grundlæggende køretidsanalyse af algoritmer Algoritmers effektivitet Størrelse af inddata Forskellige mål for køretid Store -notationen Klassiske effektivitetsklasser Martin Zachariasen DIKU 1 Algoritmers

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Oktober-december 2014 Institution Niels Brock Uddannelse Fag og niveau Lærer Hold HHX Matematik - Niveau B Peter Harremoës GSK hold: k12gymabu1n2 Oversigt over gennemførte

Læs mere

Science i børnehøjde

Science i børnehøjde Indledning Esbjerg kommunes indsatsområde, Science, som startede i 2013, var en ny måde, for os pædagoger i Børnhus Syd, at tænke på. Det var en stor udfordring for os at tilpasse et forløb for 3-4 årige,

Læs mere

Emneopgave: Lineær- og kvadratisk programmering:

Emneopgave: Lineær- og kvadratisk programmering: Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

Efterspørgselsforecasting og Leveringsoptimering

Efterspørgselsforecasting og Leveringsoptimering Efterspørgselsforecasting og Leveringsoptimering 26.05.2011 Bjørn Nedergaard Jensen Berlingske Media 2 En af Danmarks største medieudgivere og leverandør af både trykte og digitale udgivelser. Koncernen

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Et algoritme-konstruktionsprincip ( paradigme ) for optimeringsproblemer. Har en hvis lighed med divide-and-conquer: Begge opbygger løsninger til større problemer

Læs mere

Oprids over grundforløbet i matematik

Oprids over grundforløbet i matematik Oprids over grundforløbet i matematik Dette oprids er tænkt som en meget kort gennemgang af de vigtigste hovedpointer vi har gennemgået i grundforløbet i matematik. Det er en kombination af at repetere

Læs mere

fortsætte høj retning mellem mindre over større

fortsætte høj retning mellem mindre over større cirka (ca) omtrent overslag fortsætte stoppe gentage gentage det samme igen mønster glat ru kantet høj lav bakke lav høj regel formel lov retning højre nedad finde rundt rod orden nøjagtig præcis cirka

Læs mere

Whiteboard eller PowerPoint?

Whiteboard eller PowerPoint? Whiteboard eller PowerPoint? Mette Winther Herskin og Bjarne Herskin, teach to teach, 2013 Er vi bare old school? Visuelle forklaringer er en helt central del af Herskin-metoden og ikke nok med, at forklaringerne

Læs mere

Medicotekniker-uddannelsen 25-01-2012. Vejen til Dit billede af verden

Medicotekniker-uddannelsen 25-01-2012. Vejen til Dit billede af verden Vejen til Dit billede af verden 1 Vi kommunikerer bedre med nogle mennesker end andre. Det skyldes vores forskellige måder at sanse og opleve verden på. Vi sorterer vores sanseindtryk fra den ydre verden.

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Mor og barn i. Af Charlotte Juul Sørensen. Forskning

Mor og barn i. Af Charlotte Juul Sørensen. Forskning 3D Mor og barn i På Københavns Universitet bruger psykologer avanceret teknologi til at forske i den tidlige interaktion mellem mor og barn. Teknologien giver mulighed for at afdække processerne med hidtil

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

T.N. Thiele Centret for Anvendt Matematik. Naturvidenskaberne

T.N. Thiele Centret for Anvendt Matematik. Naturvidenskaberne i Naturvidenskaberne Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet 23. marts 2007 Mission Thiele Centret er etableret med det formål at stimulere forskning og forskeruddannelse

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Euklids algoritme og kædebrøker

Euklids algoritme og kædebrøker Euklids algoritme og kædebrøker Michael Knudsen I denne note vil vi med Z, Q og R betegne mængden af henholdsvis de hele, de rationale og de reelle tal. Altså er { m } Z = {..., 2,, 0,, 2,...} og Q = n

Læs mere

2 Risikoaversion og nytteteori

2 Risikoaversion og nytteteori 2 Risikoaversion og nytteteori 2.1 Typer af risikoholdninger: Normalt foretages alle investeringskalkuler under forudsætningen om fuld sikkerhed om de fremtidige betalingsstrømme. I virkelighedens verden

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere