Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk

Størrelse: px
Starte visningen fra side:

Download "Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk"

Transkript

1 Machine learning automatisk læring med computere Af Mads Nielsen, DIKU Begrebet machine learning, som på dansk vel mest passende kan gengives med automatisk læring, er baseret på det særlige område inden for datalogisk forskning, der hedder algoritmer kombineret med statistisk analyse. Det går ud på at lade computeren lære at genkende mønstre ud fra eksempler og data og vel at mærke lære mere end eksemplerne selv: På basis af data kan computeren også lære at generalisere til nye eksempler og træffe såkaldt intelligente beslutninger. Et illustrerende eksempel I 1994 var jeg på vej med bussen til DIKU til en ph.d.-skole, som handlede om læring ved hjælp af minimum description length-princippet, sad en vel 5-årig dreng på sædet foran mig i bussen. Han sagde til sin mormor: Se, der er en bus med flag på! Et øjeblik efter kom næste bus: Se, mormor, alle busser har flag på i dag! Han generaliserede ud fra to eksempler til en regel. Gennem machine learning forsøger computeren at gøre det samme: at finde den hypotese, der passer bedst til de erfarede data og samtidig har størst mulig chance for at passe til fremtidige data. Med udviklingen af computeres lager- og beregningskapacitet og også som følge af metodernes udvikling over de sidste årtier er machine learning blevet et konkurrencedygtigt alternativ til at opfinde den dybe tallerken selv. Som eksempler på services, der anvender machine learning, kan nævnes Googles søgemaskine, stemmegenkendelse i telefonsvarere, kunstige modspillere i computerspil, forudsigelse af aktiekurser og programmer til visuel genkendelse af ansigter (prøv fx Polar Rose der automatisk genkender personer i dine fotografier), men også mere prosaiske eksempler som centrifugeringsprogrammer i vaskemaskiner. Senest har Volvo kørt rundt i København for at arbejde med deres machine learning-algoritme til automatisk genkendelse af fodgængere i bybilledet. Teknikken er lanceret i 2010 med det formål at få bilen til at bremse automatisk for at undgå kollision. Kunstig intelligens vs. machine learning Kunstig intelligens er et begreb, der længe har spøgt i litteraturen, og som offentligheden har stiftet bekendtskab med i bl.a. Arthur C. Clarkes Rumrejsen år 2001 fra 1968 (filmatiseret af Stanley Kubrick) og Brian Aldiss AI fra 2001 filmatiseret af Steven Spielberg. Machine learning kan opfattes som en del af dette begreb. I faglitteraturen er begreberne dog typisk adskilte: Hvor kunstig intelligens i højere grad beskæftiger sig med at finde løsninger til komplekse, men fuldt ud specificerede problemer, beskæftiger machine learning sig med at udlede regler fra data. Et godt eksempel er de populære sudokuer, hvor man med brug af kunstig intelligens ville indkode de kendte regler og lave et program, der finder en løsning til at udfylde spillepladen med tal. 92 DATALOGISK INSTITUT

2 Machine learning-tilgangen kræver ikke, at man kender reglerne for sudoku, men derimod at man ser nogle løsningseksempler. Computeren vil derefter forsøge at regne reglerne ud og samtidig lave et program, der kan anvende reglerne til at finde nye løsninger. Denne tilgang kaldes også inferens eller ræsonnement. Kunstig intelligens anvender deduktiv inferens, dvs. slutter sig frem til løsningen ved brug af udelukkelsesmetoden (Sherlock Holmesmetoden), mens machine learning benytter induktiv inferens, dvs. en form for sandsynliggørelse gennem sammenligning med lignende eksempler. Sidstnævnte er, hvad matematikerne kalder et dårligt stillet problem (Hadamard) et problem uden en entydig løsning. Drengen i bussen ville kunne finde mange forskellige regler for, hvilke busser der har flag, og hvilke der ikke har flag. Vel at mærke regler, der alle er i overensstemmelse med hans observationer af, at de to første busser har flag. Han valgte reglen Alle busser har flag på i dag, men kunne lige vel have valgt reglen Alle busser på Christianshavns Torv har flag på eller for den sags skyld en mere kompliceret regel som Når jeg tæller busser og giver dem fortløbende numre, har alle primtalsbusser et flag på. Alle tre regler svarer fuldt ud til observationerne, og vi må udvikle et princip til at vælge den regel, der har størst chance for at stemme overens med fremtidige observationer. At vælge dette princip og komme frem til algoritmer på baggrund af princippet er kunsten og videnskaben i machine learning. Minimum description length-princippet Fra en lidt mere filosofisk vinkel kan minimum description length (MDL)-princippet nævnes. Det bygger på Occams razor: Den simpleste af lige gode hypoteser er at foretrække. Dette er formaliseret i MDL, hvor man forsøger at indkode data så kompakt som muligt med mange konkurrerende komprimeringsmetoder. Den metode, der så bruger færrest mulige bit til at indkode data, anses som den bedste. Forbindelsen til statistisk machine learning kommer gennem Shannons informationsteori, hvor sandsynlighedsfordelingers entropi er den teoretiske nedre grænse for, hvor mange bit der skal bruges til at indkode instanser trukket fra fordelingen. Der er på denne måde etableret mange forbindelser mellem bayesiansk tankegang og MDL. Tages MDL-filosofien alvorligt i sin yderste konsekvens, drejer machine learning sig således om at komprimere data mest muligt. Den nederste grænse for komprimeringen kendes også som Kolmogorov-kompleksiteten af data: længden af det korteste computerprogram, der udskriver data. Desværre er det vist, at Kolmogorov-kompleksiteten ikke generelt er beregnelig. Vi kan kun på vores togt efter gode komprimeringer håbe at finde et kort program. Vi kan aldrig garantere, at vi har fundet det korteste. Boris Ryabko har for en stor klasse af data vist, at i gennemsnit vil den ekstra kodelængde, vi får, fordi vi ikke bruger uendelig lang beregningstid, være omvendt proportional med den anvendte beregningstid. Derved har han formaliseret det berømte citat af Blaise Pascal: If I had had more time, I would have written you a shorter letter. KØBENHAVNS UNIVERSITET 93

3 At estimere med statistisk modellering (Bernoulli-processen) Når vi ønsker at finde den regel, der har størst chance for at generalisere korrekt, bevæger vi os hurtigt ind i sandsynlighedsregning og statistik, når det nu er chancer, vi taler om. Her vil vi gå gennem Bernoulli-processen som et kanonisk eksempel på mekanismerne i et modelvalg: Vi har en mønt til at slå plat eller krone med, men mønten er muligvis skæv, hvorfor plat og krone ikke giver samme sandsynlighed (se figur 1). Vi kaster nu mønten gentagne gange og vil forsøge at udregne sandsynligheden for krone i fremtidige kast. Denne proces er det første simple eksempel, men allerede her kan det blive komplekst at finde en god løsning. Den umiddelbare tilgangsvinkel vil være ud fra vores træningskast at udregne den fremtidige sandsynlighed for krone som: Θ = antal krone / antal kast = antal krone / (antal krone + antal plat) Dette er maximum likelihood-estimatet af sandsynligheden Θ: Af alle mulige valg af Θ er dette valget, hvor sandsynligheden for det udfald (antal krone og plat), vi har opnået, er størst. Vi beskriver dette som: Θ ml = arg max Θ p(d Θ) Det vil sige, at maximum likelihood-estimatet af Θ (som tilhører intervallet fra og med 0 til og med 1) findes som det Θ, der maksimerer sandsynligheden for data, D (i dette tilfælde antal krone og plat), når værdien af sandsynligheden for krone, Θ, antages kendt. Abstraktionen er altså, at vi gætter løsningen, ser, hvor sandsynlige data er, og så gætter igen og igen, indtil vi har fundet det gæt af løsningen, hvor data er mest sandsynlige. Maximum likelihood-estimering er standardmetoden for statistisk analyse, men lider i ovennævnte anvendelse af en mangel: Hvis vi kun har kastet mønten en enkelt gang, altså forsøger at lære møntens karakteristika ud fra et enkelt kast, vil Θ blive 0 eller 1, afhængigt af om vi tilfældigvis har fået krone eller plat i første forsøg. Det virker urimeligt, at vi dermed laver en model, som siger, at alle fremtidige kast bliver som det første: Vi bliver ved med at slå krone hver eneste gang. Specielt hvis vi faktisk har haft mønten i hånden og synes, at den minder om en almindelig, fair mønt. Denne forhåndsviden er ikke med i likelihood-estimatet. I stedet for at analysere p(d Θ), sandsynligheden for data D, når Θ er kendt, kunne vi analysere p(θ D), sandsynligheden for Θ, når D er kendt. Det virker mere rimeligt at finde sandsynligheden for en model Θ baseret på data. Dette kan gøres ved hjælp af Bayes formel for a posteriori-sandsynligheden for Θ: p(θ D) = p(d Θ) p(θ) / p(d) Her udregnes sandsynligheden for modellen Θ baseret på likelihoodet p(d Θ), forhåndssandsynligheden (eller a priorisandsynligheden) p(θ) og evidensen p(d). Evidensen p(d) afhænger ikke af Θ og fungerer som en konstant, der sørger for normalisering af p(θ D), så sandsynlighedsvolumen er 1 summeret over alle værdier af Θ. A priori-sandsynligheden p(θ) indkoder vores forhåndsantagelser om Θ. Dette er vores væsentligste værktøj, når vi ønsker estimater, der generaliserer bedre end maximum likelihood-estimatet. Krone Plat Plat Krone Krone Plat } P(Krone) = Θ Figur 1: Bernoulli-processen. En mønt kastes gentagne gange, og vi ønsker at estimere sandsynligheden for udfaldet krone i fremtidige kast. 94 DATALOGISK INSTITUT

4 Ud fra a posteriori-fordelingen p(θ D) ønsker vi at vælge et enkelt bedste Θ, som vi kalder Θ*. Dette bedste valg kan foretages efter mange principper, men ofte vil vi vælge den løsning, der minimerer den forventede kvadratfejl. Θ* = arg min Θ ( Θ Θ )2 p(θ D) dθ = E(Θ) Det svarer til a posteriori-middelværdien af Θ. Nu kan vi lege med, hvilken a priori-fordeling p(θ) vi vil antage. Klassisk vil man vælge en ligefordeling på intervallet [0;1]. Dette er en såkaldt ikke-informativ prior, da vi antager en fordeling, der bestemmer så lidt som muligt. Laplace udregnede under antagelse af ligefordelingen, at: Θ* = (antal krone + 1) / (antal krone + antal plat + 2) Løsningen her svarer til, at vi, før vi startede Bernoulliprocessen, allerede havde kastet mønten to gange og fået én plat og én krone og derefter benyttede maximum likelihoodestimatoren. Ovenfor minimerede vi kvadratfejlen og ankom derved til middelværdien som Bayes-estimat. Dette er et fornuftigt men dog vilkårligt valg. Generelt vil man kunne erstatte kvadratfejlen med en anden tabsfunktion og derved ændre sin estimator. Et specielt valg er at antage tabsfunktionen, hvor kun det rigtige valg giver lavt tab, og alle andre valg gives et ens og højere tab. For kontinuerte parametre modelleres dette ved minus Diracdelta-fordelingen. Man får så en Bayes-estimator, der minimerer tabsfunktionen, der er identisk med den, der maksimerer a posteriori-fordelingen. Denne kaldes maksimum-a posterioriestimatet, eller normalt i kort form MAP-estimatet. I kort opsummering: Normalt laves induktiv inferens som maximum likelihood-estimat, men Bayes formel giver mulighed for at tage højde for forhåndsviden og bestemme a posteriorifordelingen. Derudover vil valget af en tabsfunktion gøre det muligt at beregne det forventede tab for alle parameterværdier og vælge den med mindst forventet tab. Nu da vi har nået målet med et Bayes-estimat, vil vi undersøge dette nærmere: Formlen giver også mulighed for at indsætte resultatet af 0 kast og få Θ* = ½ som løsning. Dette er middelværdien af vores a priori-fordeling. Uden data er dette naturligt vores bedste bud. Man kan ændre forhåndsantagelserne til en anden fordeling. Hvis man antager en beta-fordeling af Θ, kan Bayes-estimatet udregnes som: Θ* = (antal krone + R) / (antal krone + antal plat + 2R) hvor R er en parameter i beta-fordelingen. Her kan man som en finurlighed tage grænsen, hvor R sænkes mod 0. I dette tilfælde bliver Bayes-estimatet identisk med maximum likelihoodestimatet. Den a priori-fordeling, der giver dette Bayes-estimat, er speciel, da det er den fordeling, der betyder, at vi tror helt på, hvad vi opdager i fremtiden. Det er fordelingen, som Jaynes kalder state of total confusion. KØBENHAVNS UNIVERSITET 95

5 Machine learning Lad os nu kigge en smule mere formelt på, hvad machine learning er. Vi starter processen med et datasæt S med N instanser, som vi skal lære fra, også kaldet træningssættet: S = { s 1, s 2,, s N } Hver instans består af data (x) med tilhørende label (y: s i = (x i, y i )). I eksemplet i tekstboksen med Bernoulli-processen var data, i dette tilfælde nummeret på kastet med mønten, ikke af større betydning, hvorimod udfaldet (label), plat/krone, var vigtigt. I andre tilfælde er data af stor betydning. Et eksempel kan være ansigtsgenkendelse. Her er billedet data (x), og identiteten på personen label (y). Når labels er kendte i træningssættet, taler vi om supervised learning. Når labels ikke forefindes, er vi i den vanskeligere situation, der kaldes unsupervised learning. Alt, hvad vi kan gøre her, er at finde naturlige grupperinger af data og selv opfinde en label til disse grupperinger. I supervised learning forsøger vi at finde en model, der afbilder data til labels: m: x -> y. Modellen skal gerne afbilde så korrekt som muligt både for træningssættet og for hidtil usete instanser, så den også generaliserer godt. Modellen vælges som én blandt mange modeller i hypoteserummet H = {m 1, m 2, m 3, }. Ligesom vi i forbindelse med Bernoulli-processen valgte maximum likelihood, kan vi her vælge den model, der har det laveste antal fejl på træningssættet. Denne strategi kalder vi empirisk fejlminimering. Vi kan nu også vælge en tabsfunktion, hvor forskellige fejltyper vægtes forskelligt. Med tabsfunktionen inkluderet kalder vi det for empirisk risikominimering. Machine learning-algoritmer, der implementerer empirisk risikominimering, har mange gode egenskaber. Man kan vise, at man finder den bedste model i hypoteserummet, hvis træningssættet er stort nok. I dette tilfælde siger man, at algoritmen er konsistent. Endvidere kan man vise, at algoritmen generaliserer. Generalisering er den vigtige egenskab til sikring af, at hidtil usete data også får rette label, så godt det nu kan lade sig gøre i hypoteserummet. At minimere risikoen på træningssættet til en meget lille risiko betyder blot, at man har en meget fleksibel modelklasse i sit hypoteserum. At opnå en meget lav risiko på hidtil usete data, dvs. data, som ikke er indgået i at udvælge modellen i hypoteserummet, er gavnligt, så algoritmen faktisk kan rubricere nye data. Med empirisk risikominimering generaliserer man i matematisk forstand, men desværre kun når træningssættet bliver stort nok. Ved Bernoulli-processen klarer maximum likelihood-estimatet sig også godt, når der er data nok at lære fra. Derimod klarer det sig dårligere på usete data, hvis det kun har ganske få kast at lære fra. Derfor erstattede vi maximum likelihood-estimatet med Bayes-estimatet. Den tilsvarende regel ved små træningssæt benyttes også i machine learning. Kunsten er ud fra et begrænset træningssæt at opnå så god generalisering som muligt Hvis hypoteserummet er meget stort, kan man potentielt finde en hypotese, der generaliserer 96 DATALOGISK INSTITUT

6 meget godt. Desværre vil der også være mange hypoteser, der tilfældigvis har en lille fejl på træningssættet, men ikke generaliserer godt (se figur 2). Figur 2: Består hypoteserummet kun af lige linjer, kan man adskille de røde og blå bolde på hver sin side af linjen. Hvis man vælger et hypoteserum med meget større kapacitet, kan man stadig adskille blå og røde bolde, endda med større margin. Spørgsmålet er blot, hvad der sker, når nye bolde dukker op. Det er svært at tro, at den bugtede kurve tilfældigvis vil generalisere vel. Error rater (%) Generalisation High model complexity Generelt taler man om hypoteserummets kapacitet. Jo større hypoteserum med mere fleksibel modelklasse, jo større kapacitet. Når kapaciteten bliver større, vil træningsfejlen altid blive mindre for fornuftige algoritmer. Derimod vil generaliseringsfejlen ikke nødvendigvis blive mindre, da den model, der minimerer den empiriske risiko, blot tilfældigvis passer til de sete data men ikke til de hidtil usete, se figur 3. Optimal Train a Error rater (%) Generalisation Optimal Data set size Low model complexity Train b Data set size Error rater (%) Figur 3: Træningsfejl versus generaliseringsfejl. (a) Udviklingen af trænings- og generaliseringsfejl som funktion af størrelsen af træningssættet for en fleksibel modelklasse. (b) Udviklingen af fejl for en mindre fleksibel modelklasse. (c) Generaliseringsfejlen for de to modelklasser afbildet mod hinanden. c Generalisation large model Generalisation small model Generalisation error Data set size KØBENHAVNS UNIVERSITET 97

7 En måde at karakterisere kapaciteten af en modelklasse på er ved VC-dimensionen (Vapnik- Chervonenkis-dimensionen). Intuitivt angives antallet af frihedsgrader i modelklassen. Mere formelt udregnes dette som antallet af datapunkter, som altid vil kunne adskilles i to klasser uanset deres position. Kunsten i machine learning er at vælge en modelkapacitet, der gør, at den forventede generalisering bliver så god som muligt. Der findes et utal af algoritmer til at indkode vores forhåndsviden, således at generaliseringen er så god som muligt, også ved en begrænset størrelse af træningssættet. En klassisk løsning til machine learning-problemer er neurale netværk. Inspireret af Minsky og Paperts perceptron laves et netværk af celler, der hver summerer deres input og lader summen blive slået op i en ikke-lineær funktion, og resultatet er så input til endnu en neuron. Typisk er neurale netværk organiseret i lag med beregningerne gående fremad lag for lag (se figur 4). De blev meget populære, da back-propagation-algoritmen viste sig forholdsvis effektivt at kunne indstille vægtene, så netværket samlet minimerede træningsfejlen. Mange resultater fra og generelle metoder til machine learning er blevet udviklet i forbindelse med neurale netværk, også metoder til at indstille kapaciteten til bedst mulig generaliseringsevne. Et eksempel med et morsomt navn er optimal brain damage, der forsøger at estimere, hvilke neuroner der skal slettes for at gøre generaliseringen bedre. Figur 4: Neuralt netværk med et skjult lag. Data fødes ind i de røde input-neuroner. Herfra sendes de videre til de blå beregningsneuroner i det skjulte lag. Resultater herfra sendes videre til output-neuronen, der har samme funktionalitet som de skjulte neuroner: n vægtet summering af input og opslag i en ikke-lineær funktion. Siden de neurale netværk er mange andre algoritmer blevet opfundet. Her kan blandt andet nævnes Support Vector Machines (SVM). De forsøger at udvælge de datapunkter, der skal støtte løsningen, således at marginen mellem de to forskellige labels bliver så stor som muligt. Dette er et eksempel på en algoritme, der maksimerer marginen. Vapnik har vist, at optimering af marginen medfører generalisering i matematisk betydning. SVM er har dog også vist deres store potentiale til at løse praktiske problemer og er en af de mest populære algoritmer. 98 DATALOGISK INSTITUT

8 En anden type algoritme er de såkaldte boosting-algoritmer. Tricket her er at have en hel lille hær af meget simple klassifikationer. Herefter anvendes de enten som flertalsafstemninger eller i en anden struktur. Meget populær er AdaBoost, der automatisk arrangerer de simple klassifikationer i en træstruktur, så træningsfejlen bliver så lille som muligt. Herefter kan principper til at forsøge at minimere generaliseringsfejlen også anvendes. Et generelt trick til at estimere generaliseringsevnen er at dele data op i et træningssæt og et testsæt. Træningssættet anvendes til at vælge den bedste hypotese, og testsættet benyttes herefter til at estimere generaliseringsevnen. Dette trick kan gøres mange gange med tilfældige opdelinger i test- og træningssæt. Denne procedure kaldes bootstrapping og har udviklet sig som en hel disciplin for sig selv i forbindelse med udviklingen af statistiske test. Det mest populære eksempel på bootstrapping i machine learning er nok random forest-algoritmen. På samme måde som AdaBoost opbygger et beslutningstræ, kan man opdele data i trænings- og testsæt. Herved kan man teste på generaliseringen af træet under dets opbygning og stoppe opbygningen, når træets generaliseringevne ikke længere forbedres. Nu kan en ny opdeling i trænings- og testsæt tilfældigt trækkes, og derved kan et nyt træ, som er optimalt for denne splitning af data, opbygges. Processen fortsættes, indtil man har træer nok til, at man synes, man har en hel skov. Klassifikationen består så i, at træerne stemmer, og flertallet bestemmer. Fordelen ved denne algoritme er, at man automatisk styrer kapaciteten af modellen. Random forest er uhyre populære i bioinformatik, hvor det efterhånden er en standardmetode til at analysere gener for association til for eksempel sygdomme. Machine learning bruges bl.a. til at diagnosticere sygdomme Et af de mere omtalte projekter i den seneste tid er Learning Imaging Biomarkers et projekt, der meget kort fortalt går ud på at anvende billedanalyse og machine learning til tidlig diagnosticering af en lang række sygdomme, herunder bl.a. brystkræft. Metoden går ud på at kigge efter markører eller indikatorer, altså særlige mønstre i brystvævet, der er typiske for personer, der senere viser sig at få brystkræft. Her har machine learning vist sig uhyre anvendelig, fordi man kan få computeren til at gennemregne et uendeligt antal eksempler af billeder og mønstre og herudfra skabe nogle generaliseringer om, hvorvidt der er forskelle i udseendet på vævstyperne hos hhv. personer, der får, og personer, der ikke får brystkræft. Normalt er brystvævet hos kvinder stribet fra brystvorten og ind mod kroppen. Den nye forskning viser, at kvinder, hvis bryster viser tegn på, at striberne går på tværs, har forøget risiko for at udvikle brystkræft. Det stribede mønster kan bruges som indikation, uafhængigt af andre faktorer, som kan læses ud af et mammografibillede. Der er brugt en ny slags algoritme til billedanalysen, som kan genkende hundredvis af forskellige mønstre. Derefter er softwaren blevet optrænet ved anvendelse af machine learning-tilgangen med mammografier fra 500 hollandske kvinder, hvor 250 på trods af en negativ diagnose senere udviklede brystkræft. KØBENHAVNS UNIVERSITET 99

9 Algoritmerne er inspireret af processer i hjernen, nemlig dem der foregår i de første niveauer af den visuelle cortex, som er det yderste lag af hjernen. Computeren kan se kvantitativt på talmaterialet, og det betyder, at den kan foretage en meget præcis mønstergenkendelse og dermed skelne kvantitativt mellem sunde mammografier og mammografier fra kvinder, som er i risikogruppen for at udvikle kræft. Det er samme type statistisk mønstergenkendelse, som kendes fra fx neurale netværk. I praksis fungerer diagnosticeringen ved, at et program analyserer et mammografibillede ved at genkende, om punkter i mammografiet er en del af en tynd eller en tyk linje, en forhøjning eller en kant. Analysen korreleres med statistiske data om, hvilke kvinder der rent faktisk har fået brystkræft. Med computerens hjælp når man således frem til en hypotese om, hvilke vævsmønstre der øger risikoen for brystkræft. Metoden anvendes også til diagnosticering af en række andre sygdomme, fx knogleskørhed, slidgigt, åreforkalkning og rygerlunger (KOL). Optræningen af den anvendte software foregår på en supercomputer med meget stor regnekapacitet (læs også Brian Vinters artikel om supercomputere). Hvor det måske ville tage flere år at få en almindelig pc til at gennemløbe de millioner af billeder og afprøve de millionvis af hypoteser under optræningen, der er nødvendige for at nå frem til et pålideligt resultat, kan en beregningssession gennemføres på få dage takket være den høje kapacitet, som forskningscomputere er udstyret med. Projektet har således brugt af de pc-noder, som supercomputer-klyngen på H.C. Ørsted Instituttet er opbygget af. Når først softwaren er optrænet, kan den også bruges på en almindelig pc. Forskningsprojektet, der i skrivende stund fortsat er i gang, er et resultat af et intensivt samarbejde mellem KU og Nordic Bioscience Imaging A/S. Det gennemføres på escience-centret, der er etableret som en tværfaglig enhed med basis på H.C. Ørsted Instituttet på Det Naturvidenskabelige Fakultet på KU. Eksempler på anvendelse af machine learning til fortolkning af sundhedsdata kan ses i figur DATALOGISK INSTITUT

10 AC NCD MACD RISK LOW MEDIUM HIGH Density Medio Medio Structure Organized Unorganized Type Network Blobs Rice Low High Medial Section 0 (a) Cartilage Homogeneity (b) Cartilage Volume (c) Cartilage Thickness Figur 5: Første eksempel er analysen af forkalkninger i hovedpulsåren. Det viser sig, at ikke kun mængden af forkalkninger men også deres fordeling, form og størrelse spiller ind på den enkelte patients prognose. Andet eksempel viser en analyse af mammografier. Her kan man se, at den desorganiserede struktur er en indikation af brystkræft. Tredje eksempel viser genkendelsen af meget tidlige symptomer på knogleskørhed ud fra ryggens form, og endelig viser det sidste eksempel diagnose af slidgigt ud fra MR-skanninger af knæet. I alle tilfælde er machine learning anvendt til den visuelle analyse, der er vanskelig for mennesker at gennemføre kvantitativt. KØBENHAVNS UNIVERSITET 101

11 Scanningbillede af lunger. Lungen til højre er delvis angrebet 102 DATALOGISK INSTITUT

12 Afrunding Machine learning i kombination med supercomputerens kapacitet og moderne billedanalyseværktøjer er en af moderne computerforsknings meget lovende metoder, der finder anvendelse på en lang række områder. At lade computeren finde den bedste hypotese på løsningen af et problem vil ofte både være tidsbesparende og fejlminimerende men naturligvis er man nødt til at alliere sig med erfarne forskere på det pågældende område for at sikre sig, at man ikke stoler blindt på computerens intelligente forslag, men at der er mennesker bagved, der kan validere hypoteserne. Der er således ikke tegn i sol og måne på, at vi kommer til at opleve forsøg fra computerens side på at overtage magten over menneskene ligesom computeren Hal i Rumrejsen år Ikke kun inden for medicinsk forskning, men også på mange andre områder vinder machine learning indpas som metode til at automatisere og forkorte processer og styrke pålideligheden af beregninger. Det gælder fx på slagterier, hvor kødudskærings- og bearbejdningsprocesserne kan effektiviseres væsentligt, inden for klima- eller vejrmodeller eller inden for maskinoversættelse og tekstbehandling for blot at nævne få eksempler. Læs mere Hertz, J., Krogh, A. & Palmer, R.G. (1991). Introduction to the Theory of Neural Computation. Westview Press. Shannon, C.E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal, 27, s , , juli, oktober. Cortes, C. & Vapnik, V. (1995). Support Vector Networks. Journal of Machine Learning, 20(3), s MADS NIELSEN Mads Nielsen er kandidat i datalogi fra 1992 og ph.d. fra 1995, i begge tilfælde fra DIKU. Som led i sit ph.d.-studium var han et år tilknyttet INRIA-universitetet i Sophia Antipolis i Frankrig. Herudover har han været ansat som postdoc ved Image Sciences Institute, Utrecht Universitet, Holland. I 1996 blev han tilknyttet DIKU som postdoc parallelt med sin ansættelse i 3D-Lab under den daværende Tandlægehøjskolen (i dag SUND v. Københavns Universitet), hvor han var adjunkt i I april 1999 blev han den første lektor ved det nyetablerede IT-Universitetet i København, og i juni 2002 blev han professor og leder af Image Analysis Group samme sted. I 2007 skiftede Mads tilbage til DIKU, hvor han i dag er professor og leder af Billedgruppen. Fra en lang liste af publikationer kan fremhæves Regularization, Scale-Space, and Edge Detection Filters (1997), Classification in Medical Image Analysis Using Adaptive Metric KNN (2010) og Distribution, Size, Shape, Growth Potential and Extent of Abdominal Aortic Calcified Deposits Predict Mortality in Postmenopausal Women som repræsentative eksempler på forskning i anvendt matematik, datalogi og medicin. Mads Nielsen leder en række aktuelle forskningsprojekter på disse felter. KØBENHAVNS UNIVERSITET 103

13 Den digitale revolution fortællinger fra datalogiens verden Bogen er udgivet af Datalogisk Institut, Københavns Universitet (DIKU) i anledning af instituttets 40 års jubilæum med bidrag fra forskere tilknyttet instituttet. Redaktion: Tariq Andersen, phd-studerende, Jørgen Bansler, professor, Hasse Clausen, lektor, Inge Hviid Jensen, kommunikationsmedarbejder og Martin Zachariasen, institutleder. Forsidemotiv: Foto af skulptur af Alan Turing, basegreen lokaliseret på flickr.om/photos/basegreen Oplag: 1000 eks. Grafisk design og produktion: Westring + Welling A/S ISBN: Datalogisk Institut Citater er tilladt under creative commons. 2 DATALOGISK INSTITUT

Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger

Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger Menneskers omgang med den digitale teknik Af redaktionen Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger deres mobiltelefon, ser tv, søger oplysninger på Wikipedia,

Læs mere

Den digitale revolution

Den digitale revolution datalogisk institut københavns universitet Den digitale revolution fortællinger fra datalogiens verden DIKU 1970 2010 Den digitale revolution fortællinger fra datalogiens verden Datalogisk Institut, Københavns

Læs mere

Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang.

Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang. Den tekniske platform Af redaktionen Computeren repræsenterer en teknologi, som er tæt knyttet til den naturvidenskabelige tilgang. Teknologisk udvikling går således hånd i hånd med videnskabelig udvikling.

Læs mere

Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund.

Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund. Den digitale verden et barn af oplysningstiden Af redaktionen Gennem de sidste par årtier er en digital revolution fejet ind over vores tidligere så analoge samfund. Den elektroniske computer er blevet

Læs mere

Matematikken i kunstig intelligens Opgaver om koordinerende robotter

Matematikken i kunstig intelligens Opgaver om koordinerende robotter Matematikken i kunstig intelligens Opgaver om koordinerende robotter Thomas Bolander 2. juni 2018 Vejledning til opgaver Opgave 1 kan eventuelt springes over, hvis man har mindre tid. De resterende opgaver

Læs mere

Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER

Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER Matematikken i kunstig intelligens Opgaver om koordinerende robotter LØSNINGER Thomas Bolander 25. april 2018 Vejledning til opgaver Opgave 1 kan eventuelt springes over, hvis man har mindre tid. De resterende

Læs mere

Kunstig intelligens kan give lægerne mere tid til patienterne - UgebrevetA4.dk. WATSON Kunstig intelligens kan give lægerne mere tid til patienterne

Kunstig intelligens kan give lægerne mere tid til patienterne - UgebrevetA4.dk. WATSON Kunstig intelligens kan give lægerne mere tid til patienterne WATSON Kunstig intelligens kan give lægerne mere tid til patienterne Af Katrine Skov Sørensen Fredag den 16. marts 2018 Patienter på hospitalerne kan vente større opmærksomhed fra lægerne. Ny teknologi

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Forskningsmiljøer på KU inden for sundheds-it

Forskningsmiljøer på KU inden for sundheds-it Forskningsmiljøer på KU inden for sundheds-it Finn Kensing Center for IT Innovation Dias 1 Udfordringer for sundhedsvæsenet: Det aldrende samfund Flere (multi) kronikere Der er bl.a. behov for: Bedre koordinering

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017 Bayesiansk statistik Tom Engsted DSS Aarhus, 28 november 2017 1 Figure 1: Nicolajs gur 2 Klassisk frekvensbaseret statistik Statistisk beslutningsteori Bayesiansk statistik Et kompromis mellem den klassiske

Læs mere

it fagene i de gymnasiale uddannelser

it fagene i de gymnasiale uddannelser it fagene i de gymnasiale uddannelser Machine learning, datamining og big data Benjamin Rotendahl April 17, 2016 1 benjamin rotendahl Hvem er jeg? Datalogistuderende ved Københavns Universitet. Frivillig/studentermedhjælper/bestyrelsesmedlem

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Introduktion til Visual Data Mining and Machine Learning

Introduktion til Visual Data Mining and Machine Learning SAS USER FORUM Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute Agenda Introduktion til et par machine learningmodeller Case-introduktion Demo SWEDEN 2017

Læs mere

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard Mandags Chancen En optimal spilstrategi Erik Vestergaard Spilleregler denne note skal vi studere en optimal spilstrategi i det spil, som i fjernsynet går under navnet Mandags Chancen. Spillets regler er

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring

ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE. Udfordring ALGORITMER OG DATA SOM BAGGRUND FOR FORUDSIGELSER 8. KLASSE Udfordring INDHOLDSFORTEGNELSE 1. Forløbsbeskrivelse... 3 1.1 Overordnet beskrivelse tre sammenhængende forløb... 3 1.2 Resume... 5 1.3 Rammer

Læs mere

BM121 Resume af tirsdags forlæsningen, Uge 47

BM121 Resume af tirsdags forlæsningen, Uge 47 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg (kallberg@imada.sdu.dk) 22/11-2005 1 Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Studieretningsprojekter i machine learning

Studieretningsprojekter i machine learning i machine learning 1 Introduktion Machine learning (ml) er et område indenfor kunstig intelligens, der beskæftiger sig med at konstruere programmer, der kan kan lære fra data. Tanken er at give en computer

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Matematik, maskiner og metadata

Matematik, maskiner og metadata MATEMATIK, MASKINER OG METADATA VEJE TIL VIDEN Matematik, maskiner og metadata af CHRISTIAN BOESGAARD DATALOG IT Development / DBC 1 Konkrete projekter med machine learning, hvor computersystemer lærer

Læs mere

Lidt historisk om chancelære i grundskolen

Lidt historisk om chancelære i grundskolen Lidt historisk om chancelære i grundskolen 1976 1.-2.klassetrin Vejledende forslag til læseplan:.det tilstræbes endvidere at eleverne i et passende talmaterialer kan bestemme for eksempel det største tal,

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur (struktur opbygget af et endeligt antal enkeltdele) blandt mange mulige. Eksempler:

Læs mere

Tue Tjur: Hvad er tilfældighed?

Tue Tjur: Hvad er tilfældighed? Tue Tjur: Hvad er tilfældighed? 16. 19. september 1999 afholdtes i netværkets regi en konference på RUC om sandsynlighedsregningens filosofi og historie. Som ikke specielt historisk interesseret, men nok

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

8 danske succeshistorier 2002-2003

8 danske succeshistorier 2002-2003 8 danske T E K N I S K - V I D E N S K A B E L I G F O R S K N I N G succeshistorier 2002-2003 Statens Teknisk-Videnskabelige Forskningsråd Små rør med N A N O T E K N O L O G I stor betydning Siliciumteknologien,

Læs mere

Henrik Bulskov Styltsvig

Henrik Bulskov Styltsvig Data Mining Henrik Bulskov Styltsvig Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk Målsætning Data

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Trekanter. Frank Villa. 8. november 2012

Trekanter. Frank Villa. 8. november 2012 Trekanter Frank Villa 8. november 2012 Dette dokument er en del af MatBog.dk 2008-2012. IT Teaching Tools. ISBN-13: 978-87-92775-00-9. Se yderligere betingelser for brug her. Indhold 1 Introduktion 1 1.1

Læs mere

Kønsproportion og familiemønstre.

Kønsproportion og familiemønstre. Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,

Læs mere

Projekt Pascals trekant

Projekt Pascals trekant ISBN 988089 Projekter: Kapitel 9 Projekt 9 Pascals trekant Projekt 9 Pascals trekant Et af målene i dette afsnit er at generalisere kvadratsætningerne, så vi fx umiddelbart og uden nødvendigvis at bruge

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Hvordan laver man et perfekt indkast?

Hvordan laver man et perfekt indkast? Hvordan laver man et perfekt indkast? www.flickr.com1024 683 Indhold Hvorfor har jeg valgt at forske i det perfekte indkast... 3 Reglerne for et indkast... 4 Hjørnespark VS indkast... 5 Hvor langt kan

Læs mere

Fra registrering til information

Fra registrering til information Dyrlægeregningens størrelse afspejler sundheden i en kvægbesætning!? Dansk Boologisk Selskabs forårsseminar 2001 Erik Jørgensen Forskergruppe for Biometri Danmarks Jordbrugsforskning mailto:erikjorgensen@agrscidk

Læs mere

Matematikkens metoder illustreret med eksempler fra ligningernes historie. Jessica Carter Institut for Matematik og Datalogi, SDU 12.

Matematikkens metoder illustreret med eksempler fra ligningernes historie. Jessica Carter Institut for Matematik og Datalogi, SDU 12. illustreret med eksempler fra ligningernes historie Institut for Matematik og Datalogi, SDU 12. april 2019 Matematiklærerdag, Aarhus Universitet I læreplanen for Studieretningsprojektet står: I studieretningsprojektet

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet

Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet Vi deler ikke bare viden fordi det er en god ide Vi deler ikke bare viden fordi det er en god ide heller ikke i vidensamfundet af adjunkt Karina Skovvang Christensen, ksc@pnbukh.com, Aarhus Universitet

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

DANMARKS NATIONALBANK

DANMARKS NATIONALBANK ANALYSE DANMARKS NATIONALBANK 21. JANUAR 2019 NR. 3 Tekstbaseret machine learning forbedrer konkursmodellering Machine learning forbedrer beregning af konkurssandsynlighed Tekstbaserede data tilføjer brugbar

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Sandsynlighedsregning og statistik

Sandsynlighedsregning og statistik og statistik Jakob G. Rasmussen, Institut for Matematiske Fag jgr@math.aau.dk Litteratur: Walpole, Myers, Myers & Ye: Probability and Statistics for Engineers and Scientists, Prentice Hall, 8th ed. Slides

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Træningsspørgsmål efter 9. forelæsning/øvelse

Træningsspørgsmål efter 9. forelæsning/øvelse Træningsspørgsmål efter 9. forelæsning/øvelse Der skal afholdes en konkurrence mellem to basketballhold, fra to konkurrerende skoler, A og B. Det skal foregå på den måde, at hver spiller har sin egen kurv

Læs mere

Integralregning Infinitesimalregning

Integralregning Infinitesimalregning Udgave 2.1 Integralregning Infinitesimalregning Noterne gennemgår begreberne integral og stamfunktion, og anskuer dette som et redskab til bestemmelse af arealer under funktioner. Noterne er supplement

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau

Roskilde Tekniske Gymnasium. Eksamensprojekt. Programmering C niveau Roskilde Tekniske Gymnasium Eksamensprojekt Programmering C niveau Andreas Sode 09-05-2014 Indhold Eksamensprojekt Programmering C niveau... 2 Forord... 2 Indledning... 2 Problemformulering... 2 Krav til

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Maja Tarp AARHUS UNIVERSITET

Maja Tarp AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjylland Student år 005 fra Dronninglund Gymnasium Efter gymnasiet: Militæret Australien Startede på

Læs mere

Årsplan 2018/19 Matematik 3. årgang. Kapitel 1: Jubii

Årsplan 2018/19 Matematik 3. årgang. Kapitel 1: Jubii Årsplan 08/9 Matematik. årgang TriX A Kapitel : Jubii I bogens første kapitel får eleverne mulighed for at repetere det faglige stof, som de arbejdede med i. klasse. Kapitlet har især fokus på kerneområderne

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

Data-analyse og datalogi

Data-analyse og datalogi Det Naturvidenskabelige Fakultet Data-analyse og datalogi Studiepraktik 2014 Kristoffer Stensbo-Smidt Datalogisk Institut 23. oktober 2014 Dias 1/15 Hvorfor bruge tid på dataanalyse?! Alle virksomheder

Læs mere

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760

Pædagogisk vejledning til. Materialesæt. Sphero. http://via.mitcfu.dk/99872760 Pædagogisk vejledning til Materialesæt Sphero http://via.mitcfu.dk/99872760 Pædagogisk vejledning til materialesættet Sphero Materialesættet kan lånes hos VIA Center for Undervisningsmidler og evt. hos

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

SSOG Scandinavian School of Gemology

SSOG Scandinavian School of Gemology SSOG Scandinavian School of Gemology Lektion 12: Syntetisk smaragd Indledning Det er min forventning, med den viden du allerede har opnået, at du nu kan kigge på dette 20x billede til venstre af en syntetisk

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 0. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6. og 6. Betingede diskrete

Læs mere

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80)

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80) Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80) Opgave 1 Vi skal tegne alle de linjestykker, der forbinder vilkårligt valgte punkter blandt de 4 punkter. Gennem forsøg finder

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

2 Risikoaversion og nytteteori

2 Risikoaversion og nytteteori 2 Risikoaversion og nytteteori 2.1 Typer af risikoholdninger: Normalt foretages alle investeringskalkuler under forudsætningen om fuld sikkerhed om de fremtidige betalingsstrømme. I virkelighedens verden

Læs mere

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 Epidemiologi og Biostatistik Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 1 Statestik Det hedder det ikke! Statistik 2 Streptomycin til behandling af lunge-tuberkulose?

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Computerassisteret fysioterapi og fysisk træning

Computerassisteret fysioterapi og fysisk træning D E P A R T M E N T O F C O M P U T E R S C I E N C E U N I V E R S I T Y O F C O P E N H A G E N Computerassisteret fysioterapi og fysisk træning Kim Steenstrup Pedersen Image Group Datalogisk Institut,

Læs mere

Dynamisk programmering

Dynamisk programmering Dynamisk programmering Dynamisk programmering Optimeringsproblem: man ønsker at finde bedste den kombinatoriske struktur blandt mange mulige. Dynamisk programmering Optimeringsproblem: man ønsker at finde

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Sandsynlighedsregning

Sandsynlighedsregning Mogens Bladt www2.imm.dtu.dk/courses/02405 7. September, 2007 Hvad er sandsynlighedsregning? Formel matematisk måde til at håndtere tilfældigheder. Dybest set en formalisering af udregninger med proportioner.

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,

Læs mere

Science i børnehøjde

Science i børnehøjde Indledning Esbjerg kommunes indsatsområde, Science, som startede i 2013, var en ny måde, for os pædagoger i Børnhus Syd, at tænke på. Det var en stor udfordring for os at tilpasse et forløb for 3-4 årige,

Læs mere

Årsplan Matematrix 3. kl. Kapitel 1: Jubii

Årsplan Matematrix 3. kl. Kapitel 1: Jubii Årsplan Matematrix. kl. A Første halvår Kapitel : Jubii I bogens første kapitel får eleverne mulighed for at repetere det faglige stof, som de arbejdede med i. klasse. Dette er samtidig et redskab for

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Dagens opgave. Vi er blevet hyret af et hospital da de har hørt at vi dataloger kan hjælpe deres patienter.

Dagens opgave. Vi er blevet hyret af et hospital da de har hørt at vi dataloger kan hjælpe deres patienter. Dagens opgave Vi er blevet hyret af et hospital da de har hørt at vi dataloger kan hjælpe deres patienter. Arinbjörn Brandsson Benjamin Rotendahl UNF på Københavns Universitet Dias 1/10 Dagens opgave Vi

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Matematik i stort format Udematematik med åbne sanser

Matematik i stort format Udematematik med åbne sanser 17-09-2010 side 1 Matematik i stort format Udematematik med åbne sanser Fredag d. 17. september kl. 11.15-12.15 Næsbylund Kro, Odense Mette Hjelmborg 17-09-2010 side 2 Plan Hvad er matematik i stort format?

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere