Industriens perspektiv på udfordringer og muligheder - a research view Ib Vestergaard Klewe PhD, HD Senior Research Scientist, Projektleder
Big eller Mega Data - mere data eller inflation af begrebet?
Big eller Mega Data En sand inflationsprocess En pseudo inflationsprocess Penges værdi Economist, 2014 Mængden af penge Big eller Mega data I en nøddeskal: Værdien af et datapunkt er faldende, men samtidig er den totale rigdom stigende Den væsentlige forskel er at datamængden er eksponentielt stigende
Oversigt 1. En ikke-definition af Big Data 2. Big Data i farmaceutisk forskning og udvikling Virker det så og kan det bruges til noget? 3. Er der skuffelser og hvad er udfordringerne 4. Konklusion
Wikipedia: Big Data The Big Data Umbrella Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications. The challenges include analysis, capture, curation, search, sharing, storage, transfer, visualization Blev vi klogere af det?
Big Data - et relativt begreb 1 letter A picture A human genome or an fmri scan DNA related data per year The worlds data In 2010 Data nano µ milli kilo mega giga tera peta exa zetta Afstande Number of humans 6/x
Når Big bliver til Mega: - The re-bound effect Og det er endda kun sekventering / genomisk data Mange andre domæner inden for life sciences hvor data mængden eksploderer: Klinisk imaging Electronic health records 7/x
Et par videnskabelige Big Data pionerer - ecosystem drivers Big Datas moder i Life Science: Sekventering af det human genome Mange fantastiske eksempler på værdifulde monolith projekter: Imaging genomics Encyclopedia of DNA Human Brain Project & BRAIN Allen Brain Institute - Spatio temporal mapping af transcriptomet I hjernen Analysing the genomes of 8,200 tumours is just a start. Researchers are trying to figure out how we can bring together and analyse, over the next few years, a million genomes This is an immense undertaking; the combined cancer genome and normal genome from a single patient constitutes about 1 terabyte of data, so a million genomes would generate an exabyte. (Craig Venter (Celera) er citeret for at sige sequencing the human genome was a failure Det er svært at være mere uenig!) 8/x
Hvad skal vi med det? Et forsknings og udviklingsperspektiv på værdien af Big Data Nye og mere klinisk effektive farmaka (og den personaliserede medicinske æra) Men der er mange andre (forbundne) interessenter: Offentlige HTA myndigheder Safety surveillance Regulatoriske myndigheder (FDA, EMA) Sundhedsmyndigheder Læger Payers Industrielle Salg og Marketing Data leverandører Safety surveillance Business intelligence
Hvad skal vi med det? - det finansielle synspunkt R&D er blevet beskyldt for at udvise en for lav produktivitet: Det er for dyrt Det tager for lang Opfindelseshøjden er for lav på NME Big Data er ikke løsningen men det er et af de essentielle redskaber vi skal bruge 10/x
Big Data = Big Business - Public, Pharma, Biotech og data leverandører A pioneering public-private research initiative between GSK, the European Bioinformatics Institute (EMBL-EBI) and the Wellcome Trust Sanger Institute is to harness the power of big data and genome sequencing to improve the success rate for discovering new medicines. "ELIXIR unites Europe s leading life science organisations in managing and safeguarding the massive amounts of data being generated every day by publicly funded research. It is a pan- European research infrastructure for biological information. The company's database includes billions of points of disease, pharmacological, and clinical data, and it mines this using networkbased algorithms 11/x
Virker det så og kan det bruges til noget? Eller hvad er det vi mangler for lykkes med vores forehavende? En bedre sygdomsforståelse
decode (Amgen) Genetisk status x klinisk status - For hele den islandske befolkning! WE KNOW GENETICS decode genetics is a global leader in analyzing and understanding the human genome. Using its unique expertise and population resources, decode has discovered genetic risk factors for dozens of common diseases. The purpose of understanding the genetics of disease is to use that information to create new means of diagnosing, treating and preventing disease. Plenge et al. Nature rev. drug disc, 2013 13/x
Den deprimerende genetiske sandhed om schizophrenia Gratten et al., Nature 2014 Arvelighed for schizofreni er estimeret til at være helt op til 80% Alle genetiske risikovarianter er under negativ selektion (reduceret fekunditet). Genetisk set er det en additiv effekt af mange små risikovarianter der øger risikoen for at få schizophreni. Selektionspres ~ 100.000 kontroller ~ 40.000 patienter ~ 1-2 mio datapunkter per patient Polygenetisk risk score De novo
Hvorfor er disse genetiske risikofaktorer interessante? The right target The right patient The right tissue The right safety The right commercial potential Cook et al., Nat Drug Disc., 2014 Om langt de fleste nuværende farmaceutiske targets kan man sige (*): At det er højt udtrykt enten I totalitet eller I et specialiseret væv/system. At det I stor grad er begrænset specialiserede celler eller væv Specificitet i ordets mest diffuse forstand er med andre ord essentiel for farmakologisk behandling (*) Anti-cancer medicin er den vigtige undtagelse 15/x
Slide 16 contained what is a preliminary analysis of Schizophrenia GWAS genes and is not suitable for widespread distribution. Although key to the understanding of the 3 previous slides, I have had to remove it from the presentation. My apologies! 16/x
Surrogat og biomarkører - diagnose af Alzheimer s - Et fint eksempel på en en god analyse strategy Mapstone et al., Nature Medicine, 2014: Kontroller, patienter med mildt hukommelsestab og Alzheimer patienter. Kliniske mål: multiple mål for kognitiv status Metabolomics, lipodomics Mere end 90% nøjagtighed i at finde patienter der får mildt hukommelsestab 2-3 år efter analysen (og sandsynligvis en AD diagnose senere).
Surrogat- og biomarkører - Diagnose af Alzheimer s. Et fint eksempel på en god analyse strategi Mapstone et al., Nature Medicine, 2014 Hvad gjorde det godt en generisk opskrift: 1. Brug af composite score som klinisk variabel (dimentionalitetsreduktion før fisketuren) 2. Fandt interessante multivariable strukturer i metobolomic og lipidomic data (lasso regression) 3. Lavede såkaldt targeted discovery (gentog eksperimentet fokuseret på færre data) 4. Validerede fundene i en uafhængig kohorte
Hvorfor er sådanne datadrevne tilgange vigtige? Men hvad hvis det bare var for sent? En potentiel udfordring for enhver disease modifying strategy En større forståelse af den enkelte patients biologiske status synes at være det attraktive svar
Pharmaco-omics - genetics, proteomics, any omics De bedste eksempler er metabolske interaktioner (CYP3A hæmmere; stærk/svag CYP2D6 metabolism) Cancer området har haft relativ stor succes med at etablere relationer mellem biomarkører og treatment respons Treatment response stratifikationer ud fra mutationer i enkelte gener: (KRAS, EGRF, HER) Nye eksempler med multivariate profiler bliver ved med at dukke op her proteomics PROSE, Phase III studie, Lancet Onc. 2014
Menneskets biologi - Genetik, omics og videre Diagnose Hele genom sekvenser Funktionelle tests, Omics i en hver afskygning fmri, kontinuerte målinger Patient X Genetik x Målinger X Fænotyper Elektroniske patientjournaler, epidemiologiske data Så har vi det hele. Er det så bare et spørgsmål om tid før vi forstår alle sygdomme? 21/x
Eller hvad er udfordringen?
Prosopagnosia a) Det er nemt at få en computer til at finde noget man ved hvordan ser ud og som altid ligner sig selv b) Det er nemt at blive snydt af overraskende fund i Big Data 97.5% nøjagtighed!
En virkelig væsentlig forskel mellem biologi og mekanik Når data strukturer er stabile kan man lave mange sjove ting Udfordringen I en hver biologisk sammenhæng er at patienter ikke er droner og årsags sammenhænge er utroligt svære at etablere
Google Flu trends Science 2014 25/x
Mega Data -Hvorfor er det så svært? 1 Patient x 6.000.000.000 bp x Målinger af enhver art x 10 3 fænotyper Entydighed og stokastisk stabilitet Interaktioner, afhængighed og bias 2 personer fra hvert sit kontinent er biologisk mere genetisk forskellige end en rask og en syg fra samme kontinent Uafdækkede skjulte variable (afhængighed). F.eks. ved brug af sociale medie data. Heterogen natur Electronic Health Records og epidemiologi: Potentiale for enorme bias som er meget svære at afdække. Heterogen natur Og måske mere vigtigt: antallet af analysekombinationer er astronomisk højt! = Meget høj risiko for falsk positive signaler 26/x
Mega Data - Den næste månelanding? Hvilke udfordringener er der? Mange! 1. Først of fremmest er de analytiske (statistiske) 2. Logistiske (det fylder altså virkelig meget!) 3. Indsamling og regulering af adgang 4. Kvalitet 5. Heterogenicitet 27/x
Forskellen på at sammenkæde data og på at have data der kan analyseres Struktur i data Et klinisk forsøg Google Noget så kedelig som graden af struktur er fuldstændig afgørende for at kunne arbejde med Big Data
Elektroniske patientjournaler - Electronic Health Records Håbet er at mining kan bringe nye videnskabelige landvindinger Men udfordringen er forskelligartetheden - selv med standardiserede diagnose koder især indenfor svært målbare sygdomme. - Der findes f.eks ikke en test til at afgøre om en patient er schizofren eller ej 29/x
Hvad mangler der for at kunne fortolke Mega Data? Det berømte blueprint? Biologisk Sygdomsforståelse Udfordringen her er at biologi essentielt set er stokastisk og kausalitet er meget svær at etablere 30/x
31/x H. LUNDBECK A/S Kemi og biologi - Den rette kontekst
Hvor er vi på vej hen - Big Data i R&D processen og Translational medicine Bedste repræsentation: Transformationer og dimensionalitets reduktion; Big Data i R&D processen Mønstre og sammenhænge på tværs af multiple data domæner Robustification af fund og hypotese dannelse Generelt er hverken dyr eller celler gode modeller for mennesker og sygdomme Konfirmation Back and forward translation. Men med mekanistiske modeller (f.eks. genetiske) kan man lave modeller over specifikke sygdomsaspekter / fænotyper (endophenotyper)
Hvad skal der til? Despite considerable recent advances in data collection and analysis, we believe that some of the scepticism regarding the return on investment from big data projects is well deserved. In fact, large monolithic projects may not even be the best answer; data-driven evaluation of CNS diseases would be better served by systematic, synchronized, multimodal data collection from multiple, appropriately powered cohorts. Manji et al, Nature Rev. Drug Disc., 2014 Eller mere simpelt: store og gode studier i plural 33/x
Konklusioner (mine) Boston Globe Big Data er er en abstraktion over et økosystem af teknologier (data opbevaring, sammenkædning og analyse metoder) Big data bliver til mega data det er en refleksiv proces Big data kommer ikke til at erstatte den videnskabelige proces i hverken R eller D. Med andre ord: vi skal stadig tænke (kritisk) Men, det næste tigerspring i medicinsk forskning og behandling af patienter kommer helt sikkert til at hvile på endnu større datamængder af endnu større kompleksitet. 34/x
Den svære kunst at udlede det specifikke fra det generelle Vi er på vej ad den rigtige vej Det er stadig en enorm udfordring Tak for opmærksomheden! (Shhh Don t mention the NSA )