University of Copenhagen. Big Data eller privacy? Henglein, Fritz. Publication date: Document Version Tidlig version også kaldet pre-print

Relaterede dokumenter
MODERNE TRUSLER OG MODERNE LØSNINGER. Gert Læssøe Mikkelsen Head of Security Lab, Alexandra Instituttet A/S

Hvad er KRYPTERING? Metoder Der findes to forskellige krypteringsmetoder: Symmetrisk og asymmetrisk (offentlig-nøgle) kryptering.

DATA PROTECTION SERVICE. Arbejd bedre og mere sikkert med følsomme data

Kulturel kapital blandt topdirektører i Danmark - En domineret kapitalform? Ellersgaard, Christoph Houman; Larsen, Anton Grau

Borgernes privacy i den smarte udvikling

CFIR NORDISK FINTECH HUB

Kommissorium for Dataetisk Råd 30. januar 2019

Big data: Nye muligheder, nye trusler?

Digital Transformation Hvad kan universiteter og innovationsnetværk bidrage med? Kim Guldstrand Larsen (AAU InfinIT)

Februar Vejledning til Danske Vandværkers Sikker mail-løsning

DATABESKYTTELSE GENNEM DESIGN. Gert Læssøe Mikkelsen Head of Security Lab.

Privatlivspolitik. Coverwise Limited deler en forpligtelse til at beskytte dit privatliv og holde dine personlige oplysninger sikre.

Hvordan kryptering af chat, mail og i cloud services og social networks virker

Beskyttelse af personlige oplysninger

Kom godt i gang med Digital Transformation via din Microsoft ERP-platform

Udvalget for Videnskab og Teknologi. UVT alm. del - Bilag 206 Offentligt. Udvalget for Videnskab og Teknologi

Reglerne Om Behandling Af Personlige Oplysninger

It-sikkerhedstekst ST4

Nye betalingsløsninger og privatliv

It-sikkerhedstekst ST2

Muligheder og risici ved eprivacy

Af Marc Skov Madsen PhD-studerende Aarhus Universitet

Privatlivspolitik for LTECH A/S

Matematik, maskiner og metadata

Systematisk Innovation med Enterprise Arkitektur

Secure Mail. 1. juni Hvem læser dine s?

Hillerød Kommune. It-sikkerhedspolitik Bilag 8. Kontrol og adgang til systemer, data og netværk

FORTROLIGHEDSERKLÆRING

Digital Bevaring - Internetarkivering. Dansk Datahistorisk Forening Ballerup d. 30/ Birgit Nordsmark Henriksen

Omkostninger ved alternative virkemidler til ændret vandløbsvedligeholdelse Jacobsen, Brian H.

Vejledning til indberetning af sikkerhedshændelse efter NIS-direktivet

KLAR, PARAT, CLOUD? 27. september 2018

Internethandel en Oversigt. Hvordan kan infrastrukturen se ud på en Internethandelsløsning? Internet Butik. Internet Salgsafdeling

What s Hot 2018 Survey

PERSONDATA & PERSONDATAORDBOG

Vejledning. Tværinstitutionelt samarbejde mellem regioner og universiteter vedrørende sundhedsdata. September 2018

Politik for informationssikkerhed i Plandent IT

Wæde Consult ApS er dataansvarlig, og vi sikrer, at dine Persondata behandles i overensstemmelse med lovgivningen.

Sikker udstilling af data

GENERELLE BRUGERBETINGELSER FOR

Forretningsbetingelser for Jagtakademiet I/S website Officiel adresse:

Undervisningsbeskrivelse

RÅDET FOR DIGITAL SIKKERHED GUIDE TIL SIKRING AF FORBRUGER- ELEKTRONIK PÅ INTERNETTET

Digital forvaltning og dataudveksling fra forsyningsvirksomheder - nye muligheder?

spørgsmål vedrørende privatlivets fred

Vejledning til indberetning af sikkerhedshændelse efter databeskyttelsesforordningen, retshåndhævelsesloven eller særregler for telesektoren

Når du udstiller dine data

Aalborg Universitet. Økonomisk ulighed og selvværd Hansen, Claus Dalsgaard. Publication date: 2011

Du kan søge på emner, forfattere eller titler og lave kædesøgninger på baggrund af artiklernes referencelister.

Hvornår er der økonomi i ITsikkerhed?

Principperne om hvordan man opdager nye sandheder

ForbrugerForums debatdag 2009 Misbrug af personlige oplysninger på nettet - kan det ske for dig?

OPGAVEN MED AT GØRE LOVGIVNING DIGITALISERINGSKLAR TORSTEN SCHACK PEDERSEN VENSTRES ERHVERVSORDFØRER

DeIC strategi

Bilag 4. Diskussionsoplæg: Dataetik

Pervasive computing i hjemmet et sikkerhedsproblem?

Sikkerhedsmodeller på sundhedsområdet. esundhesobservatoriet 3. oktober 2018

Om denne hjemmeside. Om denne hjemmeside og persondatapolitik. Denne hjemmeside er ejet af: Pfizer ApS.

Sikkerhed & Revision i det digitale samfund

Digital Bevaring. En ekspertgruppe organiseret som en afdeling på Det Kongelige Bibliotek Sommer 2010

IT Sikkerhed. Digital Mobning.

TEKNISK ARTIKEL MERE END DATASIKKERHED MERE END DATASIKKERHED

KUNSTIG INTELLIGENS KOMMUNAL GAME CHANGER ELLER BARE BUZZ?

Undervisningsbeskrivelse

BILAG 3: PRIVATLIVSFREMMENDE TEKNOLOGIER

Hillerød Kommune. It-sikkerhedspolitik Bilag 9. Udvikling, anskaffelse og vedligeholdelse

Københavns Universitet. Besvarelse af spørgsmål fra Folketinget Hansen, Jens. Publication date: Document version Også kaldet Forlagets PDF

Konsekvensanalyse DPIA

Privatlivspolitik for Det Våde Får/Tolykkegård

Blockchain øger ikke sikkerheden

Vi vil ikke bruge eller dele dine oplysninger, undtagen de tilfælde som er beskrevet i denne fortrolighedspolitik.

Ordliste begreber om håndtering af personoplysninger til patientbehandling og forskningsbrug

FORTROLIGHEDSPOLITIK. Hvem er vi?

DI og DI ITEKs vejledning om beskyttelse mod elektronisk industrispionage fra udlandet

Proteiner, der fungerer som 'vagthunde' afslører overraskende sammenhæng imellem Huntingtons Sygdom og andre hjernesygdomme

Cookie- og Privatlivspolitik for Karen Rasmussens Rengøring ApS

Wallet-regler og privatlivspolitik

Jura og brug af testdata med personoplysninger

Københavns Universitet. Har EU-domstolen indflydelse på EU's politik? Martinsen, Dorte Sindbjerg. Published in: Politologisk Årbog

Konsekvensanalyse DPIA

Google Cloud Print vejledning

Trusselsvurdering: APT-angreb mod danske myndigheder, virksomheder og organisationer

Profil Search s Persondatapolitik

Privacy Policy Statement Privatlivspolitik

Data en gave? en trussel? Om balancen mellem privatlivsbeskyttelse og det sømløst integrerede sundheds(data)væsen

Betingelser for anvendelse af E-penge konto hos Pay4it.

Aalborg Universitet. Banker i Danmark pr. 22/ Krull, Lars. Publication date: Document Version Pre-print (ofte en tidlig version)

Standard brugerbetingelser for Mobile Fitness

Formpipe Kvalitetskontrol

Om metoden Kuren mod Stress

Ergotel A/S (ET) information og vejledning der vedrører opbevaring og håndtering af personlige data.

Privatlivspolitik for MV-Nordic A/S

DATASIKKERHED PÅ IFS VERSION

Formand for Finans Danmark og koncernchef i Nykredit Michael Rasmussens tale til Finans Danmarks årsmøde, mandag d. 3.

Fortroligt dokument. Matematisk projekt

Et visionært teknologidesign

Forsvarsudvalget L 192 endeligt svar på spørgsmål 3 Offentligt

POLITIK FOR DATABESKYTTELSE

Deloitte, Finansagenda 2015 Birgitte Kofod Olsen, partner, Ph.D., Carve Consulting. Vi skaber muligheder & realiserer potentialet sammen

Tilstrækkelig sikker dataudveksling via Sundhedsdatanettet (SDN) Ved Kåre Kjelstrøm

Transkript:

university of copenhagen University of Copenhagen Big Data eller privacy? Henglein, Fritz Publication date: 2015 Document Version Tidlig version også kaldet pre-print Citation for published version (APA): Henglein, F. (2015). Big Data eller privacy?. Paper presented at Copenhagen Fintech Innovation and Research (CFIR) Nordisk Fintech HUB, Danmark. Download date: 09. Oct. 2016

Big Data eller privacy? Fritz Henglein Datalogisk Institut, Københavns Universitet (DIKU) 2015-07-15 Abstract I dette positionspapir argumenteres der for, at Big Data, privacy og juridisk regulering skal samtænkes teknisk og policymæssigt, hvis de ikke skal stå i vejen for hinanden. 1 Big Data Big Data dækker over behandlingen af ekstremt store datamængder i mange forskellige formater, der ydermere produceres med stor hastighed. Formålet er at opdage mønstre og uddrage informationer, så fortiden kan bruges til at forudsige fremtiden. Big Data er muliggjort af tre faktorer: eksponentielt stigende mængder af netværksforbundne digitale data, massiv regnekraft i alt fra smartphones til store cloud computing-centre og sofistikerede nye dataanalysemetoder, herunder statistisk maskinlæring (eng. machine learning). Selvom om begrebet Big Data er på sit højeste i Gartner Groups hype index og kan forventes at få samme medfart som ebusiness og dotcom, så bygger det på en solid videnskabelig og teknologisk historie med et langsigtet anvendelsespotentiale, hvor kun fantasien og måske regulering sætter grænser. F.eks. blev maskinlæring, herunder forgængerne til de tidsaktuelle neurale netværk og deep learning metoder, udviklet i 1950erne med forskningsbevillinger opnået med løfter om udvikling af robotsoldater. Der findes allerede nu en hel del anvendelser af Big Data, f.eks. automatisk billedgenkendelse, automatisk sprogoversættelse, automatisk match af datingprofiler, forudsigelser af sygdomsudvikling så som Alzheimer s og brystkræft. Inden for finans og forsikring kombineres finansielle data med sociale netværksdata og tilsyneladende irrelevante data fra sociale netværk for at analysere, hvor Tidligere version omdelt ved årsmødet for foreningen Copenhagen Fintech Innovation and Research (CFIR), maj 2015 1

kreditværdige potentielle lånekunder er, eller hvor stor deres skadesrisiko er. Nye virksomheder etablerer således i stigende grad lånemarkedspladser uden om det traditionelle banksystem. Betalingstransaktioner analyseres rutinemæssigt for at afsløre mulig misbrug af kreditkort eller for at identificere lånekunder, der har stor risiko for at komme i betalingsvanskeligheder. Netbankkunder kan i princippet få deres forbrug og investeringer analyseret og sammenlignet med andre kunder. Systemer med adgang til bankers pengetransaktioner ville forholdsmæssigt nemt i realtid kunne foreslå en kunde alternative udbydere af en vare, hun er i gang med at købe; eller de vil kunne danne ad-hoc indkøbsklubber, der automatisk starter en indkøbsauktion for varen. Umiddelbart er det dog ikke tilladt for en finansiel virksomhed. 2 Privacy Big Data-anvendelser bygger nemlig typisk på personfølsomme oplysninger, og her kolliderer Big Data med beskyttelsen af privacy (da. privatlivets fred): Brystkræftanalyse kræver adgang til individuelle patienters sundhedsdata såsom sygdomsforløb, DNA-profiler, røntgen- og MR-billeder. Det ville fremme sygdomsforskningen, hvis dette materiale frit kunne postes på World Wide Web, men der er næppe mange patienter, som gerne vil se deres sygdomsdata lagt ud, så alle kan se dem i al fremtid. Privacy er retten til være i fred. Privacy opnås ultimativt, når kun ejeren af personspecifikke data kan håndtere dem: Ingen anden kan vide, om de overhovedet eksisterer. Det betyder i yderste konsekvens, at dataene ikke kan have nogen direkte eller indirekte konsekvenser, der er observerbare for andre end ejeren. En insisteren på denne ekstreme form for privacy ville umuliggøre stort set alle Big Data-anvendelser inden for sundhed og finans. Udfordringen er derfor at finde en balance mellem Big Data og privacy: at opnå fordelene ved specifikke Big Data-anvendelser, dog med så lidt privacy- lækage som muligt. Hvordan kan en høj grad af privacy opnås og, hvis muligt, garanteres? 2.1 The Bad De dårlige nyheder først: Privacy er meget svært at opnå. 2.1.1 Anonymisering I en Big Data-verden med mange store datasæt er anonymisering, hvor personidentificerende oplysninger fjernes, utilstrækkelig; de kan ofte rekonstrueres fra andre oplysninger. En browser overfører f.eks. selv i private mode så mange attributer til en webserver, at de oftest er tilstrækkelige til at identificere brugeren det kan testes på hjemmesiden for forskningsprojektet Panopticlick og følge alle hendes forskellige netbesøg. Det ville være forholdsvist nemt for f.eks. Facebook at vise målrettede reklamer for hash, selv når hun tidligere kun har søgt efter det i private mode. (Når det ikke gøres, er det nok udelukkende, 2

fordi hun ville opleve det som ubehageligt.) Selv uden sådanne attributer kan anonymisering brydes ved at kombinere flere datasæt og krydskorrelere deres indbyrdes relationer. I den famøse Netflix-challenge blev alle brugerdata erstattet af tilfældige tal, men ved at sammenligne hvilke film disse brugere kunne lide med blogindlæg og andre datakilder kunne en del af brugernes identitet afsløres. I et andet eksempel blev patientjournalen tilhørende guvernøren af Massachusetts identificeret blandt anonymiserede patientdata. 2.1.2 Kryptering Kryptering er en teknik, der skal sikre dataintegritet, -autenticitet og -privacy. Men kryptering løser ikke problemet med, hvordan man lækker lidt privacy uden at risikere at lække alt. Kryptering er groft sagt det samme som et pengeskab med hjul på. Man kan låse sine data inde og herefter placere skabet vilkårlige steder, uden at nogen uden nøgle kan få adgang til dataene. Men hvis de skal bruges til noget og det skal de jo, ellers ville det være endu sikrere er slette dem med det samme så er eneste måde at få adgang til data at låse hele pengeskabet op, hvorefter alle data i alle detaljer er synlige for hvem end måtte være til stede. En kendt sikkerhedsforsker fra Harvard University formulerede det således: Kryptering er en mur, der er 6 meter høj og 2 meter tyk og 3 meter bred. Man kan ofte bare gå uden om den. En bruger kan kun læse en krypteret besked ved at dekryptere den i sin helhed, og herefter kan hun i princippet sende den i klartekst videre som email. Efter at have låst data ind og ud af pengeskabet, er vi altså principielt tilbage ved udgangspunktet. 2.2 The Good Det er derfor nødvendigt at rette blikket ikke kun mod data, men mod den software, der får adgang til fortrolige data: Hvilke programmer har adgang til fortrolige data, hvordan behandler de dem, hvilke resultater sender de videre og til hvem? Ikke alle programmer har de samme privacy-egenskaber. Et program der offentliggør, hvor mange kreditkortransaktioner der er blevet gennemført i en forretning, lækker meget lidt information om de bagvedliggende transaktioner i forhold til et program, der viser alle individuelle transaktioner på nettet. Her er nogle forsigtigt optimistiske nyheder. 2.2.1 Software-baseret sikkerhed Vi kan starte med at bruge effektive softwaresikkerhedsmetoder: Afvikl software i en sandkasse, dvs. under et andet programs kontrol, der holder øje med afviklingen og stopper eller ændrer den, når noget suspekt sker. Det er meget brugt i cloud computing. Problemet er, at det kun fanger ret grovkornede sikkerheds- og privacyproblemer. Det vil ikke se forskel mellem et program, der viser pengetransaktionernes gennemsnit, og et, der viser selve pengetransaktionerne. 3

Eliminer softwarefejl. Mange indbrud i serversystemer, såsom tyveri af kreditkortoplysninger, skyldes snedig udnyttelse af programmeringsfejl, der er svært at opdage ved afprøvning, f.eks. buffer overflows, race conditions i samtidigt kørende processer og utilsigtet udførsel af inputdata som programtekst (SQL injection og cross-site scripting-angreb). Disse fejl kan i deres helhed elimineres ved brugen af programmeringssprog med stærke typesystemer og/eller statisk sikrede domænespecifikke sprog og biblioteker. Det er overraskende, at sådanne teknikker ikke bruges i større omfang i nuværende praksis, da brud i sikkerhed kan have hurtige og omfattende negative konsekvenser. Som vicedirektøren for Microsoft India formulerede det engang: In the internet age, the worst case is the average case; a single obscure security hole can spread like wildfire and be exploited instantaneously. Det er endvidere svært at koble sikkerhed på efterfølgende den skal være tænkt ind i softwarekonstruktionen fra begyndelsen. Brug sprogbaseret sikkerhed (eng. language-based security, LBS). Det dækker over metoder, der med matematikkens og logikkens magt garanterer, at programmer opfylder bestemte sikkerhedsegenskaber, før de eksekveres. I proof-carrying code (PCC) ledsages softwaren af et logisk certifikat, der garanterer det; i nogle domænespecifikke sprog (eng. domainspecific languages, DSL) er programmeringsrepertoiret begrænset til kun at konstruere sikre programmer. 2.2.2 Software-baseret privacy Men selv efter sikkerhedsfejl er rettet, er der intet til hinder for, at programmer stadigvæk lækker mere privacy end tilsigtet. Her er vi ude i spændende teknikker, som kan delvist kan betragtes som forskningsmæssigt modnet, men som endnu ikke er standardpraksis i alle udviklingsafdelinger. I Secure Multiparty Computation (SMC) har flere aktører private data, de ikke vil udlevere til hinanden, men som skal bruges til at beregne et fælles resultat. Et illustrerende eksempel er, når to millionærer vil afgøre, hvem af dem, der er rigere uden at oplyse hinanden eller andre om, hvor mange penge de hver især har. I Information Flow Analysis analyseres programmer, der er afhængige af private og offentlige data, til at sikre, at deres offentlige uddata hverken direkte eller indirekte afslører private inddata; det garanterer således hemmeligholdelse af alle private data. Differential Privacy dækker over metoder, der understøtter statistiske beregninger uden at lække mere end det minimale om individuelle private data, de afhænger af. Dette gøres ved at beregne resultatet, måle hvor meget resultatet ændrer værdi afhængig af ændring af private inddata og ved at føje tilstrækkelig meget statistisk støj til resultatet for at skjule de individuelle inddatas bidrag. 4

Data Provenance dækker over metoder til at repræsentere og bevare, hvor data kommer fra. Her indfarves data konceptionelt med oplysninger om, hvor de stammer fra, og programberegninger implementeres til at bevare farverne af inddata i deres uddata. På denne måde gengiver farvemikset i resultatet, hvilke data der er blevet brugt til at beregne det, inden man sender det videre. Der er en del uløste problemer med at få disse metoder udviklet til praksis. Blandt andet kræves sikre og praktisk effektive softwarekonstruktionsmetoder og -teknikker, der understøtter Big Data-applikationsudvikling. 2.3 The Ugly En ikke ubetydelig risiko for fremskridt i denne retning udgøres af juridisk regulering i omgangen med personspecifikke oplysninger, hvis denne ikke bruger robuste koncepter eller ignorerer grundlæggende trade-offs mellem privacy and dataudnyttelse. Hvis f.eks. videregivelse af oplysninger i lov om finansiel virksomhed fortolkes som forbud mod direkte eller indirekte videregivelse af så meget som en enkelt bit af informationen i de sensitive data, så kan interessante Big Data-anvendelser kun realiseres af ikke-finansielle virksomheder. Relaterede risici opstår, hvis lovgivningen regulerer beskyttelse af bestemte data i stedet for den information, de repræsenterer; eller hvis programoptimeringsmetoder såsom caching (midlertidig lagring af data eller beregningsresultater) underkastes kunstige juridiske klassifikationer som set tidligere i forbindelse med ophavsretslovgivningen. 3 Konklusion Der er gode grunde til at tro, at Big Data og hensyn til privacy kan forliges med hinanden, hvis Big Data, privacy og regulering samtænkes i stedet for at angribe dem isoleret fra hinanden. 5