Big data: Nye muligheder, nye trusler?

Relaterede dokumenter
SISCON Revisorerklæringer om Privacy

DATABESKYTTELSE GENNEM DESIGN. Gert Læssøe Mikkelsen Head of Security Lab.

Social Engineering og Insidere

Vejledning. Tværinstitutionelt samarbejde mellem regioner og universiteter vedrørende sundhedsdata. September 2018

PERSONDATAREGLERNE I STORE TRÆK

Vejledning om videregivelse. af personoplysninger til brug for forskning og statistik

Tilgang til data. To udbredte metoder for at tilgå data: Sekventiel tilgang Random access: tilgang via ID (også kaldet key, nøgle) for dataelementer.

Data-analyse og datalogi

Algoritmer og invarianter

Politik for opbevaring af primære materialer og data

Ordliste begreber om håndtering af personoplysninger til patientbehandling og forskningsbrug

DI og DI ITEKs vejledning om beskyttelse mod elektronisk industrispionage fra udlandet

Datafortrolighedspolitik i Danmarks Statistik

Sikre Beregninger. Kryptologi ved Datalogisk Institut, Aarhus Universitet

NOTAT. definitionen af sikkerhedshændelse i lovforslaget om Center for Cybersikkerhed (L 192)

Security & Risk Management Summit

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Big data. Anvendelse af Miljøportalen i forskning og undervisning

Databasesystemer, forår 2005 IT Universitetet i København. Forelæsning 4: Mere om E-R modellering. 24. februar Forelæser: Rasmus Pagh

Systematisk Innovation med Enterprise Arkitektur

OFFENTLIG DIGITALISERING NYE DIGITALE SIKKERHEDSMODELLER DANSK IT - ÅRHUS 23. MAJ 2012

HR-netværksmøde 29. maj 2017 ISOBRO

SPEJLBILLEDER. Identiteter og relationer på Skive Station. Indhold

Danmarks Statistik. Retningslinjerne for brug af Forskermaskiner Institut for Folkesundhed Aarhus Universitet

I regi af Region Midtjylland arbejdes der med et projekt om Big data 2 og på nationalt niveau arbejdes der med

Tjekliste når du bruger apps og tjenester

CAS som grundvilkår. Matematik på hf. Marts 2015 Bodil Bruun, fagkonsulent i matematik stx/hf

Artikler

3. Medarbejderdatabase

Vidensbegreber vidensproduktion dokumentation, der er målrettet mod at frembringer viden

Rekursion C#-version

Vejledning til udfyldelse af anmeldelsesskema til Datatilsynet

Autencitetssikring. Vejledning til autenticitetssikringsniveau for den fællesoffentlige log-in-løsning. Side 1 af september Version 1.0.

Kan anbefalinger af anbefalere anbefales?

Hvordan sikres personfølsomme data - og adgangen til disse så persondataloven overholdes. Klaus Kongsted, CRO, Dubex A/S Dubex A/S, den 5.

Dødelighed i ét tal giver det mening?

MitID. 23. april 2018 Mogens Rom Andersen Digitaliseringsstyrelsen

HVERT SKRIDT TÆLLER! - OM OVERVÅGNING OG DIGITALE FODSPOR. Indledning. Hvad er temaet i denne artikel? Hvornår sætter vi digitale fodspor?

INSTITUT FOR DATALOGI, AARHUS UNIVERSITET

Persondataforordningen. Overblik over initiativer og ansvar. Dubex Summit - Rasmus Lund november 2016

Struktur på privatlivsimplikationsrapporten

Denne vejledning tager dig igennem forskellige aspekter ved at lave et CV i Pure. Klik på teksten neden for for at hoppe direkte til et afsnit.

Læreplansændringer & Nye eksamensformer mulige scenarier

Jura og brug af testdata med personoplysninger

Markedet for ejendomsinvesteringer og ejendomsdrift. Ved cheføkonom Morten Marott Larsen, Ejendomsforeningen Danmark

EU s persondataforordning. Chefkonsulent Karsten Vest Nielsen Kontor for It-sikkerhed og Databeskyttelse

Adgang til mikrodata i Danmarks Statistik - Datasikkerhed. Forskningsservice

Cloud jura hvilke regler gælder I skyen? IT Driftskonferencen, 29. januar 2014

Transkript:

Big data: Nye muligheder, nye trusler? René Rydhof Hansen Institut for Datalogi, Aalborg Universitet BrainsBusiness, 06 MAJ 2014 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 1 / 20

Agenda Baggrund: Big Data, privathed Angreb på statistiske databaser Beskyttelse af statistiske databaser René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 2 / 20

Hvad er Big Data? Definition En (upraktisk) stor klump data Nyt navn, velkendt koncept US Census CPR (medicinsk registerforskning i skandinavien) Alt det nye : BI, Facebook, Twitter, Netflix, Google, RFID tags, mobiletelefoner, location-based services, trafikanalyse, cloud,... Statistiske databaser Database med information om individer, må kun bruge til statistiske forespørgsler (dvs. statistiske momenter over datasættet) Data på individniveau kaldes følsom (sensitive) og må ikke frigives René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 3 / 20

Hvad er privathed? Definition Hemmeligholdelse af privat (personlig) information Nyt navn, velkendt koncept Hemmeligholdelse (confidentiality) velstuderet klassisk begreb Fortrolighed (confidentiality) Integritet (integrity) Tilgængelighed (availability) Implicit: personrelateret information Juridiske aspekter René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 4 / 20

Big Data og Privathed En overflod af information Adgang til mange forskellige data om personer Data kan kombineres på overraskende måder Eksempel (Netflix Prize, Oktober 2006 September 2009) To protect customer privacy, all personal information identifying individual customers has been removed and all customer ids have been replaced by randomly assigned ids Netflix udlovede $1.000.000 for (mindst) 10% forbedring af automatisk filmanbefaling Frigav anonymiserede historiske data om brugervalg og anbefalinger Ved at kombinere Netflix data med fx data på IMDB kunne dele af Netflix data de-anonymiseres René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 5 / 20

Hvad tjener Hansen? René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 6 / 20

Hvad tjener Hansen? Baggrund Større virksomhed Medarbejderdatabase frigives til statistisk brug; individuel løn er privat Medarbejderdatabase (uddrag) Navn Afd. Ansat Løn Hansen IT 2007 99.000 Jensen IT 2010 50.000 Sørensen IT 2011 40.000 Nielsen Jura 2012 75.000 Svendsen Udv 2010 30.000 Kristensen Udv 2007 30.000 Forespørgsler sum(løn) 324.000 sum(it,løn) 189.000 sum( IT,løn) 135.000 sum(it & >2009,løn) 90.000 Udfordring: Hvordan skal databasen beskyttes? Direkte søgning:?(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 7 / 20

Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20

Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 Tillad ikke forespørgsler over navne Svarer til almindeligt anvendt de-identifikation Ikke tilladt: sum(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20

Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 Tillad ikke forespørgsler over navne Svarer til almindeligt anvendt de-identifikation Ikke tilladt: sum(hansen, løn) = 99.000 Men: sum(it &2007, løn) = 99.000 Svar baseret på kun eet individ er altid følsomme René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20

Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20

Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 Ikke tilladt: sum(it &2007, løn) = 99.000 Tilladt: sum(it & > 2009, løn) = 90.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20

Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 Ikke tilladt: sum(it &2007, løn) = 99.000 Tilladt: sum(it & > 2009, løn) = 90.000... og dermed: sum(it, løn) sum(it & > 2009, løn) = 189.000 90.000 = 99.000 = sum(hansen, løn) Query-Set-Size Control En forespørgsel er kun tilladt hvis svaret er baseret på mindst n og højest N n individer Grundlæggende kontrolelement René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20

Angreb med Trackers Tracker T en forespørgsel med passende antal svar Bruges til at udfylde en ikke-tilladt forespørgsel med kendte svar Giver en generel formel til beregning af statistik for små svarsæt (fx n = 1) q(c) = q(c T ) + q(c T ) q(all) Eksempel Vælg tracker T = IT : sum(hansen, løn) = sum(hansen IT, løn) + sum(hansen IT, løn) sum(løn) = 189.000 + 234.000 324.000 = 99.000 Hvor alle del-forespørgsler er tilladte René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 10 / 20

Angreb med Trackers Negative resultater Een tracker kan bruges til at udføre alle statistiske forespørgsler Nemt at finde/lave trackers (kan automatiseres) Kan generaliseres til at omgå endnu strengere beskyttelse Konsekvenser Fik (næsten) forskningen i området til at gå i stå Meget snævert kendskab til resultaterne Svagheder/huller genopdages René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 11 / 20

Løsninger? René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 12 / 20

Løsninger? Frigiv kun specifikke statistikker Kun foruddefinerede statistikker frigives Eksempel: US Census Ingen fleksibilitet/avancerede statistikker Frigiv alle (relevante) statistiske momenter Kan bruges til at beregne diverse korrelationer og anden statistik Momenter beregnes på hele datasættet: lille risiko for tab af privathed Undertrykkelse af svar (cell suppression) Fjern alle data der kan bruges til at afsløre følsomme statistikker Kræver ofte fjernelse af ikke-følsomme data Begrænset fleksiblitet/kvalitet af statistik Dyrt/tidskrævende René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 13 / 20

Løsninger? Audit-baseret adgang Alle forespørgsler kontrolleres (manuelt) inden svar Eksempel: New Zealand I praksis meget vanskeligt/dyrt Partitionering af databasen Datasættet deles op i gruppper Svar inkluderer hele grupper, ingen individer Valg af grupper kritisk for statistik Strammere kontrol med størrelse på svarsæt Eksempel for summer (n-respondent k%-dominans): Når n eller færre individer bidrager med mere end k% af summen Vi har brug for en ny vinkel Statistisk sikkerhed: differential privacy René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 14 / 20

Differential Privacy Definition Statistikken K giver ɛ-differential privacy hvis der for alle D 1, D 2, S med D 1 1 D 2 og S range(k) gælder Pr(K(D 1 ) S) e ɛ Pr(K(D 2 ) S) Med andre ord... Hvis man fjerner eller tilføjer et enkelt dataelement (D 1 1 D 2 ) ændrer det ikke væsentligt (e ɛ ) ved analysen af datasættet (Pr(K(D 1 ) S)). Konsekvens(er) Minimal risiko (parametriseret ved ɛ) for individer ved deltagelse Ikke en løsning kun en definition René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 15 / 20

Differential privacy til statistiske beregninger Tilføj tilfældig støj til svaret Istedet for sum(c) returneres sum(c) + X hvor X er et (mere eller mindre) tilfældigt tal Egenskaber Formelt Kan ikke bruges til alle former for statistik (work in progress) Støjen må ikke støje så meget, at det går ud over statistikken Sekventielle forespørgsler kræver øget støj Kvalitet af forespørgsler falder markant K(X ) = f (X ) + (Lap( f /ɛ)) k resulterer i ɛ-differential privacy for K René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 16 / 20

Differential privacy Aktivt forskningsområde Mange nye algoritmer (til statistisk analyse) Differential privacy tænkt ind fra starten Bedre trade-off mellem privathed og præcision Kun en løsning for (statistisk) analyse René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 17 / 20

Fremtiden René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 18 / 20

Big Data og Privathed Udfordringen Indsamling af endnu større mængder endnu mere varieret information om individer... Fremtiden? Ingen universelle løsninger Cost/benefit: samfund vs. borger Privacy by design Privacy Enhancing Technology (PET) Fx differential privacy Gennemsigtighed for brugere Brugerorienterede sikkerheds-modeller/-politikker Uddannelse (løbende) af brugere/borgere Strengere krav/kontrol med databehandlere René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 19 / 20

You have zero privacy anyway. Get over it. Scott Mcnealy René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 20 / 20