Big data: Nye muligheder, nye trusler? René Rydhof Hansen Institut for Datalogi, Aalborg Universitet BrainsBusiness, 06 MAJ 2014 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 1 / 20
Agenda Baggrund: Big Data, privathed Angreb på statistiske databaser Beskyttelse af statistiske databaser René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 2 / 20
Hvad er Big Data? Definition En (upraktisk) stor klump data Nyt navn, velkendt koncept US Census CPR (medicinsk registerforskning i skandinavien) Alt det nye : BI, Facebook, Twitter, Netflix, Google, RFID tags, mobiletelefoner, location-based services, trafikanalyse, cloud,... Statistiske databaser Database med information om individer, må kun bruge til statistiske forespørgsler (dvs. statistiske momenter over datasættet) Data på individniveau kaldes følsom (sensitive) og må ikke frigives René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 3 / 20
Hvad er privathed? Definition Hemmeligholdelse af privat (personlig) information Nyt navn, velkendt koncept Hemmeligholdelse (confidentiality) velstuderet klassisk begreb Fortrolighed (confidentiality) Integritet (integrity) Tilgængelighed (availability) Implicit: personrelateret information Juridiske aspekter René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 4 / 20
Big Data og Privathed En overflod af information Adgang til mange forskellige data om personer Data kan kombineres på overraskende måder Eksempel (Netflix Prize, Oktober 2006 September 2009) To protect customer privacy, all personal information identifying individual customers has been removed and all customer ids have been replaced by randomly assigned ids Netflix udlovede $1.000.000 for (mindst) 10% forbedring af automatisk filmanbefaling Frigav anonymiserede historiske data om brugervalg og anbefalinger Ved at kombinere Netflix data med fx data på IMDB kunne dele af Netflix data de-anonymiseres René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 5 / 20
Hvad tjener Hansen? René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 6 / 20
Hvad tjener Hansen? Baggrund Større virksomhed Medarbejderdatabase frigives til statistisk brug; individuel løn er privat Medarbejderdatabase (uddrag) Navn Afd. Ansat Løn Hansen IT 2007 99.000 Jensen IT 2010 50.000 Sørensen IT 2011 40.000 Nielsen Jura 2012 75.000 Svendsen Udv 2010 30.000 Kristensen Udv 2007 30.000 Forespørgsler sum(løn) 324.000 sum(it,løn) 189.000 sum( IT,løn) 135.000 sum(it & >2009,løn) 90.000 Udfordring: Hvordan skal databasen beskyttes? Direkte søgning:?(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 7 / 20
Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20
Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 Tillad ikke forespørgsler over navne Svarer til almindeligt anvendt de-identifikation Ikke tilladt: sum(hansen, løn) = 99.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20
Angreb vhja statistiske forespørgsler Tillad kun statistiske forespørgsler Direkte søgninger ikke tilladt Men: sum(hansen, løn) = 99.000 Tillad ikke forespørgsler over navne Svarer til almindeligt anvendt de-identifikation Ikke tilladt: sum(hansen, løn) = 99.000 Men: sum(it &2007, løn) = 99.000 Svar baseret på kun eet individ er altid følsomme René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 8 / 20
Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20
Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 Ikke tilladt: sum(it &2007, løn) = 99.000 Tilladt: sum(it & > 2009, løn) = 90.000 René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20
Angreb vhja statistiske forespørgsler Svar skal altid baseres på mere end eet individ Ikke tilladt: sum(hansen, løn) = 99.000 Tilladt: sum(it, løn) = 189.000 Ikke tilladt: sum(it &2007, løn) = 99.000 Tilladt: sum(it & > 2009, løn) = 90.000... og dermed: sum(it, løn) sum(it & > 2009, løn) = 189.000 90.000 = 99.000 = sum(hansen, løn) Query-Set-Size Control En forespørgsel er kun tilladt hvis svaret er baseret på mindst n og højest N n individer Grundlæggende kontrolelement René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 9 / 20
Angreb med Trackers Tracker T en forespørgsel med passende antal svar Bruges til at udfylde en ikke-tilladt forespørgsel med kendte svar Giver en generel formel til beregning af statistik for små svarsæt (fx n = 1) q(c) = q(c T ) + q(c T ) q(all) Eksempel Vælg tracker T = IT : sum(hansen, løn) = sum(hansen IT, løn) + sum(hansen IT, løn) sum(løn) = 189.000 + 234.000 324.000 = 99.000 Hvor alle del-forespørgsler er tilladte René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 10 / 20
Angreb med Trackers Negative resultater Een tracker kan bruges til at udføre alle statistiske forespørgsler Nemt at finde/lave trackers (kan automatiseres) Kan generaliseres til at omgå endnu strengere beskyttelse Konsekvenser Fik (næsten) forskningen i området til at gå i stå Meget snævert kendskab til resultaterne Svagheder/huller genopdages René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 11 / 20
Løsninger? René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 12 / 20
Løsninger? Frigiv kun specifikke statistikker Kun foruddefinerede statistikker frigives Eksempel: US Census Ingen fleksibilitet/avancerede statistikker Frigiv alle (relevante) statistiske momenter Kan bruges til at beregne diverse korrelationer og anden statistik Momenter beregnes på hele datasættet: lille risiko for tab af privathed Undertrykkelse af svar (cell suppression) Fjern alle data der kan bruges til at afsløre følsomme statistikker Kræver ofte fjernelse af ikke-følsomme data Begrænset fleksiblitet/kvalitet af statistik Dyrt/tidskrævende René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 13 / 20
Løsninger? Audit-baseret adgang Alle forespørgsler kontrolleres (manuelt) inden svar Eksempel: New Zealand I praksis meget vanskeligt/dyrt Partitionering af databasen Datasættet deles op i gruppper Svar inkluderer hele grupper, ingen individer Valg af grupper kritisk for statistik Strammere kontrol med størrelse på svarsæt Eksempel for summer (n-respondent k%-dominans): Når n eller færre individer bidrager med mere end k% af summen Vi har brug for en ny vinkel Statistisk sikkerhed: differential privacy René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 14 / 20
Differential Privacy Definition Statistikken K giver ɛ-differential privacy hvis der for alle D 1, D 2, S med D 1 1 D 2 og S range(k) gælder Pr(K(D 1 ) S) e ɛ Pr(K(D 2 ) S) Med andre ord... Hvis man fjerner eller tilføjer et enkelt dataelement (D 1 1 D 2 ) ændrer det ikke væsentligt (e ɛ ) ved analysen af datasættet (Pr(K(D 1 ) S)). Konsekvens(er) Minimal risiko (parametriseret ved ɛ) for individer ved deltagelse Ikke en løsning kun en definition René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 15 / 20
Differential privacy til statistiske beregninger Tilføj tilfældig støj til svaret Istedet for sum(c) returneres sum(c) + X hvor X er et (mere eller mindre) tilfældigt tal Egenskaber Formelt Kan ikke bruges til alle former for statistik (work in progress) Støjen må ikke støje så meget, at det går ud over statistikken Sekventielle forespørgsler kræver øget støj Kvalitet af forespørgsler falder markant K(X ) = f (X ) + (Lap( f /ɛ)) k resulterer i ɛ-differential privacy for K René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 16 / 20
Differential privacy Aktivt forskningsområde Mange nye algoritmer (til statistisk analyse) Differential privacy tænkt ind fra starten Bedre trade-off mellem privathed og præcision Kun en løsning for (statistisk) analyse René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 17 / 20
Fremtiden René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 18 / 20
Big Data og Privathed Udfordringen Indsamling af endnu større mængder endnu mere varieret information om individer... Fremtiden? Ingen universelle løsninger Cost/benefit: samfund vs. borger Privacy by design Privacy Enhancing Technology (PET) Fx differential privacy Gennemsigtighed for brugere Brugerorienterede sikkerheds-modeller/-politikker Uddannelse (løbende) af brugere/borgere Strengere krav/kontrol med databehandlere René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 19 / 20
You have zero privacy anyway. Get over it. Scott Mcnealy René Rydhof Hansen (rrh@cs.aau.dk) Big data: Nye muligheder, nye trusler? 06 MAJ 2014 20 / 20