Borgernes privacy i den smarte udvikling Christian D. Jensen Cyber Security Section DTU Compute Technical University of Denmark cdje@dtu.dk http://compute.dtu.dk/~cdje
Data er det nye sorte guld 2 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Smarte byer kræver data 3 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Åbne data? 4 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Sikkerhed og Privacy i smarte byer indsamling lagring behandling offentliggørelse hvad skal lagres? data dataformater hvor skal lagres? cloud?? adgangskontrol kryptering arkivering adgangskontrol politikker mekanismer FHE homomorf kryptering SMC flerpartberegninger opsamling anonymisering pseudonymisering filtrering dataverifikation data fusion adgangskontrol zero-knowledge anonymisering pseudonymisering differential privacy Database 5 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Definition af privacy (da. privathed) Privacy definerer et spektrum: Identifikation, pseudonymitet, uhenførbarhed, anonymitet Alice Mallory Bob Alice Privacy-fremmende teknologier søger at beskytte i mod at: Bob kan henføre en eller flere transaktioner til Alice (Identifikation) Bob kan forbinde transaktion 1 og transaktion 2 (Uhenførbarhed) Alice kan henføre en eller flere transaktioner til Bob (sjældent vigtigt) Mallory kan forbinde Alice med Bob (gennem deres transaktioner) 6 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Anonymitetspektrumet Hvordan anonymiseres data?? man gemmer enkeltindivider i en flok Sandsynlighed for at gætte en specifik identitet ~6 milliarder mennesker på jorden 1/6,000,000,000 ~6 millioner mennesker i Danmark 1/6,000,000 ~56 tusinde indbyggere i Lyngby-Tårbæk 1/56,000 ~112 deltagere i Data for smarte kommuner 1/112 mindre Større anonym mængder (1/4) af sammenlignelige individer reducerer sandsynligheden for at identificere individet Mere anonym (1/n) Kan bruges til at anonymisere udvalge private atributter indenfor det samlede udfaldsrumvalues k-anonymity: Hvert individ kan ikke skelnes fra (k-1) andre individer Opnås typisk gennem tilbageholdelse eller generalisering 7 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Typisk (teknisk) definitioner af privacy k-anonymity fungerer bedst med data i få dimensioner det er stadig muligt at drage slutninger Hvad kan vi slutte af data når vi ved data omfatter John Watson? John er fra Kerala? Patienten er fra Tamil Nadu Afledte begreber af k-anonymity l-diversity t-closeness Kilde: Wikipedia side om k-anonymity, besøgt 20170903 Differential Privacy randomiseringsalgoritme A opfylder ε-differential privacy hvis: Givet to nabo datasæt, D og D, og alle delmængder S af værdimængde(a): Pr[A(D) S] e ε Pr[A(D ) S] Nabo datasæt afviger for et enkelt individ: D D =1 8 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Reidentifikation Reidentifikation af Massachusetts guvernør William Weld (1997) Gennemført af MIT studerende Latanya Sweeney Anonymiserede sundhedsdata offentliggjort af Massachusetts Group Insurance Commission (GIC) maskering af navne og adresser Offentligt kendt at guvernøren havde været indlagt Guvernøren boede i Cambridge (ca. 54.000 indbyggere, 7 postnumre) Sweeney købte valglisten for Cambridge MA for 20$ Valgliste gav: navn, adresse, postnummer, fødselsdato og køn Sammenkøring af GIC data og valglisten gav: 6 mennesker i GIC data havde samme fødselsdag som guvernøren 3 af disse var mænd 1 af disse boede i samme postnummer som guvernøren Dette viser at det ikke er nok at maskere personnummer og navn 9 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Reidentifikation af mobilitets data Smartphones kan bruges til at observer borgernes mobilitet: Vi har dem altid på os unik netværksadresse (WiFi, Bluetooth, IMEI) Personhenførbar, så anonymisering er nødvendig Pseudonymisering godkendt af erhvervsministeriet Baseret på envejsfunktioner (f.eks. Hasfunktioner som md5) Løsning påtænkt/i brug i København, Århus, Odense, Ålborg Eksempel: netværksadresse = 00:25:96:FF:FE:12:34:56 md5(00:25:96:ff:fe:12:34:56) = 92df14491add738b49202915ed952201 md5(20171012:00:25:96:ff:fe:12:34:56) = 3db9e23736a12483aa41660804ec7fd2 md5(20171013:00:25:96:ff:fe:12:34:56) = 12cb8be66cf30fd669505c41d0fc31ac Reidentifikation betragter mønstre i tidsrækker af data 10 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Reidentifikation af mobilitets data 11 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Hvad er galt med dette billede? 12 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Perspektiver for privacy Udvikling af det rette privacy mind-set Behøver vi altid at vide hvem folk er? Har en kirurg behov for at kende identiteten af patienten? Har politiet nogensinde behov for at vide hvem vi er? Udvikling af teknikker til at analysere eksisterende datasæt Identificere alle datasæt der indeholder personhenførbare data Analysere mulighed for inferens ved sammenkædning med andre data Specifikation og udvikling af systemer med Privacy By Design Minimer data indsamling (personhenførbare data) Reducer privacy konsekvenser af data Benyt Attribute Based Credentials eller homomorf kryptering Aktiv sletning af data der ikke længere er nødvendige 13 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU
Spørgsmål Mange datasæt indeholder personhenførbare data mobilitetsdata (f.eks. netværksaddresser på mobiltelefoner) forsyningsdata (f.eks. forbrug af vand, varme, ) parkeringsdata (f.eks. billeder af nummerplader) Hvilke privatlivsfremmende foranstaltninger foretager I: når data indsamles? når data lagres? når data behandles? når data udstilles? Kan man yde samme service uden at kende borgerens identitet? f.eks. ved kun at kende bopælskomune og andre anonyme attributter 14 DTU Compute Technical University of Denmark Data for smarte kommuner, DTU