Publicerat 2021-10-06 · Blogg

Examensarbete kring anonymisering av data för lagring.

Att interagera med andra människor, både vänner och främlingar, är grundtanken bakom sociala medier. Det är anledningen till att vi publicerar saker på sociala medier. Att dela med sig av personlig information är ett sätt att förstärka och utveckla sociala relationer. Det är förtroendeingivande och som mottagare känner man att man kommer närmare den andra […]

Att interagera med andra människor, både vänner och främlingar, är grundtanken bakom sociala medier. Det är anledningen till att vi publicerar saker på sociala medier. Att dela med sig av personlig information är ett sätt att förstärka och utveckla sociala relationer. Det är förtroendeingivande och som mottagare känner man att man kommer närmare den andra personen.

I den fysiska världen berättar man någonting över en fika, under en tågresa eller i kanske i klassrummet. Antalet mottagare är begränsat och även om de för det vidare så begränsas spridningen till de gemensamma ’bekanta’ som ni har. Så är inte fallet på sociala medier.

I den digitala världen, till skillnad från den fysiska, så ligger alla meddelanden kvar i princip för alltid. En ny bekantskap kan gå tio eller tjugo år tillbaka och titta på dina inlägg, ibland till och med längre. Den ser diskussioner som du haft med andra personer, vilka du reste till Grekland med 2012 och bilden som mormor lade ut om dig när du fått en ny tröja i julklapp. För avtrycket begränsas ju inte bara till vad du lagt ut om dig själv, utan även vad andra lagt ut och hur de kommenterat eller uttalat sig om det du sagt eller gjort.

Det är här som dualiteten i A.R.T projektet verkar. För att kunna skapa en influencer som målgruppen finner intressant undersöker vi i A.R.T projektet vilka influensers som vår målgrupp följer. Men när vi bör inte spara identifierbar information om vare sig målgruppens konton, om vem som följer vem, etc.

Att göra ett urval och sedan inte kunna spara data/information från urvalet gjordes innebär att vi inte kan:

  • fortsätta insamlingen där en tidigare studie slutade utan alla studier startar från noll
  • göra om urvalet efter en månad och se om någonting ändrats
  • skapa ett facit för kontona som kan jämföras med
  • utvärdera nya bedömningsalgoritmer för att se förbättringar i ett offline-set med äkta data

Det var med utgångspunkt i denna problematik som Thomas Carlsson gjorde sitt examensarbete ”The Life of A.R.T – Storing and anonymizing user data from public profiles” [1]. Målet med examensarbetet är att utvärdera om data kan avidentifiera nog mycket för att den etiskt och lagmässigt sett skall kunna sparas och fortfarande vara användbar.

Efter att ha studerat liknande tillämpningar och aktuell forskning kom Thomas fram till att k-anonymitet var den mest lovande teknikerna för av-anonymisering av data på ett sådant sätt att den fortsatt kan användas för analys och jämförelser.

K-anonymitet är en anonymiseringsmodell som vanligtvis används vid anonymisering av data i databaser [2, 3]. Tanken bakom k-anonymitet är att man inte bara anonymiserar direkt identifierbara data som namn och personnummer utan även till synes obetydliga data som kön, ålder och postnummer. Dessa obetydliga data kallas för kvasi-identifierare (Quasi-identifiers; QI). Sweeny visar i [4] att det var möjligt att identifiera 87% av U.S.As befolkning med hjälp av de tre kvasi-identifierarna ovan.

Thomas implementerade en proof-of-concept lösning baserad på k-anonymitet förstärkt med blandning av kvasi-identifierare enligt ”Earth Mover Distance” algoritmen [5] med t-closeness samt microaggregering av data [6]. Om du är intresserad av att gå djupare in i dessa kan du läsa Thomas examensarbete eller någon av referenserna ovan.

Figur 1. Originaldata och anonymiseraddata

Figur 1 visar en enkel förklaring på hur anonymiseringen kan gå till. Som ni ser är person kolumnen helt anonym i båda tabellerna. Gender kolumnen innehåller ”riktig” data i båda kolumnerna, men det hade den inte behövt göra. Age kolumnen däremot har blivit modifierad. Personens ålder har blivit reducerad till 1* om personen är mellan 10 och 19 år samt 2* om den är mellan 10 och 29 år. Anonymiseringen i Age kolumnen kan göras på många olika sätt med olika åldersspann eller resultat-värden. Figur 1 innehåller bara ett lättöverskådligt exempel där det blir uppenbart att identifiering försvåras samtidigt som den data som finns kvar är användbar.
I sitt examensarbete beskriver Thomas hur han implementerar och utvärderar en proof-of-concept lösning som skulle kunna användas för lagring av data i A.R.T projektet. Inom projektet har vi inte tagit något beslut om att använda oss av k-anonymitet och t-closeness utan vi behöver utvärdera det mer. Men Thomas examensarbete visar på att det finns en stor potential i den typen av teknik och den skulle underlätta arbetet i A.R.T projektet. Detta då vi skulle kunna undersöka skillnader och likheter hos den undersökta populationen under, exempelvis olika år, samt vid utveckling och jämförelse av effektiviteten hos olika identifieringsalgoritmer. Men än så länge kör vi vidare och gör alla analyser online utan att spara någonting till eftervärlden.

 

Referenser

[1] T. Carlsson, ”The Life of A.R.T – Storing and anonymizing user data from public profiles”, Bachelor Thesis in Computer Science and Engineering, University West, Trollhättan, Sweden, 2021.

[2] C. Győrödi, R. Győrödi, G. Pecherle and A. Olah, ”A comparative study: MongoDB vs. MySQL”, 13th International Conference on Engineering of Modern Electric Systems (EMES), Oradea, Romania 2015.

[3] P. Samarati and L. Sweeney, “Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression”, Carnegie Mellon University, 1998.

[4] L. Sweeney, Simple Demographics Often Identify People Uniquely. Carnegie Mellon University, Data Privacy Working Paper 3. Pittsburgh 2000.

[5] Y. Rubner, C. Tomasi, and L. J. Guibas, The earth mover’s distance as a metric for image retrieval. International Journal of Computer Vision, 2000.

[6] J. Soria-Comas, J. Domingo-Ferrer, D. Sanchez, S. Martinez, ”t-closeness through microaggregation: Strict privacy with enhanced utility preservation”, IEEE Transactions on Knowledge and Data Engineering, 2015.

0

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *