Publicerat 2020-09-14 · Nyheter

Etik, integritet och anonymitet i datalagring.

Under de senaste åren har intresset för massiva dataanalyser ökat. Big-data och AI-tekniker har gjort det möjligt att analyser gigantiska mängder data. För stora aktörer inom området såsom Google och Facebook är dataanalysen en del av själva affärsidén. Genom att analysera data som användare själva delat med sig av kan de förutse allt från trender […]

Under de senaste åren har intresset för massiva dataanalyser ökat. Big-data och AI-tekniker har gjort det möjligt att analyser gigantiska mängder data. För stora aktörer inom området såsom Google och Facebook är dataanalysen en del av själva affärsidén. Genom att analysera data som användare själva delat med sig av kan de förutse allt från trender och sjukdomsutbrott till årets vanligaste julklapp.

Ditt och mitt online-beteende, historik och även meddelanden till andra personer används även för att visa oss riktad reklam. Ett exempel på detta är när butikskedjan Target, genom att analysera en tonårsflickas inköpsbeteende, identifierade att hon var gravid och skickade henne reklam för bäbisprodukter, vilket resulterade i att graviditeten avslöjades för hennes föräldrar.

När forskningsprojekt samlar in och studerar personinformation är det av stor vikt att det inte görs på bekostnad av deltagarnas integritet, exempelvis obefogad insyn i individers livsförhållanden. Man får inte heller utsätta individerna för skada, varken fysisk eller psykisk, förödmjukelse eller kränkning. Forskarsamhället har således ett ansvar och måste kunna garantera att personuppgifter hanteras på ett lagligt och integritetsskyddande sätt. Regeringsformens andra stycke säger att varje ”medborgare skall i den utsträckning som närmare angives i lag skyddas mot att hans personliga integritet kränkes genom att uppgifter om honom registreras med hjälp av automatisk databehandling”.

I The Life of A.R.T-projektet behöver vi samla in och behandla data genererad av barn och ungdomar. Eftersom dessa grupper är mer sårbara än andra, då de är mer begränsade i sin förmåga att bedöma risker och överblicka konsekvenser, är det än viktigare att vi går varsamt till väga. Den information som är tillgänglig om personer i vår målgrupp är användarnamn, ibland personnamn, de kommentarer som personerna skrivit och de bilder som användarnamnet laddat upp. Annan information som är tillgänglig är vad personer har ”gillat” och vad de delat vidare. Denna information kan, om den hanteras på ett felaktigt sätt, bryta mot de etiska reglerna kring hantering av känsligt material och rent av vara olaglig för oss att hantera.

Ett huvudmål för projektet är därför att konstruera en metod för datainsamling om aktiviteter på sociala media som tar hänsyn till de etiska ställningstaganden och de risker som kan uppstå för den enskildes integritet så att varken bilder, länkningar, åsikter eller annat innehåll kan härledas tillbaka till något specifik person. För att kunna samla in och analysera data behöver vi, inom projektet, kunna hantera denna typ av data.

The Life of A.R.T-projektet är inte på något sätt unikt i detta. Alla företag, organisationer och myndigheter som hanterar och analyserar stora mängder data ställs inför samma utmaning. De vanligaste sätten att hantera problemet på är enligt Altman, et al. [2] att antingen tala om för användaren vad syftet är och be om tillåtelse att lagra och använda dessa data, eller att av-anonymisera dem innan de lagras. Det bästa är såklart att göra både och. Tyvärr är ingen av dessa metoder problemfri utan kommer med sina respektive utmaningar. Båda är dock mycket bättre än alternativet; att bara lagra all data som den är, inklusive identifierbar information.

Det är till exempel inte möjligt att samla in informerat samtycke från deltagarna när datainsamling sker i andra hand. Det vill säga när insamlingen inte sker direkt från personerna utan från exempelvis öppna källor på internet. Ett bra exempel på detta är Googles sökmotor. Den hade inte fungerat speciellt bra om Google bara inkluderat webbsidor som de fått medgivande att använda. Viktigt är dock att påpeka, bara för att ett utförande är lagligt innebär det inte att det är etiskt riktigt. En ambition för The Life of A.R.T.-projektet är att följa de forskningsetiska principer som föreskrivits av Altman, et al. [2] och Vetenskapsrådet, [4] i syftet att skydda deltagarnas integritet samt säkerställa att forskningen håller god kvalitet.

Det andra alternativet, att avidentifiera data innan den bearbetas eller lagras, fungerar väl under vissa förutsättningar. I en longitudinell studie, där datainsamling sker vid flera tillfällen under flera år behöver ofta nya, insamlade data kunna läggas till i datasetet för en specifik person. Informationen kan då inte vara helt av anonymiserad.

En teknik som kan användas för att avidentifiera data men samtidigt göra det möjligt att lägga till nya data är hashning. Man väljer då en unik identifierare, exempelvis personnummer, för varje person och kör den genom en hash-funktion. Utan att gå in på den bakomliggande matematiken så har en kryptografisk hash-funktion två intressanta egenskaper. Den första egenskapen är att den kan omvandla data, exempelvis ett personnummer, till en oigenkännlig teckensträng. Det är sedan omöjligt att från teckensträngen från fram personnumret. Detta är representationen av en av The Life of A.R.T-projektets deltagares personnummer: 720CC55884D5059EA0EBD369A8912AE49DB96E0BE6613F459783E1C6FCA8800F

Den andra positiva egenskapen är att det inte finns två datamängder som ger samma oigenkännliga teckensträng. Det är alltså omöjligt att två personer förväxlas med varandra samt att genom att titta på lagrade eller bearbetade data se vem som är vem. Men det är fullt möjligt att när man fått in kompletterande data leta reda på samma person och lägga till nya data där.

Anonymisering av data har blivit hårt kritiserat genom åren. Många forskare har arbetat på att ta fram tekniker för att av-anonymisera data och lyckats relativt väl. Enligt [3] är dock möjligheterna till av-anonymisering överskattade, i huvudsak för att det krävs stora datamängder för att utföra av-anonymiseringen. Cavoukian & Castro [3] lyfter dock fram att det inte räcker att man av-anonymiserar en identifierare (exempelvis namnet) utan att ytterligare data behöver tas bort eller skyddas för att det inte skall gå att av-anonymisera datasetet.

I The Life of A.R.T-projektet kommer ingen av de ovanstående teknikerna att användas. Detta eftersom informerat samtycke ej kan införskaffas av alla deltagare.

Att lagra av-anonymiserade data hade kunnat vara ett alternativ men vi föredrar att inte göra det. I stället arbetar vi på en metodik där vi endast lagrar färdigbehandlade data. Det vill säga, det som kommer att sparas är data av typen, 25 % av personerna tillhör grupp A och 75% tillhör grupp B. Av de 25% som tillhör grupp A har 67 blått hår. Eftersom populationen är väldigt stor, alla instagramkonton, så är det ganska otroligt att det i datamängden kommer att skapas en identifierbar subgrupp. Men vi inser redan nu att detta är en faktor som vi måste övervaka och hålla lite koll på.

Den tekniska utmaningen är större för alternativ tre. När man inte sparar någonting måste analysen gå så pass fort att den kan göras helt utan avbrott. Allting behöver då vara rätt från början eftersom det inte går att bara göra om en del av analysen om någonting gått fel. Analysverktygen behöver alltså vara både snabba och robusta. Eftersom vi kommer att använda en AI kommer det att vara extra svårt att göra analysen ”online”. Vi kommer att behöva utföra AI-träning utan att spara data och med begränsad möjlighet att starta om träningen från början. Detta är en av alla utmaningarna med The Life of A.R.T-projektet.

Sammanfattningsvis är det väldigt viktigt för oss att hantera all data korrekt. The Life of A.R.T-projektet får aldrig bidra till att sprida personinformation oavsett om personen själv publicerat den på internet. Allting vi gör måste uppfylla en hög etisk standard och vi kommer att göra allt i vår makt för att stoppa missbruk.

 

[1] https://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/

[2] Micah Altman, Alexandra Wood, David R O’Brien, Urs Gasser, “Practical approaches to big data privacy over time”, International Data Privacy Law, Volume 8, Issue 1, February 2018, Pages 29–51.

[3] Ann Cavoukian, Daniel Castro, “Big Data and Innovation,Setting the Record Straight: De-identification Does Work”, Information and Privacy Commissioner Ontario, Canada, 2014.

{4] Vetenskapsrådet (2002). Forskningsetiska principer inom humanistisk-samhällsvetenskaplig forskning. Stockholm: Vetenskapsrådet.

 

1+