Big data – Del 1: ett tekniskt perspektiv
Av Christine Storr (Kirchberger)
Vad är Big Data?
Trots att big data har blivit ett populärt uttryck de senaste åren, saknar begreppet – liksom begreppet personlig integritet – en entydig definition. Enligt Nationalecyclopedinbetyder big data stora mängder data som kräver speciella metoder för hantering. Datat hämtas in från olika källor och bearbetas och sammanställs för avancerade analyser. Det betyder att det är olika typer av tekniker som behövs, t.ex. datalager (data warehouse) och datautvinning (data mining). Skillnaden mot vanliga databaser är just mängden data som bearbetas vilket kräver nya tillvägagångssätt att hantera informationen. Big data har många likheter med statistik, men också vissa skillnader.
Anledningen till att big data har blivit så populärt är nog bl.a. att mycket mer data skapas idag än för några år sedan. Mycket av datat som skapas idag är också digitalt vilket betyder att datat kan samlas in och analyseras i en annan skala än tidigare. Enligt en uppskattning som nämns i Mayer-Schönbergers och Cukiers bok Big Data utgjorde hela världens lagrade data ca 1 200 exabytes (1 exabyte = 1 miljard GB) år 2013. För att sätta denna siffra i perspektiv: Om 1 200 exabyte sparades på CD skivor (mindre än 1 GB utrymme) som staplas på varandra, skulle det bli 5 olika staplar som sträcker sig från jorden till månen.
Vilka data kan då vara intressanta och vad kan vi göra med dem?
Vilka data analyseras?
I och med att nästan all data i dag är digital kan all denna information också samlas, sparas och analyseras. Det kan röra uppgifter om vädret, mätpunkter i luften, vilka produkter som finns i ett lager, hur många bilar som passerar biltullar, röstbeteende av politiker och ledamöter, vilka länkar vi klickar på, var vi använder vårt bankomatkort oftast, vilken tid på dagen vi oftast handlar, vilken veckodag vi kollar på Facebook, etc. Även uppgifter som typiskt sett används i statistik från SCB som t.ex. hur många familjer som har 1, 2 eller fler barn, var bor det flest ensamstående, etc, kan också användas i big data sammanhang.
Allt vi gör på våra mobiltelefoner eller surfplattor och datorer, alla produkter som har RFID chips och alla transaktioner som genomförs på nätet genererar data som kan användas i big data sammanhang. Prylar som ingår i sakernas internet (internet of things) samlar också in data som inte bara används för att styra de prylarna utan kan även analyseras och sammanställas.
Från ett rent tekniskt perspektiv kan alltså all digital data – strukturerad eller ostrukturerad – samköras och analyseras, vilket kan leda till intressanta och ibland överraskande resultat.
Vilka resultat kan big data leda till?
En av händelserna med big data som ledde till popularitet är den omtalade Google-prognosen 2010 när influensan spreds i USA och Google följde spridningen genom att analysera människors sökbeteende. Det som var utmärkande var att Googles prognos var snabbare än den amerikanska hälsomyndigheten.
Hälsosektorn är fortfarande ett område där big data kan ha stor effekt och ett stort värde. I och med registerforskning och andra sätt att analysera data från olika perspektiv inklusive exempelvis uppgifter om vädret kan olika faktorer identifieras eller olika sammanhang konstateras som möjliga orsaker till sjukdomar. Vid en konferens om dataskydd i november 2013 diskuterades sådana möjligheter av Mats G. Hansson, Centre for Research ethics and Bioethics (CRB) och Magnus Stenbeck, Karolinska Institutet som bl.a. pratade om registerforskning i Sverige.
För företag finns det alltså många möjligheter med big data och särskilt avseende vilka analyser som kan göras; såsom vilka produkter som köps oftast och under vilka tider, till kundanpassad reklam, analys av köpbeteenden som möjliggör erbjudanden vid de rätta tillfällen. Redan idag använder banker big data teknologier för att upptäcka kreditbedrägerier och Amazon bygger köprekommendationer på big data analyser av alla kunders köpbeteenden.
Även Europeiska kommissionen har framhävt den betydelse som big data kommer ha i framtiden. Enligt kommissionen kan big data ha stor nytta inom transportväsendet, miljön och för att förbättra processer för säkrare produkter.
Det som är värt att komma ihåg är dock att big data-analyser innebär uppskattningar och prognoser på olika trender, dvs big data kan inte garantera att en viss händelse inträffar eller att en viss faktor verkligen är orsaken till en viss sjukdom.
Fortsättning
Möjligheterna med big data ger självklart upphov till många juridiska frågor vilka kommer att diskuteras i del 2 av denna serie om big data. Stay tuned!
Läs- och videotips
- David Mc Candless, TED Talk, The beauty of data visualization – hur kan datamängder blir lättare att förstå?
- Viktor Mayer-Schönberger, Kenneth Cukier, Big Data: A Revolution That Will Transform How We Live, Work and Think, John Murray, 2013.
- Gary Marcus, Ernest Davis, Eight (No, Nine!) Problems With Big Data, New York Times The Opinion Pages, 6 april 2014