Big data i društvena istraživanja

Najprostije određenje big data moglo bi da bude: velika količina digitalnih podataka koje su proizveli ljudi i mašine. Termin big data najpre se koristio da označi velike količine podataka koje je mogao da obradi jedino superkompjuter. Evo jedne definicije:

Big data su sakupljeni delovi informacija proizvedenih u interakcijama koje ljudi i objekti imaju sa digitalnim, često umreženim svetom. Podatke može da predstavlja jedna varijabla jedne individue sakupljana godinama, ili mnoštvo varijabli preuzetih odjednom od stotina miliona ljudi. Big data mogu biti vremenski dugački, obimni u broju subjekata ili široki u obimu. Ili mogu biti neka kombinacija te tri karakteristike. (Eagle and Greene 2014, p. 1)

Analogno i digitalno

Preduslov za pojavu velikih količina podataka koji se relativno lako mogu analizirati je digitalna revolucija. Digitalne informacije nisu postojale sve do polovine dvadesetog veka, a i nekoliko decenija nakon toga dominirale su informacije sačuvane na analognim medijima – u knjigama, na pločama, kasetama i videokasetama. 2002. godine količina analognih i digitalnih informacija se izjednačuje, a već sada analogni mediji zauzimaju zanemarljiv udeo.

Preuzeto sa Wikipedie

Budući lako komputabilna, digitalna informacija je dala osnovu za procvat kvantitativnih istraživanja, gde je big data poslednja karika u nizu.

Načini grupisanja velikih količina podataka

Načini operisanja sa velikim skupovima podataka:

  • Grid (grid computing) – Koristi se mreža zasebnih, povezanih kompjutera za jedan zadatak (projekti SETI, NASA, istraživanje raka, bitcoin…). Tako se stvaraju virtualni superkomopjuteri.
  • Big data – Velika količina podataka, obično smeštena na jednom mestu, u kontejnerima sa serverima – data centrima. Primer: Google Modular Data Center.
  • Cloud computing – Baze na serverima za skladištenje podataka nastali kao proizvod kompleksnih servisa dostupačnih korisnicima interneta uz minimum resursa.

Unutrašnjost Google-ovog Data centra

Karakteristike big data

Kakvu promenu big data donosi može se predstaviti sintagmom 4V. Kod big data povećani su: volume (količina, obim), variety (raznovrsnost), velocity (brzina), veracity (tačnost) podataka.

Izvor: IBM

Problemi društvenog istraživanja

Jedan od bazičnih problema kvantitativnog društvenog istraživanja jeste dolaženje do empirijske građe, odnosno informacija relevantnih za ispitivanje neke pretpostavke. U mnogim slučajevima potrebno je ispitati osobine neke populacije, što je do sada bio nemoguć posao. Zato se ispitivao uzorak – deo populacije reprezentativan da verno prikaže raspodele neke osobine. Čak i tako, proces prikupljanja podataka bio je relativno dug i nezanemarljivo skup, uz mnogobrojne metodološke opasnosti. I kada je trebalo istražiti građu pohranjenu u medijima, njihova analogna priroda zadavala je probleme za pretvaranje u kvantitativne podatke.

Digitalna revolucija korenito je promenila rad sa empirijskim podacima. Došlo je do promena na dva nivoa: do ekspanzije onoga što može biti obrađeno kao podatak (datafication) i do ekstenzije mogućnosti analize različitih oblika podataka – teksta, slike, fajlova, glasova ili videa. (Cukier and Mayer-Schönberger 2013)

Big data predstavlja i poslednji korak u nizu usavršavanja istraživanja koja se koriste u marketingu i politici. U savremenoj politici implementirane su mnoge teorijske i metodološke inovacije; standardne barometre javnog mnenja dopunila su istraživanja bazirana na otkrićima psihoanalize (koji su svoje praktično tumačenje dobili u delu Edvarda Bernajza Propaganda), teoriji ličnosti Abrahama Maslova (VALS analiza), a sada i na obećavajućim mogućnostima koje nudi big data.

Big data se u vezi sa politikom naročito pominje u debatama oko američkih predsedničkih izbora 2016. godine. U njima se pobeda Donalda Trampa pominje i u kontekstu prednosti koje je donelo targetirano oglašavanje zasnovano na metodama koje je uspostavio mladi psiholog Mihal Kosinski. On je razvio psihometrijske modele na osnovu kojih je na osnovu ponašanja internet korisnika na društvenim mrežama moguće bolje zaključiti o osobinama njihovih ličnosti nego što to mogu da urade njihovi prijatelji. To otvara mogućnost za njihovo precizno profilisanje i uticanje na njih kroz targetiranu propagandu. Nalaze Kosinskog i saradnika navodno je kapitalizovala firma Cambridge Analytica tokom Trampove kampanje, mada je mendžment kompanije to zvanično porekao. Zanimljiv prikaz ove veze nalazi se i u srpskom prevodu na sajtu Vice. Cambridge Analytica dovodi se u vezu sa još jednim nedavnim političkim potresom – kampanjom za Brexit.

Infografik pokazuje povezanost Cambridge Analytica-e sa američkim i britanskim kampanjama. Izvor: The Guardian

Još jedna globalno poznata upotreba big data jeste i program nadgledanja američke bezbednosne agencije NSA. Za ovaj program javnost je čula nakon što je Edvard Snouden obelodanio njegovo postojanje i način funkcionisanja.

Očekivano, naročita upotreba big data je u marketingu. Veliki skupovi podataka povećavaju preciznost metoda koje se koriste za predviđanje ishoda strategija (predictive marketing, predictive analytics). Neki pristupi obradi podataka u marketinške svrhe potenciraju kombinaciju setova podataka iz različitih izvora (mobilnih telefona, kompjutera, društvenih mreža) sa demografskim statistikama, poput projekta Endrjua Edvardsa Convergence analytics.

Moguća područja polemike

Dena Bojd i Kejt Kroford, u tekstu Kritička pitanja za big data: Izazovi kulturnog, tehnološkog i naučnog fenomena, ovako definišu big data:

Kulturni, tehnološki i naučni fenomen koji počiva na međuodnosu:

1 – tehnologije (maksimizuje proračunsku snagu i algoritamsku preciznost za prikupljanje, analizu, povezivanje i upoređivanje velikih skupova podataka);

2 – analize (utvrđivanje pravilnosti iz velikih skupova podataka, kako bi se mogla postavljati ekonomska, društvena, tehnička i pravna tvrđenja);

3 – mitologije (rašireno verovanje da velike količine podataka omogućuju višu formu inteligencije i znanje koje može da proizvede prethodno nemoguće uvide koji će se odlikovati istinitošću, objektivnošću i tačnošću. (Boyd and Crawford 2012, 663)

Big data iniciraju dve suprotstavljene retorike:

  • utopijska (zaštita od terorizma, pronalaženje lekova, klimatske promene);
  • distopijska (kontrola, nadzor, gušenje sloboda, povećanje moći država i korporacija).

Problemi koje Bojd i Kroford preporučuju za polemiku:

            1 – Big data menja definiciju znanja

         Big data predstavlja radikalnu promenu u metodologiji istraživanja. Menja se predmet, menjaju se naučni instrumenti, što po Laturu menja i samu društvenu teoriju. Sposobnost prikupljanja i obrade podataka menjaju se u ogromnoj meri. Akcenat se pomera sa pitanja zašto se nešto radi na merenje količine i načina kako se radi.

            2 – Tvrdnje o objektivnosti i tačnosti zavaravaju

            Big data nisu samoobjašnjavajući podaci. Uvek se u istraživanju susrećemo sa interpretacijom, od samog odabira podataka do njihovog tumačenja. Takođe, podaci u big data neretko su nepouzdani i previše kompleksni, zbog čega se mogu videti pravilnosti koje u stvari ne postoje.

            3 – Veći skupovi podataka nisu obavezno i bolji

        Istraživanja u kojima se podaci prikupljaju sa Twitter-a primer su metodološkog ograničenja big data vezanog za uzorak. Korisnici Twitter-a ne predstavljaju uzorak veran opštoj populaciji, već specifičan skup ljudi; takođe, nisu ni svi korisnici Twitter-a aktivni, postoje oni koji samo prate tuđe tvitove. Takođe, zbog cenzure ne budu svi tvitovi objavljeni, a i nisu svi objavljeni tvitovi podjednako javni, što su dodatna metodološka ometanja. Ipak, to ne znači da ne postoje istraživanja vezana za Twitter sa vrednim uvidima, a neka su zasnovana i na studijama slučaja pojedinačnih aktera na internetu.

            4 – Izvađena iz konteksta, big data gube smisao

            Podaci o povezanosti korisnika interneta u big data mogu da se organizuju na dva načina: kao artikulisana mreža (articulated network) i kao bihevioralna mreža (behavioral network). Artikulisanu mrežu čine podaci o kontaktima koje su odredili sami korisnici (lista e-mail adresa, lista brojeva iz mobilnog telefona, prijatelji na društvenim mrežama…). Bihevioralne mreže su derivirane iz obrazaca u komunikaciji, od razmene mejlova i SMS-ova do neposredne komunikacije koja se može utvrditi koordinatama mobilnih uređaja. Te mreže imaju vrednost u istraživanju, ali se ne podudaraju sa personalnim mrežama (personal network), koje predstavljaju sve aktuelne komunikacije.

            5 – To što je pristupačno ne čini ga i opravdanim

            Prikupljanje podataka sa društvenih mreža otvara pitanje njihove privatnosti – smemo li ih prikupljati bez dozvole autora? Kako je najbolje da istraživači postupe? Podaci mogu biti javni, ali ne i namenjeni da privuku pažnju, pa istraživači treba da budu obazrivi, naročito ne smeju da otkrivaju identitete korisnika čiji su sadržaj analizirali.

            6 – Ograničen pristup big data stvara nove digitalne podele

            Nemaju svi isti pristup podacima iz big data: pretraživači i društvene mreže poseduju ogromne količine podataka, neke kompanije ne daju pristupa svojim bazama, neke iznajmljuju pristup svojim podacima za novac, neke nude slobodan pristup. Posledično, neki istraživači imaju pristup boljim podacima i privatnim rezultatima istraživanja od drugih, veći univerziteti mogu da plate pristup boljim servisima od drugih, itd. Formira se nova digitalna podela: big data bogati i  big data siromašni. Kada god su nejednakosti utisnute u sistem, one proizvode strukture zasnovane na klasama.

 

Korišćena literatura:

Boyd, D. and Crawford, K. (2012). Critical questions for big data. Provocations for a cultural, technological, and scholarly phenomenon. Information, Communication & Society, 15(5), pp. 662–679.

Cukier, K. and Mayer-Schoenberger, V. (2013a). Big data: A revolution that will transform how we live, work, and think. Boston, New York: An Eamon Dolan Book, Houghton Mifflin Harcourt.

Eagle N., and Greene, K. (2014). Reality mining: Using big data to engineer a better world. Cambridge, London: The MIT Press.

 

 

Cover slika: Business Insider