Andmeteadus digisemiootikas

Tähenduse leidmine ja avamine otsuste tegemiseks on andmeteaduses põhikohal. Senine andmeteadus omab aga tähenduse leidmise osas piiratust. Tähends leitakse üldistatult, lähtuvalt andmete täielikusest. Humanitaarias on aga valdkondi, kus meetodite digitaliseerimine muudab ka jäädavalt andmeanalüüsis üldistamise probleemi konkreetsuse probleemiks, ehk kui täpselt saame midagi väljendada. Humanitaarias piisab sageli ka nö ebatäielikest andmetest, et teha täielik järeldus. Põhjuseks on humanitaarsed meetodid põhinevad sageli loogikal ja laiendatult empiirilistel andmetel, mis võimaldab teha kaugele ulatauvaid tuletusi (nt abduktsiooni deduktiivses vormis.)   

Täpsemalt kvantitatiivselt (ehk andmed arvudes) üheskoos või eraldi kvalitatiivsega (ehk andmed sõnades) on üks põhiteema kui rääkida andmetöötluse pidevast kõneainest. Peamine abivahend on siin statistika, mille poole joostakse siis ka kui sellest pole abi ega jõudu, vaid häda ja viletsust (millest kirjutavad nt Nassim Nicholas Taleb ja Nate Silver). Mida teha kui on vajadus andmete tähenduse järgi, mitte ainult seletava jõu ja mõtte poolest, vaid ka sügavamate omaduste järgi? Minu väide on järgmine, me vajame laiemalt humanitaarteaduseid mudeldatud digitaalses vormis.

Lühidalt, me vajame digihumanitaariat, selle kõige eredamas ja tugevamas vormis. Selleks, et saavutada tähenduse üldine pilt nagu statistikas aga konkreetne nagu humanitaarias tavaks, on vaja kasutusele võtta loogika, täpsemalt hägusloogika andmetöötlemise meetodid (nt nagu sotsioloogias on kasutusel – fsQCA ehk hägusloogililine võrdlusanalüüs). Samalajal on vaja viimane rakenduslikult kasutusele võtta semiootika kontekstis. Selle tulemusena saame luua väga huvitavad digihumanitaaria rakendused*. Meile avanevad erinevad võimalused detailiselt väljaselgitada, kuidas töötab humanitaarias nt narratiiv, müüt, metafoor jt laiemad või vähem tuntud kontseptsioonid. See omakorda võimaldab avada sotiaalteadustes avaramad võimalused uurimiseks ühiskonna tasandil.      

Digisemiootika

Semiootika on kõige lühemal ja selgemalt öeldult märgiteadus. See tähendab, et me semiootikud uurime konkreetseid märke nagu nt liiklusmärke või abstraktsemaid märke nagu nt kultuuri. Ehk märgiks on miski (asi), kui keegi tõlgendab miskit (asja). Samuti on semiootiku ülesanne mõista kõike süsteemselt, millistes protsessides osaleb mingisugune märk konteksti (ehk taustsüsteemi) arvestades.  

Digisemiootika on digihumanitaaria osa.  Viimane tegeleb IT rakenduste sidumisega humanitaar valdkonnaga. Digisemiootika on sellest lähtuvalt IT lahenduste rakendamine ja sidumine metoodiliselt semiootiliste protsesside uurimiseks. Samuti on digisemiootika valdkond, kus toimub kõige suurem erinevate semiootiliste meetodite formaliseerimine ehk arvuti sõbralikuks mõtestamine.

Sõna “andmeteadus” tähendus

Siinkohal peab täpsustama kohe sõna andmeteadus tähendust. Andmeteaduse sõna all võib mõista kõike, mis tegeleb infoga/andmetega ja selle analüüsiga. Samas on problemaatiline rääkida humanitaarsest andmeteadusest. Põhjuseks on enamasti tehakse andmeanalüüsi arvutite kaasabil arvutiteaduslike meetoditega. Sellest tulenevalt on keeruline sõnastada laiemalt, et humanitaarne andmeanalüüs on võimalik. Seega on vajalik mõtestada, et nö andmeanalüüs humanitaarias on teistsugune. See tähendab, et humanitaarne andmeanalüüs on ligilähedane relaalteaduslikule või sotsiaalteaduslikule lähenemisele, sest annab tähenduse sisendi põhjal nagu seda teevad ülejäänud distsipliinid. Digitaalses võtmes on kõik humanitaarsed distsipliinid aga aktsepteeritavad andmeanalüüsis osalejad ka olamsoleva tähenduse järgi. Digihumanitaaria või lähemalt digisemiootika on üks võimalik viis tegeleda laimalt analüüsiga, mille eesmärgiks on anda tähendus oma sisendi põhjal maailmas olevale.   

Wikipeedia – näide digihumanitaariast

Andmeteaduse needus nimega statistika

Statistika on hea vahend uurimaks nähtuste eritahulist külge (väga) üldistatult. See tähendab omakorda, et andmetest tehakse kokkuvõte ja sellepõhjal järeldused, mis võivad olla nihkes algandmete tähendusliku sisuga. Näiteks aritmeetiline keskmine (või keskmised üldises mõistes) iseloomustavad hulga väärtuste jagunemist, kus keskmise väärtus ei pruugi olla reaalne väärtus omaette. Seega on vajalik tähele panna teisi mõõteväärtusi, mis iseloomustavad hulga eripärasid täpsemalt. Sellepärast tehakse statistikas sageli täielik analüüs, lähtuvalt eesmärgist  – kasutatakse nt T-testi hüpoteesi kontrollimiseks. See aga kõik annab aimduse inimesele kui oluline on hulgas olevad väärtused ja mis võiks olla järgmine prognoositav samm. See tähendab, et risk jääb alati alles, et oleme tõlgendanud sisendit või tulemusi vääralt. Näitkes ületõlgendanud või alatõlgendanud väärtuste tähendust kontekstis üksteise suhtes.

Kui statistikast saab vääriti tõlgendamise allikas nagu sageli poliitlises või ärilises retoorikas võib juhtuda, siis statistikast saab häbiväärne vahend inimeste manipuleerimiseks. Suurimad valed on statistilised valed ehk prognoosimine ei anna tulemusi nagu mudel ette näeb. Selleks, et statistiline mudel maailmale vastaks peab olema mudelist hea arusaam. Selle arusaama aga tagab hea tudeerimine.

Jumal täringuid ei veereta, aga kurat paneb täpid peale

Albert Einsteini sõnade kohaselt jumal täringutega ei mängi. Siinkohal ma ei argumenteeri füüsikas olevate tõdemuste, vaid statistilise maailmapildi üle. Mida tähendab statistiline maailmapilt kui eeldus? See tähendab, et miski käitub läbi elementide omavaheliste suhete.

Klassikaline on siinkohal, et süsteemid, mis on determininistlikud peavad olema elemendi tasandil jäigad. Siin aga võib vaielda kuidas vaadata süsteemi ja selle tasandeid. Selleks, et saaks olla olemas süsteemis täielik juhus peab olemas olema deterministlikult käituvad elemendid. See tähendab, et süsteemi tasandi juhus lähtub elementide tasandil olevast kooskõlast, et kõik on süsteemselt juhuslik. Samas, süsteemi determineeritus eeldab elementide vabadust, sest muutused peavad olema kindla suunalised. Süsteem, mille olek pole teada või pole üks ega teine, on elemendi tasandil ebastabiiline. Mitte segi ajada siin mõttega, et elemendid ei püsi koos, vaid elementide omavaheline suhe ei allu reeglipäradele. Seega, pole võimalik öelda nii palju maailma enese kohta, kui mudeli kohta, mis maailma avab. Ehk, teisiti öeldes: “Kui tõenäoline on maailma seletamisel statistika ise?”

Selleks, et vastata küsimusele peab olema meil vastus, kuidas maailma mudeldada ehk mis on tähenduse tähendus. Selle mitte teadmine või mitte täielik teadmine on probleem omaette. Sellest lähtuvalt saab öelda, et andmetöötlus digisemiootikas on üks näidetest, kuidas ületada süsteemi erinevatel tasanditel olevad omadused (st determinismi või vabadust).  

Andmetöötlus digisemiootikas

Semiootiline andmetöötlus põhineb kvalitatiivsel metotoloogial ehk analüüsitakse väga palju verabaaliseeritud infot. Näiteks intervjuusid, tekste, laiemalt pilte või mõnda muud allikat, mida lihtsustatult ei saa numbriliselt väljendada ega analüüsida.

Semiootiline andmetöötlus põhineb tänasel päeval inimvõimekusel ja selle loovatel aspektidel seostada omavahel erinevaid aspekte analüüsis. Siinkohal on iseküsimus tõe otsingutel, mis tagab analüüsi valiidsuse ehk tõepära. 21. sajandi versioonis on selleks teaduslikud ja formaal-loogilikast tingitud seoste reeglid ja normid.

Üks võimalus semiootikas andmeid matemaatiliselt töödelda on kasutada eelnevalt väljatoodud hägusloogilise võrdlusanalüüsi meetodi. Viimane võimaldab uurida juhtumi põhiselt kui ka laiendatult süsteemselt erinevat verbaliseeritud infot.

Eelnevalt öeldu tähendab, et tähendus leitakse numbrilise väärtusena, mille oma tähendus verbaalselt ilmneb teiste arvude kontekstis. Digisemiootikas arvud loovad uue maailma semiootilises analüüsis, mida varem pole tehtud. Sellepärast pole võimalik öelda kohe, mis on ühe arvu tähendus. Või, kas üks arv hakkab sisuliselt võrduma mõne (asja) tähendusega.    

Tähenduse arvutamine

Selleks, et rakendada hägusloogikat on olemas kaks võrdleva analüüsi suunda – vahetu ja kaudne kodeerimine (Charles C. Ragin 2009).** Mõlemad kodeerimisviisid teisendavad algandmed süsteemselt võrreldavaks elemendi põhiselt nii, et tervik süsteem säilitab tähenduse oma algsel kujul. Samas muutub tähendus elementide omavahelises analüüsis. Tähendus tekib ja saab oma vormi läbi erineva tasandi suhete, nt element vs süsteem.

Tähenduse arvutamisel on võimalus kalduda nö reaalteadusliku maailma pildi poole. See tähendab, et tulevikus nt asi nagu lillevaas on digisemiootika järgi üks matemaatiline valem. Viimane kirjeldab lillevaasiks olemise tähendust. Ehk, mis teeb lillevaasist lillevaasi. (Ühtlasi see vastab filosoofilisele probleemile – millal saab lillevaas lillevaasiks. Nt kas suvalisi esemeid saab nimetada lillevaasiks kui neid kasutatakse lillede jaoks.) Kui kõigi asjade puhul on tegemist tähenduse valemitega, siis konkreetsed asjad (nagu lillevaas minu toas) on konkreetselt numbrilise väärtusega. Siinkohal võib võrrelda tähenduse matemaatilist vormi füüsikaga, kus kiiruse valem on universaalne kirjeldus kiiruse mõõtmiseks. Samalajal on konkreetse auto kiirus konkreetselt konkreetse väärtusega nt 100 km/h. Sarnaselt kiirusele on arvatavalt võimalik iseloomustada tähendust mingite asjade kohta.           

—-

* Hägusloogika rakendamisega kaasnevad muidugi omad piirangud ja võimalused. Peamine kriitika on süsteemile elementide omavaheliste suhete väärtus mõjutab väga palju lõpptulemust. Süsteemi paindlikus arvestada elemendiga on väga suur ja mõjutab süsteemi üldistamisvõimet väga tugevalt.   

** Vahetu kodeering tähendab, et andmed ühes formaadis (st mõõtühikud) teisendatakse teise kalibreerimise teel. See tähendab, et leitakse kahe süsteemi kontekstis maksimum ja miinimum väärtused ning seejärel kõik väärtused kodeeritake ümber vastavalt algsüsteemi eripäradele 0 ja 1 vahele ära. Kaudne kodeering tähendab, et algandmetest pole võimalik luua konventeeritavaid suhteid ja need tuleb eraldi luua hägusloogilise mõõtühiku süsteemi suhtes.      

Allikad

Ragin C. Charles (2009). Redesigning Social Inquiry: Fuzzy Sets and Beyond. University of Chicago Press

Lisa kommentaar

Täida nõutavad väljad või kliki ikoonile, et sisse logida:

WordPress.com Logo

Sa kommenteerid kasutades oma WordPress.com kontot. Logi välja / Muuda )

Twitter picture

Sa kommenteerid kasutades oma Twitter kontot. Logi välja / Muuda )

Facebook photo

Sa kommenteerid kasutades oma Facebook kontot. Logi välja / Muuda )

Google+ photo

Sa kommenteerid kasutades oma Google+ kontot. Logi välja / Muuda )

Connecting to %s