Kas Eesti peaks Metale andma eesti keele korpuse? Alustame uuesti, päris algusest
Autor: Maris Juha, Tartu ülikooli andmekaitseõiguse õppejõud, Harju maakohtu kohtunik (foto: Allan Juha)
Kas Eesti peaks Metale andma eesti keele korpuse? Kas Metale peaks andma kogu ERRi sisu? Kas tasuta? Või äkki peaks üldse peale maksma, et Meta võtaks? Need on kuumad küsimused, mille teemal paljud on sõna võtnud.

Jälgides infotulva, tekkisid minul hoopis sellised küsimused: Mis selles keelekorpuses üldse on? Kas neis andmetes on isikuandmeid? Millisel õiguslikul alusel isikuandmeid keelekorpusesse kogutakse ja edasi antakse? Mida Meta andmetega täpselt teeb ja millisel õiguslikul alusel? Kas kõne all on üksnes tekstid keeletehnoloogia arendamiseks või ka fotod tehisintellekti treenimiseks?
Tekstide keeletehnoloogia arendamiseks kasutamise mõju autoriõigustele on käsitlenud Hegle Pärna ERRi artiklis „Kas keelemudelite arendajad vajavad autorite nõusolekut?“. Mina käsitlen tehisintellekti ja keelemudelite treenimist isikuandmete aspektist. Seda on põgusalt puudutanud ka Mari-Liis Rüütsalu ERRi artiklis „Tehisaru arendajatele ei peaks tasuta sisu andma“. Mari-Liis Rüütsalu märgib asjakohaselt, et meediasisu sisaldab inimeste andmeid, mida ajakirjandus tohib töödelda üksnes ajakirjanduslikul eesmärgil ning selle sisu üleandmine tehisaru treenimiseks kujutab endast täiesti uut laadi isikuandmete töötlemist.
Alustame EKI andmetest. EKI on Haridus- ja Teadusministeeriumi hallatav riigi teadus- ja arendusasutus. EKI põhimääruses on loetletud EKI eesmärgid, sh eesti keele korpuspõhine seire ja analüüs, keelearhiivide hoidmine, arendamine ja nende avaliku kasutuse võimaldamine.
Keelekorpuse sisu kohta on (ERR, 10.02.2025) Eesti Keele Instituudi (EKI) direktor Arvi Tavast selgitanud, et umbes 60 protsenti keelekorpuse sisust on pärit ajakirjandusest, üks suuremaid osi on ka Eesti ja ELi õigusaktid. EKI teatmikus on tekstide liigid täpsemalt loetletud, mh märgitakse, et eesti keelt on kogutud ka blogidest (nt Mallukas, Marimell, Paljas Porgand, Päevakera, Henn Põlluaas, Varro Vooglaid, Yoko Alender jt) ning foorumitest (nt Matkafoorum, Fotofoorum, Ulmefoorum). Teatmikus on veel selgitatud, et tekste kogub veebist spetsiaalne tööriist ehk kroolija; kokkukogutud tekstid puhastatakse üleliigsest: kustutatakse muukeelsed ja automaattõlkelised tekstid, mittetekstiline materjal (pildid, tabelid, hüperlingid) jms. Kõnealuses tutvustuses ei ole märgitud, et kokkukogutust oleks eemaldatud isikuandmed.
Niisiis saan aru, et EKI keelekorpus, mille Metale pakkumisest jutt käib, sisaldab ka suunamudijate blogide tihti vägagi isiklikku laadi sisu (sh ilmselt nn eriliiki isikuandmeid, st andmeid seksuaalelu, seksuaalse sättumuse, tervise jm kohta) kõikvõimalike inimeste kohta.
Igasuguseks isikuandmete töötlemiseks (st kasutamiseks ükskõik millisel eesmärgil, sh tehisintellekti treenimiseks) on vajalik õiguslik alus. Töötlemine on nii andmete kogumine, süstematiseerimine ja säilitamine kui ka kolmandale isikule üleandmine, sh internetis avaldamine. Seejuures peab õiguslik alus olema ka avalikustatud isikuandmete edasiseks töötlemiseks (st ka internetist avalikult kättesaadavate isikuandmete kogumiseks ja kasutamiseks). Isegi juhul, kui riik peaks avaandmete hulgas olema kättesaadavaks teinud isikuandmed, on nende edasiseks kasutamiseks ikkagi vaja õiguslikku alust.
Selle analüüsimine, millisel õiguslikul alusel EKI neid andmeid kogub ja töötleb, siia artiklisse ei mahu. Kuid küsimus jääb ning seda tuleks minu hinnangul tõsiselt uurida. Siinkohal on paslik ka meelde tuletada, et avaliku sektori andmetöötlus (ning EKI on osa avalikust sektorist) peab olema seadusega ette nähtud; seadus peab määrama põhiõiguste (sh eraelu puutumatuse) riive ulatuse ja põhitingimused ning olema piisavalt selge ja täpne (Euroopa Kohtu 6.10.2015 otsus C 362/14, p 91). Eelviidatud EKI põhimäärusest seega ei piisa. EKI-l kui avaliku sektori asutusel ei saa aluseks olla ka õigustatud huvi. Ehk teisisõnu peaks seadus ütlema, millisel eesmärgil kust EKI võib (isiku)andmeid koguda ja kuidas nendega edasi toimetada.
Järgmine küsimus on, kas EKI võib kogutud isikuandmeid Metale (või ükskõik millisele muule äriettevõttele) kasutada anda. Olgu öeldud, et tasu ei mängi õigusliku hinnangu andmisel rolli.
EL on avaliku sektori valduses oleva teabe jagamist reguleerinud mitme õigusaktiga. Avaandmete direktiivist ja andmehalduse määrusest tuleneb, et andmete erasektorile kättesaadavaks tegemisel (sh teadusuuringute või innovatsiooni jaoks) tuleb täielikult tagada isikuandmete, ärisaladuse ja intellektuaalomandi kaitse. Andmehalduse määruse kohaselt (põhjenduspunkt 15) tuleks isikuandmed enne kasutusse andmist anonüümida. Kui kasutaja siiski hädasti vajab isikustatud andmeid, tuleb teha andmekaitsealane mõjuhinnang, konsulteerida järelevalveasutusega ning kui riskid inimeste õigustele ja huvidele on minimaalsed, võib lubada andmeid taaskasutada turvalises töötlemiskeskkonnas, kust algandmeid välja viia ei saa. Ning lisaks tuleb rakendada andmetöötlustulemite suhtes aimatavuskontrolli (et ka väljundi põhjal poleks võimalik kedagi tuvastada või ärisaladusi kahjustada).
ELi tehisintellekti määruses nähakse ette tehisintellekti arendamiseks ka regulatiivliivakastide loomine. Avalikes huvides (nt haiguste avastamine ja ravi, keskkonna- ja energiasäästlikkus, transpordisüsteemid) olevate tehisintellektisüsteemide arendamiseks võib sellises liivakastis kasutada algselt muudel eesmärkidel seaduslikult kogutud isikuandmeid, kuid seda siiski määruses toodud rangete reeglite järgi (mh eeltoodud isoleeritud turvalises töötlemiskeskkonnas).
Minu hinnangul tuleks uurida, kas EKI keelekorpuse erasektori kasutusse andmine vastab eelviidatud määrustele.
Ning lõpuks, enne andmete Metale andmist tuleb veenduda, kas Meta plaanid on ka seaduslikud. Kuigi eeldasin, et Meta tugineb isikuandmete abil keelemudeli treenimisel õigustatud huvile, kontrollisin seda ka Meta enda käest. Ma nimme ei lisa siia otselinke – sellepärast, et igaüks saaks ise proovida, kui keeruline on Meta-taolise ettevõtte andmetöötluse asjaoludest pilti ette saada. Õiguslike aluste all ongi ootuspäraselt tuginetud õigustatud huvile eesmärgiga pakkuda ja hallata Meta toodetes tehisintellekti tehnoloogiat, mis võimaldab luua tekst-, heli-, pilt- ja videosisu, sealhulgas mõista ja ära tunda funktsioonide sisu kasutamist, ning toetada teadusuuringuid tehisintellekti ja masinõppe valdkondades (mille all on link Meta AI lehele, kus on mh mainitud ka Llama).
Paraku saab seda, kas Meta ikka saab tugineda õigustatud huvile, hinnata üksnes see, kel on võimalus tutvuda Meta õigustatud huvi dokumenteeritud analüüsiga ning andmetöötluse üksikasjadega. Reaalselt on see võimalik vaid andmekaitse järelevalveasutustel. Meta veebilehel avaldatust paistab, et järelevalveasutused selle uurimisega ka tegelevad. Nimelt teatas tuntud privaatsusrühmitus NOYB 2024. a juunis avaldatud teadaandes, et on esitanud 11-le ELi andmekaitse järelevalveasutusele kaebused lõpetamaks Meta poolt tehisintellekti tarbeks isikuandmete kuritarvitamise.
Eelmise aasta lõpul avaldas ELi andmekaitse järelevalveasutuste ühendasutus Euroopa Andmekaitsenõukogu (vastuseks küsimustele Iiri järelevalveasutuselt, kes Metaga seotud kaebusi menetleb) arvamuse tehisintellekti mudelitega seotud isikuandmete töötlemise kohta. See selgitab, kuidas järelevalveasutused peaksid hindama tehisintellekti isikuandmetega treenimist õigustatud huvi alusel. Arvamuses ei välistata ka internetist andmete kogumist (ingl k web scraping), kuid andmekaitsenõukogu plaanib selle kasutamise tingimuste kohta anda täpsemad juhised.
Niisiis, EL alles uurib, kas Meta andmekasutus on ikka seaduslik. Selles valguses tundub mulle ennatlik Metale isikuandmeid sisaldavaid andmestikke pakkuda või lausa üle anda. See oleks sama, kui riik tahaks investeerida krüptorahaga tegelevasse ettevõttesse (kasu paistab ju suur), mille tegevuse seaduslikkust finantsjärelevalveasutus uurib.
Teadlaste ühispöördumises andmekaitset käsitletud ei ole, leitakse, et vaja oleks ühiskondlikku kokkulepet ja et juurdepääsupiiranguga andmeid tuleks võimaldada vaid hoolikal kaalumisel ja valitud osapooltele, kelle tegevusest võrsub Eestile otsest kasu. Leian, et ühiskondlikust kokkuleppest saab hakata rääkima alles pärast seda, kui on selgeks tehtud, kas andmeid kogutakse ja jagatakse seadusega kooskõlas ning et andmete saaja samuti seaduslikult tegutseb.
Lõpetuseks – avalikkuses kuuleb ka pahameelt, et ELi tehisaru arengu surmab ELi regulatsioon (ja juristid on üldse kõiges takistuseks). Erinevalt USAst ja Hiinast tahab EL olla koht, kus inimõigused on kõrgel tasemel kaitstud. See paratamatult tähendab, et siin ei saa teha mida iganes, mis pähe tuleb. Soovides innovatsiooni, ei saa siiski jalge alla trampida inimõigusi ning meie igaühe turvalisust. On ju EL vabadusel, turvalisusel ja õigusel rajanev ala ning sellesse oleme ise soovinud kuuluda. Kunagi kuulusime ühte teise ühendusse, kus inimõigused ei maksnud midagi. Kas tõesti tahame sinna tagasi?