Problematika ohranjanja zasebnosti pri podatkovnem rudarjenju dokumentov z občutljivimi podatki

Uporabna informatika Pub Date : 2022-05-04 DOI:10.31449/upinf.vol30.num1.154

Matjaž Kragelj, Mirjana Kljajić Borštnar, Alenka Brezavšček

{"title":"Problematika ohranjanja zasebnosti pri podatkovnem rudarjenju dokumentov z občutljivimi podatki","authors":"Matjaž Kragelj, Mirjana Kljajić Borštnar, Alenka Brezavšček","doi":"10.31449/upinf.vol30.num1.154","DOIUrl":null,"url":null,"abstract":"V prispevku obravnavamo problem, s katerim se soočamo pri uporabi dokumentov, ki poleg vsebinskih podatkov vsebujejo tudi občutljive podatke o posamezniku, ki omogočajo njegovo razkritje tudi, ko to ni zaželeno. Med področja, kjer nastane veliko podatkov te vrste, štejemo zdravstveno varstvo, transport, kazenski pregon in nacionalno varnost, izobraževanje, sodobne internetne storitve, področje sodobnih aplikacijskih ekosistemov, internet stvari, finančni sektor in odprte podatke državne uprave. Cilj je zaščititi zasebnost subjekta ter hkrati zagotoviti kakovostne podatke za nadaljnje poglobljene analize in s tem nudenje novih znanj za naprej. Za reševanje omenjenih izzivov na področju podatkovnega rudarjenja se je razvilo posebno podpodročje, imenovano PPDM – Privacy Preserving Data Mining, ki se ukvarja z ohranjanjem zasebnosti pri tem procesu. Sistematično smo pregledali relevantno literaturo podpodročja PPDM in opisali glavne metode in tehnike. Tehnike PPDM so zasnovane tako, da zagotavljajo določeno raven zasebnosti, obenem pa ohranjajo uporabnost podatkov, da se lahko uporaba še vedno učinkovito izvaja na transformiranih podatkih. Metode, s katerimi dosegamo zaščito posameznika na eni in uporabno vrednost podatkov na drugi strani v grobem delimo na metode razprševanja podatkov, metode izkrivljanja (z uporabo anonimizacije, randomizacije, vrtenja in vnašanjem šuma v podatke) ter metode šifriranja podatkov. Za doseganje višje zaščite lahko uporabimo tudi kombinacije teh metod. Poleg pregleda metod smo podali nekaj praktičnih primerov ter našteli domene oz. področja, kjer se kaže potreba po nadaljnji analizi in ponovni uporabi podatkov, a hkrati potreba po anonimizaciji oz. prikritju lastnika (subjekta) in njegovih podatkov (atributov).","PeriodicalId":393713,"journal":{"name":"Uporabna informatika","volume":"237 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-05-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Uporabna informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31449/upinf.vol30.num1.154","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

V prispevku obravnavamo problem, s katerim se soočamo pri uporabi dokumentov, ki poleg vsebinskih podatkov vsebujejo tudi občutljive podatke o posamezniku, ki omogočajo njegovo razkritje tudi, ko to ni zaželeno. Med področja, kjer nastane veliko podatkov te vrste, štejemo zdravstveno varstvo, transport, kazenski pregon in nacionalno varnost, izobraževanje, sodobne internetne storitve, področje sodobnih aplikacijskih ekosistemov, internet stvari, finančni sektor in odprte podatke državne uprave. Cilj je zaščititi zasebnost subjekta ter hkrati zagotoviti kakovostne podatke za nadaljnje poglobljene analize in s tem nudenje novih znanj za naprej. Za reševanje omenjenih izzivov na področju podatkovnega rudarjenja se je razvilo posebno podpodročje, imenovano PPDM – Privacy Preserving Data Mining, ki se ukvarja z ohranjanjem zasebnosti pri tem procesu. Sistematično smo pregledali relevantno literaturo podpodročja PPDM in opisali glavne metode in tehnike. Tehnike PPDM so zasnovane tako, da zagotavljajo določeno raven zasebnosti, obenem pa ohranjajo uporabnost podatkov, da se lahko uporaba še vedno učinkovito izvaja na transformiranih podatkih. Metode, s katerimi dosegamo zaščito posameznika na eni in uporabno vrednost podatkov na drugi strani v grobem delimo na metode razprševanja podatkov, metode izkrivljanja (z uporabo anonimizacije, randomizacije, vrtenja in vnašanjem šuma v podatke) ter metode šifriranja podatkov. Za doseganje višje zaščite lahko uporabimo tudi kombinacije teh metod. Poleg pregleda metod smo podali nekaj praktičnih primerov ter našteli domene oz. področja, kjer se kaže potreba po nadaljnji analizi in ponovni uporabi podatkov, a hkrati potreba po anonimizaciji oz. prikritju lastnika (subjekta) in njegovih podatkov (atributov).

查看原文