Tragedija nekih podatkov

Nevladniki opozarjajo, da potrebujejo podatke v strojno berljivi obliki

Luka Tetičkovič
10. 4. 2021, 19.30
Posodobljeno: 10. 4. 2021, 19.57
Deli članek:

Prostovoljci, ki že eno leto brezplačno opravljajo podatkovne analize za razumevanje epidemije novega koronavirusa, izgubljajo voljo. Mnoge podatke morajo vnašati ročno ali jih pridobivati s pomočjo namensko pisanih programskih skript, saj jim jih javne institucije ne posredujejo v strojno berljivi obliki.

Sašo Švigelj
Analize podatkov za stroko niso zalogaj, če jih krmimo z berljivimi podatki. Ko pa ti niso strojno berljivi, vnašanje terja veliko rigoroznega dela.

Slovenska javnost in mediji smo se preteklo leto epidemije zanašali na analitično orodje Covid-19 Sledilnik, ki ga upravlja ekipa prostovoljcev, ki za svoje delo ne prejemajo davkoplačevalskih sredstev. Kljub temu njihovo delo ni samoumevno.

To, da so prostovoljci, ni problem, pravijo, problem je, da jim javne institucije povzročajo dvojno delo, ko jim javno dostopnih podatkov ne posredujejo v tabelah Excel, ampak jih zaklenejo v strojno neberljivo obliko dokumenta, praviloma v datoteko s končnico PDF.

V preteklosti so v ekipi Covid-19 Sledilnika našli elan in čas, da so te podatke v svoj podatkovni sistem vnašali ročno ali pisali namenske programske skripte. Mukotrpnemu delu bi se dalo izogniti, če bi jim institucije podatke posredovale v strojno berljivi obliki, v kakršni so že vodeni. Poleg tega bi podatke morali redno posredovati vsaj enkrat do dvakrat na teden, če ne celo vsak dan.

Katerih podatkov nimajo?

Nevladniki iz Covid-19 Sledilnika so s svojo storitvijo podatkovne analize vskočili tam, kjer jih javne institucije niso pripravile. Zavedajo se, da javne institucije za to morda nimajo znanja in kadra, vendar bi lahko odprle podatke, ki jim nevladniki lahko dodajo vrednost s ponovno uporabo.

Covid-19 Sledilnik je zato 4. marca opozorilno zatemnil svojo spletno stran. V ažurni, strojno berljivi obliki bi si želeli podatke o vseh testiranih s hitrimi antigenskimi testi in PCR-testi glede na različne kategorije, od datuma, starostne skupine, spola, občine, tipa testa in odvzemnega mesta pa vse do razloga testiranja – ali je bil opravljen zaradi simptomov ali ne, ali je šlo zgolj za presejalni test ...

Želeli bi si tudi podatke o novih različicah virusa v obliki dnevnih podatkov o številu pojavitev določene različice po občinah in dnevne podatke o deležu sekvencioniranih vzorcev novih tipov virusa.

Katerih podatkov ne morejo obdelovati?

Drugo poglavje so podatki, ki so sicer na voljo v javni domeni, a ne na način, da bi se jih dalo preprosto strojno prebrati. Gre za podatke o hospitaliziranih po starostnih skupinah, ki jih vodi Nacionalni inštitut za javno zdravje (NIJZ). Ti podatki so pomembni za razumevanje vpliva precepljenosti med rizičnimi skupinami na število hospitalizacij. Več starejših ko je cepljenih, manj jih je hospitaliziranih, ti podatki bi se izkazali za še posebej koristne v naslednjih mesecih.

Pogrešajo tudi podatke o cepljenih, razvrščene po starostnih skupinah, spolu in regiji. Tudi ti podatki so so bili tedensko na voljo v obliki poročila PDF, zdaj pa se dnevno ažurirajo na novi interaktivni spletni strani, kjer pa ni možnosti izvoza podatkov. Na podoben način pogrešajo podatke o stranskih učinkih cepiv.

Covid-19 Sledilnik
Spletna stran Covid-19 Sledilnik, s katero lahko spremljamo potek epidemije kot jo beležijo podatki, ni samoumevna.

Katere podatke so imeli, pa jih nimajo več?

Od vzpostavitve interaktivnega pregleda cepljenj je NIJZ iz svojega dnevnega poročila umaknil tabelo o številu cepljenih oseb, zato so na Covid-19 Sledilniku morali umakniti graf, ki je prikazoval te podatke.

Ko je za karantene še skrbel NIJZ, je podatke o številu izdanih predlogov za karanteno na tedenski osnovi objavljal v poročilu. To so nehali objavljati, odkar ni več epidemiološkega sledenja rizičnih kontaktov in se predlogi za karanteno ne izdajajo prek NIJZ. Karantene se zdaj odrejajo le še na državni meji, za kar je pristojno ministrstvo za notranje zadeve, in v obliki potrdil o karanteni, za katera zaprosi posameznik in jih izdaja ministrstvo za javno upravo (MJU). Te podatke bi v ekipi Covid-19 Sledilnika potrebovali, da bi pripravljali ažurne analize o tem, v kakšni meri prebivalstvo ostaja v karanteni.

Sledilnik je moral ugasniti tudi prikaz podatkov o umrlih po občinah, saj NIJZ tovrstna poročila objavlja le še na ravni regije. Podobna zgodba je s potrjenimi primeri novega koronavirusa v domovih starejših občanov, te podatke so prejemali do lanskega oktobra.

Nehali so prejemati tudi podatke iz posameznih PCR-laboratorijev o številu testiranih in potrjenih primerov. Enaka zgodba je s testi, potrjenimi primeri in karantenami po zdravstvenih domovih. Ti podatki se od konca oktobra ne zbirajo več pri ministrstvu za zdravje, dajali pa so vpogled v nove izbruhe koronavirusa v določenih občinah.

NIJZ: Imamo kadrovske in finančne težave

S prošnjo za komentar smo se obrnili na NIJZ, kjer so pojasnili, da podatke objavljajo na način, kot so ga glede na svoje omejene kadrovske, infrastrukturne in finančne kapacitete zmožni dnevno pripravljati.

»Objava in obdelava podatkov namreč predstavlja le del nalog v povezavi s podatki. NIJZ je v v preteklem letu naredil zelo veliko, da je izboljšal kakovost pridobljenih podatkov, hkrati smo naredili veliko aktivnosti v povezavi s pridobivanjem teh podatkov, tako da smo nekatere procese digitalizirali in delno tudi avtomatizirali. Ta proces še poteka in na nekaterih področjih tako še ni končan, da bi lahko tudi druge podatke v povezavi s covidom-19 pripravljali v obliki in na način, kot smo za zdaj lahko naredili za podatke o cepljenju in so dostopni prek cepimose.si,« so pojasnili.

»Vsekakor pa brez kakovostnih podatkov, ki se ves čas preverjajo, ni mogoče pripravljati kakovostnih analiz in sodobnih načinov prikazovanja le teh,« se načeloma strinjajo pri NIJZ. V svoj odgovor niso vključili informacije, kdaj so si zastavili rok, da bodo podatki, ki jih pogrešajo pri Covid-19 Sledilniku, temu na voljo.

Dobre prakse na MJU, MIZŠ in NIB

Seveda pa ni vse črno, so nas opozorili v ekipi Covid-19 Sledilnika. Izpostavili so dobre prakse MJU in ministrstva za izobraževanje, znanost in šport (MIZŠ). Posluh je namreč pokazal minister Boštjan Koritnik, minister za javno upravo, ki naj bi več ministrstvom podal pobudo, naj podatke odprejo, da jih bodo lahko obdelovali tudi nevladniki. Vendar naj bi se po nekaj sestankih zadeva ustavila. MJU smo prosili za komentar – zakaj, kje in kako – vendar ga do zaključka redakcije nismo prejeli.

Pri Covid-19 Sledilniku so zadovoljni tudi z odzivom MIZŠ, ki podatke o okužbah in karantenah v vzgoji in izobraževanju po posredovanju MJU redno objavlja na nacionalnem portalu odprtih podatkov OPSI. Podatki so strojno berljivi in primerni za avtomatsko obdelavo.

Posluh za podatkovne analize imajo tudi na Nacionalnem inštitutu za biologijo (NIB), kjer podatke o prisotnosti koronavirusa v odpadnih vodah sedmih čistilnih naprav redno in v primerni obliki posredujejo javnosti. Dobra praksa so tudi dnevna in tedenska epidemiološka poročila NIJZ, ki so posredovana v zapisu Excel in omogočajo preprosto strojno obdelavo.

Država bi lahko pokazala več posluha za podatkovne analize

Kot rečeno je ekipa Covid-19 Sledilnika skupina prostovoljnih strokovnjakov, ki za svoje delo niso plačani. Sprašujejo se, kako dolgo je takšno stanje še vzdržno. Verjetno bi bilo razumneje njihovo delo profesionalizirati in vzpostaviti projektno skupino, katere profesionalno delo bi bilo tudi primerno cenjeno.