Blogi

2.10.2023 12.50

ChatGPT:n hyödyntäminen metatietojen tuottamisessa

  • AI
  • Datan hallinta ja laatu

Nopeasti kehittyvässä tietomaailmassa metatiedon – valtavia tietokokonaisuuksia kuvaavan kerroksen – merkitystä ei voi liioitella. Se tekee tiedosta ymmärrettävää, haettavissa olevaa ja toimivaa. Metatiedon tuottaminen vaatii kuitenkin usein huomattavaa manuaalista työtä. Nyt on vuorossa ChatGPT 4, OpenAI:n uusin kielimalli, jota käytimme kokeilussa, jonka tarkoituksena oli automatisoida metatietojen tuottaminen ja selvittää kuinka paljon metatiedosta voitaisiin luoda GPT:n ja muiden menetelmien kanssa automaattisesti itse tietolähteestä ja ilman ihmisen vuorovaikutusta.

Lähtökohdat: DCAT-standardi

Kokeilumme kehyksessä nojasimme DCAT-standardiin (Data Catalog Vocabulary). W3C:n tunnustama DCAT on datan luetteloinnin keskeinen standardi, joka tarjoaa jäsennellyn lähestymistavan tietokokonaisuuksien kuvaamiseen. Tällä valinnalla varmistettiin, että metatietotuotoksemme olisivat datayhteisössä laajalti hyväksyttyjen standardien mukaisia.

Datan leikkikenttä: Monipuoliset tietokokonaisuudet Barcelonasta

Barcelonassa, joka tunnetaan arkkitehtonisista ihmeistään ja elävästä kulttuuristaan, on myös avoimen datan kultakaivos. Valitsimme kaupungin tietokannoista monipuolisen valikoiman, joka sisälsi tilastoja sähkönkulutuksesta ja tietoja kunnallisista aurinkosähköasennuksista. Nämä tietokokonaisuudet, jotka ovat pääasiassa CSV- ja JSON-muodossa, tarjosivat monipuolisen leikkikentän metatietojen tuottamiskokeilullemme.

Metatiedon tuottamisen kolmiportainen lähestymistapa

Automaattinen poiminta:

Otsikon päättely: Tiedostojen nimet antavat usein viitteitä niiden sisällöstä. Hyödynsimme tätä ja muutimme tiedostonimet tietokokonaisuuksien otsikoiksi.

Avainsanojen kerääminen: CSV-tiedostojen sarakeotsikot ja JSON-tiedostojen ylimmän tason avaimet louhittiin alkuperäisiksi avainsanoiksi.

Aikaleimat metatietona: Vaikka tiedostojen viimeisin muutospäivämäärä on ehkä unohdettu, se voi olla tärkeä metatiedon osa, etenkin kun seurataan tietokokonaisuuksien päivityksiä.

ChatGPT:n maaginen kosketus:

Alustavat avainsanat käsissämme käännyimme ChatGPT:n puoleen. Valtavilla tekstimäärillä koulutettu malli antoi lisää avainsanaehdotuksia, jotka antoivat metatietoihin syvyyttä ja kontekstia. Saimme luotua metatietotekstiä joka oli ihmisluettavaa ja hyödyllistä. Kykenimme tuottamaan suurimman osan tarvittavista tiedoista DCAT formaattia varten.

Inhimilliset kosketuspinnat:

Mikään tekoäly, vaikka se olisi kuinka kehittynyt, ei voi täysin korvata ihmisen roolia. Määritimme metatietojen tuottamisprosessissa kohtia, joissa ihmisen asiantuntemus olisi hyödyllistä. Esimerkiksi tietokokonaisuuksien kuvaus on edelleen alue, jossa ihmisen näkemys on vertaansa vailla. Tosin, koska kokeemme oli pienimuotoinen, emmekä käyttäneet tilastollisesti merkittävää otantaa ei voida vielä sulkea pois sitä, että kielimallit kykenesivät toteuttamaan suurimman osan myös kuvauksesta, jos olemassa olevia esimerkkejä on vain tarpeeksi ja käsittelyhistoria tallennetaan tai kielimallia koulutetaan erityisesti metadatan luomista varten.

Tulokset ja pohdinnat

CSV-tietoaineistomme käsiteltiin saumattomasti. Otsikot, avainsanat ja muutospäivämäärät poimittiin tarkasti. ChatGPT:n ehdotukset rikastuttivat avainsanajoukkoamme ja tarjosivat kokonaisvaltaisemman näkymän tietokokonaisuuksien sisällöstä. Saimme ChatGPT:n avulla luotua miltein kaikki keskeisimmät metatiedot, joita DCAT standardi edellyttää. Koe osoittaa, että loppujen lopuksi, voidaan interaktiivisella käyttöliittymällä, GPT-mallin ja ihmisen avulla saada kaikki tarvittavat DCAT standardin vaatimat metatiedot syötettyä helposti ja yksinkertaisesti.

Matka ei kuitenkaan sujunut ilman kuoppia. Eräässä JSON-tiedostossa oli koodaushaasteita, mikä oli selkeä muistutus siitä, että reaalimaailman datassa on usein omat oikkunsa. Lisäksi tietyt metatietoattribuutit, kuten kuvaukset, eivät olleet automatisoitavissa. Tämä korostaa tärkeää opetusta: vaikka automaatio voi virtaviivaistaa prosesseja merkittävästi, ihmisen asiantuntemus on edelleen korvaamaton tietyillä aloilla.

Loppuhuomioita

Tämä kokeilu valotti kehittyneiden tekoälymallien ja metatietojen tuottamisen välistä synergiaa. ChatGPT:n kaltaiset työkalut voivat antaa merkittävän sysäyksen, mutta ne toimivat parhaiten yhdessä ihmisen asiantuntemuksen kanssa. Koska tuotamme jatkuvasti valtavia määriä tietoa ja olemme riippuvaisia siitä, tällaiset kokeet tasoittavat tietä tehokkaammille, tarkemmille ja kattavammille metatietojen tuottamisprosesseille.

Tämä kirjoitus liittyy DataMUST-hankkeeseen (Data Marketplace for Sustainable Cities). Hankkeessa tutkitaan edellytyksiä älykkään datamarkkinapaikan syntymiselle, jonka avulla voidaan parantaa datan kestävää jakamista ja hyödyntämistä, jotka tukevat älykkäiden kaupunkien hiilineutraaliustavoitteiden saavuttamista. Erityisenä painopisteinä reunalaskenta ja generatiivisen tekoälyn hyödyntäminen sekä datan energiatahokas käsittely.  Lisäksi tutkimusprojektin tavoitteena on vahvistaa suomalaisten yritysten asemaa globaaleilla datamarkkinoilla. Kaksivuotisen Co-innovation-yhteishankkeen päärahoittaja on Business Finland.

Tämän blogikirjoituksen on kirjoittanut Loihde Advancen Consultant, Juuso Salmu.

Pidätkö lukemastasi? Tilaa blogitekstimme meiliisi.