28.12.2017 14.34

Mitä konenäön alueella tapahtui vuonna 2017?

AI
Data-alustat ja raportointi

Vuonna 2017 teknologia-alasta kirjoittava media täyttyi tekoälyhypestä. Jos malttoi katsoa hypen taakse, saattoi kuitenkin nähdä valtavan määrän edistystä erityisesti konenäössä ja vahvistusoppimisessa. Miksi 2017 oli erityisen kiinnostava vuosi työskennellä konenäön parissa?

Google julkaisi hahmontunnistusmallejaan

Heinäkuussa Google julkaisi TensorFlow Object Detection API:n. Nimen perusteella tämän voisi helposti kuvitella olevan SaaS-palvelu hahmontunnistukselle. Kyse on kuitenkin avoimen lähdekoodin ohjelmasta, jolla voi käyttää Googlen hahmontunnistusmalleja joko sellaisenaan tai uudelleenkouluttaa nämä mallit tunnistamaan juuri käyttötapauksellesi olennaiset hahmot, vaikkapa pesukarhut.

Kevyimmät mallit (MobileNet) on tarkoitettu videokuvan prosessointiin reaaliajassa ja raskaammat mallit enemmän tarkkuutta vaativiin käyttötapauksiin. TensorFlow Object Detection API löytyy Githubista.

TensorFlow Object Detection API demo

Hahmontunnistus TensorFlow Object Detection API:lla

Marraskuussa media kirjoitti Googlen tekoälystä, joka kehittää parempia tekoälyjä kuin ihminen. Tuomiopäivän profeetat ennustivat singulariteettia, mutta todellisuudessa kyse on ainoastaan vahvistusoppimisen (reinforcement learning) soveltamisesta uudenlaisten konvoluutioverkkoarkkitehtuurien etsimiseen.

Tutkimusblogissaan Google kuvailee, kuinka AutoML:n avulla löydettiin kaksi uutta topologiaa, joita pinoamalla pystyttiin tuottamaan ennätystarkka hahmontunnistusmalli. Malli nimettiin NASNet:ksi ja julkaistiin osana TensorFlow Object Detection API:a.

Videoanalytiikka-alustoja tuotteistettiin

Vuonna 2017 videomuotoisen sisällön analysointiin ja automaattiseen metadatan tuottamiseen erikoistuneet SaaS-palvelut nousivat pintaan.

Suomalainen Valossa tuli tunnetuksi maailmalla saatuaan Goldman Sachsilta maininnan ”AI company to watch in 2017”. Valossa tekee muun muassa kasvontunnistusta, hahmontunnistusta, puheen ja äänten tunnistusta, asiattoman sisällön suodatusta sekä sisällön automaattista kategorisointia. Valossa tarjoaa myös räätälöityjä videontunnistuspalveluita.

Amazon julkaisi re:Invent-tapahtumassaan Rekognition Video -palvelun, joka täydentää aiempaa ainoastaan staattisiin kuviin keskittynyttä Rekognitionia. Suurin ero Valossaan verrattuna tällä hetkellä lienee Rekognition Videon kyky myös reaaliaikaisen videon analysointiin, mikäli video tuodaan AWS:ään Kinesis Video Streamsin kautta.

Videoanalytiikka-alustat laskevat kynnystä konenäössä alkuun pääsemiselle, mutta rajoittuvat tyypillisesti tunnistamaan vain ennaltamäärättyjä hahmoja. Mikäli käyttötapauksesi vaatii hyvin erityisten hahmojen, vaikkapa viittoma-aakkosten tunnistusta, joudut ainakin vielä vuoden 2018 alussa laittamaan kädet hieman syvemmälle saveen ja rakentamaan mallin itse esimerkiksi edellä mainitulla TensorFlow Object Detection API:lla.

Uusia neuroverkkotyyppejä syntyi

Syväoppimisen (deep learning) tienraivaaja Geoffrey Hinton esitteli lokakuussa uudenlaisen neuroverkkoarkkitehtuurin, niin sanotun kapseliverkon (capsule network). Paperissa Dynamic Routing Between Capsules kuvataan, kuinka kapseliverkolla tuotettiin tähän mennessä paras malli käsinkirjoitettujen numeroiden tunnistamiseen.

Koska kapseliverkko pystyy tunnistamaan kuvista hahmoja riippumatta niiden sijainnista ja asennosta aikaisempia malleja paremmin, tarvitaan mallin kouluttamiseen pienempi määrä dataa. Parannukset tekstintunnistuksen tarkkuudessa ovat pieni edistys tähän verrattuna. Lähitulevaisuudessa nähdään varmasti, miten kapseliverkot soveltuvat numeroita monimutkaisempien hahmojen tunnistukseen.

Mikäli kapseliverkkojen kokeileminen kiinnostaa, sekä Keras-pohjainen versio että puhdas TensorFlow implementaatio löytyvät jo.

Ohjelmallista grafiikan tuottamista tutkittiin

Konenäön ja syväoppimisen käyttötapaukset eivät rajoitu ainoastaan hahmojen tunnistamiseen ja luokitteluun. Näitä tekniikoita voi hyödyntää myös graafisen sisällön muokkaamiseen ja tuottamiseen.

Visuaalinen käännös

Horse to zebra animation

Hevosten muuttaminen seeproiksi CycleGAN:lla. Kuvat Mari Jokelainen

Julkaisussaan Zhu et al. kuvailevat miten ns. GAN:eja (Generative Adversarial Network) voi käyttää visuaalisten ominaisuuksien siirtämiseen kuvasta toiseen. Kesävalokuvat muuttuvat talvivalokuviksi, Monet’n taulut fotorealistisiksi ja hevoset seeproiksi. CycleGAN-algoritmin TensorFlow-implementaatio löytyy Githubista.

Tekstistä kuvaksi

Tekstin muuttaminen puheeksi on ollut mahdollista jo pitkään. Zhang et al. ottavat uudenlaisen lähestymisen ja esittävät, miten tekstimuotoisesta kuvauksesta voidaan syntetisoida fotorealistisia valokuvia käyttämällä kahta pinottua GAN:a.

Kuva: Zhang et al. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

Stage-II rivillä on kuvauksen perusteella tuotettuja kuvia tästä kuvitteellisesta kukasta. Tutkimuspaperi julkaistiin joulukuussa 2016, mutta en voinut vastustaa sen laskemista mukaan. Luonnollisesti StackGAN:n TensorFlow-implementaatio löytyy Githubista.

Konenäkö on jo niin kypsää teknologiaa, että pilottiprojektin voi toteuttaa viikossa tai kahdessa, joskus nopeamminkin. Mikäli aihepiiri kiinnostaa, Loihde Advisory voi auttaa käyttötapausten tunnistamisessa ja validoinnissa, teknologian pilotoinnissa ja laajamittaisempien projektien vetämisessä.

Asko Relas (kirjoittaja työskenteli Loihde Advisorylla joulukuuhun 2018).2