24.02.2021  - Linnea Melkko -  Analytiikka

Luonnollisen kielen prosessointi edistyy harppauksin

Luonnollisen kielen käsittely (Natural Language Processing, NLP) on ehkä käsitteenä monille hieman vieras, mutta väittäisin, että NLP vaikuttaa tänä päivänä valtaosan suomalaisista arjessa – suorasti tai vähintään epäsuorasti. Siihen ei vain tule kiinnitettyä juuri huomiota.

Kun kirjoitat esimerkiksi nettiselaimen hakukoneeseen pari kirjainta, ja kone pyrkii täydentämään sanan loppuun, olet tekemisissä NLP-ratkaisun kanssa. Asiakaspalvelujen chatbotit, modernit koneelliset kielenkäännösohjelmat, sähköpostin roskapostisuodatin ja erilaiset puheentunnistussovellukset hyödyntävät niin ikään NLP:n menetelmiä ja tekniikoita. Myös esimerkiksi avointen kyselyvastausten analysoimisessa, mainosten kohdentamisessa ja sosiaalisen median datasta tehtävissä analyyseissa on monesti hyödynnetty NLP:n menetelmiä.

Kuluttajille suunnattujen sovellusten lisäksi NLP kasvattaa rooliaan myös liike-elämän arjen ratkaisuissa, jotka esimerkiksi edistävät työntekijöiden tuottavuutta, virtaviivaistavat liiketoiminnan operaatioita tai selkiyttävät liiketoimintakriittisiä prosesseja.

Luonnollisen kielen käsittelyä tarvitaan monenlaisissa tehtävissä

Luonnollisen kielen käsittelyä voi pitää tietojenkäsittelytieteeseen kuuluvan tekoälyn (Artificial Intelligence, AI) kentän yhtenä haarana, ja se nojaa vahvasti myös kieliteknologiaan (aiemmin tietokonelingvistiikka). Luonnollisen kielen käsittely hyödyntää tyypillisesti monenlaisia koneoppimisen ja tilastotieteen menetelmiä ja tekniikoita. NLP:n ideana on mahdollistaa se, että kone pystyy käsittelemään ihmisen luonnollista kieltä kirjoitetussa ja puhutussa muodossa mahdollisimman edistyksellisesti.

Luonnollisen kielen prosessointia tarvitaan siis silloin, kun koneen halutaan käsittelevän tai analysoivan ihmisen luonnollista kieltä. NLP on kehittynyt pitkälle siitä, mitä se oli alkuvaiheessa useita vuosikymmeniä sitten. Tämä kehitys ei rajoitu pelkästään käytettävissä olevien menetelmien laadun ja määrän tai käytettävissä olevien teknologioiden kehittymiseen. Myös potentiaaliset NLP:n sovelluskohteet ovat lisääntyneet ja monipuolistuneet, ja kaupallisia toteutuksia voidaan tehdä aiempaa kustannustehokkaammin.

Ei ole ihme, että luonnollista kieltä halutaan yhä enemmän analysoida koneellisesti. Ilmiön yhtenä selkeänä ajurina on jatkuvasti etenevä digitalisoituminen, joka tietää myös digitaalisten puhe- ja tekstiaineistojen määrän kasvua. Dataa tulee ovista ja ikkunoista, ja sen kaiken datamassan joukosta olisi pyrittävä löytämään ja valjastamaan käyttöön omalle organisaatiolle olennaisin ja arvokkain informaatio.

Suomenkieliseen dataan pureutuminen koneellisesti

Nykyisin puhuttua ja kirjoitettua kieltä voidaan analysoida koneellisesti monin eri menetelmin sekä eri teknologioilla. Olemme toteuttaneet NLP:tä sisältäviä analytiikkaratkaisuja teksti- ja puheaineistoille – myös suomenkielisellä datalla.
Teknologiat ja menetelmät kehittyvät jatkuvasti tälläkin saralla ja onnistuvat yhä paremmin prosessoimaan myös muita kuin valtakieliä. Vaikka suomen kieli on morfologisesti rikas ja voimakkaasti taipuva kieli – lähtökohtaisesti siis melko haastava koneen käsiteltäväksi – olemme onnistuneet prosessoimaan ja analysoimaan suomenkielistä dataa tietyillä teknologioilla varsin hyvin. Eri ohjelmistot kehittyvät eri tahtiin, ja varsinkin suomenkielisen tekstidatan käsittelyssä toiset ohjelmistot ovat tällä hetkellä mahdollisuuksiltaan rajoitetumpia kuin toiset.

Toki haasteitakin koneelliseen teksti- ja puhedatan prosessointiin yhä liittyy. Koneen on esimerkiksi usein vaikea tunnistaa ja analysoida datasta oikein ironiaa, kielikuvia, idiomeja tai homonyymejä. Samoin kirjoitusvirheet, lyhenteet, slangi ja murteet voivat tuottaa haasteita. Pääosin kone taipuu luonnollisen kielen käsittelyyn kuitenkin jo varsin lupaavasti.

Kartuta ymmärrystä lisää

Mikäli aihealue herätti kiinnostusta, kannattaa vilkaista myös muut tekstimme NLP:n hyödyntämisestä. Muissa teksteissämme keskitymme tekstianalytiikkaan. Siitä, mitä hyötyjä luonnollisen kielen prosessointia sisältävät ratkaisut voivat organisaatioille tarjota, löytyy esimerkkejä tästä blogista, jossa aihetta on käsitelty tekstianalytiikan näkökulmasta. Tekstianalytiikasta perusymmärrystä tarjoaa puolestaan esimerkiksi tämä blogi, jossa kerrotaan tekstianalytiikasta yleisesti.