Lehdistötiedote 2.6.2005
(Heti vapaa julkaistavaksi)

Tietokone oppii sanojen rakenneyksiköt

Maailman kielten runsaus tuottaa suuria ongelmia tietokoneohjelmien laatijoille. Internet-hakukoneet eivät yleensä hallitse vaikkapa suomen kielen taivutusmuotoja, saati yhdyssanoja. Jos etsii Googlesta reseptiä sanalla "raparperipiirakkaresepti" ei löydä dokumentteja, joissa onkin "raparperipiirakan resepti" tai "löysin hyvän raparperipiirakkareseptin".

Teknillisen korkeakoulun Informaatiotekniikan laboratoriossa on kehitetty menetelmä sekä tietokoneohjelma, joka oppii sille annetusta tekstiaineistosta automaattisesti analysoimaan sanojen todennäköisiä rakennuspalikoita. Ohjelmaan ei ole koodattu minkään kielen kielioppia, vaan käytetty menetelmä on oppiva ja täysin tilastollinen. Ohjelmaa on toistaiseksi sovellettu menestyksekkäästi suomen, englannin ja turkin kieliin.

Valtaosalle maailman kielistä ei ole kehitetty edes kielitieteelliseen tietoon pohjautuvia tietokoneohjelmia. Erityisesti näille kielille tämä suoraan tekstistä rakenteita oppiva Morfessor-menetelmä voi olla käänteentekevä ratkaisu.

Esimerkiksi suomenkielisestä aineistoista Morfessor-ohjelma on oppinut, että suomen kielessä "ssa" on todennäköinen pääte, sillä se esiintyy yleisesti monissa sananmuodoissa ja pääasiallisesti sanan loppupäässä (esim. "Sisilia + ssa", "auto + ssa + han"). Kohdatessaan uuden sanan "Kaledoniassa" Morfessor-ohjelma osaa siksi päätellä, että kyse luultavasti on paloista "Kaledonia + ssa".

Kun tietokoneohjelmalla yritetään tunnistaa puhetta, eli muuttaa koneen kuulema äänisignaali tekstiksi, puheentunnistimen on sisällettävä malli sanavalikoimasta, joka saattaa tulla esiin. Suomen kielen sanoilla on aivan liikaa taivutusmuotoja, jotta ne kaikki voitaisiin luetteloida puheentunnistimissa - esimerkiksi verbi voi esiintyä jopa 2000:ssa eri taivutusmuodossa. Kaikkien sananmuotojen luettelo olisi lisäksi vanhentunut jo syntyessään; uusia erikoistermejä ja yhdyssanoja keksitään jatkuvasti, ja yhä uudet vieraskieliset nimet nousevat puheenaiheiksi.

Morfessor-ohjelmalla on jatkuvan suomenkielisen puheen tunnistuksen virheiden määrä saatu putoamaan lähes puoleen verrattuna sanapohjaiseen perusmenetelmään. Lisäksi uutispuhetta tunnistettaessa ohjelmalla on saatu parempia tuloksia kuin kielitieteellistä tietoa käyttävällä käsin ohjelmoidulla menetelmällä. Tämä parannus johtunee siitä, että lingvistisen menetelmän koodaaja ei ole tullut ohjelmoineeksi sinne puheaineistossa esiin tulleita sanoja eri taivutusmuotoineen.

Automaattisen puheentunnistuksen ja Internet-hakukoneiden lisäksi menetelmää voi soveltaa tietokoneavusteiseen tai täysin automaattiseen kielen kääntämiseen sekä kielen oppimisen apuvälineissä.

Morfessor-ohjelman ensimmäinen versio on nyt vapaasti saatavilla Internetistä. Lisäksi ohjelmaa voi kokeilla www-selainta käyttäen mielivaltaisilla suomen ja englannin sanoilla osoitteessa http://www.cis.hut.fi/projects/morpho/

Olet tervetullut kuulemaan lisää aiheesta Espoossa 15.-17.6.2005 järjestettävässä kansainvälisessä AKRR'05-konferenssissa (http://www.cis.hut.fi/AKRR05/). Myös etukäteen tehtävät haastattelut ovat mahdollisia.

Lisätietoja:

Tekn. tri Krista Lagus
Teknillinen korkeakoulu
Informaatiotekniikan laboratorio
p. 09 451 4459 (GSM 040-553 1704)
krista.lagus@hut.fi
http:/www.cis.hut.fi/krista/


Kuva yllä: Joitain esimerkkejä Morfessorin tekemistä analyyseistä suomen ja englannin sanoille. Palaset, jotka Morfessor on arvellut vartaloiksi, on merkitty mustalla, päätteet ovat vihreällä ja etuliitteet violetilla.
[suurempi kuva] [pdf-versio]


Takaisin AKRR'05-tiedotesivulle