» print this page!
» Follow us on Twitter
» Be our friend on Facebook

Latest News

SeCo Blog

Seco on Twitter

SeCo on Facebook

FinnONTO -- Suomalaiset semanttisen webin ontologiat (2003-2012)

In English

Kohti suomalaista semanttista webiä

Nykyisen webin sisällöt on esitetty muodossa, joka on tarkoitettu ihmisen eikä koneen tulkittavaksi. Esimerkiksi Googlen kaltainen hakukone ei "ymmärrä" web-sivujen sisältöä vaan ainoastaan taulukoi niiden sanoja, tutkii sivujen keskinäisiä linkkejä yms. Jos sivulla on sanat "marja" ja "pyhäjärvi", kone ei esimerkiksi kykene erottamaan, onko sivu Marja Pyhäjärven kirjoittama, kertooko se tällaisesta henkilöstä, onko kyse marjan poiminnasta Pyhäjärvi-nimisellä paikalla, mistä Suomen 49 Pyhäjärvi-nimisestä järvestä on kyse, mitä "marja" (henkilön nimi) ja "järvi" (vesistötyyppi) ylipäänsä tarkoittavat ja mihin ne liittyvät jne. Kun kone ei ymmärrä niitä sisältöjä, joita se käsittelee, on webin tietosisältöjä vaikea yhdistellä sisällöisellä tasolla (semantic interoperability) ja kehittää hyödyllisiä älykkäitä web-palveluita (intelligent web services) kustannustehokkaasti.

Ongelma tiedostettiin WWW:n kansainvälistä kehitystä koordinoivassa W3C-järjestössä jo 1990-luvulla. Ongelman käytännölliseksi ratkaisumalliksi on 2000-luvulla muodostunut semanttinen web. Sen voi mieltää nykyistä webiä täydentäväksi sisällölliseksi metatietokerrokseksi, jonka avulla voidaan kertoa Internetin koneille webin sisältöjen merkitys. Tämä mahdollistaa sisällöllisesti yhteentoimivien järjestelmien kehittämisen ja älykkäiden web-palveluiden toteuttamisen.

Suomalaisen webin ontologiaperustainen sisältöinfrastruktuuri

Suomalaiset semanttisen webin ontologiat (FinnONTO) -projekti 2003-2012 on laaja kansallinen hanke, jonka kunnianhimoisena visiona on kehittää avoin perusta (open source) suomalaisen semanttisen webin infrastruktuurille. Hankkeen teesit voidaan kiteyttää seuraavasti:

  1. Asiasanastoista ontologioihin. Tiedon indeksoinnissa ja asiasanoituksessa pitää siirtyä käyttämään ontologioita nykyisten tesaurusten ja vapaiden kuvailujen sijaan (ks. tarkemmin erillinen artikkeli). Ontologiat määrittelevät kuvailussa käytettävät käsitteet riittävän täsmällisesti tietokoneen ymmärtämällä tavalla, kun taas perinteisissä tesauruksissa sanaston merkityksen tulkinta perustuu osin ihmislukijaan. Keskeinen uusi idea on, että sisällönkuvailussa käytettävien metadatakenttien arvoina voidaan käyttää yksikäsitteisiä viittauksia yhteisissä jaettuissa ontologioissa oleviin käsitteisiin. Ontologioiden kautta muodostuva semanttinen verkottuminen mahdollistaa eri lähteiden tietojen sisällöllisen yhdistelyn ja tietokoneella tehtävän koneellisen päättelyn älykkäissä sovelluksissa.
  2. Kansalliset ontologiapalvelut verkkoon Ontologiat pitää saada kustannustehokkaasti asiakasorganisaatioiden käyttöön keskitettyinä, julkishallinnon ylläpitäminä verkkopalveluina.
  3. Avoimet standardit ja sisällöt. Keskeiset ontologiat ja infrastuktuuriratkaisut pitää julkaista open source ja niiden pitää olla yhteiskunnan ylläpitämiä vastaavaan tapaan kuin esimerkiksi tieverkosto. Tämä maksimoi standardien laaja-alaisen käytön ja yhteentoimivuuden eri sovellusalueilla ja erityisesti näiden välillä, mikä yleensä on erityisen haasteellista käytännön sovelluksissa.
  4. Liiketoiminnan ja julkisten palveluiden edistäminen Kaupalliset sovellukset ja julkisen sektorin verkkopalvelut voidaan toteuttaa kustannustehoikkaimmin yhteisen infrastruktuurin päälle.

Kehitettävää teknologiaa sovelletaan ja testataan FinnONTO:ssa lukuisissa pilottisovelluksissa eri sovellusalueilla (eCulture, eHealth, eLearning, eGovernment ja eCommerce).

FinnONTO-projektin tuloksia

Projektin tuloksia voidaan jaotella seuraavalla tavalla:

1. Keskeisten kansallisten ontologioiden kehittäminen

Visiona on, että Yleinen suomalainen ontologia YSO muodostaa kansallisen semanttisen yläontologian, eräänlaisen "semanttisen liiman", johon alakohtaiset tarkentavat ontologiat linkittyvät ja muodostavat suomalaisten ontologioiden verkoston. YSO perustuu erittäin laajassa käytössä olevaan Kansalliskirjaston Yleiseen suomalaiseen asiasanastoon YSA (n. 23.000 termiä)

YSO:on liittyviä ontologioita ovat mm.: Museoalan ontologia MAO, jonka ensimmäinen versio on ollut vuodesta 2004 käytössä MuseoSuomi-portaalissa, Suomalainen paikkaontologia SUO, henkilöitä, organisaatioita yms. kuvaava toimijaontologia TOIMO, jonka ensimmäistä versiota käytetään niinikään MuseoSuomessa, valokuvausalan ontologia VALO, Muotoilu- ja viestintäalan MUOTO jne. Ontologioiden verkostosta syntyy kansallinen kokonaisontologia KOKO.

2. Ontologioiden kehittämisen ja käytön palvelut

Ontologiapalveluiden kehityskohteena on kansallinen ontologiakirjasto ja -palvelin ONKI. ONKI tarjoaa palvelua kolmelle käyttäjäryhmälle:

  1. Ontologian kehittäjät saavat työvälineen hajautetun ontologiakehityksen koordinoimiseksi ja tueksi. Järjestelmän avulla eri sanastoja kehittävät työryhmät voivat ottaa käyttöönsä toistensa määrittelemiä käsitteitä, hallita ontologioiden versiointia, pysyä ajan tasalla toisten ontologioiden muutoksista jne.
  2. Tiedon indeksoijalle on tarjolla selainperustainen web-palvelu, jolla sisällönkuvailussa tarvittava käsite voidaan vaivattomasti löytää ja siirtää web-palvelun kautta ulkoiseen sovellukseen, esimerkiksi museon luettelointijärjestelmään.
  3. Tiedon hakijalle on tarjolla edellisen kaltainen selainperustainen palvelu, jolla voidaan helposti muodostaa ontologiaperustaisia kyselyjä. Näin voidaan esimerkiksi erottaa hakusanan "Nokia" merkitys yrityksenä ja kuntana tai se, onko "johtamisessa" kyse yrityksen, sähkön, kaavan, vai musiikin johtamisesta. Edelleen voidaan löytää johtamista käsittelevät dokumentit (web-sivut), vaikka niissä puhuttaisiin johtamisesta eri sanoin tai eri kielillä.

3. Työkalut

Hankkeessa kehitetyt työkalut ja palvelut, joita ovat mm.:

  • Semanttisten portaalin toteuttamiseen tarkoitetut hakukoneet ja semanttiset linkittäjät. Esimerkiksi MuseoSuomessa ja monessa muussa portaalissa käytetty Ontogator-fasettihakukone ja Ontodella-suosittelija.
  • Metadatan tuottamisen apuvälineet, kuten Saha-annotaatioeditori ja Poka-käsitetunnistin.
  • Semanttisten portaalien keskinäisen tiedonvälityksen välineet, kuten "leijukkeet".

4. Pilotointi portaalihankkeissa

Ontologioiden käyttö luo uusia liiketoimintamahdollisuuksia ja mahdollistaa arvokkaiden tietosisältöjen aiempaa tehokkaamman hyötykäytön tietoverkoissa. FinnONTO:n infrastruktuuriteknologiaa ja työkaluja sovelletaan useissa case-sovelluksissa ja kansallisten portaalihankkeiden yhteydessä. Portaalihankkeita yhdistää seuraavat keskeiset tavoitteet:

  1. Portaali tarjoaa yhden luukun periaatteella asiakkaalle sisältöä monesta tietolähteestä asiakkaan näkökulmasta mielekkäänä kokonaisuutena.
  2. Asiakkaalle tarjottavat älykkäät palvelut, kuten semanttinen haku ja samoilu, ovat olennaisesti "älykkäämpiä" kuin perinteiseen portaalitekniikkaan perustuvat.
  3. Semanttisen portaali tarjoaa tiedon tuottajille kustannustehokkaan yhteisen julkaisukanavan. Käyttämällä sisällönkuvailussa yhteisesti sovittuja ontologioita ja metadataformaatteja eri toimijoiden tieto voidaan yhdistellä toisiinsa automaattisesti portaalissa.
  4. Kertaalleen tuotettu semanttisen sisältö voidaan käyttää sellaisenaan uudelleen eri sovelluksissa. Ideana on yleistää XML:n ajatus syntaktisesta monikanavajulkaisemisesta semanttiselle tasolle "monisovellusjulkaisemiseen".
Tärkeimpiä FinnONTO:n portaalidemonstraatioita ovat:
  • Museoalan kansainvälisesti ja kotimaassa palkittu MuseoSuomi-portaali.
  • Yleisradio Oy:n Klaffi-portaalin sisällöstä tuotettu, yli 2000 videoklipin ja oppisisällön Orava-portaali, johon on semanttisesti linkitetty MuseoSuomen aineisto, sekä Oravasta edelleen kehitetty Opintie, jossa on mukana myös YLE:n Elävä arkisto sisältöjä.
  • Kulttuurisampo -- suomalainen kulttuuri semanttisessa webissä. MuseoSuomi-järjestämästä edelleen kehitetty Kulttuurisampo-portaali, jonka aineistona ovat esinekokoelmien ohella muukin suomalainen kulttuurisisältö, kuten taide, runot, valokuvat, biografiat, tutkimukset, arkistomateriaalit ja elokuvat.
  • TerveSuomi -- kansallinen terveystiedon semanttinen portaali. TerveSuomi on sosiaali- ja terveysministeriön rahoittama, Kansanterveyslaitoksen koordinoima laaja hanke, jonka semantic web -perustainen konsepti on kehitetty ja toteutettu osana FinnONTO-hanketta.
  • Yhteistyössä Älykkäät web-palvelut -projektin kanssa tuotettu Veturi-portaalidemo (pdf-dokumentti) Fonecta Oy:n 020202.fi -aineistolla (yli 200 000 keltaiset sivut -tyyppistä ilmoitusta ja terveysalan palvelurekisteri).
  • Yhteistyössä Älykkäät web-palvelut -projektin kanssa on myös tuotettu semanttinen Suomi.fi -portaalidemo, joka perustuu valtion julkishallinnon Suomi.fi -portaalin aineistoon.

Artikkeleita ja lisätietoa

Lyhyt suomenkielinen yhteenveto "Semanttinen web kansalliseksi voimavaraksi" FinnONTO:n visiosta ja päätuloksista, ja laajempi artikkeli FinnONTO-malli kansallisen semanttisen webin perustaksi -- visio ja sen toteutus .

Laajempi yleisesitys FinnONTO-hankkeesta kiteyttää projektin vision, tavoitteet ja tuloksia. (Lähde: Proceedings of the First International Semantic Computing Conference (IEEE ICSC 2007), Irvine, California, September, 2007. IEEE Press.)

FinnONTO:n tutkimusartikkeleita liittyen SeCO-ryhmässä tehtyyn tutkimukseen löydät FinnONTO:n englanninkielisiltä kotisivuilta ja SeCo-ryhmän julkaisuluettelosta.

Hankkeen tutkimuskonsortio

Tutkimustahot

Yritykset ja julkishallinnon osallistujat

FinnONTO-projektiin loppuvaiheessa 1.10.2006-31.12.2007 osallistuvat 37 yritystä, ja julkista organisaatiota, tutkimustahot sekä johtoryhmän kokoonpano selviävät yhteistyökumppaniluettelosta (pdf). Hanke on pääosin Tekesin Fenix-ohjelman rahoittama.

/m/fs/seco/www/www.seco.tkk.fi/include/secoweb/utils.php; Tue, 02 Sep 2014 04:11:47 +0000