Tutkiminen siitä, miten ihmiskohtaista tietoa voidaan opettaa koneille

Professori Cuenca Grau – pohtiminen tietokaavioista

(Bernardo Cuenca Grau) (16. joulukuuta 2020)

Kuva: Marvin Lagonera sivustossa Unsplash

Viimeisten viidentoista vuoden aikana tekemäni tutkimukset ovat keskittyneet osaamisen esittämiseen ja päättelyyn (KRR) – tekoälyn ja tietojenkäsittelytieteen alueeseen, joka käsittelee ihmistietojen esittämistä symbolisella, koneella tulkittavalla tavalla , ja tämän tiedon tehokkaan manipuloinnin tietokoneohjelmien kanssa yhdessä tietojen kanssa.

Esimerkiksi KRR tutkii tapaa edustaa muodossa, jonka tietokone ymmärtää, kuten ”jokainen kirjoittaja on kirjailija”. ja ”jos henkilö i s syntynyt tietyssä maassa sijaitsevassa kaupungissa, tämä on henkilön syntymämaa. Kun tällaiset tiedot on esitetty yksiselitteisesti sopivalla kielellä (yleensä eräänlaisella muodollisella logiikalla), KRR-järjestelmiä voidaan käyttää tietojen käsittelyyn älykkäämmin.

Esimerkiksi, jos tietomme kertovat meille että Douglas Adams on Cambridgeissa syntynyt näytelmäkirjailija ja Cambridge sijaitsee Isossa-Britanniassa, tietokoneohjelma pystyy automaattisesti päättelemään, että Douglas Adams on Yhdistyneessä kuningaskunnassa syntynyt kirjailija. ”Perustelun” tehtävänä on löytää tämä implisiittinen tieto algoritmisesti nimenomaisesti annetuista tiedoista ja edustetusta toimialatiedosta.

Viime vuosina on ollut valtavasti kiinnostusta kehittää ja ottaa käyttöön tietoturvaohjelmia. kutsutut tietokaaviot – tapa tallentaa tosiasiallista tietoa (tietoja) ja tietoa yhdistettyinä verkkoina (tunnetaan nimellä kaavio, tietojenkäsittelyn ammattikieltä).

Tietokaaviossa dataesitykset esitetään solmuina kaavio, kun taas tietoerien väliset suhteet muodostavat kaavion reunat. Esimerkiksi edellisessä esimerkissämme tietokaaviossa voi olla solmu Douglas Adamsille, solmu Cambridgelle ja reuna, joka on merkitty suhteella syntymäkaupunki, joka yhdistää edellisen jälkimmäiseen.

Kaaviot tarjoavat erittäin joustavan muodon tietojen esittämiselle, mikä on hyvin sopii monenlaisiin sovelluksiin, joissa perinteisiä lähestymistapoja tiedonhallintaan (kuten relaatiotietokantateknologioita) ei voida helposti soveltaa. Sovelluksissa laajasti käytetty tietokaavio on Wikidata , joka koodaa Wikipediassa saatavilla olevat tiedot kaaviona, joka sisältää yli 80 miljoonaa solmua ja noin miljardi reunaa niiden välillä.

Suuret teknologiapelaajat omaksuvat nopeasti tietokaaviot ja käyttävät niitä uusilla ja odottamattomilla tavoilla. Google on kehittänyt tietokaavion, jossa on yli 70 miljardia reunaa ja jota he käyttävät kysymyksiin vastaamiseen verkossa: yritä kirjoittaa Googlessa kysymys, kuten Kuinka pitkä on Eiffel-torni?, Niin saat suoran vastauksen, nimittäin 300 m, 324 m kärkeen , joka on saatu sovittamalla kysymyksesi Googlen tietokaavioon.

Yritykset, kuten Google, tähtäävät korkealle: loppujen lopuksi kaikki inhimilliset viisaudet, kaikki mitä haluat tietää maailmasta (voitko kuvitella?), ovat saatavilla tietokaaviossa käden ulottuvilla, valmiina hyödyntämään innovatiivisia sovelluksia. Eikä vain, että miljoonia tuotteita koskevat tiedot on tallennettu yritysten tietokonekaavioihin, kuten eBay, kaaviot kaikesta mitä voit kuvitella luodaan puoliautomaattisesti verkkosivustoista, tietokannoista ja jopa tekstidokumenteista; DiffBot -nimisellä yrityksellä on tietokaavio, jossa on yli biljoona (kyllä, t) reunaa ja joka päivä lisätään 150 miljoonaa uutta reunaa!

Kuten voidaan helposti kuvitella, tällaisten jättimäisten kaavioiden hallinta ja niiden kysely helposti ja tehokkaasti ei ole helppo tehtävä. Ja tässä tietämyksen esitys- ja päättelytekniikoista voi olla hyötyä.

Lähde: Keble College Review

Oletetaan esimerkiksi, että tietokaaviossamme on noin 5000 näytelmäkirjailijaa, kuten Douglas Adams. Jos haluamme, että ne kaikki ovat kirjoittajia (ja me varmasti teemme!), Meidän on lisättävä selkeät reunat kaavioon, joka yhdistää jokaisen näytelmäkirjailijan solmun solmuun, joka edustaa kaavion ”tekijän” käsitettä; eli 5 000 reunaa lisätään manuaalisesti.

Paitsi, että jos yhtäkkiä huomaamme virheemme tiedoissa (ehkä John Smith ei ole näytelmäkirjailija), meidän on myös poistettava kaikki virheestä riippuvat reunat (että tosiasia, että John Smith on kirjoittaja, mikä oli totta vain siksi, että hänen uskottiin olevan näytelmäkirjailija).

Tätä on melkein mahdotonta hallita käyttäjäpäivitysten kautta tai edes ohjelmallisesti. Paljon mukavampi tapa olisi edustaa sääntöä, jonka mukaan ”jokainen näytelmäkirjailija on kirjailija”; sitten erikoistunut ohjelmisto (perustelija) pystyy tulkitsemaan tämän säännön ja lisäämään ja poistamaan tarvittavat reunat kaaviosta tarvittaessa.

Perustelu automaattisesti tuhansilla säännöillä ja kaavioilla, jotka sisältävät miljardeja reunat on erittäin haastava ongelma sekä tutkimuksen että teknologian näkökulmasta. Itse asiassa se oli huomattavasti yli tekniikan tason vasta noin 10–15 vuotta sitten, jolloin tutkimusjärjestelmät kamppailivat selviytyäkseen kymmeniä tuhansia solmuja sisältävistä kaavioista.

Tilanne on kuitenkin ollut muuttunut dramaattisesti viime vuosina. Meillä on nyt järjestelmiä, jotka voivat palauttaa tulokset monimutkaisiin kyselyihin kaavioiden avulla, jotka sisältävät miljardeja reunoja millisekunteina. Meillä on myös järjestelmiä, jotka pystyvät hallitsemaan ja perustelemaan monimutkaisilla sääntöjoukoilla, jotka on kirjoitettu tehokkailla sääntökielillä, ja pitämään päätelmänsä lennossa, kun tiedot päivitetään kaaviossa.

Yksi näistä järjestelmistä on RDFox – korkean suorituskyvyn tietotaulukko ja päättelymoottori, joka on kehitetty Oxfordin yliopiston tietojenkäsittelytieteen laitoksella ja joka on nyt Oxford Semantic Technologiesin (https://www.oxfordsemantic.tech) kehittämä ja jakelema kaupallinen tuote.

Oxford Semantic Technologiesin perustajana Olen erittäin ylpeä hiljattain saavutetusta – todistaakseni, kuinka huolellisesti harkittu järjestelmä voi perustella ja vastata kyselyihin melkein välittömästi, kun niitä käytetään hienostuneisiin sääntöjoukkoihin ja laajamittaisiin kaavioihin, joissa on kymmeniä miljardeja yhteyksiä. Tiedemiehenä on uskomattoman ilahduttava tunne kokea, kuinka Oxfordin tietoyhteiskunta- ja päättelyryhmässä suoritettua perustavaa laatua olevaa huippututkimusta käyttävät nyt sovellukset, joista voimme vain haaveilla vain muutama vuosi sitten. >

Tietoja kirjoittajasta

Professori Bernardo Cuenca Grau työskentelee Oxfordin yliopistossa tietojenkäsittelytieteen osastolla. Täydellinen elämäkerta on luettavissa artikkelissa (Tutustu perustajien artikkeliin.)

Tietoja artikkelista

Tämä artikkeli julkaistiin alun perin Keble College Review -lehdessä. Kollegion ja kirjailijan lupa julkaista uudelleen Oxford Semantic Technologies Medium Publication -julkaisussa.

Tiimi ja resurssit

Oxford Semantic Technologies -tiimi alkoi työskennellä RDFoxin parissa vuonna 2011. Oxfordin yliopiston tietojenkäsittelytieteen laitoksella vakuuttuneena siitä, että joustava ja korkean suorituskyvyn päättely oli mahdollisuus datanintensiivisiin sovelluksiin vaarantamatta tulosten oikeellisuutta. RDFox on ensimmäinen markkinavalmis tietopiirros, joka on suunniteltu alusta asti perustelut huomioon ottaen. Oxford Semantic Technologies on lanseerattu Oxfordin yliopistosta, ja sitä tukevat johtavat sijoittajat, mukaan lukien Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) ja Oxford Universitys Investment Arm (OUI). Kirjoittaja on ylpeä saadessaan olla tämän tiimin jäsen.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *