Forsker på hvordan menneskelig kunnskap kan læres til maskiner

Professor Cuenca Grau – Reasoning Over Knowledge Grafer

(Bernardo Cuenca Grau) (16. desember 2020)

Foto av Marvin Lagonera Unsplash

Forskningen min de siste femten årene har fokusert på kunnskapsrepresentasjon og resonnering (KRR) – et område med kunstig intelligens og datavitenskap som er opptatt av representasjon av menneskelig kunnskap på en symbolsk, maskintolkbar måte , og effektiv manipulering av dataprogrammer av denne kunnskapen i kombinasjon med data.

For eksempel studerer KRR måten å representere i et format som en datamaskin kan forstå utsagn som «hver dramatiker er forfatter» , og hvis en person jeg s født i en by i et gitt land, så er dette personens fødeland . Når slik informasjon entydig er representert på et passende språk (vanligvis en slags formell logikk), kan KRR-systemer deretter brukes til å behandle data på en mer intelligent måte.

For eksempel hvis dataene våre forteller oss at Douglas Adams er en dramatiker født i Cambridge og Cambridge ligger i Storbritannia, vil et dataprogram automatisk kunne utlede at Douglas Adams er en forfatter i England. «Resonnering» har som rolle å algoritmisk finne ut denne implisitte informasjonen fra dataene som er eksplisitt gitt og den representerte domenekunnskapen.

De siste årene har det vært en enorm interesse for utvikling og distribusjon av så- kalt kunnskapsgrafer – en måte å lagre faktainformasjon (data) og kunnskap på som et sammenkoblet nettverk (kjent som en graf, i datavitenskapssjargong).

I en kunnskapsgraf er dataelementer representert som noder i grafen, mens forholdet mellom dataelementene utgjør kantene på grafen. For eksempel, i vårt forrige eksempel, kunne en kunnskapsgraf ha en node for Douglas Adams, en node for Cambridge, og en kant merket med forholdet fødselsby som knytter førstnevnte til sistnevnte.

Grafer gir et veldig fleksibelt format for å representere data, noe som er godt egnet for et bredt spekter av applikasjoner, der mer tradisjonelle tilnærminger til datahåndtering (som relasjonell databaseteknologi) ikke er lett anvendelige. En kunnskapsgraf som er mye brukt i applikasjoner er Wikidata , som koder informasjonen som er tilgjengelig i Wikipedia i en graf som inneholder over 80 millioner noder og omtrent en milliard kanter mellom dem.

Store teknologispillere tar raskt i bruk kunnskapsgrafer og bruker dem på nye og uventede måter. Google har utviklet en kunnskapsgraf med over 70 milliarder kanter, som de bruker til å svare på spørsmål på nettet: prøv å skrive et spørsmål i Google, for eksempel Hvor høy er Eiffeltårnet?, Og du vil få et direkte svar, nemlig 300m, 324m til tipset , som er oppnådd ved å matche spørsmålet ditt til Googles kunnskapsgraf.

Bedrifter som Google satser høyt: til slutt vil all menneskelig visdom, alt du kanskje vil vite om verden (kan du forestille deg deg?) være tilgjengelig i kunnskapsgrafen innen fingertuppene, klare for innovative applikasjoner å utnytte. Og ikke bare det, informasjon om millioner av produkter lagres i kunnskapsgrafer av selskaper som eBay, grafer om alt du kan forestille deg blir generert semi-automatisk fra nettsteder, databaser og til og med tekstdokumenter; et selskap som heter DiffBot har en kunnskapsgraf med over en billion (ja, med en t) kanter, med 150 millioner nye kanter lagt til hver dag!

Som man lett kan forestille seg, er det ikke en enkel oppgave å administrere slike gigantiske grafer og spørre dem enkelt og effektivt. Og det er her teknologier for kunnskapsrepresentasjon og resonnement kan være veldig nyttige.

Kilde: Keble College Review

Tenk deg for eksempel at vi har omtrent 5000 dramatikere som Douglas Adams i vår kunnskapsgraf. Hvis vi vil at alle skal være forfattere (og det gjør vi absolutt!), Må vi legge til eksplisitte kanter i grafen som forbinder noden for hver enkelt dramatiker til noden som representerer begrepet en forfatter i grafen; 5.000 kanter som skal legges til manuelt.

Ikke bare det, hvis vi plutselig oppdager en feil i dataene våre (kanskje John Smith ikke er en dramatiker tross alt), så må vi også fjerne alle kantene som avhenger av den feilen (at er det faktum at John Smith er en forfatter, noe som bare var sant fordi han ble antatt å være dramatiker).

Dette er nesten umulig å administrere via brukeroppdateringer, eller til og med programmatisk. En mye mer praktisk måte ville være å representere en regel som sier at ‘hver dramatiker er en forfatter’; da vil et spesialisert programvare (en resonnement) kunne tolke denne regelen og automatisk legge til og fjerne relevante kanter fra grafen der det er passende.

Resonnerer automatisk med tusenvis av regler og grafer som inneholder milliarder av kanter er et veldig utfordrende problem både fra et forsknings- og teknologisk perspektiv. Faktisk var det langt utenfor den nyeste teknologien for omtrent 10–15 år siden, da forskningssystemer som sliter med å takle grafer som inneholder titusenvis av noder.

Situasjonen har imidlertid hatt endret seg dramatisk de siste årene. Vi har nå systemer som kan gi resultater til komplekse spørsmål over grafer som inneholder milliarder kanter i millisekunder. Vi har også systemer som er i stand til å håndtere og resonnere med komplekse sett med regler skrevet på kraftige regelspråk, og for å opprettholde deres slutninger mens data oppdateres i grafen.

Et av disse systemene er RDFox – en høyytelses kunnskapsgraf og resonnementsmotor som ble utviklet ved University of Oxfords Department of Computer Science og som nå er et kommersielt produkt utviklet og distribuert av Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Som medstifter av Oxford Semantic Technologies , Jeg er veldig stolt av det som nylig er oppnådd – å være vitne til hvordan et nøye gjennomtenkt system kan resonnere og svare på spørsmål nesten øyeblikkelig når det brukes på sofistikerte regelsett og store grafer med titalls milliarder forbindelser. Som forsker er det en utrolig gledelig følelse å oppleve hvordan grunnleggende, banebrytende forskning, utført i vår kunnskapsrepresentasjons- og resonnementsgruppe i Oxford, nå blir brukt av applikasjoner vi bare kunne drømme om for bare noen få år siden.

Om forfatteren

Professor Bernardo Cuenca Grau er basert ved University of Oxford, innenfor datavitenskapelig avdeling. For en fullstendig biografi, vennligst les (Meet the Founders-artikkelen.)

Om artikkelen

Denne artikkelen ble opprinnelig publisert i Keble College Review. Det ble gitt tillatelse til å re-publisere artikkelen av College and Author om Oxford Semantic Technologies Medium Publication.

Team and Resources

Teamet bak Oxford Semantic Technologies begynte å jobbe med RDFox i 2011 ved informatikkavdelingen ved University of Oxford med overbevisningen om at fleksibel og høyytelsesresonnering var en mulighet for datakrevende applikasjoner uten å skade korrektheten av resultatene. RDFox er den første markedsklare kunnskapsgrafen designet fra grunnen av med resonnement i tankene. Oxford Semantic Technologies er et spin ut av University of Oxford og støttes av ledende investorer, inkludert Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) og Oxford Universitys investeringsarm (OUI). Forfatteren er stolt over å være medlem av dette teamet.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *