Undersøgelse af, hvordan menneskelig viden kan læres til maskiner

Professor Cuenca Grau – Ræsonnement over vidensgrafer

(Bernardo Cuenca Grau) (16. december 2020)

Foto af Marvin Lagonera Uplash

Min forskning i de sidste femten år har fokuseret på Knowledge Representation and Reasoning (KRR) – et område inden for kunstig intelligens og datalogi, der beskæftiger sig med repræsentation af menneskelig viden på en symbolsk, maskintolkbar måde , og effektiv manipulation af computerprogrammer af denne viden i kombination med data.

F.eks. studerer KRR måden at repræsentere i et format, som en computer kan forstå udsagn som enhver dramatiker er forfatter , og hvis en person i s født i en by i et givet land, så er dette personens fødeland . Når sådan information er entydigt repræsenteret på et passende sprog (normalt en slags formel logik), kan KRR-systemer derefter bruges til at behandle data på en mere intelligent måde.

For eksempel hvis vores data fortæller os at Douglas Adams er en dramatiker født i Cambridge og Cambridge er placeret i Storbritannien, så ville et computerprogram automatisk kunne udlede, at Douglas Adams er en britisk-født forfatter. Ræsonnementets rolle er at algoritmisk finde ud af denne implicitte information fra de data, der udtrykkeligt er givet, og den repræsenterede domæne viden.

I de senere år har der været en enorm interesse i udvikling og implementering af så- kaldet videngrafer – en måde at lagre faktuel information (data) og viden på som et sammenkoblet netværk (kendt som en graf, i datalogisk jargon).

I en vidensgraf er dataelementer repræsenteret som noder i grafen, mens forholdet mellem dataelementer udgør grafens kanter. For eksempel i et tidligere eksempel kunne en videngraf have en node for Douglas Adams, en node for Cambridge og en kant mærket med forholdet fødeby, der forbinder førstnævnte med sidstnævnte.

Grafer giver et meget fleksibelt format til at repræsentere data, hvilket er godt velegnet til en bred vifte af applikationer, hvor mere traditionelle tilgange til datastyring (såsom relationel databaseteknologi) ikke er let anvendelige. En videngraf, der er meget brugt i applikationer, er Wikidata , som koder de tilgængelige oplysninger på Wikipedia i en graf, der indeholder over 80 millioner noder og ca. en milliard kanter imellem dem.

Store teknologispillere vedtager hurtigt videngrafer og bruger dem på nye og uventede måder. Google har udviklet en videngraf med over 70 milliarder kanter, som de bruger til spørgsmålssvar på Internettet: prøv at skrive et spørgsmål i Google som Hvor høj er Eiffeltårnet?, Og du får et direkte svar, nemlig 300 m, 324 m til tip , som er opnået ved at matche dit spørgsmål til Googles videngraf.

Virksomheder som Google sigter højt: I sidste ende vil al menneskelig visdom, alt hvad du måske vil vide om verden (kan du forestille dig?) være tilgængelig i vidensgrafen lige ved hånden, klar til innovative applikationer at udnytte. Og ikke kun det, at oplysninger om millioner af produkter lagres i videngrafer af virksomheder som eBay, grafer om alt, hvad du kan forestille dig, genereres semi-automatisk fra websteder, databaser og endda tekstdokumenter; et firma kaldet DiffBot har en videngraf med over en billion (ja, med en t) kanter, med 150 millioner nye kanter tilføjet hver dag!

Som man let kan forestille sig, er det ikke en nem opgave at styre sådanne gigantiske grafer og stille spørgsmål til dem let og effektivt. Og det er her teknologierne til vidensrepræsentation og begrundelse kan være meget nyttige.

Kilde: Keble College Review

Forestil dig f.eks., at vi har omkring 5.000 dramatikere som Douglas Adams i vores videngraf. Hvis vi ønsker, at alle skal være forfattere (og det gør vi bestemt!), Bliver vi nødt til at tilføje eksplicitte kanter i grafen, der forbinder noden for hver enkelt dramatiker til noden, der repræsenterer begrebet forfatter i grafen; 5.000 kanter, der skal tilføjes manuelt.

Ikke kun det, hvis vi pludselig bemærker en fejl i vores data (måske er John Smith trods alt ikke en dramatiker), så skulle vi også fjerne alle de kanter, der afhænger af den fejl (det er det faktum, at John Smith er en forfatter, hvilket kun var sandt, fordi han blev anset for at være en dramatiker).

Dette er næsten umuligt at administrere via brugeropdateringer eller endda programmatisk. En meget mere bekvem måde ville være at repræsentere en regel om, at enhver dramatiker er en forfatter; derefter vil et specialiseret stykke software (en begrundelse) være i stand til at fortolke denne regel og automatisk tilføje og fjerne de relevante kanter fra grafen, hvor det er relevant.

Ræsonnement automatisk med tusindvis af regler og grafer, der indeholder milliarder af kanter er et meget udfordrende problem både fra et forsknings- og teknologisk perspektiv. Faktisk var det langt ud over det aktuelle tekniske niveau for cirka 10-15 år siden, hvor forskningssystemer hvor de kæmpede for at klare grafer indeholdende titusinder af noder.

Situationen har dog været ændret sig dramatisk i de senere år. Vi har nu systemer, der kan returnere resultater til komplekse forespørgsler over grafer, der indeholder milliarder kanter i millisekunder. Vi har også systemer, der er i stand til at styre og ræsonnere med komplekse sæt regler skrevet på stærke regelsprog og til at opretholde deres slutninger på farten, da data opdateres i grafen.

Et af disse systemer er RDFox – en højtydende videngraf og resonnementsmotor, der blev udviklet ved University of Oxfords Department of Computer Science, og som nu er et kommercielt produkt udviklet og distribueret af Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Som medstifter af Oxford Semantic Technologies , Jeg er meget stolt af, hvad der er opnået for nylig – at være vidne til, hvordan et nøje gennemtænkt system kan ræsonnere og besvare spørgsmål næsten øjeblikkeligt, når det anvendes til sofistikerede regelsæt og store grafer med titusindvis af milliarder forbindelser. Som videnskabsmand er det en utrolig tilfredsstillende følelse at opleve, hvordan grundlæggende, banebrydende forskning, der udføres i vores vidensrepræsentations- og ræsonnementsgruppe i Oxford, nu bruges af applikationer, som vi kun kunne drømme om for få år siden.

Om forfatteren

Professor Bernardo Cuenca Grau er baseret på University of Oxford inden for datalogisk afdeling. For en komplet biografi bedes du læse (Meet the Founders-artiklen.)

Om artiklen

Denne artikel blev oprindeligt offentliggjort i Keble College Review. Der blev givet tilladelse til at genudgive artiklen af ​​kollegiet og forfatteren om Oxford Semantic Technologies Medium-offentliggørelse.

Team og ressourcer

Holdet bag Oxford Semantic Technologies begyndte at arbejde på RDFox i 2011 ved datalogisk afdeling ved universitetet i Oxford med den overbevisning, at fleksibel og højtydende ræsonnement var en mulighed for dataintensive applikationer uden at bringe rigtigheden af ​​resultaterne i fare. RDFox er den første markedsklare vidensgraf, der er designet fra grunden med ræsonnement i tankerne. Oxford Semantic Technologies er et spin ud af University of Oxford og støttes af førende investorer, herunder Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) og Oxford Universitys investeringsarm (OUI). Forfatteren er stolt over at være medlem af dette team.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *