Forskning om hur mänsklig kunskap kan läras ut till maskiner

Publicerad

Professor Cuenca Grau – Resonera över kunskapsdiagram

(Bernardo Cuenca Grau) (16 dec 2020)

Foto av Marvin Lagonera Unsplash

Min forskning under de senaste femton åren har fokuserat på kunskapsrepresentation och resonemang (KRR) – ett område av artificiell intelligens och datavetenskap som handlar om representation av mänsklig kunskap på ett symboliskt, maskintolkbart sätt , och effektiv manipulation av datorprogram av denna kunskap i kombination med data.

Till exempel studerar KRR hur man representerar i ett format som en dator kan förstå uttalanden som ”varje dramatiker är författare” och om en person i är född i en stad i ett visst land, då är detta personens födelseland . När en sådan information otvetydigt har representerats på ett lämpligt språk (vanligtvis en form av formell logik) kan KRR-system sedan användas för att bearbeta data på ett mer intelligent sätt.

Till exempel om våra data berättar för oss att Douglas Adams är en dramatiker född i Cambridge och Cambridge ligger i Storbritannien, då skulle ett datorprogram automatiskt kunna dra slutsatsen att Douglas Adams är en författare som föds i Storbritannien. ”Resonemangets” roll är att algoritmiskt ta reda på denna implicita information från de data som uttryckligen ges och den representerade domänkunskapen.

De senaste åren har det funnits ett enormt intresse för utveckling och distribution av så- kallas kunskapsdiagram – ett sätt att lagra faktainformation (data) och kunskap som ett sammankopplat nätverk (känt som ett diagram, i datavetenskapligt jargong).

I ett kunskapsdiagram representeras dataposter som noder i grafen, medan förhållandena mellan dataobjekt utgör kanterna på diagrammet. I vårt tidigare exempel kan ett kunskapsdiagram ha en nod för Douglas Adams, en nod för Cambridge och en kant märkt med förhållandet ”födelsestad” som länkar den förra till den senare.

Grafer ger ett mycket flexibelt format för att representera data, vilket är bra lämpar sig för ett brett spektrum av applikationer, där mer traditionella metoder för datahantering (såsom relationsdatabasteknik) inte är lätt att använda. Ett kunskapsdiagram som ofta används i applikationer är Wikidata , som kodar informationen som finns tillgänglig i Wikipedia i en graf som innehåller över 80 miljoner noder och cirka en miljard kanter mellan dem.

Stora teknikaktörer antar snabbt kunskapsdiagram och använder dem på nya och oväntade sätt. Google har utvecklat ett kunskapsdiagram med över 70 miljarder kanter, som de använder för att svara på frågor på nätet: försök att skriva en fråga på Google som ”Hur lång är Eiffeltornet?” Och du får ett direkt svar, nämligen ” 300m, 324m till tipset , som har erhållits genom att matcha din fråga till Googles kunskapsgraf.

Företag som Google siktar högt: i slutändan kommer all mänsklig visdom, allt du kanske vill veta om världen (kan du föreställa dig?) vara tillgänglig i kunskapsdiagrammet nära till hands, redo för innovativa applikationer att utnyttja. Och inte bara det, information om miljontals produkter lagras i kunskapsdiagram av företag som eBay, grafer om allt du kan tänka dig genereras semi-automatiskt från webbplatser, databaser och till och med textdokument; ett företag som heter DiffBot har ett kunskapsdiagram med över en biljon (ja, med en t) kanter, med 150 miljoner nya kanter som läggs till varje dag!

Som man lätt kan föreställa sig är det inte en lätt uppgift att hantera sådana gigantiska grafer och fråga dem enkelt och effektivt. Och det är här teknik för kunskapsrepresentation och resonemang kan vara mycket användbar.

Källa: Keble College Review

Tänk dig till exempel att vi har cirka 5 000 dramatiker som Douglas Adams i vår kunskapsgraf. Om vi ​​vill att alla ska vara författare (och det gör vi verkligen!), Skulle vi behöva lägga till tydliga kanter i grafen som förbinder noden för varje enskild dramatiker till noden som representerar begreppet ”författare” i diagrammet; 5.000 kanter som ska läggas till manuellt.

Inte bara det, om vi plötsligt märker ett misstag i våra uppgifter (kanske John Smith inte är en dramatiker trots allt), så skulle vi också behöva ta bort alla kanter som är beroende av det misstaget (det det faktum att ”John Smith” är en författare, vilket bara var sant eftersom han trodde att han var en dramatiker).

Detta är nästan omöjligt att hantera via användaruppdateringar, eller till och med programmatiskt. Ett mycket bekvämare sätt skulle vara att representera en regel som säger att ”varje dramatiker är en författare”; då skulle en specialiserad mjukvara (ett resonemang) kunna tolka denna regel och automatiskt lägga till och ta bort relevanta kanter från diagrammet där det är lämpligt.

Resonera automatiskt med tusentals regler och diagram som innehåller miljarder kanter är ett mycket utmanande problem både ur forsknings- och teknologiska perspektiv. Det var faktiskt långt bortom det senaste för ungefär 10–15 år sedan, när forskningssystem där man kämpade för att hantera grafer som innehöll tiotusentals noder.

Situationen har dock förändrats dramatiskt de senaste åren. Vi har nu system som kan returnera resultat till komplexa frågor över grafer som innehåller miljarder kanter i millisekunder. Vi har också system som kan hantera och resonera med komplexa uppsättningar regler skrivna på kraftfulla regelspråk och för att behålla sina slutsatser i farten när data uppdateras i diagrammet.

Ett av dessa system är RDFox – en högpresterande kunskapsgraf och resonemangsmotor som utvecklades vid University of Oxfords Department of Computer Science och som nu är en kommersiell produkt utvecklad och distribuerad av Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Som medgrundare av Oxford Semantic Technologies , Jag är väldigt stolt över vad som nyligen har uppnåtts – att bevittna hur ett noggrant genomtänkt system kan resonera och svara på frågor nästan omedelbart när det tillämpas på sofistikerade regeluppsättningar och storskaliga grafer med tiotals miljarder anslutningar. Som forskare är det en otroligt glädjande känsla att uppleva hur grundläggande, banbrytande forskning, som bedrivs i vår kunskapsrepresentations- och resonemangsgrupp i Oxford, nu används av applikationer som vi bara kunde drömma om för bara några år sedan.

Om författaren

Professor Bernardo Cuenca Grau är baserad vid University of Oxford, inom datavetenskapliga avdelningen. För en fullständig bio läs artikeln (Meet the Founders.)

Om artikeln

Denna artikel publicerades ursprungligen i Keble College Review. Tillstånd gavs att ompublicera artikeln av College och författare om Oxford Semantic Technologies Medium Publication.

Team and Resources

Teamet bakom Oxford Semantic Technologies började arbeta på RDFox 2011 vid datavetenskapliga avdelningen vid universitetet i Oxford med övertygelsen om att flexibelt och högpresterande resonemang var en möjlighet för dataintensiva applikationer utan att äventyra resultatens riktighet. RDFox är den första marknadsförda kunskapsgrafen som är designad från grunden med tanke på resonemang. Oxford Semantic Technologies är en utmaning från University of Oxford och stöds av ledande investerare inklusive Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) och Oxford Universitys investeringsarm (OUI). Författaren är stolt över att vara medlem i detta team.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *