Onderzoeken hoe menselijke kennis aan machines kan worden aangeleerd

Professor Cuenca Grau – Reasoning Over Knowledge Graphs

(Bernardo Cuenca Grau) (16 dec.2020)

Foto door Marvin Lagonera op Unsplash

Mijn onderzoek van de afgelopen vijftien jaar heeft zich gericht op Knowledge Representation and Reasoning (KRR) – een gebied van kunstmatige intelligentie en informatica dat zich bezighoudt met de weergave van menselijke kennis op een symbolische, machinaal interpreteerbare manier , en de effectieve manipulatie door computerprogrammas van deze kennis in combinatie met gegevens.

KRR bestudeert bijvoorbeeld de manier om te representeren in een formaat dat een computer uitspraken kan begrijpen zoals elke toneelschrijver is een auteur , en als een persoon i is geboren in een stad in een bepaald land, dan is dit het geboorteland van de persoon ’. Zodra dergelijke informatie ondubbelzinnig is weergegeven in een geschikte taal (meestal een soort formele logica), kunnen KRR-systemen worden gebruikt om gegevens op een intelligentere manier te verwerken.

Bijvoorbeeld, als onze gegevens het ons vertellen dat Douglas Adams een toneelschrijver is die in Cambridge is geboren en Cambridge in het VK is gevestigd, dan zou een computerprogramma automatisch kunnen afleiden dat Douglas Adams een in het VK geboren auteur is. De rol van redeneren is om deze impliciete informatie algoritmisch te achterhalen uit de expliciet gegeven data en de vertegenwoordigde domeinkennis.

De laatste jaren is er een enorme belangstelling voor de ontwikkeling en inzet van so- kennisgrafieken genoemd – een manier om feitelijke informatie (gegevens) en kennis op te slaan als een onderling verbonden netwerk (bekend als een grafiek, in computerwetenschappelijk jargon).

In een kennisgrafiek worden gegevensitems weergegeven als knooppunten in de grafiek, terwijl de relaties tussen data-items de randen van de grafiek vormen. In ons vorige voorbeeld zou een kennisgrafiek bijvoorbeeld een knooppunt kunnen hebben voor Douglas Adams, een knooppunt voor Cambridge, en een rand die is gelabeld met de relatie geboortestad die de eerste aan de laatste koppelt.

Grafieken bieden een zeer flexibele indeling voor het weergeven van gegevens, wat goed is geschikt voor een breed scala aan toepassingen, waar meer traditionele benaderingen van gegevensbeheer (zoals relationele databasetechnologieën) niet gemakkelijk toepasbaar zijn. Een kennisgrafiek die veel wordt gebruikt in toepassingen is Wikidata , die de informatie die beschikbaar is op Wikipedia codeert in een grafiek met meer dan 80 miljoen knooppunten en ongeveer een miljard randen ertussen. / p>

Grote technologiespelers passen kennisgrafieken snel toe en gebruiken ze op nieuwe en onverwachte manieren. Google heeft een kennisgrafiek ontwikkeld met meer dan 70 miljard randen, die ze gebruiken voor het beantwoorden van vragen op internet: probeer een vraag in Google te typen zoals Hoe hoog is de Eiffeltoren? En je krijgt direct antwoord, namelijk 300m, 324m tot aan de tip , die is verkregen door uw vraag te matchen met de kennisgrafiek van Google.

Bedrijven zoals Google mikken hoog: uiteindelijk zal alle menselijke wijsheid, alles wat je misschien wilt weten over de wereld (kun je je voorstellen?) beschikbaar zijn in de kennisgrafiek binnen handbereik, klaar voor gebruik van innovatieve toepassingen. En niet alleen dat, informatie over miljoenen producten wordt opgeslagen in kennisgrafieken door bedrijven zoals eBay, grafieken over alles wat je maar kunt bedenken, worden semi-automatisch gegenereerd op basis van websites, databases en zelfs tekstdocumenten; een bedrijf met de naam DiffBot heeft een kennisgrafiek met meer dan een biljoen (ja, met een t) randen, met dagelijks 150 miljoen nieuwe randen!

Zoals men zich gemakkelijk kan voorstellen, is het beheren van zulke gigantische grafieken en het eenvoudig en efficiënt opvragen ervan geen gemakkelijke taak. En dit is waar Knowledge Representation en Reasoning-technologieën erg nuttig kunnen zijn.

Bron: Keble College Review

Stel je bijvoorbeeld voor dat we ongeveer 5.000 toneelschrijvers zoals Douglas Adams in onze kennisgrafiek hebben. Als we willen dat ze allemaal auteurs zijn (en dat doen we zeker!), Dan zouden we expliciete randen in de grafiek moeten toevoegen die het knooppunt voor elke individuele toneelschrijver verbinden met het knooppunt dat het concept van een ‘auteur’ in de grafiek vertegenwoordigt; dat zijn 5.000 manueel toe te voegen randen.

Niet alleen dat, als we plotseling een fout in onze gegevens opmerken (misschien is John Smith toch geen toneelschrijver), dan moeten we ook alle randen verwijderen die van die fout afhangen (dat is het feit dat John Smith een auteur is, wat alleen waar was omdat men dacht dat hij een toneelschrijver was).

Dit is bijna onmogelijk te beheren via gebruikersupdates, of zelfs programmatisch. Een veel gemakkelijkere manier zou zijn om een ​​regel weer te geven die stelt dat ‘elke toneelschrijver een auteur is’; dan zou een gespecialiseerd stuk software (een redenaar) in staat zijn om deze regel te interpreteren en automatisch de relevante randen aan de grafiek toe te voegen en waar nodig te verwijderen.

Automatisch redeneren met duizenden regels en grafieken met miljarden randen is een zeer uitdagend probleem, zowel vanuit onderzoeks- als technologisch perspectief. In feite was het ongeveer 10-15 jaar geleden veel verder dan de stand van de techniek, toen onderzoekssystemen worstelden met grafieken met tienduizenden knooppunten.

De situatie heeft echter drastisch veranderd in de afgelopen jaren. We hebben nu systemen die resultaten kunnen retourneren voor complexe vragen over grafieken met miljarden randen in milliseconden. We hebben ook systemen die in staat zijn om complexe regelsets die zijn geschreven in krachtige regeltalen te beheren en te redeneren, en om hun gevolgtrekkingen direct te behouden terwijl de gegevens in de grafiek worden bijgewerkt.

Een van die systemen is RDFox – een hoogwaardige kennisgrafiek en redeneerengine die is ontwikkeld aan de afdeling Computerwetenschappen van de Universiteit van Oxford en dat nu een commercieel product is dat is ontwikkeld en gedistribueerd door Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Als medeoprichter van Oxford Semantic Technologies Ben ik erg trots op wat onlangs is bereikt – om te zien hoe een zorgvuldig doordacht systeem vragen bijna onmiddellijk kan redeneren en beantwoorden wanneer het wordt toegepast op geavanceerde regelsets en grootschalige grafieken met tientallen miljarden verbindingen. Als wetenschapper is het een ongelooflijk bevredigend gevoel om te ervaren hoe fundamenteel, baanbrekend onderzoek, uitgevoerd in onze Knowledge Representation and Reasoning Group in Oxford, nu wordt gebruikt door toepassingen waar we een paar jaar geleden alleen maar van konden dromen.

Over de auteur

Professor Bernardo Cuenca Grau is werkzaam aan de Universiteit van Oxford, binnen de afdeling Computerwetenschappen. Lees voor een volledige biografie het (Meet the Founders-artikel.)

Over het artikel

Dit artikel is oorspronkelijk gepubliceerd in de Keble College Review. Toestemming werd gegeven om het artikel opnieuw te publiceren door het College en de auteur op Oxford Semantic Technologies Medium Publication.

Team en middelen

Het team achter Oxford Semantic Technologies begon in 2011 aan RDFox te werken bij de Computer Science Department van de University of Oxford in de overtuiging dat flexibel en krachtig redeneren een mogelijkheid was voor data-intensieve applicaties zonder de juistheid van de resultaten in gevaar te brengen. RDFox is de eerste marktklare kennisgrafiek die vanaf de basis is ontworpen met het oog op redenering. Oxford Semantic Technologies is een spin-out van de Universiteit van Oxford en wordt gesteund door vooraanstaande investeerders, waaronder Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) en de investeringsafdeling van Oxford University (OUI). De auteur is er trots op deel uit te maken van dit team.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *