Recherche de la manière dont la connaissance humaine peut être enseignée aux machines

Professeur Cuenca Grau – Raisonnement sur les graphiques de connaissances

(Bernardo Cuenca Grau) (16 décembre 2020)

Photo de Marvin Lagonera sur Unsplash

Mes recherches au cours des quinze dernières années se sont concentrées sur la représentation et le raisonnement des connaissances (KRR) – un domaine de lintelligence artificielle et de linformatique concerné par la représentation des connaissances humaines de manière symbolique et interprétable par machine , et la manipulation efficace par des programmes informatiques de ces connaissances en combinaison avec des données.

Par exemple, KRR étudie la manière de représenter dans un format quun ordinateur peut comprendre des déclarations telles que «chaque dramaturge est un auteur» , et si une personne i est né dans une ville située dans un pays donné, alors c’est le pays de naissance de la personne ». Une fois que ces informations ont été représentées sans ambiguïté dans un langage approprié (généralement une sorte de logique formelle), les systèmes KRR peuvent alors être utilisés pour traiter les données de manière plus intelligente.

Par exemple, si nos données nous le disent que Douglas Adams est un dramaturge né à Cambridge et que Cambridge est situé au Royaume-Uni, alors un programme informatique serait en mesure de déduire automatiquement que Douglas Adams est un auteur né au Royaume-Uni. Le rôle du «raisonnement» est de trouver algorithmiquement cette information implicite à partir des données explicitement données et de la connaissance du domaine représenté.

Ces dernières années, il y a eu un énorme intérêt pour le développement et le déploiement de so- appelés graphes de connaissances – un moyen de stocker des informations factuelles (données) et des connaissances sous forme de réseau interconnecté (appelé graphe, dans le jargon informatique).

Dans un graphe de connaissances, les éléments de données sont représentés sous forme de nœuds dans le graphe, tandis que les relations entre les éléments de données constituent les arêtes du graphe. Par exemple, dans notre exemple précédent, un graphe de connaissances pourrait avoir un nœud pour Douglas Adams, un nœud pour Cambridge, et une arête étiquetée avec la relation «ville de naissance» reliant la première à la seconde.

Les graphiques fournissent un format très flexible pour représenter les données, ce qui est bien- convient à un large éventail dapplications, où les approches plus traditionnelles de la gestion des données (telles que les technologies de bases de données relationnelles) ne sont pas facilement applicables. Un graphe de connaissances largement utilisé dans les applications est Wikidata , qui encode les informations disponibles sur Wikipedia dans un graphe contenant plus de 80 millions de nœuds et environ un milliard darêtes entre eux.

Les principaux acteurs technologiques adoptent rapidement les graphiques de connaissances et les utilisent de manière nouvelle et inattendue. Google a développé un graphe de connaissances avec plus de 70 milliards darêtes, quils utilisent pour répondre aux questions sur le Web: essayez de taper une question dans Google telle que «  Quelle est la hauteur de la tour Eiffel? Et vous obtiendrez une réponse directe, à savoir «  300m, 324m jusquà la pointe , qui a été obtenue en faisant correspondre votre question au graphique de connaissances de Google.

Des entreprises comme Google visent haut: en fin de compte, toute la sagesse humaine, tout ce que vous voudrez peut-être savoir sur le monde (pouvez-vous imaginer?) sera disponible dans le graphe de connaissances à portée de main, prêt pour des applications innovantes à exploiter. Et non seulement cela, des informations sur des millions de produits sont stockées dans des graphiques de connaissances par des entreprises comme eBay, des graphiques sur tout ce que vous pouvez imaginer sont générés semi-automatiquement à partir de sites Web, de bases de données et même de documents texte; une société appelée DiffBot a un graphe de connaissances avec plus dun billion darêtes (oui, avec un t), avec 150 millions de nouvelles arêtes ajoutées chaque jour!

Comme on peut facilement limaginer, gérer de tels graphes gigantesques et les interroger facilement et efficacement nest pas une tâche facile. Et cest là que les technologies de représentation des connaissances et de raisonnement peuvent être très utiles.

Source: Keble College Review

Par exemple, imaginons que nous ayons environ 5 000 dramaturges comme Douglas Adams dans notre graphe de connaissances. Si nous voulons qu’ils soient tous des auteurs (et nous le faisons certainement!), Nous aurions besoin d’ajouter des arêtes explicites dans le graphe reliant le nœud de chaque dramaturge individuel au nœud représentant le concept «d’auteur» dans le graphique; soit 5 000 arêtes à ajouter manuellement.

Non seulement cela, si tout à coup nous remarquons une erreur dans nos données (peut-être que John Smith nest pas un dramaturge après tout), nous devrons également supprimer tous les bords qui dépendent de cette erreur (que est, le fait que «John Smith» est un auteur, ce qui nétait vrai que parce quon le croyait être un dramaturge).

Cest presque impossible à gérer via les mises à jour des utilisateurs, ou même par programmation. Une manière beaucoup plus pratique serait de représenter une règle stipulant que «tout auteur dramatique est un auteur»; ensuite, un logiciel spécialisé (un raisonneur) serait capable dinterpréter cette règle et dajouter et de supprimer automatiquement les arêtes pertinentes du graphique le cas échéant.

Raisonner automatiquement avec des milliers de règles et de graphiques contenant des milliards de bords est un problème très difficile à la fois du point de vue de la recherche et de la technologie. En fait, cétait bien au-delà de létat de la technique il y a à peine 10 à 15 ans, lorsque les systèmes de recherche avaient du mal à gérer des graphiques contenant des dizaines de milliers de nœuds.

La situation, cependant, a changé radicalement ces dernières années. Nous avons maintenant des systèmes qui peuvent renvoyer des résultats à des requêtes complexes sur des graphiques contenant des milliards darêtes en millisecondes. Nous avons également des systèmes capables de gérer et de raisonner avec des ensembles complexes de règles écrites dans de puissants langages de règles, et de maintenir leurs inférences à la volée lorsque les données sont mises à jour dans le graphique.

Lun de ces systèmes est RDFox – un graphe de connaissances et un moteur de raisonnement haute performance qui a été développé au département dinformatique de lUniversité dOxford et qui est maintenant un produit commercial développé et distribué par Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

En tant que co-fondateur dOxford Semantic Technologies , Je suis très fier de ce qui a été récemment accompli – voir comment un système soigneusement pensé peut raisonner et répondre à des requêtes presque instantanément lorsquil est appliqué à des ensembles de règles sophistiqués et à des graphiques à grande échelle avec des dizaines de milliards de connexions. En tant que scientifique, cest un sentiment incroyablement gratifiant de constater à quel point la recherche fondamentale et de pointe, menée dans notre groupe de représentation et de raisonnement des connaissances à Oxford, est désormais utilisée par des applications dont nous ne pouvions rêver quil y a quelques années.

À propos de lauteur

Le professeur Bernardo Cuenca Grau est basé à lUniversité dOxford, au sein du département dinformatique. Pour une biographie complète, veuillez lire larticle (Rencontrez les fondateurs.)

À propos de larticle

Cet article a été initialement publié dans Keble College Review. La permission a été donnée de republier larticle du College and Author sur Oxford Semantic Technologies Medium Publication.

Équipe et ressources

Léquipe derrière Oxford Semantic Technologies a commencé à travailler sur RDFox en 2011 au département dinformatique de lUniversité dOxford avec la conviction quun raisonnement flexible et performant était une possibilité pour des applications gourmandes en données sans compromettre lexactitude des résultats. RDFox est le premier graphe de connaissances prêt pour le marché conçu à partir de zéro avec le raisonnement à lesprit. Oxford Semantic Technologies est une spin-out de l’Université d’Oxford et est soutenue par des investisseurs de premier plan, notamment Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) et la branche d’investissement de l’Université d’Oxford (OUI). Lauteur est fier de faire partie de cette équipe.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *