Ricerca di come la conoscenza umana può essere insegnata alle macchine

Pubblicato il

Professor Cuenca Grau – Reasoning Over Knowledge Graphs

(Bernardo Cuenca Grau) (16 dicembre 2020)

Foto di Marvin Lagonera su Unsplash

La mia ricerca negli ultimi quindici anni si è concentrata sulla rappresentazione e il ragionamento della conoscenza (KRR), unarea dellintelligenza artificiale e dellinformatica che si occupa della rappresentazione della conoscenza umana in modo simbolico e interpretabile dalla macchina e lefficace manipolazione da parte dei programmi per computer di questa conoscenza in combinazione con i dati.

Ad esempio, KRR studia il modo di rappresentare in un formato che un computer possa comprendere affermazioni come “ogni drammaturgo è un autore” , e se una persona i s nato in una città situata in un determinato paese, questo è il paese di nascita della persona “. Una volta che tali informazioni sono state rappresentate in modo univoco in un linguaggio appropriato (di solito una sorta di logica formale), i sistemi KRR possono essere utilizzati per elaborare i dati in modo più intelligente.

Ad esempio, se i nostri dati ci dicono che Douglas Adams è un drammaturgo nato a Cambridge e che Cambridge si trova nel Regno Unito, quindi un programma per computer sarebbe in grado di dedurre automaticamente che Douglas Adams è un autore nato nel Regno Unito. Il ruolo del “ragionamento” è scoprire algoritmicamente queste informazioni implicite dai dati esplicitamente forniti e dalla conoscenza del dominio rappresentata.

Negli ultimi anni, cè stato un enorme interesse nello sviluppo e nella distribuzione di chiamati grafici della conoscenza – un modo per memorizzare informazioni fattuali (dati) e conoscenza come una rete interconnessa (nota come grafico, in gergo informatico).

In un grafico della conoscenza, gli elementi di dati sono rappresentati come nodi in il grafico, mentre le relazioni tra gli elementi di dati costituiscono i bordi del grafico. Ad esempio, nel nostro esempio precedente, un grafo della conoscenza potrebbe avere un nodo per Douglas Adams, un nodo per Cambridge e un bordo etichettato con la relazione “città di nascita” che collega il primo al secondo.

I grafici forniscono un formato molto flessibile per rappresentare i dati, che è ben- adatto per unampia gamma di applicazioni, in cui gli approcci più tradizionali alla gestione dei dati (come le tecnologie di database relazionali) non sono facilmente applicabili. Un grafico della conoscenza ampiamente utilizzato nelle applicazioni è Wikidata , che codifica le informazioni disponibili su Wikipedia in un grafico contenente oltre 80 milioni di nodi e circa un miliardo di bordi tra di loro.

I principali attori della tecnologia stanno rapidamente adottando i grafici della conoscenza e li utilizzano in modi nuovi e inaspettati. Google ha sviluppato un grafico della conoscenza con oltre 70 miliardi di bordi, che utilizza per rispondere alle domande sul Web: prova a digitare una domanda su Google come “Quanto è alta la Torre Eiffel?” E otterrai una risposta diretta, ovvero ” 300 m, 324 m alla punta “, che è stato ottenuto abbinando la tua domanda al grafico della conoscenza di Google.

Aziende come Google puntano in alto: in definitiva, tutta la saggezza umana, tutto ciò che potresti voler sapere sul mondo (puoi immaginare?) sarà disponibile nel grafico della conoscenza a portata di mano, pronti per applicazioni innovative da sfruttare. E non solo, le informazioni su milioni di prodotti vengono memorizzate nei grafici della conoscenza da aziende come eBay, i grafici su tutto ciò che puoi immaginare vengono generati in modo semiautomatico da siti Web, database e persino documenti di testo; una società chiamata DiffBot ha un grafico della conoscenza con oltre un trilione di margini (sì, con una “t”), con 150 milioni di nuovi margini aggiunti ogni giorno!

Come si può facilmente immaginare, gestire tali grafici giganteschi e interrogarli in modo semplice ed efficiente non è un compito facile. Ed è qui che le tecnologie di rappresentazione della conoscenza e ragionamento possono essere molto utili.

Fonte: Keble College Review

Ad esempio, immagina di avere circa 5.000 drammaturghi come Douglas Adams nel nostro grafico della conoscenza. Se vogliamo che tutti siano autori (e certamente lo facciamo!), Avremmo bisogno di aggiungere archi espliciti nel grafico che collega il nodo di ogni singolo drammaturgo al nodo che rappresenta il concetto di un “autore” nel grafico; ovvero 5.000 bordi da aggiungere manualmente.

Non solo, se improvvisamente notiamo un errore nei nostri dati (forse “John Smith” non è un drammaturgo, dopotutto), dovremmo anche rimuovere tutti i bordi che dipendono da quellerrore (che è il fatto che “John Smith” è un autore, il che era vero solo perché si credeva che fosse un drammaturgo).

Questo è quasi impossibile da gestire tramite gli aggiornamenti degli utenti, o anche a livello di programmazione. Un modo molto più conveniente sarebbe rappresentare una regola che afferma che “ogni drammaturgo è un autore”; quindi, un software specializzato (un ragionatore) sarebbe in grado di interpretare questa regola e aggiungere e rimuovere automaticamente i bordi pertinenti dal grafico dove appropriato.

Ragionando automaticamente con migliaia di regole e grafici contenenti miliardi di edge è un problema molto impegnativo sia dal punto di vista della ricerca che da quello tecnologico. In effetti, era ben oltre lo stato dellarte solo circa 10-15 anni fa, quando i sistemi di ricerca dovevano lottare per far fronte a grafici contenenti decine di migliaia di nodi.

La situazione, tuttavia, ha è cambiato radicalmente negli ultimi anni. Ora disponiamo di sistemi in grado di restituire risultati a query complesse su grafici contenenti miliardi di bordi in millisecondi. Abbiamo anche sistemi in grado di gestire e ragionare con complessi set di regole scritti in potenti linguaggi di regole e di mantenere le loro inferenze al volo mentre i dati vengono aggiornati nel grafico.

Uno di questi sistemi è RDFox: un knowledge graph e un motore di ragionamento ad alte prestazioni sviluppato presso il Dipartimento di Informatica dellUniversità di Oxford e che ora è un prodotto commerciale sviluppato e distribuito da Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

In qualità di co-fondatore di Oxford Semantic Technologies , Sono molto orgoglioso di ciò che è stato ottenuto di recente: testimoniare come un sistema attentamente studiato possa ragionare e rispondere alle domande quasi istantaneamente quando applicato a sofisticati set di regole e grafici su larga scala con decine di miliardi di connessioni. Come scienziato, è una sensazione incredibilmente gratificante sperimentare come la ricerca fondamentale e allavanguardia, condotta nel nostro Knowledge Representation and Reasoning Group di Oxford, sia ora utilizzata da applicazioni che potevamo solo sognare solo pochi anni fa.

Informazioni sullautore

Il professor Bernardo Cuenca Grau lavora presso lUniversità di Oxford, allinterno del Dipartimento di Informatica. Per una biografia completa, leggi l (articolo Meet the Founders.)

Informazioni sullarticolo

Questo articolo è stato originariamente pubblicato sulla Keble College Review. È stata concessa lautorizzazione a ripubblicare larticolo dal College e autore su Oxford Semantic Technologies Medium Publication.

Team e risorse

Il team dietro Oxford Semantic Technologies ha iniziato a lavorare su RDFox nel 2011 presso il Dipartimento di Informatica dellUniversità di Oxford con la convinzione che un ragionamento flessibile e ad alte prestazioni fosse una possibilità per applicazioni ad alta intensità di dati senza compromettere la correttezza dei risultati. RDFox è il primo knowledge graph pronto per il mercato progettato da zero con in mente il ragionamento. Oxford Semantic Technologies è una spin-out dellUniversità di Oxford ed è sostenuta da investitori leader tra cui Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) e il braccio di investimento dellUniversità di Oxford (OUI). Lautore è orgoglioso di essere un membro di questo team.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *