Cercetarea modului în care cunoștințele umane pot fi predate mașinilor

Professor Cuenca Grau – Reasoning Over Knowledge Graphs

(Bernardo Cuenca Grau) (16 dec. 2020)

Fotografie de Marvin Lagonera pe Unsplash

Cercetările mele din ultimii cincisprezece ani s-au concentrat pe reprezentarea și raționamentul cunoașterii (KRR) – un domeniu al inteligenței artificiale și al științei computerelor, preocupat de reprezentarea cunoștințelor umane într-un mod simbolic, interpretabil prin mașini , și manipularea eficientă a acestor cunoștințe de către programele de computer în combinație cu datele.

De exemplu, KRR studiază modul de a reprezenta într-un format pe care un computer poate înțelege afirmații precum „fiecare dramaturg este autor”. , și „dacă o persoană i s-a născut într-un oraș situat într-o anumită țară, atunci aceasta este țara de naștere a persoanei ”. Odată ce astfel de informații au fost reprezentate fără echivoc într-un limbaj adecvat (de obicei un fel de logică formală), sistemele KRR pot fi apoi utilizate pentru procesarea datelor într-un mod mai inteligent.

De exemplu, dacă datele noastre ne spun că Douglas Adams este un dramaturg născut în Cambridge și Cambridge se află în Marea Britanie, atunci un program de computer ar putea deduce automat că Douglas Adams este un autor născut în Marea Britanie. Rolul „raționamentului” este de a afla din punct de vedere algoritmic aceste informații implicite din datele oferite în mod explicit și din cunoștințele de domeniu reprezentate.

În ultimii ani, a existat un interes enorm pentru dezvoltarea și implementarea numite grafice de cunoaștere – o modalitate de a stoca informații (date) și cunoștințe factuale ca o rețea interconectată (cunoscută sub numele de grafic, în jargonul de informatică).

Într-un grafic de cunoștințe, elementele de date sunt reprezentate ca noduri în graficul, în timp ce relațiile dintre elementele de date constituie marginile graficului. De exemplu, în exemplul nostru anterior, un grafic de cunoștințe ar putea avea un nod pentru Douglas Adams, un nod pentru Cambridge și o margine etichetată cu relația „orașul nașterii” care îl leagă pe primul de cel din urmă.

Graficele oferă un format foarte flexibil pentru reprezentarea datelor, care este bine- potrivit pentru o gamă largă de aplicații, în care abordările mai tradiționale ale gestionării datelor (cum ar fi tehnologiile de baze de date relaționale) nu se aplică cu ușurință. Un grafic de cunoștințe utilizat pe scară largă în aplicații este Wikidata , care codifică informațiile disponibile în Wikipedia într-un grafic care conține peste 80 de milioane de noduri și aproximativ un miliard de margini între ele.

Principalii jucători de tehnologie adoptă rapid grafice de cunoștințe și le utilizează în moduri noi și neașteptate. Google a dezvoltat un grafic de cunoștințe cu peste 70 de miliarde de margini, pe care îl utilizează pentru a răspunde la întrebări pe web: încercați să tastați o întrebare în Google, cum ar fi „Cât de înaltă este Turnul Eiffel?” Și veți obține un răspuns direct, și anume „ 300m, 324m până la vârf , care a fost obținut prin potrivirea întrebării dvs. cu graficul de cunoștințe Google.

Companiile precum Google urmăresc în mare măsură: în cele din urmă, toată înțelepciunea umană, tot ceea ce poate doriți să știți despre lume (vă puteți imagina?) vor fi disponibile în graficul de cunoștințe la îndemână sau la îndemână, gata pentru aplicații inovatoare de exploatat. Și nu numai, informațiile despre milioane de produse sunt stocate în grafice de cunoștințe de către companii precum eBay, graficele despre orice vă puteți imagina sunt generate semi-automat de pe site-uri web, baze de date și chiar documente text; o companie numită DiffBot are un grafic de cunoștințe cu peste un trilion (da, cu un „t”) de margini, cu 150 de milioane de margini noi adăugate în fiecare zi!

După cum ne putem imagina cu ușurință, gestionarea unor astfel de grafice gigantice și interogarea lor ușor și eficient nu este o sarcină ușoară. Și aici tehnologiile de reprezentare a cunoștințelor și de raționament pot fi foarte utile.

Sursa: Keble College Review

De exemplu, imaginați-vă că avem aproximativ 5.000 de dramaturgi precum Douglas Adams în graficul nostru de cunoștințe. Dacă vrem ca toți să fie autori (și cu siguranță o facem!), Ar trebui să adăugăm margini explicite în graficul care leagă nodul pentru fiecare dramaturg individual de nodul care reprezintă conceptul de „autor” în grafic; adică 5.000 de margini care trebuie adăugate manual.

Nu numai asta, dacă dintr-o dată observăm o greșeală în datele noastre (poate „John Smith” nu este dramaturg la urma urmei), atunci ar trebui să eliminăm și toate marginile care depind de această greșeală (că este faptul că „John Smith” este un autor, ceea ce era adevărat doar pentru că se credea că este un dramaturg).

Acest lucru este aproape imposibil de gestionat prin actualizări ale utilizatorilor, sau chiar programatic. O modalitate mult mai convenabilă ar fi reprezentarea unei reguli care să afirme că „fiecare dramaturg este autor”; apoi, un software specializat (un motivator) ar putea interpreta această regulă și va adăuga și elimina automat marginile relevante din grafic acolo unde este cazul.

Raționând automat cu mii de reguli și grafice care conțin miliarde de margini este o problemă foarte provocatoare atât din perspectiva cercetării, cât și din perspectiva tehnologică. De fapt, era cu mult dincolo de stadiul tehnicii în urmă cu doar 10-15 ani în urmă, când sistemele de cercetare în care se luptau să facă față graficelor care conțin zeci de mii de noduri.

Totuși, situația a s-a schimbat dramatic în ultimii ani. Acum avem sisteme care pot returna rezultatele la interogări complexe peste grafice care conțin miliarde de muchii în milisecunde. Avem, de asemenea, sisteme care sunt capabile să gestioneze și să raționeze cu seturi complexe de reguli scrise în limbaje puternice de reguli și să își mențină deducțiile în timp ce datele sunt actualizate în grafic.

Unul dintre aceste sisteme este RDFox – un grafic de cunoștințe de înaltă performanță și un motor de raționament care a fost dezvoltat la Departamentul de Informatică al Universității din Oxford și care este acum un produs comercial dezvoltat și distribuit de Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Ca cofondator al Oxford Semantic Technologies Sunt foarte mândru de ceea ce s-a realizat recent – să văd cum un sistem atent gândit poate raționa și răspunde la întrebări aproape instantaneu atunci când este aplicat seturilor de reguli sofisticate și graficelor la scară largă cu zeci de miliarde de conexiuni. Ca om de știință, este un sentiment incredibil de plăcut să experimentezi cât de fundamentală este cercetarea de ultimă oră, efectuată în cadrul Grupului nostru de reprezentare a cunoștințelor și de raționament de la Oxford, care este acum utilizată de aplicații la care am putea visa doar acum câțiva ani. >

Despre autor

Profesorul Bernardo Cuenca Grau are sediul la Universitatea din Oxford, în cadrul Departamentului de Informatică. Pentru o biografie completă, vă rugăm să citiți (articolul Meet the Founders.)

Despre articol

Acest articol a fost publicat inițial în Keble College Review. S-a dat permisiunea de a publica din nou articolul de la Colegiul și autorul publicării medii Oxford Semantic Technologies.

Echipa și resursele

Echipa din spatele Oxford Semantic Technologies a început să lucreze la RDFox în 2011 la Departamentul de Informatică al Universității din Oxford, cu convingerea că raționamentul flexibil și de înaltă performanță era o posibilitate pentru aplicații intensive de date, fără a pune în pericol corectitudinea rezultatelor. RDFox este primul grafic de cunoștințe pregătit pentru piață, conceput de la început cu raționamentul în minte. Oxford Semantic Technologies este un spin out al Universității din Oxford și este susținut de investitori de frunte, inclusiv Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) și brațul de investiții al Universității Oxford (OUI). Autorul este mândru că este membru al acestei echipe.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *