Az emberi tudás gépekre tanítása

Cuenca Grau professzor – gondolkodás a tudásgráfokra

(Bernardo Cuenca Grau) (2020. december 16.)

Fotó: Marvin Lagonera a Unsplash

Az elmúlt tizenöt év során végzett kutatásaim a tudásreprezentációra és az érvelésre (KRR) összpontosultak – a mesterséges intelligencia és a számítástechnika területére, amely az emberi tudás szimbolikus, géppel értelmezhető módon történő képviseletével foglalkozik. , és ennek a tudásnak a számítógépes programok általi hatékony manipulálása az adatokkal kombinálva.

Például a KRR azt vizsgálja, hogyan lehet olyan formátumban ábrázolni, hogy a számítógép megértse az olyan állításokat, mint például: „minden dramaturg szerző”. , és „ha egy személy i s egy adott országban fekvő városban született, akkor ez a személy születési országa ”. Miután az ilyen információkat egyértelműen ábrázolták egy megfelelő nyelven (általában egyfajta formális logika), a KRR rendszereket ezután fel lehet használni az adatok intelligensebb feldolgozására.

Például, ha az adataink elmondják nekünk hogy Douglas Adams Cambridge-ben született dramaturg, és Cambridge az Egyesült Királyságban található, akkor egy számítógépes program automatikusan megállapíthatja, hogy Douglas Adams az Egyesült Királyságban született szerző. Az „érvelés” szerepe az, hogy ezeket az implicit információkat algoritmikusan megismerje a kifejezetten megadott adatokból és a reprezentált tartományi ismeretekből.

Az elmúlt években óriási érdeklődés mutatkozott a SO-k fejlesztése és telepítése iránt. úgynevezett tudásgrafikonok – a tényszerű információk (adatok) és a tudás összekapcsolt hálózatként történő tárolásának módja (grafikonként ismert, a Computer Science szaknyelvben).

Egy tudásgráfban az adatelemek csomópontként jelennek meg a a grafikon, míg az adatelemek közötti kapcsolatok alkotják a grafikon széleit. Például az előző példánkban egy tudásgráf tartalmazhat egy csomópontot Douglas Adams számára, egy csomópontot Cambridge-hez, és egy él, amelyet a „születési város” kapcsolattal jelölnek, összekapcsolva az előbbit az utóbbival.

A grafikonok nagyon rugalmas formátumot kínálnak az adatok ábrázolásához, ami jól sokféle alkalmazásra alkalmas, ahol az adatkezelés hagyományosabb megközelítései (például relációs adatbázis-technológiák) nem könnyen alkalmazhatók. Az alkalmazásokban széles körben használt tudásgráf a Wikidata , amely a Wikipédiában elérhető információkat egy olyan grafikonba kódolja, amely több mint 80 millió csomópontot és körülbelül egymilliárd élt tartalmaz közöttük.

A fő technológiai szereplők gyorsan átveszik a tudásgrafikonokat, és új és váratlan módon használják fel őket. A Google kifejlesztett egy több mint 70 milliárd éllel rendelkező tudásgráfot, amelyet az internetes kérdések megválaszolásához használnak: próbáljon meg egy olyan kérdést beírni a Google-ba, például: “Milyen magas az Eiffel-torony?”, És közvetlen választ kap, mégpedig ” 300 m, 324 m a csúcsig , amelyet úgy kaptunk, hogy a kérdést a Google tudásdiagramjához illesztettük.

Az olyan vállalatok, mint például a Google, magasra törekszenek: végső soron minden emberi bölcsesség, minden, amit érdemes tudni a világról (el tudod képzelni?), elérhető lesz a tudásdiagramon kéznél vagy kéznél, készen áll az innovatív alkalmazások kiaknázására. És nem csak, hogy több millió termékről szóló információkat tárolnak a vállalatok olyan tudásgrafikonokban, mint az eBay, a weboldalakról, adatbázisokról, sőt szöveges dokumentumokról is félig automatikusan generálnak grafikonokat, amelyekről elképzelhető; a DiffBot nevű vállalat tudásgrafikonja több mint 1 billió (igen, t) éllel rendelkezik, és naponta 150 millió új él kerül hozzáadásra!

Mint azt könnyen el lehet képzelni, az ilyen gigantikus grafikonok kezelése, egyszerű és hatékony lekérdezése nem könnyű feladat. És itt tudnak nagyon hasznosak lenni a tudásreprezentációs és az érvelési technológiák.

Forrás: Keble College Review

Például képzeljük el, hogy tudásgráfunkban mintegy 5000 dramaturg, például Douglas Adams szerepel. Ha azt akarjuk, hogy mind szerzők legyenek (és bizonyára tesszük!), Akkor explicit éleket kell hozzáadnunk a grafikonhoz, amely az egyes dramaturgok csomópontját összeköti a grafikon a „szerző” fogalmát képviselő csomópontjával; azaz 5000 évet kell manuálisan hozzáadni.

Nem csak az, hogy ha hirtelen hibát észlelünk adatainkban (talán a „John Smith” mégsem drámaíró), akkor el kell távolítanunk a hibától függő összes élt is ( az a tény, hogy „John Smith” szerző, ami csak azért volt igaz, mert drámaírónak hitték).

Ezt szinte lehetetlen kezelni felhasználói frissítésekkel, vagy akár programszerűen. Sokkal kényelmesebb módszer lenne egy olyan szabály képviselete, amely kimondja, hogy „minden drámaíró szerző”; akkor egy speciális szoftver (egy indokoló) képes értelmezni ezt a szabályt, és adott esetben automatikusan hozzáadni és eltávolítani a megfelelő éleket a grafikonból.

Automatikus indoklás több ezer szabály és grafikon segítségével, amelyek milliárdokat tartalmaznak Az élek kutatási és technológiai szempontból is nagyon kihívást jelent. Valójában jóval meghaladta a technika állását alig 10–15 évvel ezelőtt, amikor olyan kutatási rendszerek küzdöttek meg, hogy megbirkózzanak a több tízezer csomópontot tartalmazó grafikonokkal.

A helyzet azonban az utóbbi években drámai módon megváltozott. Most olyan rendszereink vannak, amelyek eredményeket adhatnak összetett lekérdezésekhez olyan grafikonokon keresztül, amelyek élek milliárdjait tartalmazzák ezredmásodpercekben. Rendelkezéseink vannak olyan rendszerekkel is, amelyek képesek hatékony szabálynyelven írt komplex szabálykészletekkel kezelni és indokolni, és menet közben is fenntartani következtetéseiket, amikor az adatok frissülnek a grafikonon.

Az egyik ilyen rendszer RDFox – az Oxfordi Egyetem Számítástudományi Tanszékén kifejlesztett nagy teljesítményű tudásgráf és okfejtő motor, amely ma az Oxford Semantic Technologies által kifejlesztett és forgalmazott kereskedelmi termék (https://www.oxfordsemantic.tech).

Az Oxford Semantic Technologies társalapítójaként , Nagyon büszke vagyok a közelmúltban elértekre – tanúi lehetek annak, hogy egy alaposan átgondolt rendszer képes-e szinte azonnal indokolni és megválaszolni a kérdéseket, ha kifinomult szabályhalmazokra és nagyszabású grafikonokra alkalmazzák, több tízmilliárd kapcsolattal. Tudósként hihetetlenül örömteli érzés megtapasztalni, hogy az oxfordi Tudásképviseleti és Érvelési Csoportunkban végzett alapvető, élvonalbeli kutatásokat mostanában olyan alkalmazások használják, amelyekről csak néhány évvel ezelőtt álmodhattunk.

A szerzőről

Bernardo Cuenca Grau professzor az Oxfordi Egyetemen dolgozik, a Számítástudományi Tanszéken. A teljes életrajzért olvassa el a (Ismerkedjen meg az alapítókkal című cikket.)

A cikk ismertetése

Ezt a cikket eredetileg a Keble College Review folyóiratban tették közzé. Engedélyt kapott a Főiskola és a Szerző cikkének újbóli közzétételére az Oxford Semantic Technologies Medium Publication kiadványról.

Csapat és erőforrások

Az Oxford Semantic Technologies mögött álló csapat 2011-ben kezdett dolgozni az RDFox-on. az Oxfordi Egyetem Számítástudományi Tanszékén azzal a meggyőződéssel, hogy a rugalmas és nagy teljesítményű érvelés lehetőséget nyújt az adatintenzív alkalmazásokra az eredmények helyességének veszélyeztetése nélkül. Az RDFox az első piacra kész tudásgráf, amelyet az alapoktól kezdve, az érvelést szem előtt tartva terveztek. Az Oxford Semantic Technologies az Oxfordi Egyetem kiindulópontja, és vezető befektetők támogatják, köztük a Samsung Venture Investment Corporation (SVIC), az Oxford Sciences Innovation (OSI) és az Oxford University befektetési ága (OUI). A szerző büszke arra, hogy tagja ennek a csapatnak.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük