Výzkum, jak lze naučit lidské poznání na strojích

Professor Cuenca Grau – Reason Over Knowledge Graphs

(Bernardo Cuenca Grau) (16. prosince 2020)

Fotografie Marvin Lagonera při Unsplash

Můj výzkum za posledních patnáct let se zaměřil na znalostní reprezentaci a uvažování (KRR) – oblast umělé inteligence a výpočetní techniky zabývající se reprezentací lidských znalostí symbolickým, strojově interpretovatelným způsobem a efektivní manipulace s těmito znalostmi v kombinaci s daty pomocí počítačových programů.

Například KRR studuje způsob, jak reprezentovat ve formátu, kterému počítač dokáže porozumět výrokům jako „každý dramatik je autorem“ , a „pokud osoba i se narodil ve městě nacházejícím se v dané zemi, pak se jedná o zemi narození osoby “. Jakmile jsou tyto informace jednoznačně reprezentovány ve vhodném jazyce (obvykle jakousi formální logikou), lze systémy KRR použít ke zpracování dat inteligentnějším způsobem.

Například pokud nám naše data říkají že Douglas Adams je dramatik narozený v Cambridge a Cambridge se nachází ve Velké Británii, pak by počítačový program dokázal automaticky odvodit, že Douglas Adams je britský autor. Úlohou „uvažování“ je algoritmicky zjistit tyto implicitní informace z výslovně uvedených údajů a reprezentovaných znalostí domény.

V posledních letech byl enormní zájem o vývoj a nasazení tzv. tzv. znalostní grafy – způsob, jak ukládat faktické informace (data) a znalosti jako vzájemně propojenou síť (v žargonu informatiky známá jako graf).

Ve znalostním grafu jsou datové položky reprezentovány jako uzly v graf, zatímco vztahy mezi datovými položkami tvoří okraje grafu. Například v našem předchozím příkladu může mít znalostní graf uzel pro Douglase Adamse, uzel pro Cambridge a hranu označenou vztahem „město narození“ spojující první s druhým.

Grafy poskytují velmi flexibilní formát pro reprezentaci dat, který je dobře vhodný pro širokou škálu aplikací, kde tradičnější přístupy ke správě dat (jako jsou technologie relačních databází) nejsou snadno použitelné. Znalostní graf široce používaný v aplikacích je Wikidata , který kóduje informace dostupné na Wikipedii v grafu obsahujícím více než 80 milionů uzlů a přibližně jednu miliardu hran mezi nimi.

Hlavní technologičtí hráči si rychle osvojují znalostní grafy a používají je novými a nečekanými způsoby. Google vyvinul znalostní graf s více než 70 miliardami hran, které používá k zodpovězení otázek na webu: zkuste do Googlu napsat otázku jako „Jak vysoká je Eiffelova věž?“ A dostanete přímou odpověď, konkrétně „ 300 m, 324 m po špičku, která byla získána porovnáním vaší otázky se znalostním grafem Google.

Společnosti, jako je Google, míří vysoko: ve znalostním grafu bude nakonec k dispozici veškerá lidská moudrost, vše, co byste o světě chtěli vědět (dokážete si představit?) na dosah ruky, připravené na využití inovativních aplikací. A nejen to, informace o milionech produktů jsou ukládány do znalostních grafů společnostmi, jako je eBay, grafy všeho, co si dokážete představit, jsou generovány poloautomaticky z webových stránek, databází a dokonce i textových dokumentů; společnost s názvem DiffBot má znalostní graf s více než jedním bilionem (ano, s t) hranami, se 150 miliony nových hran každý den!

Jak si lze snadno představit, správa takových gigantických grafů a jejich snadné a efektivní dotazování není snadný úkol. A právě zde mohou být technologie reprezentace znalostí a uvažování velmi užitečné.

Zdroj: Keble College Review

Představte si například, že v našem znalostním grafu máme asi 5 000 dramatiků, jako je Douglas Adams. Pokud chceme, aby všichni z nich byli autoři (a my to určitě děláme!), Museli bychom do grafu přidat explicitní hrany spojující uzel pro každého jednotlivého dramatika s uzlem představujícím koncept „autora“ v grafu; to je 5 000 hran, které mají být přidány ručně.

Nejen, že pokud si náhle všimneme chyby v našich datech (možná „John Smith“ nakonec není dramatik), pak bychom také museli odstranit všechny okraje, které na této chybě závisí (že je skutečnost, že „John Smith“ je autor, což byla pravda jen proto, že se o něm věřilo, že je dramatikem.)

To je téměř nemožné spravovat prostřednictvím uživatelských aktualizací nebo dokonce programově. Mnohem pohodlnějším způsobem by bylo představovat pravidlo, že „každý dramatik je autorem“; poté by specializovaný software (argumentátor) dokázal toto pravidlo interpretovat a případně automaticky přidat a odebrat příslušné okraje z grafu.

Automatické odůvodňování tisíců pravidel a grafů obsahujících miliardy edge je velmi náročný problém jak z hlediska výzkumu, tak z technologického hlediska. Ve skutečnosti to bylo daleko za nejmodernějším stavem před asi 10–15 lety, kdy se výzkumné systémy potýkaly s potížemi s grafy obsahujícími desítky tisíc uzlů.

Situace však má se v posledních letech dramaticky změnilo. Nyní máme systémy, které mohou vracet výsledky ke složitým dotazům přes grafy obsahující miliardy hran v milisekundách. Máme také systémy, které dokážou spravovat a uvažovat s komplexními sadami pravidel napsaných ve výkonných jazycích pravidel a udržovat jejich závěry za běhu, když se data aktualizují v grafu.

Jeden z těchto systémů je RDFox – vysoce výkonný graf znalostí a uvažování, který byl vyvinut na katedře výpočetní techniky University of Oxford a který je nyní komerčním produktem vyvinutým a distribuovaným společností Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Jako spoluzakladatel společnosti Oxford Semantic Technologies , Jsem velmi hrdý na to, čeho bylo nedávno dosaženo – být svědkem toho, jak pečlivě promyšlený systém dokáže rozumět a odpovídat na dotazy téměř okamžitě, když je aplikován na sofistikované sady pravidel a rozsáhlé grafy s desítkami miliard spojení. Jako vědec je neuvěřitelně potěšující pocítit, jak zásadní a špičkový výzkum prováděný v naší Skupině pro reprezentaci znalostí a uvažování v Oxfordu nyní používají aplikace, o kterých jsme mohli jen před několika lety snít.

O autorovi

Profesor Bernardo Cuenca Grau sídlí na Oxfordské univerzitě v oddělení informatiky. Celý životopis naleznete v článku (Seznamte se se zakladateli.)

O článku

Tento článek byl původně publikován v Keble College Review. Bylo uděleno povolení k opětovnému publikování článku College and Author on Oxford Semantic Technologies Medium Publication.

Tým a zdroje

Tým, který stojí za Oxford Semantic Technologies, začal pracovat na RDFox v roce 2011 na katedře informatiky na univerzitě v Oxfordu s přesvědčením, že flexibilní a vysoce výkonné uvažování představuje možnost pro aplikace náročné na data, aniž by byla ohrožena správnost výsledků. RDFox je první znalostní graf připravený na trh navržený od základu s ohledem na úvahy. Oxford Semantic Technologies je odštěpením z Oxfordské univerzity a je podporován předními investory včetně společností Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) a Oxford Universitys investment arm (OUI). Autor je hrdý na to, že je členem tohoto týmu.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *