Badanie, w jaki sposób można nauczyć maszyny wiedzy ludzkiej

Profesor Cuenca Grau – Rozumowanie na podstawie grafów wiedzy

(Bernardo Cuenca Grau) (16 grudnia 2020 r.)

Zdjęcie: Marvin Lagonera z Unsplash

Moje badania w ciągu ostatnich piętnastu lat koncentrowały się na reprezentacji wiedzy i rozumowaniu (KRR) – obszarze sztucznej inteligencji i informatyki zajmującym się reprezentowaniem wiedzy ludzkiej w sposób symboliczny, interpretowany maszynowo i efektywne manipulowanie tą wiedzą przez programy komputerowe w połączeniu z danymi.

Na przykład KRR bada sposób przedstawienia w formacie, który komputer może zrozumieć stwierdzenia, takie jak „każdy dramaturg jest autorem” i „jeśli osoba i urodzili się w miejscowości położonej w danym kraju, to jest to kraj urodzenia danej osoby ”. Gdy takie informacje zostaną jednoznacznie przedstawione w odpowiednim języku (zwykle jest to rodzaj logiki formalnej), systemy KRR mogą być następnie używane do przetwarzania danych w bardziej inteligentny sposób.

Na przykład, jeśli nasze dane mówią nam że Douglas Adams jest dramaturgiem urodzonym w Cambridge, a Cambridge znajduje się w Wielkiej Brytanii, wtedy program komputerowy mógłby automatycznie wywnioskować, że Douglas Adams jest pisarzem urodzonym w Wielkiej Brytanii. Rolą „ rozumowania jest algorytmiczne wyszukanie tej ukrytej informacji na podstawie danych wprost podanych i reprezentowanej wiedzy dziedzinowej.

W ostatnich latach obserwowano ogromne zainteresowanie rozwojem i wdrażaniem tak zwane wykresami wiedzy – sposób przechowywania faktycznych informacji (danych) i wiedzy jako połączonej sieci (znanej jako graf w żargonie informatycznym).

Na grafie wiedzy elementy danych są reprezentowane jako węzły w wykres, podczas gdy relacje między elementami danych stanowią krawędzie wykresu. Na przykład w naszym poprzednim przykładzie graf wiedzy mógłby mieć węzeł dla Douglasa Adamsa, węzeł dla Cambridge i krawędź oznaczoną relacją „miasto urodzenia” łączącą to pierwsze z drugim.

Wykresy zapewniają bardzo elastyczny format przedstawiania danych, co jest bardzo dobre- nadaje się do szerokiego zakresu zastosowań, w których bardziej tradycyjne podejścia do zarządzania danymi (takie jak technologie relacyjnych baz danych) nie są łatwe do zastosowania. Graf wiedzy szeroko stosowany w aplikacjach to Wikidata , który koduje informacje dostępne w Wikipedii w postaci wykresu zawierającego ponad 80 milionów węzłów i około miliarda krawędzi między nimi.

Główni gracze technologiczni szybko przejmują wykresy wiedzy i wykorzystują je w nowy i nieoczekiwany sposób. Google opracował wykres wiedzy z ponad 70 miliardami krawędzi, którego używa do odpowiadania na pytania w sieci: spróbuj wpisać w Google pytanie, takie jak „Jak wysoka jest wieża Eiffla?”, A otrzymasz bezpośrednią odpowiedź, a mianowicie: „ 300 m, 324 m do końcówki ”, która została uzyskana przez dopasowanie pytania do wykresu wiedzy Google.

Firmy takie jak Google mają wysokie cele: ostatecznie cała ludzka mądrość, wszystko, co możesz chcieć wiedzieć o świecie (czy możesz sobie wyobrazić?) będzie dostępne na wykresie wiedzy na wyciągnięcie ręki, gotowe do wykorzystania innowacyjnych aplikacji. I nie tylko to, informacje o milionach produktów są przechowywane na wykresach wiedzy przez firmy takie jak eBay, wykresy przedstawiające wszystko, co możesz sobie wyobrazić, są generowane półautomatycznie ze stron internetowych, baz danych, a nawet dokumentów tekstowych; firma o nazwie DiffBot ma wykres wiedzy z ponad bilionem (tak, z „t”) krawędziami, z których każdego dnia dodaje się 150 milionów nowych krawędzi!

Jak można sobie łatwo wyobrazić, zarządzanie takimi gigantycznymi wykresami i ich łatwe i wydajne odpytywanie nie jest łatwym zadaniem. I tutaj technologie reprezentacji wiedzy i wnioskowania mogą być bardzo przydatne.

Źródło: Keble College Review

Wyobraźmy sobie na przykład, że na naszym wykresie wiedzy mamy około 5000 dramatopisarzy, takich jak Douglas Adams. Jeśli chcielibyśmy, aby wszyscy byli autorami (a na pewno tak!), Musielibyśmy dodać wyraźne krawędzie na wykresie łączące węzeł każdego autora z węzłem reprezentującym pojęcie „autora” na wykresie; czyli 5000 krawędzi do ręcznego dodania.

Mało tego, jeśli nagle zauważymy błąd w naszych danych (może w końcu „John Smith” nie jest dramaturgiem), to musielibyśmy również usunąć wszystkie krawędzie, które zależą od tego błędu (czyli to fakt, że „John Smith” jest autorem, co było prawdą tylko dlatego, że uważano go za dramatopisarza).

Jest to prawie niemożliwe do zarządzania poprzez aktualizacje użytkowników, a nawet programowo. Znacznie wygodniejszym sposobem byłoby przedstawienie reguły stwierdzającej, że „każdy dramaturg jest autorem”; wtedy wyspecjalizowany program (osoba rozumująca) byłby w stanie zinterpretować tę regułę i automatycznie dodać i usunąć odpowiednie krawędzie z wykresu tam, gdzie to stosowne.

Automatyczne wnioskowanie za pomocą tysięcy reguł i wykresów zawierających miliardy krawędzi jest bardzo trudnym problemem zarówno z perspektywy badawczej, jak i technologicznej. W rzeczywistości było to znacznie poza stanem techniki zaledwie 10-15 lat temu, kiedy systemy badawcze walczyły z wykresami zawierającymi dziesiątki tysięcy węzłów.

Sytuacja jednak zmienił się dramatycznie w ostatnich latach. Mamy teraz systemy, które mogą zwracać wyniki złożonych zapytań na wykresach zawierających miliardy krawędzi w milisekundach. Mamy również systemy, które są w stanie zarządzać i rozumować za pomocą złożonych zestawów reguł napisanych w potężnych językach reguł oraz utrzymywać swoje wnioski w locie, gdy dane są aktualizowane na wykresie.

Jeden z tych systemów to RDFox – wysokowydajny wykres wiedzy i silnik rozumowania, który został opracowany na Wydziale Informatyki Uniwersytetu Oksfordzkiego, a obecnie jest produktem komercyjnym opracowanym i dystrybuowanym przez Oxford Semantic Technologies (https://www.oxfordsemantic.tech).

Jako współzałożyciel Oxford Semantic Technologies , Jestem bardzo dumny z tego, co ostatnio osiągnięto – aby być świadkiem, jak starannie przemyślany system może uzasadniać zapytania i odpowiadać na zapytania niemal natychmiast po zastosowaniu do wyrafinowanych zestawów reguł i wykresów na dużą skalę z dziesiątkami miliardów połączeń. Dla naukowca to niesamowicie satysfakcjonujące uczucie, gdy doświadczamy, jak fundamentalne, przełomowe badania przeprowadzone w naszej grupie Knowledge Representation and Reasoning Group w Oksfordzie są obecnie wykorzystywane przez aplikacje, o których mogliśmy tylko pomarzyć kilka lat temu. >

O autorze

Profesor Bernardo Cuenca Grau pracuje na Wydziale Informatyki Uniwersytetu Oksfordzkiego. Aby zapoznać się z pełną biografią, przeczytaj (artykuł Poznaj założycieli).

O artykule

Ten artykuł został pierwotnie opublikowany w Keble College Review. Uzyskano zgodę na ponowną publikację artykułu wydanego przez College and Author w publikacji Oxford Semantic Technologies Medium.

Zespół i zasoby

Zespół odpowiedzialny za Oxford Semantic Technologies rozpoczął pracę nad RDFox w 2011 roku na Wydziale Informatyki Uniwersytetu Oksfordzkiego z przekonaniem, że elastyczne i wysokowydajne rozumowanie jest możliwością dla aplikacji intensywnie wykorzystujących dane bez narażania poprawności wyników. RDFox to pierwszy gotowy na rynek wykres wiedzy zaprojektowany od podstaw z myślą o rozumowaniu. Oxford Semantic Technologies wywodzi się z Uniwersytetu Oksfordzkiego i jest wspierany przez czołowych inwestorów, w tym Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) i oddział inwestycyjny Uniwersytetu Oksfordzkiego (OUI). Autor jest dumny z bycia członkiem tego zespołu.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *