인간 지식을 기계에 가르 칠 수있는 방법 연구


Cuenca Grau 교수 — 지식 그래프 추론

(Bernardo Cuenca Grau) (2020 년 12 월 16 일)

Marvin Lagonera ( Unsplash

지난 15 년 동안의 저의 연구는 지식 표현 및 추론 (KRR)에 중점을 두었습니다. 인간 지식을 상징적이고 기계 해석 가능한 방식으로 표현하는 것과 관련된 인공 지능 및 컴퓨터 과학 분야입니다. , 그리고 데이터와 결합 된이 지식의 컴퓨터 프로그램에 의한 효과적인 조작.

예를 들어, KRR은 컴퓨터가 모든 극작가는 저자이다와 같은 진술을 이해할 수있는 형식으로 표현하는 방법을 연구합니다. , 그리고 사람이 내가 특정 국가에 위치한 마을에서 태어났다면 이것이 그 사람의 출생 국가입니다. 이러한 정보가 적절한 언어 (일반적으로 일종의 형식 논리)로 명확하게 표현되면 KRR 시스템을 사용하여보다 지능적인 방식으로 데이터를 처리 할 수 ​​있습니다.

예를 들어 데이터가 알려주는 경우가 있습니다. Douglas Adams는 캠브리지에서 태어난 극작가이고 Cambridge는 영국에있는 경우 컴퓨터 프로그램은 Douglas Adams가 영국에서 태어난 작가라고 자동으로 추론 할 수 있습니다. 추론의 역할은 명시 적으로 제공된 데이터와 대표 도메인 지식에서이 암시 적 정보를 알고리즘 방식으로 찾는 것입니다.

최근 몇 년 동안 소프트웨어 개발 및 배포에 엄청난 관심이있었습니다. 지식 그래프라고합니다. 사실 정보 (데이터)와 지식을 상호 연결된 네트워크 (컴퓨터 과학 용어로 그래프라고 함)로 저장하는 방법입니다.

지식 그래프에서 데이터 항목은 노드로 표현됩니다. 반면 데이터 항목 간의 관계는 그래프의 가장자리를 구성합니다. 예를 들어, 이전 예제에서 지식 그래프에는 Douglas Adams의 노드, Cambridge의 노드, 전자와 후자를 연결하는 출생 도시관계로 레이블이 지정된 에지가있을 수 있습니다.

그래프는 데이터를 표현하기위한 매우 유연한 형식을 제공합니다. 데이터 관리에 대한보다 전통적인 접근 방식 (예 : 관계형 데이터베이스 기술)을 쉽게 적용 할 수없는 광범위한 애플리케이션에 적합합니다. 애플리케이션에서 널리 사용되는 지식 그래프는 Wikidata 로, Wikipedia에서 사용할 수있는 정보를 8 천만 개 이상의 노드와 약 10 억 개의 간선을 포함하는 그래프로 인코딩합니다.

주요 기술 플레이어는 지식 그래프를 빠르게 채택하고 새롭고 예상치 못한 방식으로 사용하고 있습니다. Google은 700 억 개 이상의 모서리가있는 지식 그래프를 개발하여 웹에서 질문에 답하는 데 사용합니다. Google에 에펠 탑 높이는 얼마입니까?와 같은 질문을 입력하면 300m, 324m to the tip , Google의 지식 그래프에 질문을 일치시켜 얻은 것입니다.

Google과 같은 기업은 목표를 높이고 있습니다. 궁극적으로 인간의 모든 지혜, 세상에 대해 알고 싶은 모든 것 (상상할 수 있습니까?)이 지식 그래프에서 제공됩니다. 혁신적인 애플리케이션을 활용할 준비가되었습니다. 뿐만 아니라, 수백만 개의 제품에 대한 정보가 eBay와 같은 회사의 지식 그래프에 저장되고 있으며, 상상할 수있는 모든 것에 대한 그래프는 웹 사이트, 데이터베이스, 심지어 텍스트 문서에서 반자동으로 생성됩니다. DiffBot 이라는 회사는 매일 1 억 5 천만 개의 새로운 에지가 추가되는 1 조 (예, t) 에지가있는 지식 그래프를 가지고 있습니다!

쉽게 상상할 수 있듯이 이러한 거대한 그래프를 쉽고 효율적으로 관리하고 쿼리하는 것은 쉬운 작업이 아닙니다. 이것이 바로 지식 표현 및 추론 기술이 매우 유용 할 수있는 곳입니다.

출처 : Keble College Review

예를 들어 지식 그래프에 Douglas Adams와 같은 약 5,000 명의 극작가가 있다고 가정 해보십시오. 그들 모두가 저자가되기를 원한다면 (당연히 그렇습니다!), 그래프에서 각 극작가의 노드를 그래프의 저자개념을 나타내는 노드에 연결하는 명시 적 모서리를 그래프에 추가해야합니다. 5,000 개의 모서리를 수동으로 추가해야합니다.

그뿐만 아니라 갑자기 데이터에서 실수를 발견하면 (아마도 John Smith는 극작가가 아닐 수 있음) 그 실수에 의존하는 모든 가장자리를 제거해야합니다. John Smith가 작가라는 사실은 그가 극작가라고 믿었 기 때문에 사실입니다.)

이것은 사용자 업데이트를 통해 또는 프로그래밍 방식으로 관리하는 것이 거의 불가능합니다. 훨씬 더 편리한 방법은 모든 극작가는 작가라는 규칙을 나타내는 것입니다. 그러면 전문 소프트웨어 (추론 자)가이 규칙을 해석하고 적절한 경우 그래프에서 관련 에지를 자동으로 추가 및 제거 할 수 있습니다.

수십억 개의 규칙과 그래프가 포함 된 수천 개의 규칙을 자동으로 추론합니다. 가장자리는 연구 및 기술적 관점 모두에서 매우 어려운 문제입니다. 사실, 수만 개의 노드를 포함하는 그래프를 처리하기 위해 고군분투하는 연구 시스템이었던 약 10 ~ 15 년 전의 최첨단 기술을 훨씬 뛰어 넘었습니다.

그러나 상황은 최근 몇 년 동안 극적으로 변했습니다. 이제 수십억 개의 에지를 포함하는 그래프를 통해 밀리 초 단위로 복잡한 쿼리에 결과를 반환 할 수있는 시스템이 있습니다. 또한 강력한 규칙 언어로 작성된 복잡한 규칙 세트를 관리하고 추론 할 수 있고 그래프에서 데이터가 업데이트 될 때 추론을 즉시 유지할 수있는 시스템도 있습니다.

이러한 시스템 중 하나는 다음과 같습니다. RDFox — 옥스포드 대학의 컴퓨터 과학과에서 개발되었으며 현재 Oxford Semantic Technologies (https://www.oxfordsemantic.tech)에서 개발 및 배포 한 상용 제품인 고성능 지식 그래프 및 추론 엔진입니다.

Oxford Semantic Technologies의 공동 설립자 , 저는 최근에 성취 된 것을 매우 자랑스럽게 생각합니다. 시스템을 통한 신중한 생각이 수백억 연결이있는 정교한 규칙 세트와 대규모 그래프에 적용될 때 거의 즉각적으로 쿼리를 추론하고 응답 할 수있는 방법을 목격했습니다. 과학자로서 옥스포드의 지식 표현 및 추론 그룹에서 수행 한 기초적인 최첨단 연구가 불과 몇 년 전만해도 꿈꿔 왔던 응용 프로그램에서 현재 사용되는 방식을 경험하는 것은 매우 기쁜 느낌입니다.

저자 정보

베르나르도 쿠 엥카 그 라우 교수는 옥스퍼드 대학교 컴퓨터 과학과에 근무하고 있습니다. 전체 약력을 보려면 (Meet the Founders 기사)

기사 정보

이 기사는 원래 Keble College Review에 게시되었습니다. College and Author on Oxford Semantic Technologies Medium Publication에 의해 기사를 다시 게시 할 수있는 권한을 부여했습니다.

팀 및 리소스

Oxford Semantic Technologies 팀은 2011 년 RDFox 작업을 시작했습니다. 옥스포드 대학의 컴퓨터 과학과에서 유연하고 고성능의 추론이 결과의 정확성을 해치지 않으면 서 데이터 집약적 인 애플리케이션에 대한 가능성이라는 확신을 가지고 있습니다. RDFox는 추론을 염두에두고 처음부터 설계된 최초의 시장 준비 지식 그래프입니다. Oxford Semantic Technologies는 옥스포드 대학에서 파생 된 것으로 삼성 벤처 투자 공사 (SVIC), 옥스포드 사이언스 이노베이션 (OSI), 옥스포드 대학의 투자 부문 (OUI)을 비롯한 주요 투자자들의 지원을 받고 있습니다. 저자는이 팀의 일원임을 자랑스럽게 생각합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다