人間の知識を機械に教える方法を研究する

投稿日:

クエンカグラウ教授—知識グラフに関する推論

(ベルナルドクエンカグラウ)(2020年12月16日)

写真提供: Marvin Lagonera スプラッシュ解除

過去15年間の私の研究は、知識表現と推論(KRR)に焦点を当ててきました。これは、人間の知識を象徴的で機械的に解釈できる方法で表現することに関係する人工知能とコンピューターサイエンスの分野です。 、およびデータと組み合わせたこの知識のコンピュータプログラムによる効果的な操作。

たとえば、KRRは、コンピュータが「すべてのプレイライトは著者である」などのステートメントを理解できる形式で表現する方法を研究します。 、および 人がiの場合ある国にある町で生まれた場合、これはその人の出生地です。このような情報が適切な言語(通常は一種の正式なロジック)で明確に表現されると、KRRシステムを使用して、よりインテリジェントな方法でデータを処理できます。

たとえば、データからわかる場合ダグラス・アダムスはケンブリッジで生まれた劇作家であり、ケンブリッジは英国にあるということです。そうすれば、コンピューター・プログラムは、ダグラス・アダムスが英国生まれの作家であると自動的に推測することができます。 「推論」の役割は、明示的に与えられたデータと表現されたドメイン知識からこの暗黙の情報をアルゴリズムで見つけることです。

近年、その開発と展開に大きな関心が寄せられています。知識グラフと呼ばれる—事実情報(データ)と知識を相互接続されたネットワークとして保存する方法(コンピュータサイエンス用語ではグラフと呼ばれます)。

知識グラフでは、データ項目は次のノードとして表されます。一方、データ項目間の関係はグラフのエッジを構成します。たとえば、前の例では、ナレッジグラフに、ダグラスアダムスのノード、ケンブリッジのノード、および前者と後者をリンクする「出生都市」という関係でラベル付けされたエッジを含めることができます。

グラフは、データを表すための非常に柔軟な形式を提供します。データ管理への従来のアプローチ(リレーショナルデータベーステクノロジーなど)を簡単に適用できない幅広いアプリケーションに適しています。アプリケーションで広く使用されている知識グラフはウィキデータです。これは、ウィキペディアで利用可能な情報を、8000万を超えるノードとそれらの間の約10億のエッジを含むグラフにエンコードします。

主要なテクノロジープレーヤーは、知識グラフを急速に採用し、新しい予期しない方法でそれらを使用しています。 Googleは、700億を超えるエッジを持つナレッジグラフを開発しました。これは、Webでの質問応答に使用されます。「エッフェル塔の高さ」などの質問をGoogleに入力してみてください。そうすれば、直接的な回答が得られます。 300m、先端まで324m 。これは、質問をGoogleのナレッジグラフと照合して取得したものです。

Googleなどの企業は高い目標を掲げています。最終的には、すべての人間の知恵、世界について知りたいことすべて(想像できますか?)がナレッジグラフで利用できるようになります。または指先で、革新的なアプリケーションを活用する準備ができています。それだけでなく、何百万もの製品に関する情報がeBayなどの企業によって知識グラフに保存されており、想像できるあらゆるものに関するグラフがWebサイト、データベース、さらにはテキストドキュメントから半自動で生成されています。 DiffBot という会社には、1兆を超える(はい、「t」の付いた)エッジがあり、毎日1億5000万の新しいエッジが追加されているナレッジグラフがあります。

簡単に想像できるように、このような巨大なグラフを管理し、それらを簡単かつ効率的にクエリすることは簡単な作業ではありません。そして、ここで知識表現と推論のテクノロジーが非常に役立ちます。

出典:Keble College Review

たとえば、知識グラフにDouglasAdamsなどの約5,000人の劇作家がいるとします。それらすべてを作者にしたい場合(そして確かにそうです!)、個々の劇作家のノードをグラフの「作者」の概念を表すノードに接続する明示的なエッジをグラフに追加する必要があります。つまり、手動で追加する5,000個のエッジです。

それだけでなく、突然データに誤りがあることに気付いた場合(おそらく、「ジョンスミス」は劇作家ではないかもしれません)、その誤りに依存するすべてのエッジも削除する必要があります(つまり、「ジョン・スミス」が作家であるという事実は、彼が劇作家であると信じられていたためにのみ真実でした。

これは、ユーザーの更新やプログラムでさえ管理することはほとんど不可能です。はるかに便利な方法は、「すべての劇作家は作者である」というルールを表現することです。次に、専用のソフトウェア(推論者)がこのルールを解釈し、必要に応じてグラフから関連するエッジを自動的に追加および削除できます。

数千のルールと数十億を含むグラフで自動的に推論します。エッジは、研究と技術の両方の観点から非常に難しい問題です。実際、数万のノードを含むグラフを処理するのに苦労している研究システムがあったとき、それはちょうど約10〜15年前の最先端技術をはるかに超えていました。

しかし、状況は近年劇的に変化しました。これで、ミリ秒単位で数十億のエッジを含むグラフを介して複雑なクエリに結果を返すことができるシステムができました。また、強力なルール言語で記述された複雑なルールセットを管理および推論し、グラフでデータが更新されてもその場で推論を維持できるシステムもあります。

これらのシステムの1つはRDFox —オックスフォード大学のコンピュータサイエンス学部で開発され、現在はオックスフォードセマンティックテクノロジーズ(https://www.oxfordsemantic.tech)によって開発および配布されている商用製品である高性能知識グラフおよび推論エンジン。

Oxford SemanticTechnologiesの共同創設者として、私は最近達成されたことを非常に誇りに思っています。システムを慎重に検討することで、高度なルールセットや数百億の接続を持つ大規模なグラフに適用すると、クエリをほぼ瞬時に推論して回答できることを目の当たりにします。科学者として、オックスフォードの知識表現および推論グループで実施された基本的で最先端の研究が、ほんの数年前には夢にも思わなかったアプリケーションでどのように使用されているかを体験することは、非常に満足のいく気持ちです。

著者について

Bernardo Cuenca Grau教授は、オックスフォード大学のコンピュータサイエンス学部を拠点としています。完全な経歴については、(Meet the Foundersの記事)をお読みください。

記事について

この記事は、もともとKeble CollegeReviewで公開されました。オックスフォードセマンティックテクノロジーズミディアムパブリケーションに関する大学と著者による記事の再発行が許可されました。

チームとリソース

オックスフォードセマンティックテクノロジーズの背後にあるチームは、2011年にRDFoxの作業を開始しました。オックスフォード大学のコンピュータサイエンス学部で、柔軟で高性能な推論は、結果の正確さを損なうことなく、データ集約型のアプリケーションの可能性であると確信していました。 RDFoxは、推論を念頭に置いてゼロから設計された最初の市場対応知識グラフです。 Oxford Semantic Technologiesは、オックスフォード大学からスピンアウトしたもので、Samsung Venture Investment Corporation(SVIC)、Oxford Sciences Innovation(OSI)、Oxford Universityの投資部門(OUI)などの主要な投資家に支えられています。著者はこのチームのメンバーであることを誇りに思っています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です