クラウドソーシングラベルの集約:タスクとワーカーの相関関係のモデリング

投稿日:

群衆から集約されたラベルを取得する

(Ioanna Sanida )(2020年10月29日)

ラベル付きデータセットは、学界と業界の両方で機械学習研究をトレーニングするために不可欠です。

  • 理由ラベル付けされたデータは機械学習にとって重要ですか?

複数のドメインでデータが豊富で機械学習が普及している時代では、使用することが重要です機械学習モデルのトレーニングに不可欠な膨大な量の利用可能なデータを適切に。私たちは人間として、まず環境変数を観察し、次にそれらを特定の特性または特性に従ってカテゴリに分類することによって、現実の世界を認識します。機械学習モデルは現在、同様の方法に従って多数の問題を解決するために、利用可能なデータセットでトレーニングされています。機械学習のさまざまな課題の中には、ラベル付きデータの欠如があります。ラベル付きデータは、データセット内の対象となる各アイテムのプロパティを識別してさらに分類するために、1つ以上のラベルでタグ付けされたデータセットです。ラベル付けされたデータの重要性は、機械学習モデルのトレーニングプロセス内にあります。モデルは、既知のラベル付き値がグラウンドトゥルース、つまり真の値または回答として使用されるデータセットでトレーニングされます。次に、このグラウンドトゥルースを使用して、同じ特性のラベルなしデータでモデルをテストし、モデルが正しいラベルを予測できるかどうかを判断します。その結果、手動でラベルを付けることなく、新しいデータで高精度の最終出力を予測できるモデルが得られます。

  • これらすべてのラベルを取得するにはどうすればよいですか?

高品質の注釈付きデータセットの取得は、 Amazon Mechanical Turk と CrowdFlower 。クラウドソーシングは、労働者(人間またはアルゴリズム)の群衆が非常に効率的、低コスト、時間節約の方法でアイテムに注釈を付けることを可能にすることで、ラベル付きデータの収集に革命をもたらしました。

ただし、ラベル付きアイテムの品質は多くの場合不十分であり、ノイズの多いラベルが観察されます。労働者は特定のトピックに関する知識が不足しているため、アイテムに誤った注釈を付けたり、各アイテムにラベルを付けたときに得られる金銭的報酬を考慮して、品質ではなくラベル付きアイテムの量に意図的に焦点を合わせたりする場合があります。

ほとんどの既存クラウドソーシングされたデータの品質管理とクラウドソーシングされたラベルのノイズ除去に焦点を当てた研究では、確率的なグラフィカルモデルを使用して、ノイズの多い注釈から真のラベルを推測します。 Whitehill et al。(2009)は、潜在的な真のラベルだけでなく、各ワーカーの専門知識も考慮に入れて、より正確に推論する確率的GLADモデルを紹介します。

この投稿では、アイテムとワーカーの相関関係に含まれる豊富な追加情報を活用して、GLADモデルを拡張します。また、アイテムとワーカーの相関関係、各ワーカーの専門知識と各アイテムの難易度もモデル化します。

  • クラウドソーシングデータを使用する理由?

クラウドソーシングは、非常に低コストで多数の労働者(人間またはアルゴリズム)に注釈を付けることで、ラベル付きデータの収集に革命をもたらしました。 Amazon Mechanical TurkやCrowdFlowerなどのクラウドソーシングプラットフォームは、クラウドから取得した大量のラベルの特徴的な例です。効率と高速性が向上しているにもかかわらず、この手法から生じる一般的な問題は、さまざまな主題のラベルの品質が低下していることです。これは、対象分野の専門家であるかどうかに関係なく、さまざまな作業者が同じアイテムにラベルを付けることができるという事実によるものです。これは、アイテムの分類がより困難で専門知識を必要とする特殊なドメインにとって重要な問題です。さらに、クラウドソーシングによるラベリングと競合するインセンティブの匿名性により、スパムワーカーまたは利益相反のあるワーカーのケースを観察します。その結果、ある程度のドメインの専門知識を必要とするアイテムに対して取得されたラベルは、非常にノイズが多く、品質が低い可能性があります。したがって、クラウドソーシングプラットフォームから正確なラベルを取得することは、機械学習の進歩のボトルネックになっています。

  • ラベルの集約とは何ですか?

ラベル付けが不十分であるという障害を克服するために、複数のワーカーから各アイテムに付けられたラベルをまとめて集約し、各インスタンスの実際のラベルを推測できます。このための最も単純な方法は、多数決です。多数決は、アイテムの特定のラベルが、労働者による投票のほとんどを受け取ったものである方法です。この方法は、労働者の専門知識とアイテムの難易度を推測するためにも使用できます。

労働者の専門知識とアイテムの難易度をモデル化する場合、いくつかのアプローチがあります。ラベル集約の最初の高度な作業は、 Dawid & Skene (1979)によって提示され、グローバルアイテムを想定しています。すべての労働者にとっての難しさとすべてのアイテムのためのグローバルな労働者の専門知識。ただし、この方法では、すべての作業者がアイテムにラベルを付けるときに同じレベルの専門知識を持っていることを前提としています。さらに、すべてのアイテムの難易度が同じであることを意味しますが、これはほとんどの実際のタスクには当てはまりません。

この問題に対処するには、 Whitehill et al 。 (2009)は、すべてのラベル、ワーカー、およびアイテムの確率分布によってラベルを生成することを提案しています。ただし、これは、アイテムの難易度がすべてのワーカーとグローバルに同一であり、ワーカーの専門知識がすべてのアイテムとグローバルに同一であり、アイテムとワーカー間の相関関係を統合できないことも前提としています。

実際には、特定の主題の専門家である労働者は、この主題に属するアイテムに、より正確にラベルを付ける傾向があります。つまり、これらのアイテムに付けるラベルは、その真のラベルと非常に関連性があります。

同様に、簡単だと考えられている場合、通常、労働者は正確にラベルを付けます。一方、難易度の高いアイテムは、さまざまなラベルを取得するため、特定のラベルにノイズが発生します。

  • 改善方法は?

Whitehill et al の作業を改善する方法。 (2009)は、ワーカーとアイテムの相関関係をエンコードしています。ワーカーごとのアイテムの難易度とタスクごとのワーカーの専門知識をモデル化できます。この情報を組み込むことで、真のラベルを推測するという点でも、関心のあるパラメーターを学習するという点でも、優れたパフォーマンスを実現することを目指します。

より具体的には、ラベリングプロセスの確率モデルを定式化することにより、アイテムの実際のラベルをより正確に推測することができます。このようにして、各アイテムの最も正確なラベルを正しく推測し、各ワーカーの専門知識パラメーター、各アイテムの難易度パラメーター、そして最後にワーカーとアイテムの相関関係を推測することを目指しています。結果の正確性と安定性は卓越していることが証明されているため、アイテムの真のラベルをより効率的に推測するという問題を解決します!

このプロジェクトの結果はSanida et al。による出版なので、この作品のさらにエキサイティングな詳細に気をつけてください!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です