크라우드 소싱 라벨 집계 : 모델링 작업 및 작업자 상관 관계


군중에서 집계 된 라벨 얻기

(Ioanna Sanida ) (2020 년 10 월 29 일)

레이블 된 데이터 세트는 학계와 산업 모두에서 머신 러닝 연구를 교육하는 데 중요합니다.

  • 이유 라벨이 지정된 데이터는 머신 러닝에 중요합니까?

다양한 도메인에서 데이터가 풍부하고 머신 러닝이 보급되는 시대에는 기계 학습 모델을 훈련하는 데 중요한 사용 가능한 엄청난 양의 데이터를 적절하게 제공합니다. 인간으로서 우리는 환경 변수를 먼저 관찰 한 다음 특정 속성이나 특성에 따라 범주로 분류하여 현실 세계를 인식합니다. 기계 학습 모델은 현재 유사한 방법에 따라 과다한 문제를 해결하기 위해 사용 가능한 데이터 세트에 대해 학습되고 있습니다. 기계 학습의 다양한 과제 중에는 레이블이 지정된 데이터가 없습니다. 라벨이있는 데이터는 데이터 세트에서 관심있는 각 항목의 속성을 식별하고 추가로 분류하기 위해 하나 이상의 라벨로 태그가 지정된 데이터 세트입니다. 레이블이 지정된 데이터의 중요성은 기계 학습 모델의 학습 프로세스에 있습니다. 모델은 알려진 라벨 값이 실측 정보 , 즉 실제 값 또는 답변으로 사용되는 데이터 세트에서 학습됩니다. 그런 다음 모델이 올바른 레이블을 예측할 수 있는지 여부를 결정하기 위해이 Ground Truth를 사용하여 동일한 특성의 레이블이 지정되지 않은 데이터에서 모델을 테스트합니다. 그 결과 수동 라벨링없이 새 데이터에 대한 높은 정확도의 최종 출력을 예측할 수있는 모델이 탄생했습니다.

  • 이러한 라벨을 모두 얻는 방법은 무엇입니까?

고품질 주석 데이터 세트를 얻는 것은 Amazon Mechanical Turk 및 CrowdFlower . 크라우드 소싱은 작업자 (사람 또는 알고리즘) 군중이 매우 효율적이고 저렴한 비용으로 시간을 절약 할 수있는 방법으로 항목에 주석을 달 수 있도록함으로써 레이블이 지정된 데이터 수집에 혁명을 일으켰습니다.

그러나 레이블이 지정된 항목의 품질은 다음과 같습니다. 종종 부적절하며 시끄러운 레이블을 관찰합니다. 작업자는 특정 주제에 대한 지식이 부족하여 항목에 잘못 주석을 달거나 각 항목에 라벨을 지정할 때받는 금전적 보상을 고려하여 품질보다는 라벨이 지정된 항목의 수량에 고의로 집중할 수 있습니다.

대부분 기존 항목 크라우드 소싱 데이터의 품질 관리 및 크라우드 소싱 라벨 노이즈 제거에 초점을 맞춘 연구는 확률 적 그래픽 모델을 사용하여 노이즈가있는 주석에서 실제 라벨을 추론합니다. Whitehill et al. (2009), 잠재 된 실제 라벨뿐만 아니라 각 작업자의 전문성을 고려하여 더 정확하게 추론하는 확률 적 GLAD 모델을 소개합니다. 그리고 각 항목의 난이도.

이 게시물에서는 항목과 작업자 간의 상관 관계에 포함 된 풍부한 추가 정보를 활용하여 GLAD 모델을 확장합니다. 또한 항목과 작업자 간의 상관 관계는 물론 각 작업자의 전문 지식과 각 항목의 난이도를 모델링합니다.

  • 크라우드 소싱 데이터를 사용하는 이유 ?

Crowdsourcing은 작업자 (사람 또는 알고리즘) 군중이 매우 저렴한 비용으로 항목에 주석을 달 수 있도록하여 레이블이 지정된 데이터 수집에 혁명을 일으켰습니다. Amazon Mechanical Turk 또는 CrowdFlower와 같은 크라우드 소싱 플랫폼은 군중에서 대량으로 획득 한 레이블의 독특한 예입니다. 효율성과 속도가 향상 되었음에도 불구하고이 기술에서 발생하는 일반적인 문제는 다른 주제에 대한 라벨의 품질 저하입니다. 이는 주제 전문가이든 아니든 다양한 작업자가 동일한 항목에 라벨을 붙일 수 있기 때문입니다. 이것은 항목 분류가 더 어렵고 전문 지식이 필요한 특수 영역에서 중요한 문제입니다. 또한, 크라우드 소싱 라벨링 및 경쟁 인센티브의 익명 특성으로 인해 스팸 작업자 또는 이해 상충이있는 작업자의 사례를 관찰합니다. 결과적으로 도메인 전문 지식 수준이 필요한 항목에 대해 얻은 레이블은 매우 시끄럽고 품질이 낮을 수 있습니다. 따라서 크라우드 소싱 플랫폼에서 정확한 라벨을 획득하는 것이 머신 러닝 진행에 병목이되었습니다.

  • 라벨 집계 란 무엇입니까?

불량한 라벨링의 장애물을 극복하기 위해 여러 작업자가 각 항목에 부여한 라벨을 집합 적으로 집계 한 다음 각 인스턴스의 실제 라벨을 추론 할 수 있습니다.이를위한 가장 간단한 방법은 과반수 투표입니다. 과반수 투표는 항목의 주어진 레이블이 근로자가 대부분의 투표를받은 레이블 인 방법입니다. 이 방법은 작업자의 전문성과 항목의 난이도를 추론하는 데에도 사용할 수 있습니다.

작업자의 전문성과 항목 난이도를 모델링 할 때 몇 가지 접근 방식이 있습니다. 레이블 집계를위한 첫 번째 고급 작업은 Dawid & Skene (1979)에서 제공하며, 여기서 글로벌 항목을 가정합니다. 모든 근로자의 어려움과 모든 항목에 대한 글로벌 근로자 전문성. 그러나이 방법은 모든 작업자가 항목에 라벨을 지정할 때 동일한 수준의 전문 지식을 가지고 있다고 가정합니다. 또한 모든 항목의 난이도가 동일하다는 것을 암시하며 대부분의 실제 작업에서는 해당되지 않습니다.

이 문제를 해결하려면 Whitehill et al . (2009)는 모든 라벨, 작업자 및 항목에 대한 확률 분포를 통해 라벨을 생성해야한다고 제안합니다. 그러나 이것은 또한 항목의 난이도가 모든 근로자에게 전 세계적으로 동일하고 근로자의 전문 지식이 모든 항목에 대해 전 세계적으로 동일하다고 가정합니다. 이는 항목과 근로자 간의 상관 관계를 통합하지 못하는 것입니다.

실제로는 , 특정 주제에 대한 전문가 인 작업자는이 주제에 속하는 항목에 더 정확하게 라벨을 지정하는 경향이 있습니다. 즉, 이러한 항목에 부여하는 라벨은 실제 라벨과 매우 관련이 있습니다.

비슷하게 쉬운 것으로 간주되며 일반적으로 근로자가 정확하게 라벨을 붙입니다. 반면 난이도가 높은 항목은 더 넓은 범위의 라벨을 가져 와서 주어진 라벨에 노이즈를 발생시킵니다.

  • 어떻게 개선 할 수 있나요?

Whitehill 외 의 작업을 개선하는 방법. (2009)는 근로자와 항목의 상관 관계를 인코딩합니다. 우리는 작업자 별 항목 난이도와 작업 별 작업자 전문성을 모델링 할 수 있으며이 정보를 통합하여 실제 레이블을 추론하고 관심있는 매개 변수를 학습하는 측면에서 우수한 성과를내는 것을 목표로합니다.

더욱 구체적으로, 라벨링 프로세스에 대한 확률 모델을 공식화하면 항목의 실제 라벨을보다 정확하게 추론 할 수 있습니다. 이러한 방식으로 각 항목에 대해 가장 정확한 라벨을 정확하게 추론하고 각 작업자의 전문성 매개 변수, 각 항목의 난이도 매개 변수, 마지막으로 작업자와 항목 간의 상관 관계를 추론하는 것을 목표로합니다. 결과의 정확성과 안정성이 뛰어난 것으로 입증되어 상품의 실제 라벨을보다 효율적으로 추론하는 문제를 해결했습니다!

이 프로젝트의 결과는 Sanida 등의 출판물이므로이 작업에 대한 더 흥미로운 세부 사항을주의 깊게 살펴보십시오!

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다