Agregarea etichetelor Crowdsourcing: sarcina de modelare și corelarea lucrătorilor

Obținerea etichetelor agregate din mulțimi

(Ioanna Sanida ) (29 octombrie 2020)

Seturile de date etichetate sunt cruciale pentru instruirea cercetării învățării automate, atât în ​​mediul academic, cât și în industrie.

  • sunt datele etichetate importante pentru învățarea automată?

În era abundenței datelor și a prevalenței învățării automate pe mai multe domenii, este crucial să se utilizeze în mod corespunzător cantitatea enormă de date disponibile, care sunt esențiale pentru instruirea modelelor de învățare automată. Noi, ca oameni, percepem lumea reală observând mai întâi variabilele de mediu și apoi clasificându-le în categorii în funcție de anumite proprietăți sau caracteristici. Modelele de învățare automată sunt în prezent instruite cu privire la seturile de date disponibile pentru a rezolva o mulțime de probleme urmând o metodă similară. Printre diferitele provocări ale învățării automate se numără lipsa datelor etichetate. Datele etichetate sunt seturi de date care sunt etichetate cu una sau mai multe etichete pentru a identifica și clasifica în continuare proprietățile fiecărui element de interes din setul de date. Importanța datelor etichetate se află în procesul de instruire al unui model de învățare automată. Modelele sunt instruite pe un set de date ale cărui valori etichetate cunoscute sunt utilizate ca adevăr adevărat , adică adevărata valoare sau răspuns. Modelele sunt apoi testate pe date neetichetate cu aceleași caracteristici, folosind acest adevăr de bază, pentru a determina dacă modelul poate prezice etichetele corecte. Rezultatul este un model care poate prezice o ieșire finală de precizie ridicată pe date noi fără etichetare manuală.

  • Cum se obțin toate aceste etichete?

Obținerea seturilor de date adnotate de înaltă calitate este un proces care a fost accelerat de la introducerea serviciilor de crowdsourcing, cum ar fi Amazon Mechanical Turk și CrowdFlower . Crowdsourcing-ul a revoluționat colectarea datelor etichetate, permițând mulțimilor de lucrători (oameni sau algoritmi) să adune articole într-un mod foarte eficient, cu costuri reduse și economisind timp. adesea inadecvate și observăm etichete zgomotoase. Este posibil ca lucrătorilor să le lipsească cunoștințele cu privire la un anumit subiect și, prin urmare, să adune articole incorect sau să se concentreze în mod intenționat pe cantitatea de articole etichetate, mai degrabă decât pe calitate, având în vedere recompensa monetară pe care o obțineți atunci când etichetați fiecare articol.

Majoritatea existentelor studiile care se concentrează pe controlul calității datelor colectate în sursă și pe etichetele colectate în sursă, folosind modele grafice probabilistice pentru a deduce eticheta adevărată din adnotările zgomotoase. Whitehill și colab. (2009), introduc modelul probabilist GLAD care deduce mai precis nu numai eticheta adevărată latentă, ci și luând în considerare expertiza fiecărui lucrător și dificultatea fiecărui articol.

În acest post, extindem modelul GLAD prin valorificarea bogăției de informații suplimentare conținute în corelația dintre articole și lucrători. De asemenea, modelăm corelațiile dintre articole și lucrători, precum și expertiza fiecărui lucrător și dificultatea fiecărui articol.

  • De ce să folosim date crowdsourcing ?

Crowdsourcing-ul a revoluționat colectarea datelor etichetate, lăsând mulțimile de lucrători (oameni sau algoritmi) să adune articole la un cost foarte mic. Platformele de crowdsourcing precum Amazon Mechanical Turk sau CrowdFlower sunt exemple distincte de cantități masive de etichete achiziționate de la mulțimi. În ciuda eficienței crescute și a vitezei ridicate, o problemă comună care reiese din această tehnică este calitatea compromisă a etichetelor pentru diferiți subiecți. Acest lucru se datorează faptului că diferiți lucrători pot eticheta aceleași articole, indiferent dacă sunt sau nu experți. Aceasta este o problemă importantă pentru domeniile specializate, unde clasificarea articolelor are dificultăți mai mari și necesită expertiză. Mai mult, datorită naturii anonime a etichetării crowdsourced și a stimulentelor concurente, observăm cazuri de lucrători spam sau lucrători cu interese contradictorii. În consecință, etichetele obținute pentru articolele care necesită un nivel de expertiză în domeniu ar putea fi foarte zgomotoase și de calitate scăzută. Astfel, achiziționarea etichetelor exacte de pe platformele de crowdsourcing a devenit un blocaj pentru progresul în învățarea automată.

  • Ce este agregarea etichetelor?

Pentru a depăși obstacolul unei etichetări slabe, etichetele date fiecărui articol de la mai mulți lucrători pot fi agregate colectiv și apoi se deduce eticheta adevărată pentru fiecare instanță.Cea mai simplistă metodă pentru aceasta este votul majoritar. Votarea majoritară este o metodă în care eticheta dată a unui articol este cea care a primit majoritatea voturilor de către lucrători. Această metodă poate fi utilizată și pentru a deduce expertiza lucrătorului și dificultatea articolului.

Când vine vorba de modelarea expertizei lucrătorilor și a dificultății articolului, există mai multe abordări. Prima lucrare avansată pentru agregarea etichetelor este prezentată de Dawid & Skene (1979), unde își asumă un element global dificultate pentru toți lucrătorii și o expertiză globală a lucrătorilor pentru toate articolele. Cu toate acestea, această metodă presupune că toți lucrătorii au același nivel de expertiză atunci când etichetează un articol. Mai mult, se presupune că toate articolele au același nivel de dificultate, ceea ce nu este cazul în majoritatea sarcinilor din viața reală.

Pentru a rezolva această problemă, Whitehill și colab . (2009), propune ca etichetele să fie generate printr-o distribuție a probabilității pe toate etichetele, lucrătorii și articolele. Cu toate acestea, acest lucru presupune, de asemenea, că dificultatea articolelor este la nivel global identică cu toți lucrătorii și că expertiza lucrătorilor este la nivel global identică cu toate articolele, lucru care nu reușește să integreze corelația dintre articole și lucrători.

În practică , lucrătorii care sunt experți într-un anumit subiect tind să eticheteze articolele care aparțin acestui subiect mai exact, adică etichetele pe care le dau acestor articole sunt strâns legate de adevărata sa etichetă.

În mod similar, articolele care sunt considerate ușoare sunt de obicei etichetate cu precizie de către lucrători. Întrucât articolele cu dificultăți ridicate obțin o gamă mai largă de etichete diferite, care creează zgomot pentru eticheta dată.

  • Cum să o îmbunătățiți?

O modalitate de a îmbunătăți activitatea Whitehill și colab . (2009), codifică corelația lucrătorilor și a articolelor. Am putea modela dificultatea articolului în funcție de lucrător și expertiza lucrătorului în funcție de sarcini și, prin încorporarea acestor informații, ne propunem să obținem performanțe superioare în ceea ce privește deducerea etichetei adevărate, precum și în ceea ce privește învățarea parametrilor de interes.

Mai precis, prin formularea unui model probabilistic pentru procesul de etichetare, putem reuși să deducem mai precis adevărata etichetă a articolelor. În acest fel, ne propunem să deducem corect eticheta cea mai exactă pentru fiecare articol, precum și să deducem parametrul de expertiză al fiecărui lucrător, parametrul de dificultate al fiecărui articol și, în cele din urmă, corelația dintre lucrător și articol. Acuratețea și stabilitatea rezultatelor s-au dovedit a fi remarcabile și astfel rezolvăm problema deducerii adevăratei etichete a articolelor într-un mod mai eficient!

Rezultatele acestui proiect ajung la publicație de Sanida și colab., așa că aveți grijă la alte detalii interesante ale acestei lucrări!

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *