Crowdsourcing Label Aggregation: attività di modellazione e correlazione worker

Pubblicato il
Ottenere etichette aggregate dalla folla

(Ioanna Sanida ) (29 ottobre 2020)

I set di dati etichettati sono fondamentali per la formazione della ricerca sullapprendimento automatico, sia in ambito accademico che industriale.

  • Perché i dati etichettati come importanti per il machine learning?

Nellera dellabbondanza dei dati e della prevalenza del machine learning su più domini, è fondamentale utilizzare correttamente lenorme quantità di dati disponibili, fondamentali per addestrare i modelli di machine learning. In quanto esseri umani, percepiamo il mondo reale osservando prima le variabili ambientali e poi classificandole in categorie in base a determinate proprietà o caratteristiche. I modelli di apprendimento automatico sono attualmente in fase di addestramento sui set di dati disponibili al fine di risolvere una pletora di problemi seguendo un metodo simile. Tra le varie sfide dellapprendimento automatico, cè la mancanza di dati etichettati. I dati etichettati sono set di dati contrassegnati con una o più etichette al fine di identificare e classificare ulteriormente le proprietà di ogni elemento di interesse nel set di dati. Limportanza dei dati etichettati risiede nel processo di addestramento di un modello di apprendimento automatico. I modelli vengono addestrati su un set di dati i cui valori etichettati noti vengono utilizzati come una verità fondamentale , ovvero il valore o la risposta reale. I modelli vengono quindi testati su dati senza etichetta delle stesse caratteristiche, utilizzando questa verità di base, per determinare se il modello può prevedere le etichette corrette. Il risultato è un modello in grado di prevedere un output finale di alta precisione su nuovi dati senza etichettatura manuale.

  • Come ottenere tutte queste etichette?

Lottenimento di set di dati con annotazioni di alta qualità è un processo che è stato accelerato dallintroduzione dei servizi di crowdsourcing come Amazon Mechanical Turk e CrowdFlower . Il crowdsourcing ha rivoluzionato la raccolta di dati etichettati, consentendo a folle di lavoratori (umani o algoritmi) di annotare gli articoli in modo molto efficiente, a basso costo e che fa risparmiare tempo.

Tuttavia, la qualità degli articoli etichettati è spesso inadeguato e osserviamo etichette rumorose. I lavoratori potrebbero non avere conoscenze su un particolare argomento e quindi annotare gli articoli in modo errato o concentrarsi di proposito sulla quantità di articoli etichettati piuttosto che sulla qualità, data la ricompensa monetaria che ottieni quando etichetti ogni articolo.

La maggior parte degli articoli esistenti studi che si concentrano sul controllo di qualità dei dati di crowdsourcing e sulla riduzione del rumore delle etichette crowdsourcing, utilizzano modelli grafici probabilistici per dedurre la vera etichetta da annotazioni rumorose. Whitehill et al. (2009), introducono il modello probabilistico GLAD che deduce in modo più accurato non solo letichetta del vero latente, ma tiene anche conto dellesperienza di ciascun lavoratore e la difficoltà di ogni articolo.

In questo post, estendiamo il modello GLAD sfruttando la ricchezza di informazioni aggiuntive contenute nella correlazione tra articoli e lavoratori. Modelliamo anche le correlazioni tra articoli e lavoratori, nonché lesperienza di ogni lavoratore e la difficoltà di ogni articolo.

  • Perché utilizzare i dati di crowdsourcing ?

Il crowdsourcing ha rivoluzionato la raccolta di dati etichettati consentendo a folle di lavoratori (umani o algoritmi) di annotare gli elementi a un costo molto basso. Le piattaforme di crowdsourcing come Amazon Mechanical Turk o CrowdFlower sono esempi distintivi di enormi quantità di etichette acquisite dalle folle. Nonostante la maggiore efficienza e lalta velocità, un problema comune che emerge da questa tecnica è la qualità compromessa delle etichette per i diversi soggetti. Ciò è dovuto al fatto che più lavoratori possono etichettare gli stessi articoli, siano essi esperti in materia o meno. Questo è un problema importante per i domini specializzati, in cui la classificazione degli elementi ha una difficoltà maggiore e richiede esperienza. Inoltre, a causa della natura anonima delletichettatura in crowdsourcing e degli incentivi concorrenti, osserviamo casi di lavoratori spam o lavoratori con interessi contrastanti. Di conseguenza, le etichette ottenute per gli articoli che richiedono un livello di competenza nel dominio potrebbero essere molto rumorose e di bassa qualità. Pertanto, lacquisizione di etichette accurate dalle piattaforme di crowdsourcing è diventata un collo di bottiglia per il progresso nellapprendimento automatico.

  • Che cosè laggregazione di etichette?

Per superare lostacolo di una cattiva etichettatura, le etichette assegnate a ciascun elemento da più lavoratori possono essere aggregate collettivamente e quindi viene dedotta la vera etichetta per ogni istanza.Il metodo più semplicistico per questo è il voto a maggioranza. Il voto a maggioranza è un metodo in cui letichetta data di un articolo è quella che ha ricevuto la maggior parte dei voti dai lavoratori. Questo metodo può essere utilizzato anche per dedurre lesperienza del lavoratore e la difficoltà dellarticolo.

Quando si tratta di modellare lesperienza del lavoratore e la difficoltà delloggetto, ci sono diversi approcci. Il primo lavoro avanzato per laggregazione di etichette è presentato da Dawid & Skene (1979), dove assumono un elemento globale difficoltà per tutti i lavoratori e competenza globale dei lavoratori per tutti gli articoli. Tuttavia, questo metodo presuppone che tutti i lavoratori abbiano lo stesso livello di esperienza quando etichettano un articolo. Inoltre, è implicito che tutti gli elementi abbiano lo stesso livello di difficoltà, il che non è il caso della maggior parte delle attività della vita reale.

Per risolvere questo problema, Whitehill et al . (2009), propone che le etichette dovrebbero essere generate da una distribuzione di probabilità su tutte le etichette, i lavoratori e gli articoli. Tuttavia, ciò presuppone anche che la difficoltà degli articoli sia globalmente identica a tutti i lavoratori e che lesperienza dei lavoratori sia globalmente identica a tutti gli articoli, cosa che non riesce a integrare la correlazione tra articoli e lavoratori.

In pratica , i lavoratori esperti in un argomento specifico tendono a etichettare gli articoli che appartengono a questo argomento in modo più accurato, ovvero le etichette che danno a questi articoli sono altamente correlate alla sua vera etichetta.

Allo stesso modo, gli articoli che sono considerati facili sono solitamente etichettati con precisione dai lavoratori. Invece, gli elementi di alta difficoltà ricevono una gamma più ampia di etichette diverse, che creano rumore per letichetta data.

  • Come migliorarla?

Un modo per migliorare il lavoro di Whitehill et al . (2009), codifica la correlazione tra lavoratori e articoli. Potremmo modellare la difficoltà delloggetto dal punto di vista del lavoratore e lesperienza del lavoratore dal punto di vista del compito, e incorporando queste informazioni miriamo quindi a produrre prestazioni superiori in termini di inferenza della vera etichetta, nonché in termini di apprendimento dei parametri di interesse.

Più specificamente, formulando un modello probabilistico per il processo di etichettatura, possiamo riuscire a dedurre la vera etichetta degli articoli in modo più preciso. In questo modo miriamo a dedurre correttamente letichetta più accurata per ogni elemento, nonché a dedurre il parametro di competenza di ciascun lavoratore, il parametro di difficoltà di ciascun elemento e, infine, la correlazione tra il lavoratore e lelemento. Laccuratezza e la stabilità dei risultati si sono dimostrate eccezionali e quindi risolviamo il problema di dedurre la vera etichetta degli articoli in un modo più efficiente!

I risultati di questo progetto stanno arrivando a un pubblicazione di Sanida et al., quindi fai attenzione ad ulteriori dettagli interessanti di questo lavoro!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *