Crowdsourcing Label Aggregation: modélisation de la corrélation des tâches et des travailleurs

Obtention détiquettes agrégées auprès des foules

(Ioanna Sanida ) (29 octobre 2020)

Les ensembles de données étiquetés sont essentiels pour la formation à la recherche sur lapprentissage automatique, à la fois dans les universités et dans lindustrie.

  • Pourquoi les données étiquetées sont-elles importantes pour lapprentissage automatique?

À lère de labondance des données et de la prévalence de lapprentissage automatique sur plusieurs domaines, il est crucial dutiliser correctement lénorme quantité de données disponibles, qui sont essentielles pour former les modèles dapprentissage automatique. En tant quhumains, nous percevons le monde réel en observant dabord les variables environnementales, puis en les classant en catégories selon certaines propriétés ou caractéristiques. Des modèles dapprentissage automatique sont actuellement formés sur les ensembles de données disponibles afin de résoudre une pléthore de problèmes en suivant une méthode similaire. Parmi les différents défis de lapprentissage automatique, il y a le manque de données étiquetées. Les données étiquetées sont des ensembles de données qui sont étiquetés avec une ou plusieurs étiquettes afin didentifier et de classer davantage les propriétés de chaque élément dintérêt dans lensemble de données. Limportance des données étiquetées réside dans le processus de formation dun modèle dapprentissage automatique. Les modèles sont entraînés sur un ensemble de données dont les valeurs étiquetées connues sont utilisées comme vérité terrain , cest-à-dire la vraie valeur ou réponse. Les modèles sont ensuite testés sur des données non étiquetées des mêmes caractéristiques, en utilisant cette vérité terrain, pour déterminer si le modèle peut prédire les bonnes étiquettes. Le résultat est un modèle qui peut prédire une sortie finale de haute précision sur de nouvelles données sans étiquetage manuel.

  • Comment obtenir toutes ces étiquettes?

Lobtention densembles de données annotés de haute qualité est un processus qui sest accéléré depuis lintroduction de services de crowdsourcing tels que Amazon Mechanical Turk et CrowdFlower . Le crowdsourcing a révolutionné la collecte de données étiquetées, en permettant à des foules de travailleurs (humains ou algorithmes) dannoter les éléments de manière très efficace, économique et rapide.

Cependant, la qualité des éléments étiquetés est souvent inadéquats, et on observe des étiquettes bruyantes. Les employés peuvent manquer de connaissances sur un sujet particulier et par conséquent annoter les articles de manière incorrecte, ou se concentrer délibérément sur la quantité darticles étiquetés plutôt que sur la qualité, étant donné la récompense monétaire que vous obtenez lorsque vous étiquetez chaque article.

Le plus existant Les études qui se concentrent sur le contrôle de la qualité des données de crowdsourcing et la suppression du bruit des étiquettes de crowdsourcing, utilisent des modèles graphiques probabilistes pour déduire le vrai label à partir dannotations bruyantes. Whitehill et al. (2009), introduisent le modèle probabiliste GLAD qui infère plus précisément non seulement le vrai label latent, mais aussi en tenant compte de lexpertise de chaque travailleur et la difficulté de chaque élément.

Dans cet article, nous étendons le modèle GLAD en exploitant la richesse des informations supplémentaires contenues dans la corrélation entre les éléments et les travailleurs. Nous modélisons également les corrélations entre les éléments et les travailleurs ainsi que lexpertise de chaque travailleur et la difficulté de chaque élément.

  • Pourquoi utiliser les données de crowdsourcing ?

Le Crowdsourcing a révolutionné la collecte de données étiquetées en laissant des foules de travailleurs (humains ou algorithmes) annoter des éléments à un coût très bas. Les plateformes de crowdsourcing telles quAmazon Mechanical Turk ou CrowdFlower sont des exemples distinctifs de quantités massives détiquettes acquises auprès de foules. Malgré lefficacité accrue et la vitesse élevée, un problème commun qui émerge de cette technique est la qualité compromise des étiquettes pour les différents sujets. Cela est dû au fait que différents travailleurs peuvent étiqueter les mêmes articles, quils soient ou non des experts en la matière. Il sagit dun problème important pour les domaines spécialisés, où la classification des éléments est plus difficile et nécessite une expertise. De plus, en raison de la nature anonyme de létiquetage participatif et des incitations concurrentes, nous observons des cas de spams ou de travailleurs ayant des intérêts divergents. Par conséquent, les étiquettes obtenues pour les articles qui nécessitent un niveau dexpertise du domaine peuvent être très bruyantes et de faible qualité. Ainsi, lacquisition détiquettes précises à partir de plates-formes de crowdsourcing est devenue un goulot détranglement pour les progrès de lapprentissage automatique.

  • Quest-ce que lagrégation détiquettes?

Pour surmonter lobstacle dun mauvais étiquetage, les étiquettes attribuées à chaque élément de plusieurs travailleurs peuvent être agrégées collectivement, puis la véritable étiquette de chaque instance est déduite.La méthode la plus simple pour cela est le vote majoritaire. Le vote majoritaire est une méthode dans laquelle létiquette donnée dun élément est celle qui a reçu la plupart des votes des travailleurs. Cette méthode peut également être utilisée pour déduire lexpertise du travailleur et la difficulté de lélément.

Quand il sagit de modéliser lexpertise du travailleur et la difficulté de lélément, il existe plusieurs approches. Le premier travail avancé pour lagrégation détiquettes est présenté par Dawid & Skene (1979), où ils supposent un élément global difficulté pour tous les travailleurs et une expertise globale des travailleurs pour tous les articles. Cependant, cette méthode suppose que tous les travailleurs ont le même niveau dexpertise lorsquils étiquettent un article. De plus, il est implicite que tous les éléments ont le même niveau de difficulté, ce qui nest pas le cas dans la plupart des tâches de la vie réelle.

Pour résoudre ce problème, Whitehill et al . (2009), propose que les étiquettes soient générées par une distribution de probabilité sur tous les étiquettes, les travailleurs et les éléments. Cependant, cela suppose également que la difficulté des éléments est globalement identique à celle de tous les travailleurs, et que lexpertise des travailleurs est globalement identique à tous les éléments, ce qui ne parvient pas à intégrer la corrélation entre les éléments et les travailleurs.

En pratique , les travailleurs qui sont des experts sur un sujet spécifique ont tendance à étiqueter les articles qui appartiennent à ce sujet plus précisément, cest-à-dire que les étiquettes quils attribuent à ces articles sont étroitement liées à sa véritable étiquette.

De même, les articles qui sont considérés comme faciles sont généralement étiquetés avec précision par les travailleurs. Alors que les éléments de difficulté élevée obtiennent une plus large gamme détiquettes différentes, qui créent du bruit pour létiquette donnée.

  • Comment laméliorer?

Un moyen daméliorer le travail de Whitehill et al . (2009), encode la corrélation des travailleurs et des items. Nous pourrions modéliser la difficulté des éléments par le travailleur et lexpertise du travailleur par tâche, et en incorporant ces informations, nous visons ensuite à obtenir des performances supérieures en termes de déduction de la véritable étiquette, ainsi quen termes dapprentissage des paramètres dintérêt.

Plus précisément, en formulant un modèle probabiliste pour le processus détiquetage, on parvient à inférer plus précisément la véritable étiquette des éléments. De cette façon, nous visons à déduire correctement létiquette la plus précise pour chaque élément, ainsi quà déduire le paramètre dexpertise de chaque collaborateur, le paramètre de difficulté de chaque élément et enfin la corrélation entre le collaborateur et lélément. La précision et la stabilité des résultats se sont avérées exceptionnelles et nous résolvons donc le problème de la déduction de la véritable étiquette des éléments dune manière plus efficace!

Les résultats de ce projet arrivent à un publication par Sanida et al., alors faites attention aux autres détails passionnants de ce travail!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *