Crowdsourcinglabelaggregatie: modellering van taak- en werkercorrelatie

Verkrijgen van verzamelde labels van menigten

(Ioanna Sanida ) (29 okt.2020)

Gelabelde datasets zijn cruciaal voor het trainen van machine learning-onderzoek, zowel in de academische wereld als in de industrie.

  • Waarom zijn gelabelde gegevens belangrijk voor machine learning?

In het tijdperk van overvloed aan gegevens en de prevalentie van machine learning op meerdere domeinen, is het cruciaal om goed de enorme hoeveelheid beschikbare gegevens, die essentieel zijn om machine learning-modellen te trainen. Wij, als mensen, nemen de echte wereld waar door eerst omgevingsvariabelen te observeren en ze vervolgens in categorieën in te delen op basis van bepaalde eigenschappen of kenmerken. Modellen voor machinaal leren worden momenteel getraind op basis van beschikbare datasets om een ​​overvloed aan problemen volgens een vergelijkbare methode op te lossen. Een van de verschillende uitdagingen van machine learning is het gebrek aan gelabelde gegevens. Gelabelde gegevens zijn datasets die zijn getagd met een of meer labels om de eigenschappen van elk van belang zijnde item in de dataset te identificeren en verder te classificeren. Het belang van gelabelde gegevens ligt binnen het trainingsproces van een machine learning-model. Modellen worden getraind op een dataset waarvan de bekende gelabelde waarden worden gebruikt als een grondwaarheid , dat wil zeggen de werkelijke waarde of het antwoord. De modellen worden vervolgens getest op niet-gelabelde gegevens met dezelfde kenmerken, met behulp van deze grondwaarheid, om te bepalen of het model de juiste labels kan voorspellen. Het resultaat is een model dat een uiteindelijke output van hoge nauwkeurigheid op nieuwe gegevens kan voorspellen zonder handmatige labeling.

  • Hoe al deze labels te verkrijgen?

Het verkrijgen van geannoteerde datasets van hoge kwaliteit is een proces dat is versneld sinds de introductie van crowdsourcing-services zoals Amazon Mechanical Turk en CrowdFlower . Crowdsourcing heeft een revolutie teweeggebracht in het verzamelen van gelabelde gegevens, door massas werknemers (mensen of algoritmen) items te laten annoteren op een zeer efficiënte, goedkope en tijdbesparende manier.

De kwaliteit van de gelabelde items is echter vaak onvoldoende, en we zien luidruchtige labels. Het kan zijn dat werknemers geen kennis hebben over een bepaald onderwerp en daarom items onjuist annoteren, of opzettelijk focussen op de hoeveelheid gelabelde items in plaats van op de kwaliteit, gezien de geldelijke beloning die u krijgt wanneer u elk item labelt.

De meeste bestaande studies die zich richten op de kwaliteitscontrole van crowdsourced data en het verwijderen van crowdsourced labels, gebruiken probabilistische grafische modellen om het ware label af te leiden uit lawaaierige annotaties. Whitehill et al. (2009), introduceren het probabilistische GLAD-model dat niet alleen het latente ware label nauwkeuriger afleidt, maar ook rekening houdt met de expertise van elke werknemer en de moeilijkheidsgraad van elk item.

In dit bericht breiden we het GLAD-model uit door gebruik te maken van de schat aan aanvullende informatie in de correlatie tussen items en werkers. We modelleren ook de correlaties tussen items en werknemers, evenals de expertise van elke werknemer en de moeilijkheidsgraad van elk item.

  • Waarom crowdsourcinggegevens gebruiken ?

Crowdsourcing heeft een revolutie teweeggebracht in het verzamelen van gelabelde gegevens door massas werknemers (mensen of algoritmen) te laten annoteren tegen zeer lage kosten. Crowdsourcing-platforms zoals Amazon Mechanical Turk of CrowdFlower zijn onderscheidende voorbeelden van enorme hoeveelheden verworven labels van menigten. Ondanks de verhoogde efficiëntie en hoge snelheid, is een veelvoorkomend probleem dat uit deze techniek naar voren komt de aangetaste kwaliteit van de labels voor de verschillende onderwerpen. Dat komt doordat verschillende medewerkers dezelfde items kunnen labelen, of ze nu vakexperts zijn of niet. Dit is een belangrijk probleem voor gespecialiseerde domeinen, waar itemclassificatie moeilijker is en expertise vereist. Bovendien zien we vanwege de anonieme aard van crowdsourcing-etikettering en concurrerende prikkels gevallen van spammedewerkers of medewerkers met tegenstrijdige belangen. Bijgevolg kunnen de verkregen labels voor items die een niveau van domeinexpertise vereisen, erg luidruchtig en van lage kwaliteit zijn. Het verwerven van nauwkeurige labels van crowdsourcingplatforms is dus een bottleneck geworden voor de vooruitgang bij machine learning.

  • Wat is labelaggregatie?

Om het obstakel van slechte etikettering te overwinnen, kunnen de labels die aan elk item van meerdere medewerkers worden gegeven, collectief worden samengevoegd en vervolgens wordt het ware label voor elk exemplaar afgeleid.De meest simplistische methode hiervoor is stemmen bij meerderheid. Meerderheidsstemmen is een methode waarbij het gegeven label van een item degene is die de meeste stemmen van de arbeiders heeft gekregen. Deze methode kan ook worden gebruikt om de expertise van de werknemer en de moeilijkheidsgraad van het item af te leiden.

Als het gaat om het modelleren van de deskundigheid van de werknemer en de moeilijkheidsgraad van het item, zijn er verschillende benaderingen. Het eerste geavanceerde werk voor labelaggregatie wordt gepresenteerd door Dawid & Skene (1979), waar ze uitgaan van een globaal item moeilijkheid voor alle werknemers en een wereldwijde deskundigheid van werknemers voor alle items. Bij deze methode wordt er echter van uitgegaan dat alle werknemers hetzelfde deskundigheidsniveau hebben wanneer ze een item labelen. Bovendien wordt geïmpliceerd dat alle items dezelfde moeilijkheidsgraad hebben, wat niet het geval is bij de meeste real-life taken.

Om dit probleem op te lossen, Whitehill et al . (2009), stelt voor om labels te genereren door een kansverdeling over alle labels, werknemers en items. Dit veronderstelt echter ook dat de moeilijkheidsgraad van items globaal identiek is aan die van alle werknemers, en dat de expertise van werknemers globaal identiek is aan alle items, iets dat de correlatie tussen items en workers niet integreert.

In de praktijk hebben werknemers die experts zijn op een specifiek onderwerp de neiging om de items die bij dit onderwerp horen nauwkeuriger te labelen, dwz de labels die ze aan deze items geven, zijn sterk gerelateerd aan het ware label.

Evenzo worden als gemakkelijk beschouwd, worden meestal nauwkeurig geëtiketteerd door de werknemers. Terwijl items met een hoge moeilijkheidsgraad een breder scala aan verschillende labels krijgen, die ruis veroorzaken bij het gegeven label.

  • Hoe het te verbeteren?

Een manier om het werk van Whitehill et al te verbeteren. (2009), codeert de correlatie van werknemers en items. We zouden de moeilijkheidsgraad van de werknemer kunnen modelleren en de taakgerichte deskundigheid van de werknemer, en door deze informatie op te nemen, proberen we superieure prestaties te leveren in termen van het afleiden van het ware label, evenals in termen van het leren van de relevante parameters.

Meer specifiek kunnen we door het formuleren van een probabilistisch model voor het labelingsproces, het ware label van de items nauwkeuriger afleiden. Op deze manier proberen we het meest nauwkeurige label voor elk item correct af te leiden, evenals de expertiseparameter van elke medewerker, de moeilijkheidsparameter van elk item en ten slotte de correlatie tussen de medewerker en het item. De nauwkeurigheid en stabiliteit van de resultaten is uitstekend gebleken en daarom lossen we het probleem op van het afleiden van het ware label van items op een efficiëntere manier!

De resultaten van dit project komen tot een publicatie door Sanida et al., dus kijk uit voor meer spannende details van dit werk!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *