Crowdsourcing-label Aggregation: Modelleringsopgave og arbejdskorrelation

Henter samlede etiketter fra skarer

(Ioanna Sanida (29. okt 2020)

Mærkede datasæt er afgørende for uddannelse af maskinlæringsforskning, både i den akademiske verden og i industrien.

  • Hvorfor er mærkede data vigtige for maskinindlæring?

I en alder af dataoverflod og maskinlæringsprævalens på flere domæner er det afgørende at bruge korrekt den enorme mængde tilgængelige data, som er afgørende for at træne maskinlæringsmodeller. Vi, som mennesker, opfatter den virkelige verden ved først at observere miljøvariabler og derefter klassificere dem i kategorier efter bestemte egenskaber eller egenskaber. Maskinindlæringsmodeller trænes i øjeblikket i tilgængelige datasæt for at løse en overflod af problemer efter en lignende metode. Blandt de forskellige udfordringer ved maskinlæring er manglen på mærket data. Mærkede data er datasæt, der er mærket med en eller flere etiketter for at identificere og yderligere klassificere egenskaberne for hvert interessepunkt i datasættet. Vigtigheden af ​​mærkede data ligger i træningsprocessen for en maskinlæringsmodel. Modeller trænes i et datasæt, hvis kendte mærkede værdier bruges som en jordens sandhed , det vil sige den sande værdi eller svar. Modellerne testes derefter på umærkede data med de samme egenskaber ved hjælp af denne grundlæggende sandhed for at afgøre, om modellen kan forudsige de korrekte etiketter. Resultatet er en model, der kan forudsige en endelig output med høj nøjagtighed på nye data uden manuel mærkning.

  • Hvordan får man alle disse etiketter?

At få annoterede datasæt af høj kvalitet er en proces, der er blevet fremskyndet siden introduktionen af ​​Crowdsourcing-tjenester såsom Amazon Mechanical Turk og CrowdFlower . Crowdsourcing har revolutioneret indsamlingen af ​​mærkede data ved at lade skarer af arbejdere (mennesker eller algoritmer) kommentere varer på en meget effektiv, billig og tidsbesparende måde.

Kvaliteten af ​​de mærkede varer er dog ofte utilstrækkelige, og vi observerer støjende etiketter. Arbejdstagere mangler muligvis viden om et bestemt emne og kommenterer derfor varer forkert eller fokuserer med vilje på mængden af ​​mærkede varer snarere end kvaliteten i betragtning af den monetære belønning, du får, når du mærker hver vare.

Mest eksisterende Undersøgelser, der fokuserer på kvalitetskontrol af Crowdsourced data og de-noising Crowdsourced labels, bruger probabilistiske grafiske modeller til at udlede den sande label fra støjende kommentarer. Whitehill et al. (2009), introducer den sandsynlige GLAD-model, der viser mere præcist ikke kun den latente sande etiket, men også under hensyntagen til hver arbejdstagers ekspertise og vanskeligheden ved hvert element.

I dette indlæg udvider vi GLAD-modellen ved at udnytte det væld af yderligere information, der er indeholdt i sammenhængen mellem varer og arbejdere. Vi modellerer også sammenhængen mellem genstande og arbejdstagere såvel som hver enkelt arbejdstagers ekspertise og sværhedsgraden for hver vare.

  • Hvorfor bruge Crowdsourcing-data ?

Crowdsourcing har revolutioneret indsamlingen af ​​mærkede data ved at lade skarer af arbejdere (mennesker eller algoritmer) kommentere varer til en meget lav pris. Crowdsourcing-platforme som Amazon Mechanical Turk eller CrowdFlower er karakteristiske eksempler på enorme mængder erhvervede mærker fra folkemængder. På trods af den øgede effektivitet og høje hastighed er et fælles problem, der fremgår af denne teknik, den kompromitterede kvalitet af etiketterne til de forskellige motiver. Det skyldes, at forskellige arbejdere kan mærke de samme ting, uanset om de er sagkyndige eller ej. Dette er et vigtigt spørgsmål for specialiserede domæner, hvor vareklassifikation har større vanskeligheder og kræver ekspertise. På grund af den anonyme karakter af Crowdsourced-mærkning og konkurrerende incitamenter observerer vi desuden tilfælde af spamarbejdere eller arbejdstagere med modstridende interesser. Derfor kan de opnåede etiketter til varer, der kræver et niveau af domæneekspertise, være meget støjende og af lav kvalitet. Således er erhvervelse af nøjagtige etiketter fra Crowdsourcing-platforme blevet en flaskehals for fremskridt inden for maskinindlæring.

  • Hvad er etiketaggregering?

For at overvinde hindringen ved dårlig mærkning kan de etiketter, der gives til hver vare fra flere arbejdere, aggregeres samlet, og derefter udledes den sande etiket for hver forekomst.Den mest forenklede metode til dette er majoritetsafstemning. Majoritetsafstemning er en metode, hvor den givne etiket for en vare er den, der modtog flest af stemmerne fra arbejderne. Denne metode kan også bruges til at udlede arbejdstagerens ekspertise og genstandens vanskeligheder.

Når det kommer til modellering af arbejdstagerekspertise og vareproblemer, er der flere tilgange. Det første avancerede arbejde til etiketaggregering præsenteres af Dawid & Skene (1979), hvor de antager et globalt element vanskeligheder for alle arbejdere og en global arbejdstagerekspertise for alle varer. Denne metode forudsætter dog, at alle arbejdere har samme ekspertise, når de mærker en vare. Desuden er det underforstået, at alle genstande har samme vanskelighedsgrad, hvilket ikke er tilfældet i de fleste virkelige opgaver.

For at løse dette problem skal du Whitehill et al. . (2009) foreslår, at etiketter skal genereres ved en sandsynlighedsfordeling over alle etiketter, arbejdstagere og genstande. Dette forudsætter imidlertid også, at artikels vanskeligheder er globalt identiske med alle arbejdere, og at arbejdstageres ekspertise er globalt identisk med alle varer, noget der ikke integrerer sammenhængen mellem varer og arbejdere.

I praksis , arbejdere, der er eksperter på et bestemt emne, har en tendens til at mærke de genstande, der hører til dette emne mere nøjagtigt, dvs. de mærkater, de giver til disse emner, er stærkt beslægtede med dets sande mærke.

Tilsvarende er emner, der betragtes som lette mærkes normalt nøjagtigt af arbejderne. Mens varer med høj vanskelighed får en bredere vifte af forskellige etiketter, der skaber støj fra den givne etiket.

  • Hvordan forbedres det?

En måde at forbedre Whitehill et al på. (2009), koder for sammenhængen mellem arbejdere og genstande. Vi kunne modellere arbejdsmarkedsvanskeligheder og opgavevis arbejdstagerekspertise, og ved at inkorporere disse oplysninger sigter vi mod at give overlegen præstation med hensyn til at udlede den sande etiket såvel som med hensyn til at lære parametrene af interesse.

Mere specifikt ved at formulere en sandsynlighedsmodel til mærkningsprocessen kan vi klare at udlede den sande etiket af varerne mere præcist. På denne måde tilstræber vi korrekt at udlede den mest nøjagtige etiket for hver vare såvel som at udlede hver arbejdstagers ekspertise-parameter, hver artikels vanskelighedsparameter og endelig sammenhængen mellem arbejdstageren og varen. Nøjagtigheden og stabiliteten af ​​resultaterne har vist sig at være enestående, og derfor løser vi problemet med at udlede den sande etiket af varer på en mere effektiv måde!

Resultaterne af dette projekt nærmer sig offentliggørelse af Sanida et al., så pas på yderligere spændende detaljer om dette arbejde!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *