Crowdsourcing-etikettaggregering: Modelleringsuppgift och arbetarkorrelation

Publicerad
Erhålla aggregerade etiketter från folkmassor

(Ioanna Sanida ) (29 okt 2020)

Märkta datamängder är avgörande för utbildning av maskininlärningsforskning, både i den akademiska världen och i industrin.

  • Varför är märkta data viktiga för maskininlärning?

I en tid av dataöverflöd och maskininlärningsprevalens på flera domäner är det viktigt att använda korrekt den enorma mängden tillgänglig data, som är avgörande för att träna maskininlärningsmodeller. Vi som människor uppfattar den verkliga världen genom att först observera miljövariabler och sedan klassificera dem i kategorier efter vissa egenskaper eller egenskaper. Maskininlärningsmodeller utbildas för närvarande på tillgängliga datamängder för att lösa en mängd problem som följer en liknande metod. Bland de olika utmaningarna med maskininlärning är bristen på märkt data. Märkta data är datamängder som är taggade med en eller flera etiketter för att identifiera och ytterligare klassificera egenskaperna för varje intressant objekt i datamängden. Betydelsen av märkta data ligger i utbildningsprocessen för en maskininlärningsmodell. Modeller tränas i en dataset vars kända märkta värden används som en marksannhet , det vill säga det sanna värdet eller svaret. Modellerna testas sedan på omärkta data med samma egenskaper, med hjälp av denna grundläggande sanning, för att avgöra om modellen kan förutsäga rätt etiketter. Resultatet är en modell som kan förutsäga en slutlig produktion med hög noggrannhet på nya data utan manuell märkning.

  • Hur får man alla dessa etiketter?

Att erhålla högkvalitativa kommenterade datauppsättningar är en process som har påskyndats sedan introduktionen av Crowdsourcing-tjänster som Amazon Mechanical Turk och CrowdFlower . Crowdsourcing har revolutionerat insamlingen av märkta data genom att låta massor av arbetare (människor eller algoritmer) kommentera objekt på ett mycket effektivt, billigt och tidsbesparande sätt.

Kvaliteten på de märkta artiklarna är dock ofta otillräckliga, och vi observerar bullriga etiketter. Arbetstagare kan sakna kunskap om ett visst ämne och anmärker därför artiklar felaktigt eller fokuserar medvetet på mängden märkta artiklar snarare än kvaliteten, med tanke på den monetära belöning du får när du märker varje artikel.

Mest befintliga studier som fokuserar på kvalitetskontroll av Crowdsourced data och de-noising Crowdsourced-etiketter, använder probabilistiska grafiska modeller för att dra slutsatsen om den sanna etiketten från bullriga kommentarer. Whitehill et al. (2009), introducera den probabilistiska GLAD-modellen som visar mer exakt inte bara den latenta sanna etiketten utan också tar hänsyn till varje arbetares expertis och svårigheten för varje artikel.

I det här inlägget utökar vi GLAD-modellen genom att utnyttja den mängd information som finns i korrelationen mellan artiklar och arbetare. Vi modellerar också korrelationerna mellan artiklar och arbetare samt varje arbetares expertis och svårigheterna för varje objekt.

  • Varför använda Crowdsourcing-data ?

Crowdsourcing har revolutionerat insamlingen av märkta data genom att låta massor av arbetare (människor eller algoritmer) kommentera objekt till en mycket låg kostnad. Crowdsourcing-plattformar som Amazon Mechanical Turk eller CrowdFlower är distinkta exempel på massiva mängder förvärvade etiketter från folkmassor. Trots den ökade effektiviteten och höga hastigheten är en vanlig fråga som framgår av denna teknik den komprometterade kvaliteten på etiketterna för de olika ämnena. Det beror på det faktum att olika arbetare kan märka samma föremål, oavsett om de är ämnesexperter eller inte. Detta är en viktig fråga för specialiserade domäner, där artikelklassificering har högre svårigheter och kräver expertis. Dessutom, på grund av den anonyma karaktären av Crowdsourced märkning och konkurrerande incitament, observerar vi fall av skräppostarbetare eller arbetare med motstridiga intressen. Följaktligen kan de erhållna etiketterna för artiklar som kräver en nivå av domenexpertis vara mycket bullriga och av låg kvalitet. Således har förvärv av exakta etiketter från Crowdsourcing-plattformar blivit en flaskhals för framsteg inom maskininlärning.

  • Vad är etikettaggregering?

För att övervinna hindret för dålig märkning kan etiketterna som ges till varje artikel från flera arbetare sammanställas och sedan kan den verkliga etiketten för varje instans härledas.Den mest förenklade metoden för detta är majoritetsröstning. Majoritetsröstning är en metod där den givna etiketten för en artikel är den som fick flest röster av arbetarna. Denna metod kan också användas för att dra slutsatsen om arbetarens expertis och föremålets svårighet.

När det gäller modellering av arbetstagarnas expertis och föremålssvårigheter finns det flera tillvägagångssätt. Det första avancerade arbetet för etikettaggregering presenteras av Dawid & Skene (1979), där de antar en global artikel svårigheter för alla arbetare och en global arbetskunskap för alla artiklar. Denna metod förutsätter dock att alla arbetstagare har samma expertisnivå när de märker en artikel. Dessutom antyds det att alla artiklar har samma svårighetsgrad, vilket inte är fallet i de flesta verkliga uppgifter.

För att ta itu med problemet, Whitehill et al . (2009), föreslår att etiketter ska genereras genom en sannolikhetsfördelning över alla etiketter, arbetare och artiklar. Detta förutsätter dock också att föremålens svårigheter är globalt identiska med alla arbetare och att arbetarnas expertis globalt är identisk med alla föremål, något som inte integrerar korrelationen mellan artiklar och arbetare.

I praktiken , arbetstagare som är experter på ett visst ämne tenderar att märka de objekt som tillhör detta ämne mer exakt, dvs de etiketter som de ger till dessa föremål är starkt relaterade till dess verkliga märkning.

På liknande sätt är föremål som anses vara lätta märks vanligtvis korrekt av arbetarna. Föremål med hög svårighetsgrad får ett bredare utbud av olika etiketter, vilket skapar brus från den angivna etiketten.

  • Hur förbättrar man den?

Ett sätt att förbättra arbetet för Whitehill et al . (2009), kodar för korrelationen mellan arbetare och föremål. Vi skulle kunna modellera arbetarsvårigheter och svårighetsgrader för arbetstagare, och genom att inkludera denna information strävar vi efter att ge överlägsen prestanda när det gäller att dra slutsatsen om den verkliga etiketten, samt när det gäller att lära sig parametrarna av intresse.

Mer specifikt, genom att formulera en probabilistisk modell för märkningsprocessen, kan vi lyckas härleda den verkliga etiketten för artiklarna mer exakt. På det här sättet strävar vi efter att korrekt sluta den mest exakta etiketten för varje artikel, samt att härleda varje arbetares expertisparameter, varje artikels svårighetsparameter och slutligen korrelationen mellan arbetaren och artikeln. Noggrannheten och stabiliteten i resultaten har visat sig vara enastående, så vi löser problemet med att dra den verkliga märkningen av artiklar på ett mer effektivt sätt!

Resultaten av detta projekt kommer att publicering av Sanida et al., så se upp för ytterligare spännande detaljer om detta arbete!

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *