Crowdsourcing-etikettaggregasjon: Modelleringsoppgave og arbeidskorrelasjon

Får samlet etiketter fra folkemengder

(Ioanna Sanida ) (29. okt 2020)

Merkede datasett er avgjørende for å trene maskinlæringsforskning, både i akademia og i industrien.

  • Hvorfor er merkede data viktige for maskinlæring?

I en alder av dataoverflod og maskinlæringsutbredelse på flere domener er det avgjørende å bruke riktig den enorme mengden tilgjengelige data, som er avgjørende for å trene maskinlæringsmodeller. Vi som mennesker oppfatter den virkelige verden ved først å observere miljøvariabler og deretter klassifisere dem i kategorier i henhold til bestemte egenskaper eller egenskaper. Maskinlæringsmodeller blir for tiden trent på tilgjengelige datasett for å løse en mengde problemer etter en lignende metode. Blant de forskjellige utfordringene ved maskinlæring er mangelen på merkede data. Merkede data er datasett som er merket med en eller flere etiketter for å identifisere og ytterligere klassifisere egenskapene til hvert interessepunkt i datasettet. Viktigheten av merkede data ligger i opplæringsprosessen til en maskinlæringsmodell. Modeller blir trent på et datasett hvis kjente merkede verdier brukes som en bakkesannhet , det vil si den sanne verdien eller svaret. Modellene blir deretter testet på umerkede data med de samme egenskapene, ved hjelp av denne bakkesannheten, for å avgjøre om modellen kan forutsi de riktige merkene. Resultatet er en modell som kan forutsi en endelig utgang med høy nøyaktighet på nye data uten manuell merking.

  • Hvordan skaffe man alle disse etikettene?

Å skaffe merkede datasett av høy kvalitet er en prosess som har blitt akselerert siden introduksjonen av Crowdsourcing-tjenester som Amazon Mechanical Turk og CrowdFlower . Crowdsourcing har revolusjonert innsamlingen av merkede data ved å la folkemengder av arbeidere (mennesker eller algoritmer) kommentere varer på en veldig effektiv, billig og tidsbesparende måte.

Imidlertid er kvaliteten på de merkede varene ofte utilstrekkelig, og vi observerer støyende etiketter. Arbeidstakere kan mangle kunnskap om et bestemt emne og kommentere derfor varer feil, eller med vilje fokusere på mengden merkede varer i stedet for kvaliteten, gitt den økonomiske belønningen du får når du merker hvert element.

Mest eksisterende studier som fokuserer på kvalitetskontroll av crowdsourced data og de-noising Crowdsourced labels, bruker probabilistiske grafiske modeller for å utlede den sanne etiketten fra støyende kommentarer. Whitehill et al. (2009), introdusere den sannsynlige GLAD-modellen som viser mer nøyaktig ikke bare den latente sanne etiketten, men også tar hensyn til ekspertisen til hver arbeider og vanskeligheten med hvert element.

I dette innlegget utvider vi GLAD-modellen ved å utnytte mengden av tilleggsinformasjon som finnes i korrelasjonen mellom varer og arbeidere. Vi modellerer også sammenhengen mellom artikler og arbeidere, samt ekspertisen til hver arbeider og vanskeligheten til hver vare.

  • Hvorfor bruke Crowdsourcing-data ?

Crowdsourcing har revolusjonert innsamlingen av merkede data ved å la folkemengder av arbeidere (mennesker eller algoritmer) kommentere varer til en veldig lav pris. Crowdsourcing-plattformer som Amazon Mechanical Turk eller CrowdFlower er særegne eksempler på store mengder ervervede etiketter fra folkemengder. Til tross for økt effektivitet og høy hastighet, er et vanlig problem som kommer frem fra denne teknikken den kompromitterte kvaliteten på etikettene for de forskjellige fagene. Det skyldes at ulike arbeidere kan merke de samme elementene, enten de er fageksperter eller ikke. Dette er en viktig sak for spesialiserte domener, der vareklassifisering har større vanskeligheter og krever kompetanse. Dessuten observerer vi tilfeller av spamarbeidere eller arbeidstakere med motstridende interesser på grunn av den anonyme karakteren av Crowdsourced-merking og konkurrerende insentiver. Følgelig kan de oppnådde etikettene for varer som krever et nivå av domenekompetanse være veldig støyende og av lav kvalitet. Dermed har anskaffelse av nøyaktige etiketter fra Crowdsourcing-plattformer blitt en flaskehals for fremgang innen maskinlæring.

  • Hva er etikettaggregering?

For å overvinne hindringen med dårlig merking, kan etikettene gitt til hvert element fra flere arbeidere samles samlet, og deretter utledes den sanne etiketten for hver forekomst.Den mest forenklede metoden for dette er Majority Voting. Majoritetsstemming er en metode der den gitte etiketten til en vare er den som mottok flest av stemmene av arbeiderne. Denne metoden kan også brukes til å utlede arbeidstakers ekspertise og elementets vanskeligheter.

Når det gjelder modellering av arbeiderkompetanse og vareproblemer, er det flere tilnærminger. Det første avanserte arbeidet for etikettaggregering presenteres av Dawid & Skene (1979), der de antar et globalt element vanskeligheter for alle arbeidstakere og en global arbeidskompetanse for alle elementene. Denne metoden forutsetter imidlertid at alle arbeidere har samme kompetanse når de merker en vare. Videre antydes det at alle elementene har samme vanskelighetsgrad, noe som ikke er tilfelle i de fleste virkelige oppgaver.

For å løse dette problemet, Whitehill et al. . (2009), foreslår at etiketter skal genereres ved en sannsynlighetsfordeling over alle etiketter, arbeidere og gjenstander. Dette forutsetter imidlertid også at varenes vanskeligheter er globalt identiske med alle arbeidstakere, og at arbeidernes ekspertise er globalt identisk med alle elementene, noe som ikke klarer å integrere korrelasjonen mellom varer og arbeidere.

I praksis , arbeidere som er eksperter på et bestemt emne, har en tendens til å merke varene som tilhører dette emnet mer nøyaktig, dvs. at etikettene de gir til disse varene, er sterkt relatert til den sanne merkingen. anses som enkle blir vanligvis merket nøyaktig av arbeiderne. Mens varer med høy vanskelighetsgrad får et bredere utvalg av forskjellige etiketter, som skaper støy fra den gitte etiketten.

  • Hvordan forbedrer jeg den?

En måte å forbedre arbeidet til Whitehill et al . (2009), koder for sammenhengen mellom arbeidere og gjenstander. Vi kunne modellere arbeidstakermessige varevanskeligheter og arbeidsmessige ekspertise, og ved å innlemme denne informasjonen tar vi sikte på å gi overlegen ytelse når det gjelder å utlede den sanne etiketten, så vel som når det gjelder å lære parametrene som er av interesse. P Mer spesifikt, ved å formulere en sannsynlighetsmodell for merkeprosessen, kan vi klare å utlede den sanne etiketten til varene mer presist. På denne måten tar vi sikte på å utlede den mest nøyaktige etiketten for hvert element, samt å utlede hver arbeidstakers ekspertise-parameter, hver vares vanskelighetsparameter, og til slutt sammenhengen mellom arbeideren og varen. Nøyaktigheten og stabiliteten til resultatene har vist seg å være enestående, og derfor løser vi problemet med å utlede den virkelige merkelappen av varer på en mer effektiv måte!

Resultatene av dette prosjektet kommer til en publikasjon av Sanida et al., så pass opp for ytterligere spennende detaljer om dette arbeidet!

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *