Crowdsourcing címke összesítése: Feladat modellezése és munkavállalói korreláció

Összevont címkék megszerzése tömegből

(Ioanna Sanida ) (2020. október 29.)

A címkézett adatkészletek kulcsfontosságúak a gépi tanulás kutatásának képzésében, mind az egyetemeken, mind az iparban.

  • Miért fontosak-e a címkézett adatok a gépi tanulás szempontjából?

Az adatbőség és a gépi tanulás több domainben való elterjedésének korában elengedhetetlen a megfelelően a rendelkezésre álló hatalmas mennyiségű adat, amely kritikus fontosságú a gépi tanulási modellek képzése szempontjából. Mi, emberek, úgy érzékeljük a való világot, hogy először megfigyeljük a környezeti változókat, majd bizonyos tulajdonságok vagy jellemzők szerint kategóriákba soroljuk őket. A gépi tanulási modelleket jelenleg a rendelkezésre álló adatkészleteken oktatják, hogy hasonló módszerrel rengeteg problémát oldhassanak meg. A gépi tanulás különféle kihívásai között szerepel a címkézett adatok hiánya. A címkézett adatok olyan adatkészletek, amelyek egy vagy több címkével vannak ellátva az adatkészlet egyes érdekelt tételeinek tulajdonságainak azonosítása és további osztályozása érdekében. A címkézett adatok fontossága a gépi tanulási modell képzési folyamatában rejlik. A modelleket egy olyan adatkészleten oktatják, amelynek ismert címkézett értékeit alapigazságként , vagyis a valódi értékként vagy válaszként használják. Ezután a modelleket azonos jellemzőkkel ellátott, címkézetlen adatokon tesztelik, felhasználva ezt az alapigazságot annak megállapítására, hogy a modell képes-e megjósolni a helyes címkéket. Az eredmény egy olyan modell, amely nagy pontosságú végeredményt képes megjósolni új adatokon, kézi címkézés nélkül.

  • Hogyan szerezhetem meg ezeket a címkéket?

A kiváló minőségű kommentált adatkészletek megszerzése olyan folyamat, amelyet felgyorsítottak a tömeges beszerzési szolgáltatások, például az Amazon Mechanical Turk és CrowdFlower . A tömeges beszerzés forradalmasította a címkézett adatok gyűjtését, lehetővé téve a dolgozók (emberek vagy algoritmusok) tömegének, hogy nagyon hatékonyan, olcsón és időtakarékosan tegyék meg az elemeket.

A címkézett elemek minősége azonban gyakran nem megfelelőek, és zajos címkéket figyelünk meg. Előfordulhat, hogy a munkavállalóknak nincsenek ismereteik egy adott témában, ezért helytelenül jegyzik fel az elemeket, vagy szándékosan a címkézett cikkek mennyiségére összpontosítanak, nem pedig a minőségre, figyelembe véve az egyes cikkek felcímkézésekor kapott pénzbeli jutalmat.

A legtöbb létező a tömeges adatok minőségellenőrzésére összpontosító tanulmányok és a tömegtől elzárt címkék zajmentesítése, valószínűségi grafikus modellek segítségével következtetnek az igazi címkére a zajos kommentárokból. Whitehill és munkatársai (2009) bemutatják a valószínűségi GLAD modellt, amely nemcsak a látens igaz címkét, hanem az egyes munkavállalók szakértelmét is pontosabban megállapítja. és az egyes cikkek nehézségei.

Ebben a bejegyzésben kibővítjük a GLAD modellt azáltal, hogy kihasználjuk a cikkek és a dolgozók közötti összefüggésben található további információk sokaságát. Modellezzük a tárgyak és a dolgozók közötti összefüggéseket, valamint az egyes munkavállalók szakértelmét és az egyes cikkek nehézségeit.

  • Miért érdemes felhasználni a tömeges beszerzési adatokat ?

A tömeges beszerzés forradalmasította a címkézett adatok gyűjtését azáltal, hogy a dolgozók tömegei (emberek vagy algoritmusok) nagyon alacsony költségek mellett tudták feljegyezni az elemeket. Az olyan tömeges beszerzési platformok, mint az Amazon Mechanical Turk vagy a CrowdFlower, megkülönböztető példák a tömegtől megszerzett hatalmas mennyiségű címkékre. A megnövekedett hatékonyság és nagy sebesség ellenére az ebből a technikából felmerülő gyakori probléma a különböző alanyok címkéinek romlott minősége. Ez annak a ténynek köszönhető, hogy a különböző munkavállalók ugyanazokat a cikkeket felcímkézhetik, függetlenül attól, hogy tárgyi szakértők-e. Ez fontos kérdés a speciális területeken, ahol az elemosztályozás nagyobb nehézségekkel jár és szakértelmet igényel. Sőt, a tömeges címkézés és a versengő ösztönzők anonim jellege miatt megfigyeljük a spam vagy ellentétes érdekű munkavállalók eseteit. Következésképpen a tárgyakhoz szükséges címkék, amelyek bizonyos szintű szakismeretet igényelnek, nagyon zajosak és alacsony minőségűek lehetnek. Így a pontos címkék megszerzése a crowdsourcing platformokról a gépi tanulás terén elért haladás szűk keresztmetszetévé vált.

  • Mi a címke összesítése?

A rossz címkézés akadályának kiküszöbölése érdekében a több dolgozótól az egyes cikkekhez adott címkéket összesíteni lehet, és következtetni lehet az egyes példányok valódi címkéjére.A legegyszerűbb módszer erre a többségi szavazás. A többségi szavazás egy olyan módszer, amelyben a tétel adott címkéje az, amelyik a dolgozók legtöbb szavazatát megkapta. Ez a módszer arra is felhasználható, hogy következtethessen a munkavállaló szaktudására és az árucikk nehézségére.

A munkavállalói szakértelem és a tárgyi nehézségek modellezésére többféle megközelítés létezik. Az első haladó munkát a címke összesítéséhez a Dawid & Skene (1979) mutatja be, ahol globális elemet feltételeznek nehézség minden munkavállaló számára és globális munkavállalói szakértelem az összes elem számára. Ez a módszer azonban azt feltételezi, hogy minden dolgozó azonos szintű szakértelemmel rendelkezik, amikor egy cikket felcímkéz. Ezenkívül feltételezhető, hogy minden elemnek ugyanaz a nehézségi szintje, ami a valós életben zajló feladatok többségénél nem így van.

A probléma megoldásához Whitehill és mtsai . (2009) azt javasolja, hogy a címkéket az összes címke, munkavállaló és tárgy valószínűségi eloszlásával hozzák létre. Ez azonban azt is feltételezi, hogy a cikkek nehézsége globálisan megegyezik az összes munkavállalóval, és hogy a munkavállalók szakértelme globálisan megegyezik az összes cikkel, ami nem képes integrálni a cikkek és a dolgozók közötti összefüggést.

A gyakorlatban , egy adott témában jártas munkavállalók hajlamosak pontosabban felcímkézni a tárgyhoz tartozó elemeket, vagyis az ezekre az elemekre adott címkék szorosan kapcsolódnak a címke valódi címkéjéhez.

Hasonlóképpen, azok az elemek, amelyek könnyűnek tekintik, a dolgozók általában pontosan felcímkézik. Míg a nagy nehézségekkel küzdő cikkek szélesebb körű különféle címkéket kapnak, amelyek zajt keltenek az adott címkén.

  • Hogyan lehetne javítani?

Módszer a Whitehill és mtsai munkájának javítására. (2009) kódolja a dolgozók és a tárgyak összefüggését. Modellezhetnénk a dolgozók bölcsességének nehézségét és a feladatokra épülő munkavállalói szaktudást, és ezen információk beépítésével azután kiemelkedő teljesítményre törekszünk a valódi címke kikövetkeztetése, valamint az érdekes paraméterek megismerése szempontjából.

Pontosabban, a címkézési folyamat valószínűségi modelljének megfogalmazásával pontosabban kikövetkeztethetjük az elemek valódi címkéjét. Így arra törekszünk, hogy helyesen következtessünk az egyes cikkek legpontosabb címkéjére, valamint következtessünk az egyes munkavállalók szakértői paramétereire, az egyes cikkek nehézségi paramétereire, végül pedig a munkavállaló és a cikk közötti összefüggésre. Az eredmények pontossága és stabilitása bizonyítottan kiemelkedő, ezért megoldjuk a termékek valódi címkéjének hatékonyabb következtetésének problémáját!

A projekt eredményei kiadványa: Sanida et al., ezért vigyázzon a munka további izgalmas részleteire!

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük