Crowdsourcing Label Aggregation: Mallinnustehtävä ja työntekijöiden vastaavuus

Koostettujen tunnisteiden hankkiminen väkijoukoista

(Ioanna Sanida ) (29. lokakuuta 2020)

Merkityt tietojoukot ovat ratkaisevan tärkeitä koneoppimisen tutkimuksen kouluttamiselle sekä yliopistossa että teollisuudessa.

  • Miksi ovatko koneen oppimisen kannalta merkittäviä tietoja?

Tietojen runsauden ja koneoppimisen yleisyyden aikakaudella useilla verkkotunnuksilla on ratkaisevan tärkeää käyttää asianmukaisesti valtava määrä saatavilla olevaa tietoa, joka on kriittinen koneoppimismallien kouluttamiseksi. Me ihmisinä havaitsemme todellisen maailman tarkkailemalla ensin ympäristömuuttujia ja luokittelemalla ne sitten luokkiin tiettyjen ominaisuuksien tai ominaisuuksien mukaan. Koneoppimismalleja koulutetaan parhaillaan käytettävissä olevista aineistoista, jotta voidaan ratkaista lukuisia ongelmia samanlaisella menetelmällä. Koneoppimisen erilaisten haasteiden joukossa on merkittyjen tietojen puute. Merkityt tiedot ovat aineistoja, jotka on merkitty yhdellä tai useammalla tarralla kunkin tietojoukon kiinnostavan kohteen ominaisuuksien tunnistamiseksi ja luokittelemiseksi. Leimatun tiedon merkitys on koneoppimismallin koulutusprosessissa. Mallit koulutetaan tietojoukolle, jonka tunnettuja merkittyjä arvoja käytetään perustotuutena eli todellisena arvona tai vastauksena. Mallit testataan sitten samojen ominaisuuksien tunnistamattomilla tiedoilla tämän perustotuuden avulla sen selvittämiseksi, pystyykö malli ennustamaan oikeat tarrat. Tuloksena on malli, joka voi ennustaa korkean tarkkuuden lopputuloksen uusista tiedoista ilman manuaalisia merkintöjä.

  • Kuinka kaikki nämä tarrat hankitaan?

Laadukkaiden kommentoitujen tietojoukkojen hankkiminen on prosessia, jota on nopeutettu joukkorahoituspalveluiden, kuten Amazon Mechanical Turk ja CrowdFlower . Joukkorahoitus on mullistanut merkittyjen tietojen keräämisen antamalla joukon työntekijöitä (ihmisiä tai algoritmeja) merkitä kohteita erittäin tehokkaalla, edullisella ja aikaa säästävällä tavalla.

Merkittyjen tuotteiden laatu on kuitenkin usein riittämätön, ja havaitsemme meluisia tarroja. Työntekijöillä saattaa olla puutetta tietystä aiheesta ja siksi ne merkitsevät kohteita väärin tai keskittyvät tarkoituksella merkittyjen tuotteiden määrään eikä laatuun, kun otetaan huomioon rahallinen palkkio, jonka saat jokaisen tuotteen merkinnöissä.

Useimmat olemassa olevat tutkimuksissa, joissa keskitytään joukkorahoitettujen tietojen laadunvalvontaan ja vähäraskaisten joukkoratkaisujen tarrojen poistamiseen, käytetään todennäköisyyspainotteisia graafisia malleja todellisen tarran päättelemiseksi meluisista merkinnöistä. Whitehill ym. (2009) esittävät todennäköisyyksien GLAD-mallin, joka johtaa tarkemmin paitsi piilevän todellisen merkinnän lisäksi myös kunkin työntekijän asiantuntemus ja kunkin tuotteen vaikeus.

Tässä viestissä laajennamme GLAD-mallia hyödyntämällä runsaasti lisätietoa, joka sisältyy esineiden ja työntekijöiden väliseen korrelaatioon. Mallinnamme myös esineiden ja työntekijöiden väliset korrelaatiot, jokaisen työntekijän asiantuntemuksen ja kunkin tuotteen vaikeuden.

  • Miksi käyttää joukkorahoitusdataa ?

Joukkorahoitus on mullistanut merkittyjen tietojen keräämisen antamalla väkijoukkojen työntekijöiden (ihmisten tai algoritmien) merkitä kohteita erittäin alhaisin kustannuksin. Joukkorahoitusalustat, kuten Amazon Mechanical Turk tai CrowdFlower, ovat erottuvia esimerkkejä valtavista määristä hankittuja etikettejä väkijoukoilta. Suuremmasta tehokkuudesta ja suuresta nopeudesta huolimatta yleinen ongelma, joka tulee esiin tästä tekniikasta, on etikettien heikentynyt laatu. Tämä johtuu siitä, että eri työntekijät voivat merkitä samat tuotteet riippumatta siitä, ovatko he asiantuntijoita vai eivät. Tämä on tärkeä kysymys erikoistuneille aloille, joissa tuoteluokituksella on suurempia vaikeuksia ja jotka edellyttävät asiantuntemusta. Lisäksi joukkorahoitettujen merkintöjen ja kilpailevien kannustimien nimettömyyden vuoksi havaitsemme roskapostityöntekijöitä tai työntekijöitä, joilla on ristiriitaisia ​​etuja. Näin ollen saadut tarrat kohteille, jotka edellyttävät tietyn tason verkkotunnusta, voivat olla erittäin meluisia ja heikkolaatuisia. Siksi tarkkojen tarrojen hankkimisesta joukkorahoitusalustoilta on tullut pullonkaula koneoppimisen edistymiselle.

  • Mikä on tunnisteiden yhdistäminen?

Huonon merkinnän esteen poistamiseksi useiden työntekijöiden kullekin tuotteelle antamat tunnisteet voidaan koota yhteen ja sitten päätellä kunkin tapauksen todellinen tunniste.Yksinkertaisin tapa tähän on enemmistöäänestys. Enemmistöäänestys on menetelmä, jossa tuotteen annettu etiketti on se, joka sai suurimman osan työntekijöiden äänistä. Tätä menetelmää voidaan käyttää myös päättelemään työntekijän asiantuntemuksesta ja tuotteen vaikeudesta.

Työntekijöiden asiantuntemuksen ja esineiden vaikeuksien mallintamisessa on useita lähestymistapoja. Ensimmäisen kehittyneen työn tarrojen yhdistämistä varten on Dawid & Skene (1979), jossa he ottavat globaalin kohteen työntekijöiden vaikeus ja työntekijöiden maailmanlaajuinen asiantuntemus kaikista esineistä. Tässä menetelmässä kuitenkin oletetaan, että kaikilla työntekijöillä on sama asiantuntemus, kun he merkitsevät tuotteen. Lisäksi oletetaan, että kaikilla kohteilla on sama vaikeustaso, mitä ei ole useimmissa tosielämän tehtävissä.

Tämän ongelman ratkaisemiseksi, Whitehill ym. . (2009) ehdottaa, että tarrat tulisi luoda todennäköisyyksien jakautumisella kaikille tarroille, työntekijöille ja tuotteille. Tämä olettaa kuitenkin myös, että esineiden vaikeus on globaalisti identtinen kaikkien työntekijöiden kanssa ja että työntekijöiden asiantuntemus on globaalisti identtinen kaikkien esineiden kanssa, mikä ei integroi esineiden ja työntekijöiden välistä korrelaatiota.

Käytännössä Työntekijät, jotka ovat tietyn aiheen asiantuntijoita, pyrkivät etiketöimään tähän aiheeseen kuuluvat tuotteet tarkemmin, ts. heille näille tuotteille antamat tarrat liittyvät läheisesti sen oikeaan etikettiin.

Vastaavasti tuotteet, jotka työntekijät pitävät niitä helposti pidettävinä ja merkitsevät ne yleensä tarkasti. Suurten vaikeuksien kohteet saavat laajemman valikoiman erilaisia ​​tarroja, jotka aiheuttavat melua annetulle tarralle.

  • Kuinka sitä voidaan parantaa?

Tapa parantaa Whitehill ym : n työtä. (2009), koodaa työntekijöiden ja esineiden korrelaatiota. Voisimme mallintaa työntekijätietojen vaikeuksia ja tehtävälähtöisiä työntekijöiden asiantuntemuksia, ja sisällyttämällä nämä tiedot pyrimme sitten tuottamaan ylivertaista suorituskykyä todellisen etiketin päättämisessä sekä kiinnostavien parametrien oppimisessa.

Tarkemmin sanottuna muotoilemalla todennäköisyysmalli etikettiprosessille voimme onnistua päättelemään tuotteiden todellisen etiketin. Tällä tavoin pyrimme päättelemään oikein tarkimman merkinnän jokaiselle tuotteelle, samoin kuin jokaisen työntekijän asiantuntemusparametrin, kunkin tuotteen vaikeusparametrin ja lopuksi työntekijän ja kohteen välisen korrelaation. Tulosten paikkansapitävyys ja vakaus on osoittautunut erinomaisiksi, joten ratkaisemme ongelman, jonka mukaan tuotteiden todellinen etiketti voidaan päätellä tehokkaammin!

Tämän projektin tulokset ovat tulossa Sanida ym. -julkaisu, joten varo tämän työn jännittäviä yksityiskohtia!

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *