Crowdsourcing agregace štítků: modelování úkolu a korelace pracovníka

Získání agregovaných štítků od davů

(Ioanna Sanida ) (29. října 2020)

Označené datové sady mají zásadní význam pro výcvik výzkumu strojového učení, a to jak na akademické půdě, tak v průmyslu.

  • Proč jsou označená data důležitá pro strojové učení?

Ve věku hojnosti dat a prevalence strojového učení ve více doménách je zásadní používat správně obrovské množství dostupných dat, která jsou zásadní pro trénování modelů strojového učení. My jako lidé vnímáme skutečný svět tím, že nejprve pozorujeme proměnné prostředí a poté je klasifikujeme do kategorií podle určitých vlastností nebo charakteristik. Modely strojového učení se v současné době trénují na dostupných datových sadách, aby se vyřešila spousta problémů po podobné metodě. Mezi různé výzvy strojového učení patří nedostatek označených dat. Označená data jsou datové sady, které jsou označeny jedním nebo více štítky, aby bylo možné identifikovat a dále klasifikovat vlastnosti každé položky zájmu v datové sadě. Důležitost označených dat spočívá v procesu školení modelu strojového učení. Modely se trénují na datové sadě, jejíž známé označené hodnoty se používají jako základní pravda , tj. Skutečná hodnota nebo odpověď. Modely jsou poté testovány na neoznačených datech se stejnými vlastnostmi pomocí této základní pravdy, aby se zjistilo, zda model dokáže předpovědět správné popisky. Výsledkem je model, který dokáže předpovědět konečný výstup s vysokou přesností na nových datech bez manuálního označování.

  • Jak získat všechny tyto popisky?

Získávání vysoce kvalitních anotovaných datových souborů je proces, který se zrychlil od zavedení crowdsourcingových služeb, jako je Amazon Mechanical Turk a CrowdFlower . Crowdsourcing způsobil revoluci ve shromažďování označených dat tím, že umožnil zástupům pracovníků (lidí nebo algoritmů) přidávat poznámky k položkám velmi efektivním, levným a časově úsporným způsobem.

Kvalita označených položek je však často nedostatečné a pozorujeme hlučné štítky. Pracovníkům možná chybí znalosti o konkrétním tématu, a proto položky nesprávně anotují, nebo se záměrně zaměřují spíše na množství označených položek než na kvalitu, a to vzhledem k peněžní odměně, kterou získáte, když jednotlivé položky označíte.

Většina existujících studie, které se zaměřují na kontrolu kvality crowdsourcingových dat a odstranění šumu crowdsourcingových štítků, používají pravděpodobnostní grafické modely k odvození pravého štítku od hlučných anotací. Whitehill et al. (2009), představují pravděpodobnostní model GLAD, který přesněji odvozuje nejen latentní skutečnou značku, ale také zohledňuje odbornost každého pracovníka a obtížnost každé položky.

V tomto příspěvku rozšiřujeme model GLAD využitím množství dalších informací obsažených ve korelaci mezi položkami a pracovníky. Rovněž modelujeme korelace mezi položkami a pracovníky a také odbornost každého pracovníka a obtížnost každé položky.

  • Proč používat data crowdsourcingu ?

Crowdsourcing způsobil revoluci ve shromažďování označených dat tím, že umožnil zástupům pracovníků (lidí nebo algoritmů) anotovat položky za velmi nízkou cenu. Crowdsourcingové platformy, jako je Amazon Mechanical Turk nebo CrowdFlower, jsou výraznými příklady obrovského množství získaných štítků od davů. Navzdory zvýšené efektivitě a vysoké rychlosti je častým problémem, který z této techniky vyplývá, kompromitovaná kvalita štítků pro různé subjekty. To je způsobeno skutečností, že různí pracovníci mohou označovat stejné položky, ať už jsou odborníky na předmět nebo ne. To je důležitý problém pro specializované domény, kde klasifikace položek má vyšší obtížnost a vyžaduje odbornost. Navíc vzhledem k anonymní povaze crowdsourcingového označování a konkurenčním pobídkám pozorujeme případy pracovníků spamu nebo pracovníků s konfliktními zájmy. V důsledku toho mohou být získané štítky pro položky, které vyžadují úroveň znalostí domény, velmi hlučné a nízké kvality. Získávání přesných štítků z crowdsourcingových platforem se tak stalo překážkou pokroku ve strojovém učení.

  • Co je agregace štítků?

Abychom překonali překážku špatného označování, lze štítky dané každé položce od více pracovníků agregovat společně a poté lze odvodit skutečný štítek pro každou instanci.Nejjednodušší metodou je většinové hlasování. Majoritní hlasování je metoda, při které daný štítek položky je ten, který získal většinu hlasů pracovníků. Tuto metodu lze také použít k odvození odbornosti pracovníka a obtížnosti položky.

Pokud jde o modelování odbornosti pracovníka a obtížnosti položky, existuje několik přístupů. První pokročilou práci pro agregaci štítků představuje Dawid & Skene (1979), kde předpokládají globální položku obtížnost pro všechny pracovníky a globální odbornost pracovníků pro všechny položky. Tato metoda však předpokládá, že všichni pracovníci mají při označování položky stejnou úroveň odbornosti. Navíc je naznačeno, že všechny položky mají stejnou úroveň obtížnosti, což u většiny úkolů v reálném životě neplatí.

Chcete-li tento problém vyřešit, Whitehill a kol. . (2009), navrhuje, aby štítky byly generovány pravděpodobnostní distribucí mezi všechny štítky, pracovníky a položky. To však také předpokládá, že obtížnost položek je globálně identická se všemi pracovníky a že odbornost pracovníků je globálně identická se všemi položkami, což je něco, co nedokáže integrovat korelaci mezi položkami a pracovníky.

V praxi „Pracovníci, kteří jsou odborníky na konkrétní předmět, mají tendenci označovat položky, které patří tomuto předmětu, přesněji, tj. štítky, které těmto položkám dávají, velmi souvisí s jeho skutečným štítkem.

Podobně i položky, které jsou považovány za snadné, jsou pracovníky obvykle přesně označeny. Vzhledem k tomu, že položky s vysokou obtížností získávají širší škálu různých štítků, které vytvářejí šum pro daný štítek.

  • Jak to vylepšit?

Způsob, jak zlepšit práci Whitehill et al . (2009), kóduje korelaci pracovníků a položek. Mohli bychom modelovat obtížnost položky podle pracovníka a odbornost pracovníka podle úlohy a začleněním těchto informací se pak snažíme dosáhnout vynikajícího výkonu, pokud jde o odvození skutečného štítku, stejně jako o učení parametrů zájmu.

Přesněji řečeno, formulováním pravděpodobnostního modelu pro proces označování dokážeme přesněji odvodit skutečný štítek položek. Tímto způsobem se snažíme správně odvodit nejpřesnější štítek pro každou položku, stejně jako odvodit parametr odbornosti každého pracovníka, parametr obtížnosti každé položky a nakonec korelaci mezi pracovníkem a položkou. Ukázalo se, že přesnost a stabilita výsledků je vynikající, a proto řešíme problém odvození skutečného štítku položek efektivnějším způsobem!

Výsledky tohoto projektu se blíží publikace Sanida et al., takže si dejte pozor na další vzrušující podrobnosti této práce!

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *