Crowdsourcing Label Aggregation: modelowanie zadania i pracownika

Uzyskiwanie zagregowanych etykiet z tłumów

(Ioanna Sanida ) (29 października 2020 r.)

Oznaczone zbiory danych mają kluczowe znaczenie dla szkolenia badań nad uczeniem maszynowym, zarówno w środowisku akademickim, jak i w przemyśle.

  • Dlaczego czy dane oznaczone etykietami są ważne dla systemów uczących się?

W dobie obfitości danych i rozpowszechnienia systemów uczących się w wielu domenach ważne jest, aby używać właściwie ogromna ilość dostępnych danych, które mają kluczowe znaczenie dla trenowania modeli uczenia maszynowego. My, ludzie, postrzegamy świat rzeczywisty, najpierw obserwując zmienne środowiskowe, a następnie klasyfikując je w kategorie według określonych właściwości lub cech. Modele uczenia maszynowego są obecnie szkolone na dostępnych zbiorach danych w celu rozwiązania wielu problemów podobną metodą. Wśród różnych wyzwań uczenia maszynowego jest brak oznaczonych danych. Dane oznakowane to zbiory danych, które są oznaczone jedną lub większą liczbą etykiet w celu zidentyfikowania i dalszej klasyfikacji właściwości każdego interesującego elementu w zbiorze danych. Znaczenie oznaczonych danych zależy od procesu uczenia modelu uczenia maszynowego. Modele są uczone na zbiorze danych, którego znane wartości oznaczone etykietami są używane jako podstawowa prawda , to znaczy prawdziwa wartość lub odpowiedź. Modele są następnie testowane na nieoznakowanych danych o tych samych cechach, przy użyciu tej podstawowej prawdy, aby określić, czy model może przewidzieć prawidłowe etykiety. Rezultatem jest model, który może przewidzieć końcowy wynik z dużą dokładnością dla nowych danych bez ręcznego etykietowania.

  • Jak uzyskać wszystkie te etykiety?

Uzyskanie wysokiej jakości zestawów danych z adnotacjami to proces, który został przyspieszony od czasu wprowadzenia usług crowdsourcingu, takich jak Amazon Mechanical Turk i CrowdFlower . Crowdsourcing zrewolucjonizował gromadzenie oznaczonych danych, umożliwiając tłumom pracowników (ludzi lub algorytmów) opisywanie elementów w bardzo wydajny, tani i oszczędzający czas sposób.

Jednak jakość oznaczonych elementów jest często niewystarczające i obserwujemy głośne etykiety. Pracownikom może brakować wiedzy na określony temat i dlatego mogą nieprawidłowo opisywać pozycje lub celowo skupiać się na ilości etykietowanych elementów, a nie na jakości, biorąc pod uwagę nagrodę pieniężną, którą otrzymujesz za oznaczenie każdego przedmiotu.

Większość istniejących badania, które koncentrują się na kontroli jakości danych pochodzących z crowdsourcingu i odszumiania etykiet z crowdsourcingu, wykorzystują probabilistyczne modele graficzne, aby wywnioskować prawdziwą etykietę z zaszumionych adnotacji. Whitehill i in. (2009) wprowadzają probabilistyczny model GLAD, który dokładniej wnioskuje nie tylko o ukrytej prawdziwej etykiecie, ale także biorąc pod uwagę doświadczenie każdego pracownika i trudność każdego przedmiotu.

W tym poście rozszerzamy model GLAD, wykorzystując bogactwo dodatkowych informacji zawartych w korelacji między przedmiotami i pracownikami. Modelujemy również korelacje między przedmiotami i pracownikami, a także wiedzę każdego pracownika i stopień trudności każdego elementu.

  • Dlaczego warto korzystać z danych z crowdsourcingu ?

Crowdsourcing zrewolucjonizował gromadzenie oznaczonych danych, umożliwiając tłumom pracowników (ludzi lub algorytmów) dodawanie adnotacji do elementów po bardzo niskich kosztach. Platformy crowdsourcingowe, takie jak Amazon Mechanical Turk czy CrowdFlower, są charakterystycznymi przykładami ogromnych ilości etykiet przejętych od tłumów. Pomimo zwiększonej wydajności i dużej szybkości, częstym problemem wynikającym z tej techniki jest obniżona jakość etykiet dla różnych przedmiotów. Wynika to z faktu, że różni pracownicy mogą oznaczać te same przedmioty, niezależnie od tego, czy są ekspertami w danej dziedzinie, czy nie. Jest to ważna kwestia w wyspecjalizowanych domenach, w których klasyfikacja przedmiotów jest trudniejsza i wymaga specjalistycznej wiedzy. Ponadto, ze względu na anonimowy charakter etykietowania w ramach crowdsourcingu i konkurencyjnych zachęt, obserwujemy przypadki spamerów lub pracowników o sprzecznych interesach. W konsekwencji otrzymane etykiety dla pozycji, które wymagają poziomu wiedzy w dziedzinie domeny, mogą być bardzo hałaśliwe i niskiej jakości. Dlatego pozyskiwanie dokładnych etykiet z platform crowdsourcingowych stało się wąskim gardłem dla postępu w uczeniu maszynowym.

  • Co to jest agregacja etykiet?

Aby pokonać przeszkodę związaną ze złym oznakowaniem, etykiety nadane każdemu elementowi przez wielu pracowników można zagregować, a następnie wywnioskować prawdziwą etykietę dla każdego wystąpienia.Najbardziej uproszczoną metodą jest głosowanie większościowe. Głosowanie większością głosów to metoda, w której dana etykieta przedmiotu jest tą, która otrzymała większość głosów pracowników. Tej metody można również użyć do wywnioskowania wiedzy pracownika i trudności elementu.

Jeśli chodzi o modelowanie wiedzy pracownika i trudności elementu, istnieje kilka podejść. Pierwsza zaawansowana praca nad agregacją etykiet została przedstawiona przez Dawid & Skene (1979), gdzie zakładają one element globalny trudność dla wszystkich pracowników i ogólnoświatowa wiedza pracowników dla wszystkich pozycji. Jednak ta metoda zakłada, że ​​wszyscy pracownicy mają ten sam poziom wiedzy fachowej przy etykietowaniu pozycji. Ponadto zakłada się, że wszystkie elementy mają ten sam poziom trudności, co nie ma miejsca w przypadku większości rzeczywistych zadań.

Aby rozwiązać ten problem, Whitehill i in. . (2009), proponuje, aby etykiety były generowane przez rozkład prawdopodobieństwa na wszystkie etykiety, pracowników i przedmioty. Jednak zakłada się również, że trudność przedmiotów jest globalnie identyczna dla wszystkich pracowników, a wiedza pracowników jest globalnie identyczna ze wszystkimi przedmiotami, co nie pozwala na uwzględnienie korelacji między przedmiotami i pracownikami.

W praktyce pracownicy, którzy są ekspertami w określonej dziedzinie, zwykle dokładniej opisują przedmioty należące do tego tematu, tj. etykiety, które nadają tym przedmiotom, są w dużym stopniu powiązane z ich prawdziwą etykietą.

są uważane za łatwe, są zwykle dokładnie oznaczone przez pracowników. Natomiast elementy o dużym stopniu trudności mają szerszy zakres różnych etykiet, które powodują szumy w danej etykiecie.

  • Jak to poprawić?

Sposób na usprawnienie pracy Whitehill i in. . (2009), koduje korelację pracowników i przedmiotów. Moglibyśmy modelować poziom trudności przedmiotu z punktu widzenia pracownika i jego fachową wiedzę, a poprzez uwzględnienie tych informacji dążymy do uzyskania lepszych wyników w zakresie wnioskowania o prawdziwej etykiecie, a także pod względem uczenia się parametrów będących przedmiotem zainteresowania.

Dokładniej, formułując probabilistyczny model procesu etykietowania, możemy precyzyjniej wywnioskować prawdziwą etykietę produktów. W ten sposób staramy się poprawnie wywnioskować najdokładniejszą etykietę dla każdego przedmiotu, a także wywnioskować parametr wiedzy każdego pracownika, parametr trudności każdego elementu, a na koniec korelację między pracownikiem a przedmiotem. Udowodniono, że dokładność i stabilność wyników jest znakomita, dlatego rozwiązujemy problem wnioskowania o prawdziwej etykiecie produktów w bardziej efektywny sposób!

Wyniki tego projektu dochodzą do skutku publikacja Sanida et al., więc uważaj na dalsze ekscytujące szczegóły tej pracy!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *