Crowdsourcing-Label-Aggregation: Modellierung von Task- und Worker-Korrelation

Veröffentlicht
Abrufen aggregierter Beschriftungen aus Menschenmengen

(Ioanna Sanida ) (29. Oktober 2020)

Beschriftete Datensätze sind sowohl für die Wissenschaft als auch für die Industrie von entscheidender Bedeutung für die Ausbildung der Forschung zum maschinellen Lernen.

  • Warum Sind gekennzeichnete Daten für das maschinelle Lernen wichtig?

Im Zeitalter der Datenfülle und der Verbreitung des maschinellen Lernens in mehreren Domänen ist die Verwendung von entscheidender Bedeutung richtig die enorme Menge an verfügbaren Daten, die für das Trainieren von Modellen für maschinelles Lernen entscheidend sind. Wir als Menschen nehmen die reale Welt wahr, indem wir zuerst Umgebungsvariablen beobachten und sie dann nach bestimmten Eigenschaften oder Merkmalen in Kategorien einteilen. Derzeit werden Modelle für maschinelles Lernen an verfügbaren Datensätzen trainiert, um eine Vielzahl von Problemen nach einer ähnlichen Methode zu lösen. Zu den verschiedenen Herausforderungen des maschinellen Lernens gehört das Fehlen gekennzeichneter Daten. Beschriftete Daten sind Datensätze, die mit einem oder mehreren Beschriftungen versehen sind, um die Eigenschaften jedes interessierenden Elements im Datensatz zu identifizieren und weiter zu klassifizieren. Die Bedeutung von gekennzeichneten Daten liegt im Trainingsprozess eines maschinellen Lernmodells. Modelle werden auf einem Datensatz trainiert, dessen bekannte beschriftete Werte als Grundwahrheit verwendet werden, dh als wahrer Wert oder Antwort. Die Modelle werden dann an unbeschrifteten Daten mit denselben Merkmalen unter Verwendung dieser Grundwahrheit getestet, um festzustellen, ob das Modell die richtigen Beschriftungen vorhersagen kann. Das Ergebnis ist ein Modell, das eine endgültige Ausgabe mit hoher Genauigkeit für neue Daten ohne manuelle Kennzeichnung vorhersagen kann.

  • Wie erhalte ich all diese Beschriftungen?

Das Abrufen hochwertiger kommentierter Datensätze ist ein Prozess, der seit der Einführung von Crowdsourcing-Diensten wie Amazon Mechanical Turk und CrowdFlower . Crowdsourcing hat das Sammeln gekennzeichneter Daten revolutioniert, indem es einer Vielzahl von Mitarbeitern (Menschen oder Algorithmen) ermöglicht hat, Elemente auf sehr effiziente, kostengünstige und zeitsparende Weise mit Anmerkungen zu versehen.

Die Qualität der gekennzeichneten Elemente ist jedoch gleich oft unzureichend, und wir beobachten verrauschte Etiketten. Den Mitarbeitern fehlen möglicherweise Kenntnisse zu einem bestimmten Thema, und sie kommentieren Elemente falsch oder konzentrieren sich absichtlich auf die Menge der gekennzeichneten Elemente und nicht auf die Qualität, da Sie eine finanzielle Belohnung erhalten, wenn Sie die einzelnen Elemente kennzeichnen.

Am häufigsten vorhanden Studien, die sich auf die Qualitätskontrolle von Crowdsourcing-Daten und das Entrauschen von Crowdsourced-Labels konzentrieren, verwenden probabilistische grafische Modelle, um aus verrauschten Annotationen das wahre Label abzuleiten. Whitehill et al. (2009) führen das probabilistische GLAD-Modell ein, das nicht nur das latente wahre Label genauer ableitet, sondern auch das Fachwissen jedes Arbeiters berücksichtigt und die Schwierigkeit jedes Elements.

In diesem Beitrag erweitern wir das GLAD-Modell, indem wir die Fülle zusätzlicher Informationen nutzen, die in der Korrelation zwischen Elementen und Arbeitern enthalten sind. Wir modellieren auch die Korrelationen zwischen Elementen und Arbeitnehmern sowie das Fachwissen jedes Arbeitnehmers und die Schwierigkeit jedes Elements.

  • Warum Crowdsourcing-Daten verwenden? ?

Crowdsourcing hat das Sammeln gekennzeichneter Daten revolutioniert, indem Massen von Arbeitern (Menschen oder Algorithmen) Elemente zu sehr geringen Kosten mit Anmerkungen versehen konnten. Crowdsourcing-Plattformen wie Amazon Mechanical Turk oder CrowdFlower sind charakteristische Beispiele für riesige Mengen erworbener Labels von Crowds. Trotz der erhöhten Effizienz und hohen Geschwindigkeit ist ein häufiges Problem, das sich aus dieser Technik ergibt, die beeinträchtigte Qualität der Etiketten für die verschiedenen Motive. Dies liegt an der Tatsache, dass verschiedene Mitarbeiter dieselben Artikel kennzeichnen können, unabhängig davon, ob sie Fachexperten sind oder nicht. Dies ist ein wichtiges Thema für spezialisierte Bereiche, in denen die Klassifizierung von Elementen höhere Schwierigkeiten hat und Fachwissen erfordert. Darüber hinaus beobachten wir aufgrund der Anonymität der Crowdsourcing-Kennzeichnung und konkurrierender Anreize Fälle von Spam-Mitarbeitern oder Arbeitnehmern mit widersprüchlichen Interessen. Folglich können die erhaltenen Etiketten für Elemente, die ein gewisses Maß an Domänenkenntnissen erfordern, sehr laut und von geringer Qualität sein. Der Erwerb genauer Etiketten von Crowdsourcing-Plattformen ist daher zu einem Engpass für den Fortschritt beim maschinellen Lernen geworden.

  • Was ist Etikettenaggregation?

Um das Hindernis einer schlechten Kennzeichnung zu überwinden, können die Beschriftungen, die jedem Artikel von mehreren Arbeitern zugewiesen wurden, zusammengefasst werden, und dann wird die wahre Kennzeichnung für jede Instanz abgeleitet.Die einfachste Methode hierfür ist die Mehrheitsabstimmung. Bei der Mehrheitsentscheidung handelt es sich um eine Methode, bei der das angegebene Etikett eines Artikels die meisten Stimmen der Arbeitnehmer erhalten hat. Diese Methode kann auch verwendet werden, um auf das Fachwissen des Arbeitnehmers und die Schwierigkeit des Gegenstands zu schließen.

Wenn es darum geht, das Fachwissen des Arbeitnehmers und den Schwierigkeitsgrad des Gegenstands zu modellieren, gibt es verschiedene Ansätze. Die erste fortgeschrittene Arbeit zur Etikettenaggregation wird von Dawid & Skene (1979) vorgestellt, wo sie ein globales Element annehmen Schwierigkeit für alle Arbeiter und eine globale Arbeiterkompetenz für alle Gegenstände. Bei dieser Methode wird jedoch davon ausgegangen, dass alle Mitarbeiter über das gleiche Fachwissen verfügen, wenn sie einen Artikel kennzeichnen. Darüber hinaus wird vorausgesetzt, dass alle Elemente den gleichen Schwierigkeitsgrad haben, was bei den meisten realen Aufgaben nicht der Fall ist.

Um dieses Problem zu beheben, Whitehill et al. . (2009) schlägt vor, dass Etiketten durch eine Wahrscheinlichkeitsverteilung über alle Etiketten, Arbeiter und Gegenstände erzeugt werden sollten. Dies setzt jedoch auch voraus, dass die Schwierigkeit von Gegenständen global mit allen Arbeitnehmern identisch ist und dass das Fachwissen der Arbeitnehmer global mit allen Gegenständen identisch ist, was die Korrelation zwischen Gegenständen und Arbeitern nicht integriert.

In der Praxis Arbeiter, die Experten für ein bestimmtes Thema sind, neigen dazu, die Artikel, die zu diesem Thema gehören, genauer zu kennzeichnen, dh die Etiketten, die sie diesen Artikeln geben, hängen stark mit der tatsächlichen Bezeichnung zusammen.

Ebenso Artikel, die gelten als einfach und werden in der Regel von den Arbeitern genau gekennzeichnet. Gegenstände mit hohem Schwierigkeitsgrad erhalten eine größere Auswahl an verschiedenen Etiketten, wodurch das angegebene Etikett verrauscht wird.

  • Wie kann es verbessert werden?

Eine Möglichkeit, die Arbeit von Whitehill et al. zu verbessern. (2009) codiert die Korrelation von Arbeitern und Gegenständen. Wir könnten die Schwierigkeit von Arbeitnehmern in Bezug auf Gegenstände und das Fachwissen in Bezug auf Aufgaben modellieren. Durch die Einbeziehung dieser Informationen wollen wir dann eine überlegene Leistung erzielen, wenn es darum geht, auf das wahre Etikett zu schließen und die interessierenden Parameter zu lernen. P. >

Insbesondere können wir durch die Formulierung eines Wahrscheinlichkeitsmodells für den Kennzeichnungsprozess die wahre Kennzeichnung der Artikel genauer ableiten. Auf diese Weise wollen wir das genaueste Etikett für jeden Artikel korrekt ableiten sowie den Fachwissensparameter jedes Arbeiters, den Schwierigkeitsparameter jedes Artikels und schließlich die Korrelation zwischen dem Arbeiter und dem Artikel ableiten. Die Genauigkeit und Stabilität der Ergebnisse hat sich als herausragend erwiesen. Daher lösen wir das Problem, effizienter auf das wahre Etikett der Artikel zu schließen!

Die Ergebnisse dieses Projekts kommen zu einem Ergebnis Veröffentlichung von Sanida et al., achten Sie also auf weitere spannende Details dieser Arbeit!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.