Agregación de etiquetas de crowdsourcing: correlación de tareas y trabajadores de modelado

Publicado el
Obtención de etiquetas agregadas de multitudes

(Ioanna Sanida ) (29 de octubre de 2020)

Los conjuntos de datos etiquetados son cruciales para entrenar la investigación del aprendizaje automático, tanto en el ámbito académico como en la industria.

  • Por qué ¿Son importantes los datos etiquetados para el aprendizaje automático?

En la era de la abundancia de datos y la prevalencia del aprendizaje automático en varios dominios, es fundamental utilizar correctamente la enorme cantidad de datos disponibles, que son fundamentales para entrenar modelos de aprendizaje automático. Nosotros, como seres humanos, percibimos el mundo real al observar primero las variables ambientales y luego clasificarlas en categorías de acuerdo con ciertas propiedades o características. Los modelos de aprendizaje automático se están capacitando actualmente en conjuntos de datos disponibles para resolver una gran cantidad de problemas siguiendo un método similar. Entre los diversos desafíos del aprendizaje automático, se encuentra la falta de datos etiquetados. Los datos etiquetados son conjuntos de datos que están etiquetados con una o más etiquetas para identificar y clasificar las propiedades de cada elemento de interés en el conjunto de datos. La importancia de los datos etiquetados radica en el proceso de entrenamiento de un modelo de aprendizaje automático. Los modelos se entrenan en un conjunto de datos cuyos valores etiquetados conocidos se utilizan como una verdad básica , es decir, el valor verdadero o la respuesta. Luego, los modelos se prueban en datos no etiquetados de las mismas características, utilizando esta verdad básica, para determinar si el modelo puede predecir las etiquetas correctas. El resultado es un modelo que puede predecir una salida final de alta precisión en nuevos datos sin etiquetado manual.

  • ¿Cómo obtener todas estas etiquetas?

La obtención de conjuntos de datos anotados de alta calidad es un proceso que se ha acelerado desde la introducción de servicios de crowdsourcing como Amazon Mechanical Turk y CrowdFlower . El crowdsourcing ha revolucionado la recopilación de datos etiquetados, al permitir que multitudes de trabajadores (humanos o algoritmos) anoten elementos de una manera muy eficiente, de bajo costo y que ahorra tiempo.

Sin embargo, la calidad de los elementos etiquetados es a menudo inadecuados y observamos etiquetas ruidosas. Es posible que los trabajadores carezcan de conocimientos sobre un tema en particular y, por lo tanto, anoten elementos incorrectamente, o se enfoquen intencionalmente en la cantidad de elementos etiquetados en lugar de en la calidad, dada la recompensa monetaria que obtiene cuando etiqueta cada elemento.

La mayoría de los existentes Los estudios que se centran en el control de calidad de datos de fuentes colaborativas y la eliminación de ruido en etiquetas de fuentes colaborativas utilizan modelos gráficos probabilísticos para inferir la etiqueta verdadera a partir de anotaciones ruidosas. Whitehill et al. (2009), introducen el modelo GLAD probabilístico que infiere con mayor precisión no solo la etiqueta verdadera latente, sino que también tiene en cuenta la experiencia de cada trabajador. y la dificultad de cada elemento.

En esta publicación, ampliamos el modelo GLAD aprovechando la gran cantidad de información adicional contenida en la correlación entre elementos y trabajadores. También modelamos las correlaciones entre los elementos y los trabajadores, así como la experiencia de cada trabajador y la dificultad de cada elemento.

  • Por qué utilizar datos de crowdsourcing ?

El crowdsourcing ha revolucionado la recopilación de datos etiquetados al permitir que multitudes de trabajadores (humanos o algoritmos) anoten elementos a un costo muy bajo. Las plataformas de crowdsourcing como Amazon Mechanical Turk o CrowdFlower son ejemplos distintivos de cantidades masivas de etiquetas adquiridas de multitudes. A pesar de la mayor eficiencia y alta velocidad, un problema común que surge de esta técnica es la calidad comprometida de las etiquetas para los diferentes sujetos. Eso se debe al hecho de que varios trabajadores pueden etiquetar los mismos artículos, sean expertos en la materia o no. Este es un tema importante para los dominios especializados, donde la clasificación de elementos tiene mayor dificultad y requiere experiencia. Además, debido a la naturaleza anónima del etiquetado colaborativo y los incentivos competitivos, observamos casos de trabajadores de spam o trabajadores con intereses en conflicto. En consecuencia, las etiquetas obtenidas para artículos que requieren un nivel de experiencia en el dominio pueden ser muy ruidosas y de baja calidad. Por lo tanto, adquirir etiquetas precisas de plataformas de crowdsourcing se ha convertido en un cuello de botella para el progreso del aprendizaje automático.

  • ¿Qué es la agregación de etiquetas?

Para superar el obstáculo del etiquetado deficiente, las etiquetas dadas a cada elemento de varios trabajadores se pueden agregar colectivamente y luego se infiere la etiqueta verdadera para cada instancia.El método más simplista para esto es la votación por mayoría. La votación por mayoría es un método en el que la etiqueta dada a un artículo, es la que recibió la mayoría de los votos de los trabajadores. Este método también se puede utilizar para inferir la experiencia del trabajador y la dificultad del artículo.

Cuando se trata de modelar la experiencia del trabajador y la dificultad del artículo, existen varios enfoques. El primer trabajo avanzado para la agregación de etiquetas lo presenta Dawid & Skene (1979), donde asumen un elemento global dificultad para todos los trabajadores y una experiencia laboral global para todos los artículos. Sin embargo, este método asume que todos los trabajadores tienen el mismo nivel de experiencia cuando etiquetan un artículo. Además, se da a entender que todos los elementos tienen el mismo nivel de dificultad, que no es el caso en la mayoría de las tareas de la vida real.

Para solucionar este problema, Whitehill et al . (2009), propone que las etiquetas deben generarse mediante una distribución de probabilidad sobre todas las etiquetas, trabajadores y elementos. Sin embargo, esto también supone que la dificultad de los elementos es globalmente idéntica a la de todos los trabajadores, y que la experiencia de los trabajadores es globalmente idéntica a todos los elementos, algo que no logra integrar la correlación entre elementos y trabajadores.

En la práctica , los trabajadores que son expertos en un tema específico tienden a etiquetar los artículos que pertenecen a este tema con mayor precisión, es decir, las etiquetas que le dan a estos artículos están altamente relacionadas con su verdadera etiqueta.

De manera similar, los artículos que se consideran fáciles suelen ser etiquetados con precisión por los trabajadores. Considerando que, los elementos de alta dificultad obtienen una gama más amplia de etiquetas diferentes, que crean ruido en la etiqueta dada.

  • ¿Cómo mejorarlo?

Una forma de mejorar el trabajo de Whitehill et al . (2009), está codificando la correlación de trabajadores e ítems. Podríamos modelar la dificultad del elemento según el trabajador y la experiencia del trabajador según las tareas, y al incorporar esta información, nuestro objetivo es obtener un rendimiento superior en términos de inferir la etiqueta verdadera, así como en términos de aprendizaje de los parámetros de interés.

Más concretamente, al formular un modelo probabilístico para el proceso de etiquetado, podemos llegar a inferir con mayor precisión la verdadera etiqueta de los artículos. De esta manera, nuestro objetivo es inferir correctamente la etiqueta más precisa para cada elemento, así como inferir el parámetro de experiencia de cada trabajador, el parámetro de dificultad de cada elemento y, finalmente, la correlación entre el trabajador y el elemento. Se ha demostrado que la precisión y estabilidad de los resultados es sobresaliente y por eso resolvemos el problema de inferir la verdadera etiqueta de los artículos de una manera más eficiente.

Los resultados de este proyecto están llegando a un publicación de Sanida et al., ¡así que esté atento a más detalles interesantes de este trabajo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *