Crowdsourcing Label Aggregation: modelagem de tarefa e correlação do trabalhador

Obtenção de rótulos agregados de multidões

(Ioanna Sanida ) (29 de outubro de 2020)

Conjuntos de dados rotulados são cruciais para treinar a pesquisa de aprendizado de máquina, tanto na academia quanto na indústria.

  • Por que os dados rotulados são importantes para o aprendizado de máquina?

Na era da abundância de dados e da prevalência do aprendizado de máquina em vários domínios, é crucial usar adequadamente a enorme quantidade de dados disponíveis, que são essenciais para treinar modelos de aprendizado de máquina. Nós, como humanos, percebemos o mundo real observando primeiro as variáveis ​​ambientais e depois classificando-as em categorias de acordo com certas propriedades ou características. Modelos de aprendizado de máquina estão sendo treinados em conjuntos de dados disponíveis a fim de resolver uma infinidade de problemas seguindo um método semelhante. Entre os vários desafios do aprendizado de máquina, está a falta de dados rotulados. Dados rotulados são conjuntos de dados marcados com um ou mais rótulos para identificar e classificar ainda mais as propriedades de cada item de interesse no conjunto de dados. A importância dos dados rotulados está no processo de treinamento de um modelo de aprendizado de máquina. Os modelos são treinados em um conjunto de dados cujos valores rotulados conhecidos são usados ​​como uma verdade fundamental , ou seja, o valor ou resposta verdadeira. Os modelos são então testados em dados não rotulados com as mesmas características, usando essa verdade básica, para determinar se o modelo pode prever os rótulos corretos. O resultado é um modelo que pode prever uma saída final de alta precisão em novos dados sem rotulação manual.

  • Como obter todos esses rótulos?

A obtenção de conjuntos de dados anotados de alta qualidade é um processo que foi acelerado desde a introdução de serviços de crowdsourcing, como Amazon Mechanical Turk e CrowdFlower . O crowdsourcing revolucionou a coleta de dados rotulados, permitindo que multidões de trabalhadores (humanos ou algoritmos) anotem itens de uma forma muito eficiente, de baixo custo e que economiza tempo.

No entanto, a qualidade dos itens rotulados é frequentemente inadequada, e observamos rótulos barulhentos. Os trabalhadores podem não ter conhecimento sobre um determinado tópico e, portanto, anotar itens incorretamente ou se concentrar propositalmente na quantidade de itens rotulados em vez da qualidade, dada a recompensa monetária que você recebe ao rotular cada item.

A maioria existente estudos que se concentram no controle de qualidade de dados crowdsourced e rótulos de crowdsourced sem ruído, usam modelos gráficos probabilísticos para inferir o verdadeiro rótulo de anotações com ruído. Whitehill et al. (2009), apresentam o modelo GLAD probabilístico que infere com maior precisão não apenas o rótulo verdadeiro latente, mas também levando em consideração a experiência de cada trabalhador e a dificuldade de cada item.

Neste artigo, estendemos o modelo GLAD, aproveitando a riqueza de informações adicionais contidas na correlação entre itens e trabalhadores. Também modelamos as correlações entre itens e trabalhadores, bem como a experiência de cada trabalhador e a dificuldade de cada item.

  • Por que usar dados de crowdsourcing ?

Crowdsourcing revolucionou a coleta de dados rotulados, permitindo que multidões de funcionários (humanos ou algoritmos) anotassem itens a um custo muito baixo. Plataformas de crowdsourcing, como Amazon Mechanical Turk ou CrowdFlower, são exemplos distintos de grandes quantidades de etiquetas adquiridas de multidões. Apesar do aumento da eficiência e da alta velocidade, um problema comum que emerge dessa técnica é o comprometimento da qualidade das etiquetas para os diferentes assuntos. Isso se deve ao fato de que vários trabalhadores podem rotular os mesmos itens, sejam eles especialistas no assunto ou não. Esta é uma questão importante para domínios especializados, onde a classificação de itens tem maior dificuldade e requer especialização. Além disso, devido à natureza anônima da rotulagem crowdsourced e incentivos concorrentes, observamos casos de funcionários de spam ou funcionários com interesses conflitantes. Consequentemente, os rótulos obtidos para itens que requerem um nível de especialização do domínio podem ser muito barulhentos e de baixa qualidade. Assim, adquirir rótulos precisos de plataformas de crowdsourcing se tornou um gargalo para o progresso no aprendizado de máquina.

  • O que é agregação de rótulo?

Para superar o obstáculo da má rotulagem, os rótulos dados a cada item de vários trabalhadores podem ser agregados coletivamente e, em seguida, o rótulo verdadeiro para cada instância é inferido.O método mais simplista para isso é a votação por maioria. A Votação por Maioria é um método em que determinado rótulo de um item, é aquele que recebeu a maior parte dos votos dos trabalhadores. Este método também pode ser usado para inferir a experiência do trabalhador e a dificuldade do item.

Quando se trata de modelar a experiência do trabalhador e a dificuldade do item, existem várias abordagens. O primeiro trabalho avançado para agregação de rótulos é apresentado por Dawid & Skene (1979), onde eles assumem um item global dificuldade para todos os trabalhadores e uma experiência global do trabalhador para todos os itens. No entanto, esse método pressupõe que todos os funcionários tenham o mesmo nível de especialização ao rotular um item. Além disso, está implícito que todos os itens têm o mesmo nível de dificuldade, o que não é o caso na maioria das tarefas da vida real.

Para resolver esse problema, Whitehill et al . (2009), propõe que os rótulos devem ser gerados por uma distribuição de probabilidade sobre todos os rótulos, trabalhadores e itens. No entanto, isso também pressupõe que a dificuldade dos itens é globalmente idêntica a todos os trabalhadores e que a experiência dos trabalhadores é globalmente idêntica a todos os itens, algo que não consegue integrar a correlação entre os itens e os trabalhadores.

Na prática , os trabalhadores que são especialistas em um assunto específico tendem a rotular os itens que pertencem a este assunto com mais precisão, ou seja, os rótulos que eles dão a esses itens são altamente relacionados ao seu rótulo verdadeiro.

Da mesma forma, os itens que são considerados fáceis são geralmente identificados com precisão pelos trabalhadores. Visto que itens de alta dificuldade obtêm uma gama mais ampla de rótulos diferentes, o que cria ruído para o rótulo fornecido.

  • Como melhorá-lo?

Uma maneira de melhorar o trabalho de Whitehill et al . (2009), está codificando a correlação de trabalhadores e itens. Poderíamos modelar a dificuldade do item do trabalhador e a experiência do trabalhador com relação à tarefa e, ao incorporar essas informações, pretendemos obter um desempenho superior em termos de inferir o rótulo verdadeiro, bem como em termos de aprendizado dos parâmetros de interesse.

Mais especificamente, ao formular um modelo probabilístico para o processo de rotulagem, podemos conseguir inferir o verdadeiro rótulo dos itens com mais precisão. Dessa forma, pretendemos inferir corretamente o rótulo mais preciso para cada item, bem como inferir o parâmetro de experiência de cada trabalhador, o parâmetro de dificuldade de cada item e, finalmente, a correlação entre o trabalhador e o item. A precisão e estabilidade dos resultados são comprovadamente excelentes e assim resolvemos o problema de inferir o verdadeiro rótulo dos itens de uma forma mais eficiente!

Os resultados deste projeto estão chegando a um publicação de Sanida et al., portanto, fique atento para mais detalhes interessantes deste trabalho!

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *