A evolução da relação da humanidade com os computadores

Por Joshua Newnham, líder de design Tecnólogo – Method London

(9 de janeiro de 2018)

Neste post, discutimos a evolução do relacionamento que temos com nossos companheiros computacionais e procuramos entender melhor a aplicação das tecnologias de sensoriamento emocional.

Ter interesse na interseção de design e inteligência artificial expõe você a muitos conceitos e ferramentas interessantes que parecem atraentes e relevantes à primeira vista, mas é apenas quando você começa a trabalhar com eles que você começa a fazer perguntas mais profundas e significativas sobre sua aplicação e valor para o usuário final. Esse foi o caso das tecnologias de detecção emocional, como as oferecidas pelo popular provedor de serviços de reconhecimento emocional Affectiva , que oferece ferramentas para reconhecer a emoção do usuário a partir de uma imagem de a cara deles.

Como um tecnólogo, você é atraído pela como e só depois de você sinta-se confortável com os detalhes intrincados de seu funcionamento interno e comece a questionar o por quê. Foi só depois de ter aprendido e feito sistemas que pudessem classificar satisfatoriamente a emoção a partir de algum texto ou imagem de um rosto, que comecei a questionar como isso poderia ser aplicado. Só recentemente percebi seu significado e aplicabilidade; essa percepção é o ponto de partida desta postagem.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

A necessidade de novas lentes

Nenhuma introdução de nova tecnologia está completa sem a menção da “carruagem sem cavalos”; um termo usado por Don Norman ao descrever a adoção e evolução do design para novas tecnologias. Ele destaca que nós, designers e tecnólogos, normalmente projetamos nossos modelos mentais existentes em novas tecnologias e é somente depois de muitas iterações que começamos a criar novos modelos mentais que são mais aplicáveis ​​para a tecnologia. Uma história óbvia que ilustra isso é como os programas de televisão foram inicialmente projetados e transmitidos; principalmente desconsiderando o elemento que os tornava mais ricos do que o rádio, que era a capacidade de usar a adição de imagens para retratar uma história. Em vez disso, os programas de televisão voltaram a ser pouco mais do que um programa de rádio com imagens dos apresentadores.

Apesar de minha consciência e interesse em Computação afetiva , Era difícil imaginar o uso de reconhecimento de emoção além de análises e relatórios. Claro, conceitualmente, eu costumava falar sobre o computador ser capaz de reconhecer e responder à emoção do usuário, mas não me aprofundei muito, pois não conseguia ver como nossos aplicativos existentes, como o Microsoft Word, poderiam ser eficazes uso dele – até recentemente. Mas para melhor compreender e apreciar o significado desta revelação, é importante dar um passo atrás e revisar o que eram os computadores, como eles têm evoluído e sua provável trajetória (em relação à sua aplicação e como interagimos com eles).

Uma breve história do computador

O conceito de computador foi desenvolvido no século 19 por um professor de matemática inglês chamado Charles Babbage ; este conceito foi apropriadamente chamado de Mecanismo Analítico , destacando seu propósito de realizar e produzir cálculos matemáticos. Este conceito foi finalmente realizado por volta de 1943 e encontrou aplicação na área de cálculos de trajetórias para fins militares. Os usuários tendem a ser profissionais altamente treinados que interagiriam com o computador usando cartões perfurados detalhando instruções explícitas para o computador seguir.

https://apple2history.org/history/ah16/

Em seguida, vieram os computadores industriais na forma de mainframes; estes, produzidos por empresas como International Business Machines (IBM), se assemelhavam muito aos seus predecessores e, novamente, exigiam que usuários altamente treinados os usassem, mas substituindo seus cartões perfurados físicos por uma Command Line Interface (CLI) digital para enviar suas instruções.Durante esta era; reconhecimento deve ser feito para avanços em Interação Humano-Computador (HCI) para um pequeno grupo de indivíduos; indivíduos como Steve Russell que viram computadores além de apenas uma calculadora de lote e imaginaram (e criaram) programas de computador interativos que permitiram a primeira era de jogos de computador como como Spacewar! John McCarthy , considerado o pai da Inteligência Artificial (IA), idealizou o potencial para computadores que executam as tarefas de humanos e Doug Engelbart que, paradoxalmente, imaginou computadores que nos aumentaram em vez de nos substituir e um pioneiro de uma grande variedade de conceitos de manipulação que ainda usamos hoje, incluindo o mouse e a interface gráfica do usuário (GUI).

No final dos anos 70, vimos o surgimento dos computadores pessoais (PCs); apesar do nome, eles estavam longe de ser pessoais, mas finalmente se tornaram acessíveis e aplicáveis ​​a uma população grande o suficiente para serem considerados tradicionais. O aplicativo matador na época era a planilha, uma calculadora sofisticada para produtividade de escritório. Devido à sua disponibilidade e adoção, a usabilidade logo se tornou muito importante e emitir comandos por meio de um terminal era uma barreira para a maioria dos usuários.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Foi somente no início dos anos 80, com a introdução da GUI, que a interação com os computadores se tornou (um tanto) democratizada. A GUI usou muitas metáforas emprestadas do mundo real, isso junto com a manipulação direta e feedback rápido tornou os computadores acessíveis a um público que não era especialista em computadores. Durante esse tempo, vimos o surgimento da web e aplicativos estendidos e casos de uso de computadores; passando de ferramentas puras analíticas para serem usadas em tarefas como comunicação, entretenimento e trabalho criativo. Essa adoção levou à aceleração da digitalização de nosso mundo físico; informações, entretenimento e nossos relacionamentos tornaram-se bytes.

O próximo marco significativo que influenciou a forma como usamos os computadores foi por volta de meados dos anos 80 com a proliferação da internet; o e-mail transformou os computadores em dispositivos de comunicação; as pessoas não estavam interagindo, as pessoas estavam interagindo com outras pessoas por meio de computadores – esse paradigma, comunicação e colaboração por meio de um computador, agora é conhecido como computação social.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Então veio o iPhone (e depois o Android); os computadores finalmente se tornaram verdadeiramente pessoais, o toque reduziu ainda mais o atrito de uso e a adição de sensores, conectividade e o aumento na digitalização reforçou sua relevância e conveniência para o mundo real e “pessoas reais”. Mas até recentemente eles (computadores) ainda exigiam que os instruíssemos explicitamente e nos comunicássemos por meio de interfaces estáticas. Apesar de ter aumentado o nível de abstração da CLI, o modelo de interação central ainda permaneceu o mesmo – isso agora está mudando.

Estamos entrando em uma era em que estamos vendo a convergência da Inteligência Artificial (IA) e Aumento de inteligência (IA) – por meio do qual temos sistemas que usam inteligência para nos compreender melhor (voz, pictórica, textual ou gestual), nossa intenção e somos capazes de realizar tarefas de forma semi-autônoma e, às vezes, de forma proativa.

https://www.jibo.com /

Para ilustrar ainda mais a evolução de como interagimos com os computadores, vou pegar emprestado um gráfico de Mark Billinghurst , pesquisador de interface de computador, que destaca nossa progressão em direção a interfaces de usuário naturais ao longo do tempo.

Este gráfico n não apenas destaca a diminuição do atrito entre nós e os computadores (interfaces de usuário naturais), mas também como nossas interações estão mudando de explícitas para implícitas, ou seja, cada vez mais nossos sistemas estão se tornando antecipatórios.

As outras tendências notáveis ​​incluem o papel e a função dos aplicativos; mudando de lidar com instruções claras e discretas para aquelas que lidam com altos graus de ambigüidade, ou seja, os primeiros aplicativos foram usados ​​para calcular trajetórias de mísseis, enquanto os aplicativos modernos lidam com a recomendação de músicas, filmes, parceiros e organização de suas reuniões.A última tendência que quero destacar é como a forma do computador está mudando, de um teclado e tela a muitas outras formas, de lousas portáteis que carregamos em nossos bolsos a alto-falantes inteligentes que ficam ao lado de nossa cama.

A intenção do acima exposto não é fornecer uma lição de história abrangente (ou precisa) na computação, mas sim destacar como a função, a forma e a nossa relação com os computadores têm evoluído ao longo do tempo e sua provável trajetória – mudando de uma ferramenta funcional para um companheiro próximo. Assim como a GUI emprestou muito do mundo físico para tornar a interação com os computadores mais familiar e natural, também o será a necessidade de reconhecer, reagir e retratar emoções, ou seja, acharemos frustrante falar com algo considerado inteligente se ele for incapaz de reconhecer e responder ao nosso estado emocional. Ser capaz de exibir emoção também fornece outro meio de comunicar o estado atual do sistema para ajudar o usuário a construir um modelo mental mais preciso e útil do sistema com o qual está interagindo, ou seja, retratar a confusão pode ajudar o usuário a entender que o sistema precisa de assistência .

Resumindo; em vez de a emoção ser usada puramente para análises e relatórios, a inteligência emocional faz muito sentido quando você está falando com uma Assistência Pessoal Virtual (VPA), avatares digitais ou computadores fisicamente incorporados, como um robô; essencialmente, sempre que você está lidando com um computador com o qual pode interagir naturalmente, tem alguma autonomia, lida com ambiguidades e incertezas, conhece você e suas preferências e requer um nível de confiança. Soa familiar? Essas características costumam ficar confinadas às pessoas, mas agora nossos companheiros computacionais também adquiriram essas características.

Vamos dar uma olhada em alguns casos de uso em que a inteligência emocional faz sentido e como pode ser aplicada.

Um exemplo que ilustra bem essa mudança na computação é DragonBot ; um projeto de pesquisa do Grupo de Robótica Social no MIT explorando sistemas de tutoria inteligentes. DragonBot usa consciência emocional para se adaptar ao aluno, por exemplo, um dos aplicativos é um jogo de leitura que adapta as palavras com base na emoção reconhecida ou seja, o sistema pode ajustar a dificuldade da tarefa (palavras neste caso) com base nos usuários habilidade determinada pela emoção reconhecida.

Agentes de conversação (chatbots) são uma oportunidade óbvia para usar o reconhecimento emocional. Atualmente, os chatbots executam o que é conhecido como Natural Language Understanding (NLU) para determinar as respostas; essa resposta geralmente depende de um determinado contexto e inferido intenção mas não demorará muito (e alguns já existem, como Emotibot ) antes de se tornar padrão usar também o reconhecido emoção ao determinar a resposta ao usuário (adaptando não apenas o idioma, mas também o tom para responder). Isso não só pode aumentar a eficácia da comunicação, mas também nos dá a oportunidade de evitar a criação de comportamentos indesejáveis ​​na maneira como nos comunicamos. Costumamos brincar no estúdio sobre como assistentes de voz, como Alexa, estão criando comportamentos em crianças em que exigem coisas em vez de perguntar “Alexa, me diga as horas!”.

Como interfaces de conversação se tornará mais difundido, assim como a necessidade de desenvolver maneiras eficazes de reconhecer e se adaptar às emoções do usuário, especialmente nos domínios da assistência médica ( Ada ) e mental saúde ( woebot ).

Geralmente, o reconhecimento emocional pode ser usado para aumentar automaticamente engajamento ou adapta automaticamente a seu (s) usuário (s); Disney Research fornecendo muitos outros exemplos de onde o reconhecimento emocional terá um papel na adaptação do conteúdo; de sua exploração em programação de televisão pré-escolar interativa , sua ferramenta de criação de narrativa interativa e muito mais – Eu o encorajo a passar algum tempo explorando.

Conforme mencionado acima; o catalisador para esta exploração surgiu da minha curiosidade inicial de querer saber como reconhecer a emoção, que, por sua vez, surgiu de uma iniciativa aqui no Método chamado FINE.

FINE é um ecossistema projetado para apoiar a saúde mental de crianças pequenas. A emoção está no centro disso – tanto para entrada quanto para saída.Por meio da câmera e do teclado, monitoramos e inferimos o estado emocional do (s) usuário (s) e, usando esses dados, apresentamos o humor agregado por meio de um dispositivo compartilhado. Isso incentiva a comunicação, além de oferecer um companheiro empático por meio de um avatar virtual que ensina empatia por meio de inteligência coletada.

A aplicação do reconhecimento de emoção é muito específica do domínio, mas espero ter apresentado um argumento forte o suficiente acima para sua oportunidade e probabilidade de adoção nos próximos anos. O reconhecimento, por outro lado, é universal e, portanto, vou passar o resto deste post brevemente apresentando e resumindo as abordagens que usamos para FINE para inferir a emoção do usuário, usando uma imagem de seu rosto e o texto que ele escreveu.

Reconhecendo a emoção de nossas expressões faciais

Uma rápida pesquisa no Google sobre qual porcentagem de comunicação vem por meio da linguagem corporal rapidamente destaca que a maior parte da comunicação é não verbal (a linguagem corporal é responsável por 55\% da mensagem geral , tom representando 38\% e palavras apenas 7\%). Portanto, não deve ser surpresa que muito pode ser inferido simplesmente olhando para o rosto de alguém – esta é a premissa para sermos capazes de inferir a emoção de alguém simplesmente examinando sua expressão facial. A tarefa agora é classificar as expressões faciais para determinar a emoção e, felizmente, isso foi bem estudado e os dados disponibilizados.

O conjunto de dados usado no treinamento de nosso classificador vem de um Competição Kaggle ; o conjunto de dados que o acompanha consiste em mais de 20.000 imagens em tons de cinza de rostos que foram marcados manualmente como angry , repulsa , medo , feliz , triste , surpresa ou neutro . Como acontece com qualquer projeto de aprendizado de máquina (ML); nossa primeira tarefa é construir intuição em torno dos dados e chegar a algumas hipóteses teóricas de como fazemos para realizar a classificação. Abaixo estão alguns exemplos das faces de nosso conjunto de dados junto com seus rótulos associados.

Nossa suposição é que haja algum padrão comum entre a expressão e a emoção; uma forma de explorar e validar isso é por meio da visualização. Para visualizá-lo, podemos pegar a face média para cada emoção; abaixo, mostramos como isso se parece com as emoções zangado , feliz e surpreendeu .

Podemos ver claramente que existem expressões distintas para cada uma dessas emoções; nossa próxima tarefa é aprender esses padrões. Para este experimento, usamos uma Rede Neural de Convolução (ou ConvNet) para aprender esses padrões (deixamos de lado os detalhes aqui, mas compartilharemos o Notebook para aqueles interessados ​​em saber os detalhes técnicos). Após 15 épocas de treinamento, alcançamos uma precisão de validação próxima a 60\% (nada mal, dado que a linha de base seria em torno de 14\%); os resultados do treinamento mostrados abaixo.

Reconhecendo a emoção do texto

Vimos antes que o texto (as palavras que usamos) representa apenas 7\% da mensagem geral; isso e o fato de que as linguagens herdam a ambigüidade o torna mais difícil, mas ainda assim uma fonte valiosa de dados e algo que pode ser facilmente monitorado passivamente. Para este protótipo, treinamos uma Rede Neural Recorrente (mais uma vez, ignoraremos os detalhes aqui, mas compartilharemos o Notebook para os interessados ​​nos detalhes técnicos) e portado (o modelo) para CoreML , estrutura do Apples ML. Acompanhando isso, estava um teclado iOS personalizado que monitorava passivamente o que o usuário digitava e usava esse modelo para determinar o estado emocional atual do usuário.

Dados para texto eram mais difíceis de encontrar; embora houvesse alguns de fontes confiáveis, nenhum continha uma quantidade substancial de exemplos para treinar uma Rede Neural Profunda . Aqui está um ponto importante; os dados rotulados são assustadores e sua aquisição pode ser cara.Vários conjuntos de dados foram tentados após finalmente se estabelecer com um conjunto de dados disponibilizado por CrowdFlower , um conjunto de dados que consiste em cerca de 40.000 linhas de tweets que foram marcados com uma das 13 emoções ( tais como felicidade, tristeza e raiva). Um problema com o conjunto de dados era o desequilíbrio nos exemplos para cada emoção. O gráfico abaixo mostra essa distribuição. Apesar disso, nosso objetivo era a viabilidade e a aplicação, e não a precisão, por isso continuamos com este conjunto de dados.

Apesar do desequilíbrio significativo e da quantidade de exemplos de treinamento, ainda pudemos obter uma precisão de validação de cerca de 35\% após 12 épocas.

Abaixo, mostra a classificação sendo realizada no dispositivo (embora o simulador nesta instância ).

Aqui, apenas exploramos as fontes óbvias disponíveis para reconhecer a emoção; outros incluem tom (tom de voz), comportamental (ou baseado em modelo) e pose, mas o importante a se tirar é a tendência de afastamento de interações explícitas para implícitas e como a emoção será uma entrada valiosa para determinar como seu sistema se envolve usuário.

Da Interação Homem-Computador (HCI) às Relações Homem-Computador (HCR)

Concluímos este post, novamente, enfatizando a evolução do HCI e a importância do nosso relacionamento com os computadores está se tornando tão importante quanto a forma como interagimos com eles.

O foco original da HCI era em torno do conceito de usabilidade. Onde a definição inicial de usabilidade era unicamente focada no conceito de simplicidade, ou seja, “fácil de aprender, fácil de usar”, ela tem evoluído continuamente junto com os avanços da tecnologia. Agora, inclui as qualidades de diversão, bem-estar, eficácia coletiva, tensão estética, criatividade aprimorada, fluxo, suporte para o desenvolvimento humano e outros.

Ele foi além do usuário individual sentado em sua área de trabalho e continuará a se mover impulsionado pelas novas fronteiras possibilitadas pela tecnologia. Essa dependência da tecnologia significa investigar, desenvolver e explorar continuamente novas áreas de possibilidades para aprimorar a atividade e a experiência humanas. Essas tecnologias agora oferecem oportunidade de reconhecer a emoção do usuário; o que você vai fazer com isso?

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *