Evolución de la relación de la humanidad con las computadoras

Publicado el

Por Joshua Newnham, jefe de diseño Tecnólogo – Method London

(9 de enero de 2018)

En esta publicación discutimos la evolución de la relación que tenemos con nuestros compañeros computacionales y buscamos comprender mejor la aplicación de las tecnologías de detección emocional.

Tener interés en la intersección de design y inteligencia artificial te expone a una gran cantidad de conceptos y herramientas interesantes que parecen atractivos y relevantes a primera vista, pero solo cuando empiezas a trabajar con ellos comienzas a hacer preguntas más profundas y significativas sobre su aplicación y valor para el usuario final. Este fue el caso de las tecnologías de detección emocional, como las que ofrece el popular proveedor de servicios de reconocimiento emocional Affectiva , que ofrece herramientas para reconocer la emoción del usuario a partir de una imagen de su cara.

Como tecnólogo, primero te atrae cómo y solo después de ti Siéntete cómodo con los intrincados detalles de su funcionamiento interno y empiece a cuestionar el por qué. Fue solo después de haber aprendido y creado sistemas que podían clasificar satisfactoriamente la emoción dado algún texto o una imagen de un rostro, que comencé a cuestionar cómo se podían aplicar. Sólo recientemente me he dado cuenta de su importancia y aplicabilidad; este descubrimiento es el punto de partida de esta publicación.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

La necesidad de una nueva lente

Ninguna introducción de nueva tecnología está completa sin la mención del “carruaje sin caballos”; término utilizado por Don Norman al describir la adopción y evolución del diseño de nuevas tecnologías. Destaca que nosotros, diseñadores y tecnólogos, normalmente proyectamos nuestros modelos mentales existentes en nuevas tecnologías y es solo después de muchas iteraciones que comenzamos a crear nuevos modelos mentales que son más aplicables a la tecnología. Una historia obvia que ilustra esto es cómo se diseñaron y transmitieron inicialmente los programas de televisión; sobre todo sin tener en cuenta el elemento que los hacía más ricos que la radio, que era la capacidad de utilizar la adición de imágenes para retratar una historia. En cambio, los programas de televisión volvieron a ser poco más que un programa de radio con imágenes de los presentadores.

A pesar de mi conocimiento e interés en Computación afectiva , Era difícil imaginar el uso del reconocimiento de emociones más allá del análisis y los informes. Por supuesto, conceptualmente, a menudo hablaba de que la computadora puede reconocer y responder a la emoción del usuario, pero no profundicé mucho más, ya que no podía ver cómo nuestras aplicaciones existentes, como Microsoft Word, podrían ser efectivas. uso de él – hasta hace poco. Pero para comprender y apreciar mejor el significado de esta revelación es importante dar un paso atrás y revisar qué eran las computadoras, cómo han ido evolucionando y su probable trayectoria (con respecto a su aplicación y cómo interactuamos con ellas).

Una breve historia de la computadora

El concepto de computadora fue ideado en el siglo XIX por un profesor de matemáticas inglés llamado Charles Babbage ; este concepto recibió el nombre apropiado de motor analítico , destacando su propósito de realizar y generar cálculos matemáticos. Este concepto finalmente se realizó alrededor de 1943 y encontró aplicación en el área de cálculos de trayectoria con fines militares. Los usuarios tienden a ser profesionales altamente capacitados que interactúan con la computadora usando tarjetas perforadas que detallan instrucciones explícitas para que la computadora las siga.

https://apple2history.org/history/ah16/

Luego vinieron las computadoras industriales en forma de mainframes; Estos, producidos por empresas como International Business Machines (IBM), se parecían mucho a sus predecesores y nuevamente requerían usuarios altamente capacitados para usarlos, pero reemplazando sus tarjetas perforadas físicas con una interfaz de línea de comandos (CLI) digital para enviar sus instrucciones.Durante esta era; Se debe reconocer los avances en Interacción entre humanos y computadoras (HCI) a un pequeño grupo de personas; personas como Steve Russell que vieron las computadoras más allá de una calculadora por lotes e imaginó (y creó) programas de computadora interactivos que permitieron la primera era de juegos de computadora como como Spacewar! John McCarthy , considerado el padre de la inteligencia artificial (IA), imaginó potencial para las computadoras que realizan las tareas de los humanos y Doug Engelbart quien, paradójicamente, imaginó computadoras que nos aumentaron en lugar de reemplazarnos y un pionero de una gran variedad de conceptos de manipulación que todavía utilizamos en la actualidad, incluido el mouse y la interfaz gráfica de usuario (GUI).

A finales de los 70, vimos el surgimiento de las computadoras personales (PC); a pesar de su nombre, estaban lejos de ser personales, pero finalmente se volvieron asequibles y aplicables a una población lo suficientemente grande como para ser considerados convencionales. La aplicación principal en ese momento era la hoja de cálculo, una calculadora sofisticada para la productividad de la oficina. Debido a su disponibilidad y adopción, la facilidad de uso pronto se volvió muy importante y la emisión de comandos a través de una terminal fue una barrera para la mayoría de los usuarios.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

No fue hasta principios de los 80, con la introducción de la GUI, que la interacción con las computadoras se democratizó (algo). La GUI utilizó muchas metáforas tomadas del mundo real, esto junto con la manipulación directa y la retroalimentación rápida hizo que las computadoras fueran accesibles a una audiencia más allá de los expertos en informática. Durante este tiempo vimos el surgimiento de la web y aplicaciones extendidas y casos de uso de computadoras; pasando de herramientas puramente analíticas a ser utilizadas para tareas como la comunicación, el entretenimiento y el trabajo creativo. Esta adopción condujo a la aceleración de la digitalización de nuestro mundo físico; la información, el entretenimiento y nuestras relaciones se convirtieron en bytes.

El siguiente hito importante que influyó en la forma en que usamos las computadoras fue alrededor de mediados de los 80 con la proliferación de Internet; el correo electrónico convirtió las computadoras en dispositivos de comunicación; las personas no interactuaban, las personas interactuaban con otras personas a través de computadoras; este paradigma, comunicarse y colaborar a través de una computadora, ahora se conoce como computación social.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Luego vino el iPhone (y luego Android); Las computadoras finalmente se volvieron realmente personales, el tacto redujo aún más la fricción de uso y la adición de sensores, conectividad y un mayor aumento en la digitalización fortalecieron su relevancia y conveniencia para el mundo real y las «personas reales». Pero hasta hace poco (las computadoras) todavía nos exigían que les diéramos instrucciones explícitas y nos comunicáramos a través de interfaces estáticas. A pesar de haber aumentado el nivel de abstracción de la CLI, el modelo de interacción central sigue siendo el mismo; esto ahora está cambiando.

Ahora estamos entrando en una era en la que estamos viendo la convergencia de la inteligencia artificial (IA) y Aumento de Inteligencia (IA) – mediante el cual tenemos sistemas que utilizan la inteligencia para comprendernos mejor (voz, pictórica, textual o gestual), nuestra intención y somos capaces de realizar tareas de forma semiautónoma y, a veces, de forma proactiva.

https://www.jibo.com /

Para ilustrar mejor la evolución de cómo interactuamos con las computadoras, tomaré prestado un gráfico de Mark Billinghurst , investigador de interfaces de computadora, que destaca nuestro progreso hacia interfaces de usuario naturales a lo largo del tiempo.

Este gráfico n ot solo destaca la fricción cada vez menor entre nosotros y las computadoras (interfaces de usuario naturales), sino también cómo nuestras interacciones están pasando de ser explícitas a implícitas, es decir, cada vez más de nuestros sistemas se están volviendo anticipatorios.

Las otras tendencias notables incluyen el papel y la función de las aplicaciones; pasando de tratar con instrucciones limpias y discretas a aquellas que tratan con altos grados de ambigüedad, es decir, las primeras aplicaciones se utilizaron para calcular las trayectorias de los misiles, mientras que las aplicaciones modernas tratan de recomendar canciones, películas, socios y organizar sus reuniones.La última tendencia que quiero resaltar es cómo está cambiando la forma de la computadora, desde un teclado y una pantalla a muchas otras formas, desde pizarras portátiles que llevamos en nuestros bolsillos hasta parlantes inteligentes que se sientan al lado de nuestra cama.

La intención de lo anterior no es proporcionar una lección de historia completa (o precisa) en computación, sino más bien resaltar cómo la función, la forma y nuestra relación con las computadoras han ido evolucionando con el tiempo y su trayectoria probable, pasando de una herramienta funcional a un compañero cercano. Entonces, así como la GUI tomó prestado en gran medida del mundo físico para hacer que la interacción con las computadoras sea más familiar y natural, también lo será la necesidad de reconocer, reaccionar y representar la emoción, es decir, nos resultará frustrante hablar con algo que se considera inteligente si es incapaz de reconocer y responder a nuestro estado emocional. Ser capaz de exhibir emociones también proporciona otro medio de comunicar el estado actual del sistema para ayudar al usuario a construir un modelo mental más preciso y útil del sistema con el que está interactuando, es decir, representar la confusión podría ayudar al usuario a comprender que el sistema necesita asistencia. .

En resumen; En lugar de que la emoción se utilice únicamente para análisis e informes, la inteligencia emocional tiene mucho sentido cuando se habla con una Asistencia Personal Virtual (VPA), avatares digitales o computadoras con cuerpo físico, como un robot; esencialmente cada vez que se trata de una computadora con la que se puede interactuar de forma natural, que tiene cierta autonomía, se ocupa de la ambigüedad y la incertidumbre, lo conoce a usted y a sus preferencias, y requiere un nivel de confianza. ¿Suena familiar? Estos rasgos normalmente se han limitado a las personas, pero ahora nuestros compañeros computacionales también han adquirido estos rasgos.

Veamos brevemente un par de casos de uso en los que la inteligencia emocional tiene sentido y cómo se puede aplicar.

Un ejemplo que ilustra este cambio en la computación es DragonBot ; un proyecto de investigación del Social Robotics Group del MIT que explora los sistemas inteligentes de tutoría. DragonBot utiliza la conciencia emocional para adaptarse al alumno, por ejemplo, una de las aplicaciones es un juego de lectura que adapta las palabras en función de la emoción reconocida, es decir, el sistema puede ajustar la dificultad de la tarea (palabras en este caso) en función de los usuarios. habilidad determinada por la emoción reconocida.

Los agentes conversacionales (chatbots) son una oportunidad obvia para utilizar el reconocimiento emocional. Actualmente los chatbots realizan lo que se conoce como Comprensión del lenguaje natural (NLU) para determinar las respuestas; esta respuesta suele depender de un context y inferidos intent pero no pasará mucho tiempo (y algunos ya existen, como Emotibot ) antes de que se convierta en estándar para usar también el reconocido emoción al determinar la respuesta del usuario (adaptando no solo el idioma sino también el tono para responder). Esto no solo puede aumentar la efectividad de la comunicación, sino que también nos da la oportunidad de evitar la creación de comportamientos indeseables en la forma en que nos comunicamos entre nosotros. A menudo bromeamos en el estudio sobre cómo los asistentes de voz, como Alexa, están creando comportamientos en los niños en los que demandarán cosas en lugar de pedirlas «Alexa, ¡dime la hora!».

Como interfaces de conversación se volverá más omnipresente, por lo que la necesidad de desarrollar formas efectivas de reconocer y adaptarse a las emociones de los usuarios, especialmente en los dominios relacionados con la asistencia médica ( Ada ) y salud ( woebot ).

Generalmente, el reconocimiento emocional se puede utilizar para aumentar automáticamente engagement o adaptan automáticamente a sus usuarios; Disney Research brinda muchos más ejemplos de dónde el reconocimiento emocional jugará un papel en la adaptación del contenido; a partir de su exploración en la programación de televisión interactiva para preescolares , su herramienta de creación narrativa interactiva y muchas más – Te animo a que dediques un tiempo a explorar.

Como se mencionó anteriormente; El catalizador de esta exploración surgió de mi curiosidad inicial de querer saber cómo reconocer la emoción, que, a su vez, surgió de una iniciativa aquí en Método llamado FINE.

FINE es un ecosistema diseñado para apoyar la salud mental de los niños pequeños. La emoción está en el corazón de todo esto, tanto para la entrada como para la salida.A través de la cámara y el teclado, monitoreamos e inferimos el estado emocional de los usuarios y, utilizando estos datos, presentamos el estado de ánimo agregado a través de un dispositivo compartido. Esto fomenta la comunicación, además de ofrecer un compañero empático a través de un avatar virtual al que se le enseña la empatía a través de la inteligencia de origen colectivo.

La aplicación del reconocimiento de emociones es muy específica del dominio, pero espero haber presentado un argumento lo suficientemente fuerte arriba para su oportunidad y probabilidad de adopción en los próximos años. El reconocimiento, por otro lado, es universal y, por lo tanto, dedicaré el resto de esta publicación a presentar y resumir brevemente los enfoques que tomamos para que FINE infiera la emoción del usuario, utilizando tanto una imagen de su rostro como el texto que había escrito.

Reconocer la emoción de nuestras expresiones faciales

Una búsqueda rápida en Google sobre qué porcentaje de comunicación proviene del lenguaje corporal rápidamente destaca que la mayoría de la comunicación es no verbal (el lenguaje corporal representa el 55\% del mensaje general , el tono representa el 38\% y las palabras solo el 7\%). Por lo tanto, no debería sorprendernos que se puedan inferir muchas cosas simplemente mirando la cara; esta es la premisa para que podamos inferir la emoción de alguien simplemente examinando su expresión facial. Entonces, la tarea ahora consiste en clasificar las expresiones faciales para determinar la emoción y, afortunadamente, esto se ha estudiado bien y los datos están disponibles.

El conjunto de datos utilizado en el entrenamiento de nuestro clasificador proviene de un Competencia de Kaggle ; el conjunto de datos adjunto consta de más de 20,000 imágenes en escala de grises de rostros que se han etiquetado manualmente como enojado , disgust , miedo , feliz , triste , sorpresa o neutral . Como con cualquier proyecto de Machine Learning (ML); nuestra primera tarea es construir la intuición en torno a los datos y proponer algunas hipótesis teóricas sobre cómo realizamos la clasificación. A continuación se muestran algunos ejemplos de las caras de nuestro conjunto de datos junto con sus etiquetas asociadas.

Nuestra suposición es que existe un patrón común entre la expresión y la emoción; una forma de explorar y validar esto es mediante la visualización. Para visualizarlo, podemos tomar el rostro promedio de cada emoción; a continuación mostramos cómo se ve esto para las emociones enojado , feliz y sorprendieron a .

Podemos ver claramente que hay expresiones distintas para cada una de estas emociones; nuestra próxima tarea es aprender estos patrones. Para este experimento, usamos una Convolution Neural Network (o ConvNet) para aprender estos patrones (renunciamos a los detalles aquí, pero compartiremos el Notebook para aquellos interesados ​​en conocer los detalles técnicos). Después de 15 épocas de entrenamiento, logramos una precisión de validación cercana al 60\% (nada mal dado que la línea de base sería de alrededor del 14\%); los resultados del entrenamiento se muestran a continuación.

Reconocer la emoción del texto

Vimos antes que el texto (las palabras que usamos) solo representa el 7\% del mensaje general; esto y el hecho de que los lenguajes hereden la ambigüedad lo hace más difícil, pero sigue siendo una fuente valiosa de datos y algo que puede fácilmente monitorearse pasivamente. Para este prototipo, entrenamos una Red neuronal recurrente (una vez más, omitiremos los detalles aquí, pero compartiremos el Notebook para aquellos interesados ​​en los detalles técnicos) y lo transfirió (el modelo) a CoreML , marco de trabajo de Apples ML. Acompañando esto había un teclado iOS personalizado que monitoreaba pasivamente lo que el usuario escribía y usaba este modelo para determinar el estado emocional actual del usuario.

Los datos para el texto eran más difíciles de encontrar; aunque hubo algunos de fuentes acreditadas, ninguno contenía una cantidad sustancial de ejemplos para entrenar una Deep Neural Network . Aquí radica un punto importante; los datos etiquetados dan miedo y adquirirlos puede resultar caro.Se probaron varios conjuntos de datos después de finalmente establecerse con un conjunto de datos disponible por CrowdFlower , un conjunto de datos que consta de alrededor de 40,000 filas de tweets que han sido etiquetados con una de 13 emociones ( como la felicidad, la tristeza y la ira). Un problema con el conjunto de datos fue el desequilibrio en los ejemplos para cada emoción. La gráfica siguiente muestra esta distribución. A pesar de esto, nuestro objetivo era la viabilidad y la aplicación en lugar de la precisión, por lo que continuamos con este conjunto de datos.

A pesar del desequilibrio significativo y la cantidad de ejemplos de entrenamiento, aún pudimos obtener una precisión de validación de alrededor del 35\% después de 12 épocas.

A continuación se muestra la clasificación que se realiza en el dispositivo (aunque el simulador en este caso ).

Aquí solo hemos explorado las fuentes obvias disponibles para reconocer la emoción; otros incluyen el tono (tono de voz), el comportamiento (o basado en el modelo) y la pose, pero lo importante es quitar la tendencia de las interacciones explícitas a las implícitas y cómo la emoción será una entrada valiosa para determinar cómo su sistema se relaciona con el usuario.

De la interacción humano-computadora (HCI) a las relaciones humano-computadora (HCR)

Concluimos esta publicación, nuevamente, enfatizando la evolución de HCI y cómo la importancia de nuestra relación con las computadoras se está volviendo tan importante como la forma en que interactuamos con ellas.

El enfoque original de HCI estaba alrededor del concepto de usabilidad. Donde la definición inicial de usabilidad se centró únicamente en la simplicidad del concepto, es decir, «fácil de aprender, fácil de usar», ha ido evolucionando continuamente junto con los avances tecnológicos. Ahora subsume las cualidades de diversión, bienestar, eficacia colectiva, tensión estética, creatividad mejorada, fluidez, apoyo para el desarrollo humano y otros.

Ha ido más allá del usuario individual sentado en su escritorio y seguirá moviéndose impulsado por las nuevas fronteras que la tecnología hace posible. Esta dependencia de la tecnología significa investigar, desarrollar y aprovechar continuamente nuevas áreas de posibilidades para mejorar la actividad y la experiencia humanas. Estas tecnologías ofrecen ahora la oportunidad de reconocer la emoción del usuario; ¿Qué vas a hacer con esto?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *