Relation évolutive de lhumanité avec les ordinateurs

Par Joshua Newnham, responsable de la conception Technologist – Method London

(9 janvier 2018)

Dans cet article, nous discutons de lévolution de la relation que nous entretenons avec nos compagnons de calcul et cherchons à mieux comprendre lapplication des technologies de détection émotionnelle.

Avoir un intérêt pour lintersection de design et intelligence artificielle vous expose à de nombreux concepts et outils intéressants qui semblent attrayants et pertinents à première vue, mais ce nest que lorsque vous commencez à travailler avec eux que vous commencez à poser des questions plus profondes et plus significatives sur leur application et leur valeur pour lutilisateur final. Cétait le cas des technologies de détection émotionnelle, comme celles proposées par le célèbre fournisseur de services de reconnaissance émotionnelle Affectiva , qui propose des outils pour reconnaître lémotion de lutilisateur sur la base dune image de leur visage.

En tant que technologue, vous êtes dabord attiré par le comment et ce nest quaprès vous familiarisez-vous avec les détails complexes de son fonctionnement interne que vous commencez à remettre en question le pourquoi. Ce nest quaprès avoir appris et créé des systèmes capables de classer de manière satisfaisante lémotion à partir dun texte ou dune image de visage, que jai commencé à me demander comment ils pouvaient être appliqués. Ce nest que récemment que jai réalisé leur importance et leur applicabilité; cette réalisation est le point de départ de cet article.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Le besoin dun nouvel objectif

Aucune introduction de nouvelle technologie nest complète sans la mention de la «voiture sans chevaux»; un terme utilisé par Don Norman pour décrire ladoption et lévolution de la conception des nouvelles technologies. Cela met en évidence que nous, concepteurs et technologues, projetons normalement nos modèles mentaux existants sur de nouvelles technologies et ce n’est qu’après de nombreuses itérations que nous commençons à créer de nouveaux modèles mentaux plus applicables à la technologie. Une histoire évidente qui illustre cela est la façon dont les émissions de télévision ont été initialement conçues et diffusées; négligeant principalement lélément qui les rendait plus riches que la radio, qui était la capacité dutiliser lajout dimages pour dépeindre une histoire. Au lieu de cela, les émissions de télévision sont redevenues à peine plus quune émission de radio avec des images des présentateurs.

Malgré ma connaissance et mon intérêt pour Affective Computing , il Il était difficile denvisager lutilisation de la reconnaissance des émotions au-delà de lanalyse et des rapports. Bien sûr, conceptuellement, je parlais souvent de la capacité de lordinateur à reconnaître et à répondre à lémotion de lutilisateur, mais je nai pas creusé beaucoup plus profondément car je ne pouvais pas voir comment nos applications existantes, telles que Microsoft Word, pourraient être efficaces. utilisation de celui-ci – jusquà récemment. Mais pour mieux comprendre et apprécier la signification de cette révélation, il est important de prendre du recul et de revoir ce quétaient les ordinateurs, comment ils ont évolué et leur trajectoire probable (en ce qui concerne leur application et comment nous interagissons avec eux).

Une brève histoire de lordinateur

Le concept dordinateur a été conçu au 19ème siècle par un professeur de mathématiques anglais nommé Charles Babbage ; ce concept a été nommé de manière appropriée le Moteur danalyse , soulignant son objectif deffectuer et de produire des calculs mathématiques. Ce concept a finalement été réalisé vers 1943 et a trouvé une application dans le domaine des calculs de trajectoire à des fins militaires. Les utilisateurs étaient généralement des professionnels hautement qualifiés qui interagissaient avec lordinateur à laide de cartes perforées détaillant des instructions explicites à suivre par lordinateur.

https://apple2history.org/history/ah16/

Viennent ensuite les ordinateurs industriels sous forme de mainframes; ceux-ci, produits par des entreprises comme International Business Machines (IBM), ressemblaient à beaucoup de leurs prédécesseurs et exigeaient à nouveau des utilisateurs hautement qualifiés pour les utiliser, mais en remplaçant leurs cartes perforées physiques par une interface de ligne de commande numérique (CLI) pour soumettre leurs instructions.À cette époque; il faut reconnaître les progrès de l’interaction homme-machine (HCI) auprès d’un petit groupe de personnes; des individus tels que Steve Russell qui ont vu les ordinateurs au-delà dun simple calculateur par lots et ont imaginé (et créé) des programmes informatiques interactifs qui ont permis la première ère des jeux informatiques tels que comme Spacewar! John McCarthy , considéré comme le père de lintelligence artificielle (IA), a envisagé le potentiel pour les ordinateurs exécutant les tâches des humains et Doug Engelbart qui, paradoxalement, a imaginé des ordinateurs qui nous ont augmenté plutôt que de nous remplacer et un pionnier pour un large éventail de concepts de manipulation que nous utilisons encore aujourdhui, y compris la souris et linterface utilisateur graphique (GUI).

À la fin des années 70, nous avons assisté à lessor des ordinateurs personnels (PC); malgré leur nom, ils étaient loin dêtre personnels mais sont finalement devenus abordables et applicables à une population suffisamment nombreuse pour être considérés comme courants. Lapplication phare à lépoque était le tableur, une calculatrice sophistiquée pour la productivité de bureau. En raison de leur disponibilité et de leur adoption, la convivialité est rapidement devenue très importante et lémission de commandes via un terminal était un obstacle pour la plupart des utilisateurs.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Ce nest quau début des années 80, avec lintroduction de linterface graphique, que linteraction avec les ordinateurs sest (un peu) démocratisée. Linterface graphique a utilisé de nombreuses métaphores empruntées au monde réel, ce qui, associé à une manipulation directe et à un retour rapide, a rendu les ordinateurs accessibles à un public au-delà des experts en informatique. Pendant ce temps, nous avons vu lessor du Web et lextension des applications et des cas dutilisation des ordinateurs; passer des outils analytiques purs à lutilisation pour des tâches telles que la communication, le divertissement et le travail créatif. Cette adoption a conduit à laccélération de la numérisation de notre monde physique; les informations, les divertissements et nos relations sont devenus des octets.

La prochaine étape importante qui a influencé la façon dont nous utilisons les ordinateurs a eu lieu vers le milieu des années 80 avec la prolifération dInternet; le courrier électronique a transformé les ordinateurs en dispositifs de communication; les gens ninteragissaient pas, les gens interagissaient avec dautres personnes via des ordinateurs – ce paradigme, la communication et la collaboration via un ordinateur, est maintenant appelé informatique sociale.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Puis vint liPhone (puis Android); les ordinateurs sont finalement devenus vraiment personnels, le toucher a encore réduit la friction d’utilisation et l’ajout de capteurs, de connectivité et une nouvelle augmentation de la numérisation ont renforcé leur pertinence et leur commodité pour le monde réel et les «personnes réelles». Mais jusquà récemment, ils (les ordinateurs) nous obligeaient encore à les instruire explicitement et à communiquer via des interfaces statiques. Malgré laugmentation du niveau dabstraction de la CLI, le modèle dinteraction de base est resté le même – cela est en train de changer.

Nous entrons maintenant dans une ère où nous assistons à la convergence de lintelligence artificielle (IA) et Intelligence Augmentation (IA) – par lequel nous avons des systèmes qui utilisent «  lintelligence pour mieux nous comprendre (voix, picturale, textuelle ou gestuelle), notre intention et sont capables dexécuter des tâches de manière semi-autonome et, parfois, de manière proactive.

https://www.jibo.com /

Pour illustrer davantage lévolution de la façon dont nous interagissons avec les ordinateurs, jemprunterai un tracé à Mark Billinghurst , chercheur dinterfaces informatiques, qui met en évidence notre progression vers des interfaces utilisateur naturelles au fil du temps.

Ce tracé n Non seulement met en évidence la diminution de la friction entre nous et les ordinateurs (interfaces utilisateur naturelles), mais aussi comment nos interactions passent du statut explicite à implicite, cest-à-dire que de plus en plus de nos systèmes deviennent anticipatifs.

Les autres tendances notables incluent le rôle et la fonction des applications; passer du traitement dinstructions discrètes propres à celles qui traitent de hauts degrés dambiguïté, cest-à-dire que les premières applications ont été utilisées pour calculer les trajectoires des missiles tandis que les applications modernes traitent de la recommandation de chansons, de films, de partenaires et de lorganisation de vos réunions.La dernière tendance que je veux souligner est la façon dont la forme de lordinateur change, dun clavier et dun écran à de nombreuses autres formes, des ardoises portables que nous transportons dans nos poches aux haut-parleurs intelligents qui se trouvent à côté de notre lit.

Lintention de ce qui précède nest pas de fournir une leçon dhistoire complète (ou précise) en informatique, mais plutôt de mettre en évidence comment la fonction, la forme et notre relation avec les ordinateurs ont évolué au fil du temps et sa trajectoire probable – passer dune pure outil fonctionnel à un proche compagnon. Ainsi, tout comme linterface graphique a fortement emprunté au monde physique pour rendre linteraction avec les ordinateurs plus familière et naturelle, le besoin de reconnaître, de réagir et de représenter lémotion le sera également et répondre à notre état émotionnel. Être capable dexposer des émotions fournit également un autre moyen de communiquer létat actuel du système pour aider lutilisateur à construire un modèle mental plus précis et utile du système avec lequel il interagit, cest-à-dire illustrer la confusion, pourrait aider lutilisateur à comprendre que le système a besoin dassistance. .

En bref; au lieu que les émotions soient utilisées uniquement à des fins danalyse et de reporting, lintelligence émotionnelle a beaucoup de sens lorsque vous parlez avec une assistance personnelle virtuelle (VPA), des avatars numériques ou des ordinateurs incorporés physiquement, comme un robot; essentiellement à chaque fois que vous avez affaire à un ordinateur avec lequel il est possible d’interagir naturellement, qui a une certaine autonomie, qui gère l’ambiguïté et l’incertitude, qui vous connaît vous et vos préférences et qui requiert un certain niveau de confiance. Semble familier? Ces traits ont généralement été confinés aux personnes, mais maintenant nos compagnons de calcul ont également acquis ces traits.

Examinons brièvement quelques cas dutilisation où lintelligence émotionnelle a un sens et comment elle peut être appliquée.

Un exemple qui illustre bien ce changement dans le calcul est DragonBot ; un projet de recherche du Social Robotics Group du MIT explorant des systèmes de tutorat intelligents. DragonBot utilise la conscience émotionnelle pour sadapter à lélève, par exemple, lune des applications est un jeu de lecture qui adapte les mots en fonction de lémotion reconnue, cest-à-dire que le système peut ajuster la difficulté de la tâche (les mots dans ce cas) en fonction des utilisateurs capacité déterminée par lémotion reconnue.

Les agents conversationnels (chatbots) sont une opportunité évidente dutiliser la reconnaissance émotionnelle. Actuellement, les chatbots exécutent ce que lon appelle la compréhension du langage naturel (NLU) pour déterminer les réponses; cette réponse dépend généralement dun contexte et inféré intent mais il ne faudra pas longtemps (et certains existent déjà, comme Emotibot ) avant quil ne devienne standard dutiliser également le reconnu emotion lors de la détermination de la réponse à lutilisateur (en adaptant non seulement la langue mais aussi le ton pour répondre). Cela peut non seulement augmenter lefficacité de la communication, mais nous donne également la possibilité déviter de créer des comportements indésirables dans la façon dont nous communiquons les uns avec les autres. Nous plaisantons souvent en studio sur la façon dont les assistants vocaux, tels quAlexa, créent des comportements chez les enfants où ils exigeront des choses plutôt que de leur demander «Alexa, dis-moi lheure!».

En tant quinterfaces conversationnelles devenir plus omniprésente, de sorte que la nécessité de développer des moyens efficaces de reconnaissance et dadaptation à lémotion des utilisateurs, en particulier dans les domaines de lassistance médicale ( Ada ) et mentale santé ( woebot ).

En général, la reconnaissance émotionnelle peut être utilisée pour augmenter automatiquement lengagement ou adapte automatiquement à son (ses) utilisateur (s); Disney Research fournissant de nombreux autres exemples où la reconnaissance émotionnelle jouera un rôle dans ladaptation du contenu; de leur exploration dans la programmation télévisuelle interactive préscolaire , leur outil de création narrative interactive , et bien dautres – Je vous encourage à passer du temps à explorer.

Comme mentionné ci-dessus; le catalyseur de cette exploration est né de ma curiosité initiale de vouloir savoir reconnaître lémotion, elle-même issue dune initiative ici à la Méthode appelée FINE.

FINE est un écosystème conçu pour soutenir la santé mentale des jeunes enfants. Lémotion est au cœur de celui-ci – à la fois pour lentrée et la sortie.Grâce à la caméra et au clavier, nous surveillons et déduisons létat émotionnel du ou des utilisateurs et en utilisant ces données, nous présentons ensuite lhumeur globale via un appareil partagé. Cela encourage la communication et offre un compagnon empathique grâce à un avatar virtuel enseigné lempathie grâce à lintelligence provenant de la foule.

Lapplication de la reconnaissance des émotions est très spécifique au domaine mais jespère avoir présenté un argument suffisamment fort ci-dessus pour son opportunité et sa probabilité dadoption dans les années à venir. La reconnaissance, par contre, est universelle et je passerai donc le reste de cet article à présenter et à résumer brièvement les approches que nous avons adoptées pour que FINE déduise lémotion de lutilisateur, en utilisant à la fois une image de son visage et un texte quil avait écrit.

Reconnaître les émotions à partir de nos expressions faciales

Une recherche rapide sur Google sur le pourcentage de communication qui provient du langage corporel met rapidement en évidence que la plupart des communications sont non verbales (le langage corporel représente 55\% du message global , le ton compte pour 38\% et les mots ne représentent que 7\%). Il nest donc pas surprenant que beaucoup de choses puissent être déduites simplement en regardant son visage – cest la prémisse pour que nous puissions déduire lémotion de quelquun simplement en examinant son expression faciale. La tâche consiste maintenant à classer les expressions faciales pour déterminer les émotions et, heureusement, cela a été bien étudié et les données mises à disposition.

Lensemble de données utilisé dans la formation de notre classificateur provient dun Concours Kaggle ; lensemble de données qui laccompagne se compose de plus de 20 000 images en niveaux de gris de visages qui ont été manuellement étiquetés comme étant en colère , dégoût , peur , heureux , triste , surprise , ou neutre . Comme pour tout projet dapprentissage automatique (ML); notre première tâche est de développer lintuition autour des données et de proposer des hypothèses théoriques sur la manière dont nous procédons à la classification. Vous trouverez ci-dessous quelques exemples de visages de notre ensemble de données avec leurs libellés associés.

Notre hypothèse est quil existe un modèle commun entre lexpression et lémotion; une façon dexplorer et de valider cela est la visualisation. Pour le visualiser, nous pouvons prendre le visage moyen pour chaque émotion; ci-dessous, nous montrons à quoi cela ressemble pour les émotions en colère , heureux et surpris .

Nous pouvons clairement voir quil existe des expressions distinctes pour chacune de ces émotions; notre prochaine tâche est dapprendre ces modèles. Pour cette expérience, nous avons utilisé un Réseau de neurones à convolution (ou ConvNet) pour apprendre ces modèles (nous renonçons aux détails ici, mais nous partagerons le bloc-notes pour ceux qui souhaitent le savoir les détails techniques). Après 15 périodes de formation, nous avons atteint une précision de validation proche de 60\% (pas mal étant donné que la ligne de base serait denviron 14\%); les résultats de la formation indiqués ci-dessous.

Reconnaître lémotion du texte

Nous avons vu auparavant que le texte (les mots que nous utilisons) ne représente que 7\% du message global; cela et le fait que les langues héritent de lambiguïté le rend plus difficile mais reste une source précieuse de données et quelque chose qui peut facilement être surveillé passivement. Pour ce prototype, nous avons formé un Réseau neuronal récurrent (encore une fois, nous ignorerons les détails ici mais partagerons le bloc-notes pour ceux qui sont intéressés par les détails techniques) et la porté (le modèle) sur CoreML , le framework Apples ML. Laccompagnement était un clavier iOS personnalisé qui surveillait passivement ce que lutilisateur tapait et utilisait ce modèle pour déterminer létat émotionnel actuel de lutilisateur.

Les données pour le texte étaient plus difficiles à trouver; bien quil y en ait eu quelques-uns provenant de sources crédibles, aucun ne contenait une quantité substantielle dexemples pour former un Deep Neural Network . Ici se trouve un point important; les données étiquetées sont effrayantes et leur acquisition peut coûter cher.Divers ensembles de données ont été essayés après avoir finalement réglé avec un ensemble de données mis à disposition par CrowdFlower , un ensemble de données composé denviron 40 000 lignes de tweets qui ont été étiquetés avec lune des 13 émotions ( comme le bonheur, la tristesse et la colère). Un problème avec lensemble de données était le déséquilibre des exemples pour chaque émotion. Le graphique ci-dessous montre cette distribution. Malgré cela, notre objectif était la faisabilité et lapplication plutôt que la précision. Nous avons donc continué avec cet ensemble de données.

Malgré le déséquilibre important et la quantité dexemples dentraînement, nous avons quand même pu obtenir une précision de validation denviron 35\% après 12 époques.

Ci-dessous montre la classification effectuée sur lappareil (bien que le simulateur dans ce cas ).

Ici, nous avons seulement exploré les sources évidentes disponibles pour reconnaître lémotion; dautres incluent le ton (ton de la voix), le comportement (ou basé sur un modèle) et la pose, mais la chose importante à retenir est la tendance à séloigner des interactions explicites vers implicites et comment lémotion sera une contribution précieuse pour déterminer comment votre système interagit avec le

De linteraction homme-machine (HCI) aux relations homme-machine (HCR)

Nous concluons cet article en soulignant à nouveau lévolution de HCI et limportance de notre relation avec les ordinateurs devient tout aussi important que la façon dont nous interagissons avec eux.

À lorigine, HCI se concentrait sur le concept de utilisabilité. Là où la définition initiale de la convivialité était uniquement centrée sur la simplicité du concept, cest-à-dire «facile à apprendre, facile à utiliser», elle a constamment évolué parallèlement aux progrès technologiques. Il englobe désormais les qualités de plaisir, de bien-être, defficacité collective, de tension esthétique, de créativité accrue, de fluidité, de soutien au développement humain et autres.

Il est allé au-delà de lutilisateur individuel assis à son bureau, et continuera à se déplacer poussé par les nouvelles frontières rendues possibles par la technologie. Cette dépendance à la technologie signifie rechercher, développer et exploiter continuellement de nouveaux domaines de possibilités pour améliorer lactivité et lexpérience humaines. Ces technologies offrent désormais lopportunité de reconnaître lémotion de lutilisateur; que ferez-vous avec ça?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *