Die sich entwickelnde Beziehung der Menschheit zu Computern

Veröffentlicht

Von Joshua Newnham, Lead Design Technologe – Methode London

(9. Januar 2018)

In diesem Beitrag diskutieren wir die Entwicklung der Beziehung, die wir zu unseren Computerbegleitern haben, und versuchen, die Anwendung emotionaler Sensortechnologien besser zu verstehen.

Interesse an der Schnittstelle von Design und künstlicher Intelligenz macht Sie mit vielen interessanten Konzepten und Tools vertraut, die auf den ersten Blick ansprechend und relevant erscheinen. Erst wenn Sie mit ihnen arbeiten, stellen Sie tiefere und aussagekräftigere Fragen ihre Anwendung und Wert für den Endbenutzer. Dies war der Fall bei Technologien zur emotionalen Wahrnehmung, wie sie vom beliebten Dienstleister für emotionale Erkennung Affectiva angeboten werden, der Tools zum Erkennen der Emotionen des Benutzers anhand eines Bildes von bietet ihr Gesicht.

Als Technologe werden Sie zuerst von der wie angezogen und es ist nur nach Ihnen Machen Sie sich mit den komplizierten Details des Innenlebens vertraut, bei denen Sie anfangen, das Warum in Frage zu stellen. Erst nachdem ich Systeme gelernt und erstellt hatte, mit denen Emotionen anhand eines Textes oder eines Gesichtsbilds zufriedenstellend klassifiziert werden konnten, begann ich mich zu fragen, wie diese angewendet werden könnten. Erst kürzlich habe ich ihre Bedeutung und Anwendbarkeit erkannt; Diese Erkenntnis ist der Ausgangspunkt dieses Beitrags.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Notwendigkeit eines neuen Objektivs

Ohne die Erwähnung des „pferdelosen Wagens“ ist keine Einführung neuer Technologien abgeschlossen. Ein Begriff, der von Don Norman verwendet wird, um die Übernahme und Entwicklung des Designs für neue Technologien zu beschreiben. Es zeigt, dass wir, Designer und Technologen, unsere vorhandenen mentalen Modelle normalerweise auf neue Technologien projizieren. Erst nach vielen Iterationen beginnen wir mit der Erstellung neuer mentaler Modelle, die für die Technologie besser geeignet sind. Eine offensichtliche Geschichte, die dies veranschaulicht, ist, wie Fernsehshows ursprünglich entworfen und ausgestrahlt wurden. Meistens ohne Rücksicht auf das Element, das sie reicher machte als das Radio, nämlich die Möglichkeit, Bilder durch Hinzufügen von Bildern darzustellen. Stattdessen wurden Fernsehsendungen zu kaum mehr als einer Radiosendung mit Bildern der Moderatoren.

Trotz meines Bewusstseins und Interesses an Affective Computing ist dies der Fall Es war schwer vorstellbar, dass die Erkennung von Emotionen über die Analyse und Berichterstattung hinausgeht. Konzeptionell sprach ich natürlich oft davon, dass der Computer die Emotionen des Benutzers erkennen und darauf reagieren kann, ging aber nicht viel tiefer, da ich nicht sehen konnte, wie unsere vorhandenen Anwendungen wie Microsoft Word effektiv sein könnten Verwendung davon – bis vor kurzem. Um die Bedeutung dieser Offenbarung besser zu verstehen und zu verstehen, ist es jedoch wichtig, einen Schritt zurückzutreten und zu überprüfen, was Computer waren, wie sie sich entwickelt haben und wie sie sich wahrscheinlich entwickeln (in Bezug auf ihre Anwendung und wie wir mit ihnen interagieren).

Eine kurze Geschichte des Computers

Das Konzept des Computers wurde im 19. Jahrhundert von einem englischen Mathematikprofessor namens Charles Babbage ; Dieses Konzept wurde angemessen als Analytical Engine bezeichnet, um den Zweck der Durchführung und Ausgabe mathematischer Berechnungen hervorzuheben. Dieses Konzept wurde schließlich um 1943 verwirklicht und fand Anwendung im Bereich der Flugbahnberechnung für militärische Zwecke. Benutzer waren in der Regel hochqualifizierte Fachleute, die mit Lochkarten mit dem Computer interagierten und explizite Anweisungen für den Computer enthielten.

https://apple2history.org/history/ah16/

Als nächstes kamen Industriecomputer in Form von Großrechnern; Diese, die von Unternehmen wie International Business Machines (IBM) hergestellt wurden, ähnelten weitgehend ihren Vorgängern und erforderten erneut hochqualifizierte Benutzer, um sie zu verwenden, ersetzten jedoch ihre physischen Lochkarten durch eine digitale Befehlszeilenschnittstelle (CLI), um ihre Anweisungen einzureichen.Während dieser Ära; Fortschritte in der Mensch-Computer-Interaktion (HCI) müssen gegenüber einer kleinen Gruppe von Personen anerkannt werden. Personen wie Steve Russell , die Computer jenseits eines Stapelrechners sahen und interaktive Computerprogramme vorstellten (und erstellten), die die erste Ära von Computerspielen ermöglichten, wie z als Spacewar! John McCarthy , der als Vater der künstlichen Intelligenz (KI) gilt, stellte sich das vor Potenzial für Computer, die die Aufgaben von Menschen erfüllen, und Doug Engelbart , der sich paradoxerweise Computer vorstellte, die uns erweiterten, anstatt uns zu ersetzen, und ein Pionier für eine große Anzahl von Direktvertretern Manipulationskonzepte, die wir heute noch verwenden, einschließlich der Maus und der grafischen Benutzeroberfläche (GUI).

In den späten 70er Jahren erlebten wir den Aufstieg von Personal Computern (PCs); Trotz ihres Namens waren sie alles andere als persönlich, wurden aber schließlich erschwinglich und für eine Bevölkerung anwendbar, die groß genug war, um als Mainstream angesehen zu werden. Die Killeranwendung zu dieser Zeit war die Tabellenkalkulation, ein ausgeklügelter Rechner für die Produktivität im Büro. Aufgrund ihrer Verfügbarkeit und Akzeptanz wurde die Benutzerfreundlichkeit bald sehr wichtig und die Ausgabe von Befehlen über ein Terminal war für die meisten Benutzer ein Hindernis.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Erst in den frühen 80er Jahren, mit der Einführung der GUI, wurde die Interaktion mit Computern (etwas) demokratisiert. Die grafische Benutzeroberfläche verwendete viele Metaphern, die aus der realen Welt entlehnt wurden. Zusammen mit der direkten Manipulation und dem schnellen Feedback machten sie Computer einem Publikum zugänglich, das über Computerexperten hinausgeht. Während dieser Zeit erlebten wir den Aufstieg des Webs und erweiterte Anwendungs- und Anwendungsfälle von Computern; Von reinen Analysewerkzeugen zu Aufgaben wie Kommunikation, Unterhaltung und kreativer Arbeit. Diese Annahme führte zu einer Beschleunigung der Digitalisierung unserer physischen Welt; Informationen, Unterhaltung und unsere Beziehungen wurden zu Bytes.

Der nächste wichtige Meilenstein, der die Verwendung von Computern beeinflusste, war Mitte der 80er Jahre mit der Verbreitung des Internets. E-Mail verwandelte Computer in Kommunikationsgeräte; Menschen interagierten nicht, Menschen interagierten mit anderen Menschen über Computer – dieses Paradigma, das über einen Computer kommuniziert und zusammenarbeitet, wird jetzt als Social Computing bezeichnet.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Dann kam das iPhone (und dann Android); Computer wurden schließlich wirklich persönlich, Berührungen reduzierten die Reibung bei der Nutzung weiter und die Hinzufügung von Sensoren, Konnektivität und die zunehmende Digitalisierung stärkten ihre Relevanz und Bequemlichkeit für die reale Welt und die „realen Menschen“. Bis vor kurzem mussten sie (Computer) sie jedoch explizit anweisen und über statische Schnittstellen kommunizieren. Obwohl der Abstraktionsgrad von der CLI erhöht wurde, blieb das Kerninteraktionsmodell das gleiche – dies ändert sich jetzt.

Wir treten jetzt in eine Ära ein, in der wir die Konvergenz der künstlichen Intelligenz (KI) sehen. und Intelligence Augmentation (IA) – wobei wir Systeme haben, die „Intelligenz“ verwenden, um uns (Stimme, Bild, Text oder Gestik) besser zu verstehen, unsere Absicht und in der Lage sind, Aufgaben halbautonom und manchmal proaktiv auszuführen.

https://www.jibo.com /

Um die Entwicklung unserer Interaktion mit Computern weiter zu veranschaulichen, leihe ich mir eine Handlung von Mark Billinghurst , Forscher für Computerschnittstellen, der unseren Fortschritt in Richtung natürlicher Benutzeroberflächen im Laufe der Zeit hervorhebt.

Dieses Diagramm n Dies unterstreicht nicht nur die abnehmende Reibung zwischen uns und Computern (natürliche Benutzeroberflächen), sondern auch, wie sich unsere Interaktionen von explizit zu implizit verschieben, dh immer mehr unserer Systeme werden vorausschauend.

Zu den anderen bemerkenswerten Trends gehören die Rolle und Funktion von Anwendungen; Der Übergang vom Umgang mit sauberen diskreten Anweisungen zu solchen, die sich mit einem hohen Grad an Mehrdeutigkeit befassen, d. h. frühe Anwendungen wurden zur Berechnung der Flugbahnen von Raketen verwendet, während moderne Anwendungen sich mit der Empfehlung von Songs, Filmen, Partnern und der Organisation Ihrer Besprechungen befassen.Der letzte Trend, den ich hervorheben möchte, ist, wie sich die Form des Computers ändert, von einer Tastatur und einem Bildschirm zu vielen anderen Formen, von tragbaren Slates, die wir in unseren Taschen herumtragen, bis zu intelligenten Lautsprechern, die neben unserem Bett sitzen.

Die Absicht des oben Gesagten ist nicht, eine umfassende (oder genaue) Geschichtsstunde in der Datenverarbeitung zu liefern, sondern aufzuzeigen, wie sich die Funktion, Form und unsere Beziehung zu Computern im Laufe der Zeit entwickelt haben und wie sich die Flugbahn wahrscheinlich von einer reinen entwickelt hat Funktionswerkzeug zu einem engen Begleiter. So wie die grafische Benutzeroberfläche stark von der physischen Welt übernommen wurde, um die Interaktion mit Computern vertrauter und natürlicher zu gestalten, wird auch die Notwendigkeit, Emotionen zu erkennen, zu reagieren und darzustellen, dh es wird frustrierend sein, mit etwas zu sprechen, das als intelligent angesehen wird, wenn es nicht erkannt werden kann und auf unseren emotionalen Zustand reagieren. Die Fähigkeit, Emotionen zu zeigen, bietet auch eine weitere Möglichkeit, den aktuellen Status des Systems zu kommunizieren, um dem Benutzer zu helfen, ein genaueres und hilfreicheres mentales Modell des Systems zu erstellen, mit dem er interagiert, dh die Darstellung von Verwirrung könnte dem Benutzer helfen, zu verstehen, dass das System Unterstützung benötigt .

Kurz gesagt; Anstatt Emotionen nur für Analysen und Berichte zu verwenden, ist emotionale Intelligenz sehr sinnvoll, wenn Sie mit einem Virtual Personal Assistance (VPA), digitalen Avataren oder physisch verkörperten Computern wie einem Roboter sprechen. Im Wesentlichen immer dann, wenn Sie mit einem Computer zu tun haben, mit dem auf natürliche Weise interagiert werden kann, der eine gewisse Autonomie besitzt, mit Mehrdeutigkeit und Unsicherheit umgeht, Sie und Ihre Vorlieben kennt und ein gewisses Maß an Vertrauen erfordert. Klingt bekannt? Diese Eigenschaften waren normalerweise auf Menschen beschränkt, aber jetzt haben auch unsere Computer-Begleiter diese Eigenschaften erworben.

Schauen wir uns kurz einige Anwendungsfälle an, in denen emotionale Intelligenz sinnvoll ist und wie sie angewendet werden kann.

Ein Beispiel, das diese Verschiebung der Rechenleistung veranschaulicht, ist DragonBot ; Ein Forschungsprojekt der Social Robotics Group am MIT zur Erforschung intelligenter Tutorensysteme. DragonBot verwendet emotionales Bewusstsein, um sich an den Schüler anzupassen. Eine der Anwendungen ist beispielsweise ein Lesespiel, das die Wörter basierend auf der erkannten Emotion anpasst, dh das System kann die Schwierigkeit der Aufgabe (in diesem Fall Wörter) basierend auf den Benutzern anpassen Fähigkeit, die durch die erkannte Emotion bestimmt wird.

Gesprächsagenten (Chatbots) sind eine offensichtliche Möglichkeit, emotionale Erkennung zu nutzen. Derzeit führen Chatbots ein sogenanntes Natural Language Understanding (NLU) durch, um die Antworten zu ermitteln. Diese Antwort hängt normalerweise von einem bestimmten Kontext und abgeleiteten Absicht aber Es wird nicht lange dauern (und einige existieren bereits, wie z. B. Emotibot ), bis es zum Standard wird, auch den erkannten zu verwenden Emotion beim Bestimmen der Antwort an den Benutzer (Anpassen nicht nur der Sprache, sondern auch des Tons, mit dem geantwortet werden soll). Dies kann nicht nur die Effektivität der Kommunikation erhöhen, sondern gibt uns auch die Möglichkeit, unerwünschte Verhaltensweisen bei der Kommunikation untereinander zu vermeiden. Wir scherzen oft im Studio darüber, wie Sprachassistenten wie Alexa Verhaltensweisen bei Kindern erzeugen, bei denen sie nach Dingen verlangen, anstatt nach ihnen zu fragen: „Alexa, sag mir die Zeit!“.

Als Gesprächsschnittstellen Die Notwendigkeit, wirksame Methoden zur Erkennung und Anpassung an die Emotionen der Benutzer zu entwickeln, wird allgegenwärtiger, insbesondere in den Bereichen der medizinischen Hilfe ( Ada ) und der mentalen Gesundheit ( woebot ).

Im Allgemeinen kann die emotionale Erkennung verwendet werden, um entweder automatisch zu erhöhen Engagement oder passt automatisch an seine Benutzer an; Disney Research bietet viele weitere Beispiele dafür, wo emotionale Erkennung eine Rolle bei der Anpassung des Inhalts spielt. von ihrer Erforschung in interaktiven Vorschulfernsehprogrammen , ihrem interaktiven narrativen Authoring-Tool und vielen mehr – Ich ermutige Sie, einige Zeit mit Erkundungen zu verbringen.

Wie oben erwähnt; Der Katalysator für diese Untersuchung war meine anfängliche Neugier, Emotionen erkennen zu wollen, die sich aus einer Initiative hier bei der -Methode namens FINE ergab.

FINE ist ein Ökosystem zur Unterstützung der psychischen Gesundheit kleiner Kinder. Emotionen stehen im Mittelpunkt – sowohl für Input als auch für Output.Über die Kamera und die Tastatur überwachen und schließen wir den emotionalen Zustand der Benutzer und präsentieren anhand dieser Daten die Gesamtstimmung über ein gemeinsam genutztes Gerät. Dies fördert die Kommunikation und bietet einen einfühlsamen Begleiter durch einen virtuellen Avatar, der Empathie durch Crowd-Sourcing-Intelligenz vermittelt.

Die Anwendung der Emotionserkennung ist sehr domänenspezifisch, aber ich hoffe, ich habe oben ein ausreichend starkes Argument für die Möglichkeit und die Wahrscheinlichkeit einer Adoption in den kommenden Jahren vorgelegt. Das Erkennen ist andererseits universell, und deshalb werde ich den Rest dieses Beitrags damit verbringen, die Ansätze, die wir für FINE gewählt haben, kurz vorzustellen und zusammenzufassen, um auf die Emotionen des Benutzers zu schließen, indem wir sowohl ein Bild seines Gesichts als auch einen Text verwenden, den sie geschrieben haben.

Erkennen von Emotionen anhand unserer Mimik

Eine schnelle Suche bei Google nach dem Prozentsatz der Kommunikation über die Körpersprache zeigt schnell, dass die meiste Kommunikation nonverbal ist (die Körpersprache macht 55\% der gesamten Nachricht aus , Ton macht 38\% aus und Wörter machen nur 7\% aus). Es sollte daher nicht überraschen, dass vieles einfach durch einen Blick auf das eigene Gesicht abgeleitet werden kann – dies ist die Voraussetzung dafür, dass wir auf die Emotionen eines Menschen schließen können, indem wir einfach seinen Gesichtsausdruck untersuchen. Die Aufgabe besteht nun darin, Gesichtsausdrücke zu klassifizieren, um Emotionen zu bestimmen. Glücklicherweise wurde dies gut untersucht und Daten zur Verfügung gestellt.

Der Datensatz, der beim Training unseres Klassifikators verwendet wurde, stammt von einer Kaggle-Wettbewerb ; Der zugehörige Datensatz besteht aus über 20.000 Graustufenbildern von Gesichtern, die manuell als wütend , Ekel , Angst , glücklich , traurig , Überraschung oder neutral . Wie bei jedem ML-Projekt; Unsere erste Aufgabe besteht darin, eine Intuition um die Daten herum aufzubauen und einige theoretische Hypothesen zu erstellen, wie wir die Klassifizierung durchführen. Im Folgenden finden Sie einige Beispiele für die Gesichter aus unserem Datensatz mit den zugehörigen Beschriftungen.

Wir gehen davon aus, dass es ein gemeinsames Muster zwischen Ausdruck und Emotion gibt. Eine Möglichkeit, dies zu untersuchen und zu validieren, ist die Visualisierung. Um dies zu visualisieren, können wir für jede Emotion das durchschnittliche Gesicht verwenden. Im Folgenden zeigen wir, wie dies für die Emotionen aussieht. wütend , glücklich und überraschten .

Wir können deutlich sehen, dass es für jede dieser Emotionen unterschiedliche Ausdrücke gibt. Unsere nächste Aufgabe ist es, diese Muster zu lernen. Für dieses Experiment haben wir ein Convolution Neural Network (oder ConvNet) verwendet, um diese Muster zu lernen (wir verzichten hier auf die Details, werden das Notizbuch jedoch für Interessenten freigeben die technischen Details). Nach 15 Trainingsepochen erreichten wir eine Validierungsgenauigkeit nahe 60\% (nicht schlecht, da die Basislinie bei etwa 14\% liegen würde); Die Ergebnisse des Trainings sind unten aufgeführt.

Erkennen von Emotionen aus Text

Wir haben zuvor gesehen, dass Text (die von uns verwendeten Wörter) nur 7\% der Gesamtnachricht ausmacht. Dies und die Tatsache, dass Sprachen Mehrdeutigkeiten erben, machen es schwieriger, aber dennoch eine wertvolle Datenquelle und etwas, das leicht passiv überwacht werden kann. Für diesen Prototyp haben wir ein wiederkehrendes neuronales Netzwerk trainiert (wir werden die Details hier noch einmal überspringen, aber das Notizbuch für diejenigen freigeben, die an den technischen Details interessiert sind) und portierte es (das Modell) auf CoreML , Apples ML Framework. Begleitend dazu gab es eine benutzerdefinierte iOS-Tastatur, die passiv überwachte, was der Benutzer tippte, und dieses Modell verwendete, um den aktuellen emotionalen Zustand des Benutzers zu bestimmen.

Daten für Text waren schwieriger zu finden; Obwohl es einige aus glaubwürdigen Quellen gab, enthielt keines eine beträchtliche Anzahl von Beispielen, um ein Deep Neural Network zu trainieren. Hier liegt ein wichtiger Punkt; Beschriftete Daten sind erschreckend und die Beschaffung kann teuer sein.Verschiedene Datensätze wurden ausprobiert, nachdem sie sich endgültig mit einem Datensatz abgefunden hatten, der von CrowdFlower zur Verfügung gestellt wurde. Dieser Datensatz besteht aus rund 40.000 Zeilen Tweets, die mit einer von 13 Emotionen gekennzeichnet wurden ( wie Glück, Traurigkeit und Wut). Ein Problem mit dem Datensatz war das Ungleichgewicht in den Beispielen für jede Emotion. Das folgende Diagramm zeigt diese Verteilung. Trotzdem lag unser Ziel eher in der Machbarkeit und Anwendung als in der Genauigkeit. Deshalb haben wir diesen Datensatz fortgesetzt.

Trotz des erheblichen Ungleichgewichts und der Anzahl der Trainingsbeispiele konnten wir nach 12 Epochen immer noch eine Validierungsgenauigkeit von etwa 35\% erzielen.

Unten sehen Sie die Klassifizierung, die auf dem Gerät ausgeführt wird (obwohl der Simulator in diesem Fall ).

Hier haben wir nur untersucht die offensichtlichen verfügbaren Quellen zum Erkennen von Emotionen; Andere sind Ton (Tonfall), Verhalten (oder modellbasiert) und Pose. Wichtig ist jedoch, dass der Trend von expliziten zu impliziten Interaktionen weggeht und dass Emotionen ein wertvoller Input sind, um zu bestimmen, wie Ihr System mit dem interagiert Benutzer.

Von der Mensch-Computer-Interaktion (HCI) zu Mensch-Computer-Beziehungen (HCR)

Wir schließen diesen Beitrag ab, indem wir erneut die Entwicklung von HCI und die Bedeutung unserer Beziehung hervorheben mit Computern wird genauso wichtig wie die Art und Weise, wie wir mit ihnen interagieren.

Der ursprüngliche Fokus von HCI lag auf dem Konzept der Benutzerfreundlichkeit. Wenn sich die ursprüngliche Definition der Benutzerfreundlichkeit ausschließlich auf die Einfachheit des Konzepts konzentrierte, d. h. „leicht zu erlernen, einfach zu bedienen“, wurde sie zusammen mit technologischen Fortschritten kontinuierlich weiterentwickelt. Es fasst jetzt die Qualitäten von Spaß, Wohlbefinden, kollektiver Wirksamkeit, ästhetischer Spannung, gesteigerter Kreativität, Fluss, Unterstützung für die menschliche Entwicklung und anderen zusammen.

Es ist über den einzelnen Benutzer hinausgegangen, der an seinem Desktop sitzt, und wird sich weiterhin bewegen, angetrieben von den neuen Grenzen, die durch die Technologie ermöglicht werden. Diese Abhängigkeit von Technologie bedeutet, kontinuierlich neue Bereiche von Möglichkeiten zur Verbesserung der menschlichen Aktivität und Erfahrung zu untersuchen, zu entwickeln und zu nutzen. Diese Technologien bieten jetzt die Möglichkeit, die Emotionen des Benutzers zu erkennen. Was wirst du damit machen?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.