Ewoluujące relacje ludzkości z komputerami

Autor: Joshua Newnham, główny projekt Technolog – Method London

(9 stycznia 2018 r.)

W tym poście omawiamy ewolucję relacji, jakie mamy z naszymi towarzyszami obliczeniowymi, i staramy się lepiej zrozumieć zastosowanie technologii wykrywania emocji.

Zainteresowanie skrzyżowaniem projektu i sztucznej inteligencji pozwala zapoznać się z wieloma interesującymi koncepcjami i narzędziami, które na pierwszy rzut oka wydają się atrakcyjne i istotne, ale dopiero gdy zaczynasz z nimi pracować, zaczynasz zadawać głębsze i bardziej znaczące pytania ich zastosowanie i wartość dla użytkownika końcowego. Tak było w przypadku technologii wyczuwania emocji, takich jak te oferowane przez popularnego dostawcę usług rozpoznawania emocji Affectiva , który oferuje narzędzia do rozpoznawania emocji użytkownika na podstawie obrazu ich twarz.

Jako technologa najpierw zainteresuje Cię sposób , a dopiero po tym przyzwyczaić się do zawiłych szczegółów jego wewnętrznego działania, które zaczynasz kwestionować dlaczego. Dopiero po nauczeniu się i stworzeniu systemów, które mogłyby w sposób zadowalający sklasyfikować emocje, biorąc pod uwagę tekst lub obraz twarzy, zacząłem kwestionować, jak można je zastosować. Dopiero niedawno zdałem sobie sprawę z ich znaczenia i zastosowania; ta realizacja jest punktem wyjścia dla tego posta.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Potrzeba nowego obiektywu

Żadne wprowadzenie nowej technologii nie jest kompletne bez wzmianki o „bezkonnej powozie”; termin używany przez Dona Normana przy opisywaniu przyjęcia i ewolucji projektu dla nowych technologii. Podkreśla, że ​​my, projektanci i technolodzy, zwykle projektujemy nasze istniejące modele mentalne na nowe technologie i dopiero po wielu iteracjach zaczynamy tworzyć nowe modele mentalne, które są bardziej odpowiednie dla technologii. Oczywista historia, która ilustruje to, jak początkowo projektowano i emitowano programy telewizyjne; przeważnie pomijając element, który uczynił ich bogatszymi od radia, czyli możliwość wykorzystania dodawania obrazów do przedstawienia historii. Zamiast tego programy telewizyjne zmieniły się w niewiele więcej niż audycję radiową ze zdjęciami prezenterów.

Pomimo mojej świadomości i zainteresowania afektywnymi komputerami , trudno było sobie wyobrazić wykorzystanie rozpoznawania emocji poza analizą i raportowaniem. Oczywiście koncepcyjnie często mówiłem o tym, że komputer jest w stanie rozpoznać i zareagować na emocje użytkownika, ale nie sięgałem głębiej, ponieważ nie mogłem zobaczyć, jak nasze istniejące aplikacje, takie jak Microsoft Word, mogą działać korzystanie z niego – do niedawna. Ale aby lepiej zrozumieć i docenić znaczenie tego objawienia, ważne jest, aby cofnąć się o krok i przeanalizować, czym były komputery, jak ewoluowały i ich prawdopodobną trajektorię (w odniesieniu do ich zastosowania i interakcji z nimi).

Krótka historia komputera

Koncepcja komputera została opracowana w XIX wieku przez angielskiego profesora matematyki o nazwisku Charles Babbage ; koncepcja ta została odpowiednio nazwana Silnik analityczny , podkreślając jej cel wykonywania i wyprowadzania obliczeń matematycznych. Koncepcja ta została ostatecznie zrealizowana około 1943 roku i znalazła zastosowanie w obliczeniach trajektorii do celów wojskowych. Użytkownicy na ogół byli dobrze wyszkolonymi profesjonalistami, którzy wchodzili w interakcję z komputerem za pomocą kart dziurkowanych zawierających szczegółowe instrukcje dla komputera.

https://apple2history.org/history/ah16/

Następnie pojawiły się komputery przemysłowe w postaci komputerów typu mainframe; te, produkowane przez takie firmy jak International Business Machines (IBM), przypominały wiele z ich poprzedników i ponownie wymagały od wysoko wyszkolonych użytkowników ich używania, ale zastąpienie ich fizycznych kart dziurkowanych cyfrowym interfejsem wiersza poleceń (CLI) do składania instrukcji.W tej epoce; należy uznać postęp w interakcji człowiek-komputer (HCI) w niewielkiej grupie osób; osoby takie jak Steve Russell , którzy widzieli komputery poza zwykłym kalkulatorem wsadowym i wyobrazili sobie (i stworzyli) interaktywne programy komputerowe, które umożliwiły pierwszą erę gier komputerowych, takich jako Spacewar! John McCarthy , uważany za ojca sztucznej inteligencji (AI), przewidział potencjał komputerów wykonujących zadania ludzi i Doug Engelbart , który, paradoksalnie, przewidział komputery, które raczej nas wzmacniają niż zastępują, i pionier w zakresie szerokiej gamy bezpośrednich koncepcje manipulacji, których nadal używamy, łącznie z myszą i graficznym interfejsem użytkownika (GUI).

W późnych latach 70-tych byliśmy świadkami rozwoju komputerów osobistych (PC); pomimo swojej nazwy były dalekie od osobistych, ale w końcu stały się dostępne i miały zastosowanie do wystarczająco dużej populacji, aby można je było uznać za główny nurt. W tamtych czasach zabójczą aplikacją był arkusz kalkulacyjny, zaawansowany kalkulator wydajności biurowej. Ze względu na ich dostępność i zastosowanie użyteczność szybko stała się bardzo ważna, a wydawanie poleceń przez terminal stanowiło barierę dla większości użytkowników.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Dopiero na początku lat 80., wraz z wprowadzeniem GUI, interakcja z komputerami stała się (nieco) zdemokratyzowana. GUI wykorzystywało wiele metafor zapożyczonych ze świata rzeczywistego, co wraz z bezpośrednią manipulacją i szybkimi informacjami zwrotnymi sprawiło, że komputery stały się dostępne dla publiczności poza ekspertami komputerowymi. W tym czasie byliśmy świadkami rozwoju sieci i rozszerzonych zastosowań i przypadków użycia komputerów; przechodzenie od czysto analitycznych narzędzi do takich zadań, jak komunikacja, rozrywka i praca twórcza. To przyjęcie doprowadziło do przyspieszenia cyfryzacji naszego fizycznego świata; informacje, rozrywka i nasze relacje stały się bajkami.

Następny znaczący kamień milowy, który wpłynął na sposób, w jaki korzystaliśmy z komputerów, nastąpił w połowie lat 80-tych wraz z rozprzestrzenianiem się Internetu; poczta elektroniczna zmieniła komputery w urządzenia komunikacyjne; ludzie nie wchodzili w interakcje, ludzie wchodzili w interakcje z innymi ludźmi za pośrednictwem komputerów – ten paradygmat, komunikowanie się i współpraca za pośrednictwem komputera, jest obecnie określany jako przetwarzanie społecznościowe.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Potem pojawił się iPhone (a potem Android); komputery w końcu stały się prawdziwie osobiste, dotyk jeszcze bardziej zmniejszył tarcie podczas użytkowania, a dodanie czujników, łączności i dalszy wzrost cyfryzacji wzmocniły ich przydatność i wygodę dla świata rzeczywistego i „prawdziwych ludzi”. Ale do niedawna oni (komputery) nadal wymagali od nas wyraźnego instruowania ich i komunikowania się za pośrednictwem statycznych interfejsów. Pomimo zwiększenia poziomu abstrakcji z CLI, podstawowy model interakcji pozostał ten sam – to się teraz zmienia.

Wchodzimy w erę, w której obserwujemy konwergencję sztucznej inteligencji (AI) i rozszerzanie inteligencji (IA) – dzięki którym mamy systemy, które wykorzystują „ inteligencję , aby lepiej zrozumieć nas (głos, obraz, tekst lub gest), nasze zamiary i są w stanie wykonywać zadania w sposób pół-autonomiczny, a czasem proaktywny.

https://www.jibo.com /

Aby dokładniej zilustrować ewolucję interakcji z komputerami, pożyczę wykres z Mark Billinghurst , badacz interfejsów komputerowych, który podkreśla nasz postęp w kierunku naturalnych interfejsów użytkownika w czasie.

Ten wykres n Wskazuje tylko na zmniejszające się tarcia między nami a komputerami (naturalne interfejsy użytkownika), ale także na to, jak nasze interakcje zmieniają się z jawnych na ukryte, tj. coraz więcej naszych systemów staje się antycypacyjnych.

Inne godne uwagi trendy obejmują rola i funkcja aplikacji; przejście od zajmowania się czystymi, dyskretnymi instrukcjami do tych, które zajmują się wysokim stopniem niejednoznaczności, tj. wczesne aplikacje były używane do obliczania trajektorii pocisków, podczas gdy nowoczesne aplikacje zajmują się rekomendowaniem piosenek, filmów, partnerów i organizowaniem spotkań.Ostatnim trendem, który chcę podkreślić, jest to, jak zmienia się forma komputera, od klawiatury i ekranu do wielu innych form, od przenośnych tabliczek, które nosimy w kieszeniach, po inteligentne głośniki, które stoją obok łóżka.

Celem powyższego nie jest dostarczenie wyczerpującej (lub dokładnej) lekcji historii informatyki, ale raczej podkreślenie, jak funkcja, forma i nasze relacje z komputerami ewoluowały w czasie i prawdopodobnie trajektoria – przejście od czystej funkcjonalne narzędzie do bliskiego towarzysza. Tak więc, jak GUI w dużej mierze zapożyczone ze świata fizycznego, aby interakcja z komputerami była bardziej znajoma i naturalna, tak samo będzie potrzeba rozpoznawania, reagowania i przedstawiania emocji, np. Frustrujące będzie rozmawianie z czymś uważanym za inteligentne, jeśli nie jest w stanie rozpoznać i reagować na nasz stan emocjonalny. Możliwość okazywania emocji zapewnia również inny sposób komunikowania aktualnego stanu systemu, aby pomóc użytkownikowi w zbudowaniu dokładniejszego i pomocnego modelu mentalnego systemu, z którym ma do czynienia, np. Przedstawianie zagubienia, może pomóc użytkownikowi zrozumieć, że system potrzebuje pomocy .

Krótko mówiąc; zamiast używać emocji wyłącznie do analizy i raportowania, inteligencja emocjonalna ma dużo sensu, gdy rozmawiasz z wirtualnym asystentem osobistym (VPA), cyfrowymi awatarami lub fizycznie ucieleśnionymi komputerami, takimi jak robot; zasadniczo za każdym razem, gdy masz do czynienia z komputerem, z którym można w naturalny sposób wchodzić w interakcje, który ma pewną autonomię, radzi sobie z niejednoznacznością i niepewnością, zna Ciebie i Twoje preferencje oraz wymaga pewnego poziomu zaufania. Brzmi znajomo? Te cechy były zwykle ograniczone do ludzi, ale teraz nasi towarzysze obliczeniowi również je nabyli.

Spójrzmy pokrótce na kilka przypadków użycia, w których inteligencja emocjonalna ma sens i jak można ją zastosować.

Jednym z przykładów, który dobrze ilustruje tę zmianę w obliczeniach, jest DragonBot ; projekt badawczy Social Robotics Group z MIT, badający inteligentne systemy nauczania. DragonBot wykorzystuje świadomość emocjonalną, aby dostosować się do ucznia, na przykład jedną z aplikacji jest gra czytająca, która dostosowuje słowa na podstawie rozpoznanej emocji, czyli system może dostosować trudność zadania (w tym przypadku słowa) na podstawie użytkowników zdolność determinowana rozpoznawaną emocją.

Agenci konwersacyjni (chatboty) są oczywistą okazją do wykorzystania rozpoznawania emocji. Obecnie chatboty wykonują tak zwane rozumienie języka naturalnego (NLU), aby określić odpowiedzi; ta odpowiedź jest zwykle zależna od danego kontekstu i wywnioskowanego intent ale nie potrwa długo (a niektóre już istnieją, na przykład Emotibot ), zanim standardowo będzie można używać rozpoznawanego emocje przy określaniu odpowiedzi dla użytkownika (dostosowując nie tylko język, ale także ton do odpowiedzi). Może to nie tylko zwiększyć efektywność komunikacji, ale także daje nam możliwość uniknięcia tworzenia niepożądanych zachowań w sposobie, w jaki komunikujemy się ze sobą. Często żartujemy w studiu o tym, jak asystenci głosowi, tacy jak Alexa, tworzą zachowania u dzieci, w których będą żądać rzeczy, zamiast prosić je „Alexa, powiedz mi, która godzina!”.

Jako interfejsy konwersacyjne stają się bardziej wszechobecne, stąd potrzeba opracowania skutecznych sposobów rozpoznawania emocji użytkowników i dostosowywania się do nich, szczególnie w dziedzinach związanych z pomocą medyczną ( Ada ) i psychiczną zdrowie ( woebot ).

Ogólnie rozpoznawanie emocji może służyć albo do automatycznego zwiększenia zaangażowanie lub automatycznie dostosowuje do swoich użytkowników; Disney Research dostarcza o wiele więcej przykładów tego, gdzie rozpoznanie emocjonalne będzie odgrywać rolę w dostosowywaniu treści; z ich eksploracji w interaktywnych programach telewizyjnych dla przedszkolaków , ich interaktywnym narzędziu do tworzenia narracji i wielu innych – Zachęcam do spędzenia czasu na odkrywaniu.

Jak wspomniano powyżej; Katalizator tej eksploracji wynikał z mojej początkowej ciekawości, aby wiedzieć, jak rozpoznać emocje, co samo w sobie zrodziło się z inicjatywy w metodzie o nazwie FINE.

FINE to ekosystem zaprojektowany w celu wspierania zdrowia psychicznego małych dzieci. Emocja jest bardzo istotna – zarówno w odniesieniu do wejścia, jak i wyjścia.Korzystając z aparatu i klawiatury, monitorujemy i wnioskujemy o stanie emocjonalnym użytkownika (-ów) i korzystając z tych danych, przedstawiamy następnie ogólny nastrój za pośrednictwem udostępnionego urządzenia. Zachęca to do komunikacji, a także oferuje empatycznego towarzysza za pośrednictwem wirtualnego awatara, który uczy empatii dzięki inteligencji pochodzącej z tłumu.

Zastosowanie rozpoznawania emocji jest bardzo specyficzne dla danej dziedziny, ale mam nadzieję, że powyżej przedstawiłem wystarczająco mocny argument dotyczący możliwości i prawdopodobieństwa jego przyjęcia w nadchodzących latach. Z drugiej strony rozpoznawanie jest uniwersalne i dlatego resztę tego postu spędzę pokrótce na przedstawieniu i podsumowaniu podejść, które przyjęliśmy, aby FINE wywnioskować emocje użytkownika, używając zarówno obrazu jego twarzy, jak i napisanego przez niego tekstu.

Rozpoznawanie emocji na podstawie naszej mimiki

Szybkie wyszukiwanie w Google informacji o tym, jaki procent komunikacji odbywa się za pomocą mowy ciała, szybko pokazuje, że większość komunikacji jest niewerbalna (mowa ciała stanowi 55\% całego przekazu ton stanowi 38\%, a słowa tylko 7\%). Nie powinno więc dziwić, że wiele można wywnioskować po prostu patrząc na swoją twarz – to jest przesłanka, abyśmy mogli wywnioskować czyjeś emocje, po prostu badając ich wyraz twarzy. Teraz zadanie polega na klasyfikowaniu mimiki twarzy w celu określenia emocji. Na szczęście zostało to dobrze zbadane i udostępnione dane.

Zbiór danych użyty do szkolenia naszego klasyfikatora pochodzi z konkurs Kaggle ; towarzyszący zestaw danych składa się z ponad 20 000 obrazów w skali szarości twarzy, które zostały ręcznie oznaczone jako wściekłe , wstręt , strach , szczęśliwy , smutny , niespodzianka lub neutralna . Jak w przypadku każdego projektu uczenia maszynowego (ML); naszym pierwszym zadaniem jest zbudowanie intuicji wokół danych i sformułowanie pewnych hipotez teoretycznych dotyczących tego, jak przeprowadzamy klasyfikację. Poniżej znajduje się kilka przykładów twarzy z naszego zbioru danych wraz z powiązanymi etykietami.

Zakładamy, że istnieje pewien wspólny wzorzec między wyrażeniem a emocją; jednym ze sposobów zbadania i potwierdzenia tego jest wizualizacja. Aby to zwizualizować, możemy wziąć przeciętną twarz dla każdej emocji; poniżej pokażemy, jak to wygląda dla emocji zły , szczęśliwy i zaskoczeni .

Wyraźnie widać, że każda z tych emocji ma inny wyraz; naszym następnym zadaniem jest nauczenie się tych wzorców. W tym eksperymencie użyliśmy Convolution Neural Network (lub ConvNet), aby nauczyć się tych wzorców (rezygnujemy ze szczegółów tutaj, ale udostępnimy Notatnik tym, którzy chcą wiedzieć szczegóły techniczne). Po 15 epokach szkolenia osiągnęliśmy dokładność walidacji blisko 60\% (niezła, biorąc pod uwagę poziom bazowy około 14\%); wyniki szkolenia pokazane poniżej.

Rozpoznawanie emocji z tekstu

Widzieliśmy wcześniej, że ten tekst (słowa, których używamy) stanowi tylko 7\% całej wiadomości; to oraz fakt, że języki dziedziczą niejednoznaczność, czyni je trudniejszym, ale wciąż cennym źródłem danych i czymś, co można łatwo monitorować biernie. W przypadku tego prototypu przeszkoliliśmy powtarzającą się sieć neuronową (ponownie pominiemy tutaj szczegóły, ale udostępnimy notatnik zainteresowanym szczegółami technicznymi) i przeniosła go (model) do CoreML , frameworka Apples ML. Towarzyszyła temu niestandardowa klawiatura iOS, która pasywnie monitorowała wpisywane przez użytkownika i używała tego modelu do określenia aktualnego stanu emocjonalnego użytkownika.

Dane tekstowe były trudniejsze do znalezienia; chociaż było kilka z wiarygodnych źródeł, żadne z nich nie zawierało znacznej liczby przykładów do trenowania głębokiej sieci neuronowej . Tutaj leży ważny punkt; oznakowane dane są przerażające, a ich pozyskanie może być kosztowne.Wypróbowano różne zestawy danych po ostatecznym ustaleniu ich ze zbiorem danych udostępnionym przez CrowdFlower , zbiór danych składający się z około 40 000 wierszy tweetów, które zostały oznaczone jedną z 13 emocji ( takie jak szczęście, smutek i złość). Jednym z problemów związanych ze zbiorem danych był brak równowagi w przykładach dla każdej emocji. Poniższy wykres przedstawia ten rozkład. Mimo to naszym celem była wykonalność i zastosowanie, a nie dokładność, więc kontynuowaliśmy z tym zbiorem danych.

Pomimo znacznego braku równowagi i wielu przykładów treningowych, po 12 epokach nadal byliśmy w stanie uzyskać dokładność walidacji na poziomie około 35\%.

Poniżej przedstawiono klasyfikację wykonywaną na urządzeniu (choć w tym przypadku symulator ).

Tutaj zbadaliśmy tylko oczywiste dostępne źródła rozpoznawania emocji; inne obejmują ton (ton głosu), zachowanie (lub oparte na modelu) i pozę, ale ważne jest, aby odrzucić tendencję do odchodzenia od interakcji jawnych do ukrytych oraz to, jak emocje będą cennym wkładem do określenia, w jaki sposób twój system angażuje się w użytkownika.

Od interakcji człowiek-komputer (HCI) do relacji człowiek-komputer (HCR)

Kończymy ten post ponownie podkreślając ewolucję HCI i wagę naszych relacji z komputerami staje się tak samo ważny jak sposób, w jaki z nimi współpracujemy.

Pierwotnie HCI skupiał się na koncepcji użyteczności. Tam, gdzie początkowa definicja użyteczności koncentrowała się wyłącznie na prostocie koncepcji, tj. „łatwa do nauczenia, łatwa w użyciu”, stale ewoluowała wraz z postępem technologicznym. Teraz obejmuje cechy zabawy, dobrego samopoczucia, zbiorowej skuteczności, napięcia estetycznego, zwiększonej kreatywności, płynności, wsparcia rozwoju człowieka i innych.

Wykroczył poza indywidualnego użytkownika siedzącego przy biurku i będzie nadal poruszać się, kierując się nowymi granicami możliwymi dzięki technologii. Ta zależność od technologii oznacza ciągłe badanie, rozwijanie i wykorzystywanie nowych obszarów możliwości ulepszania ludzkiej działalności i doświadczeń. Technologie te oferują teraz możliwość rozpoznania emocji użytkownika; co z tym zrobisz?

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *