Humanitys Evolution Relationship with Computers

Autor: Joshua Newnham, hlavní design Technolog – Method London

(9. ledna 2018)

V tomto příspěvku pojednáváme o vývoji vztahu, který máme s našimi výpočetními společníky, a snažíme se lépe porozumět aplikaci technologií emocionálního snímání.

Zájem o průnik designu a umělé inteligence vás vystavuje mnoha zajímavým konceptům a nástrojům, které se na první pohled zdají přitažlivé a relevantní, ale až když s nimi začnete pracovat, začnete klást hlubší a smysluplnější otázky jejich aplikace a hodnota pro koncového uživatele. To byl případ technologií emocionálního snímání, jako jsou ty, které nabízí populární poskytovatel služeb rozpoznávání emocí Affectiva , který nabízí nástroje pro rozpoznávání emocí uživatele na základě obrazu jejich tvář.

Jako technologa vás nejprve přitahuje jak a je to až po vás udělejte si pohodlí se složitými podrobnostmi vnitřního fungování, které začnete zpochybňovat proč. Teprve poté, co jsem se naučil a vytvořil systémy, které by mohly uspokojivě klasifikovat emoce vzhledem k nějakému textu nebo obrazu tváře, jsem začal pochybovat o tom, jak je lze použít. Teprve nedávno jsem si uvědomil jejich význam a použitelnost; tato realizace je výchozím bodem tohoto příspěvku.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Potřeba nového objektivu

Žádné uvedení nové technologie není úplné bez zmínky o „kočáru bez koní“; termín používaný Donem Normanem při popisu přijetí a vývoje designu pro nové technologie. Zdůrazňuje, že my, designéři a technologové, běžně promítáme naše stávající mentální modely na nové technologie a teprve po mnoha iteracích začneme vytvářet nové mentální modely, které jsou pro tuto technologii vhodnější. Zjevný příběh, který toto ilustruje, je způsob, jakým byly původně navrženy a vysílány televizní pořady; většinou bez ohledu na prvek, který je učinil bohatšími než rádio, což byla schopnost použít přidání obrázků k vykreslení příběhu. Místo toho se televizní pořady vrátily k něčemu víc než k rozhlasové show s obrázky moderátorů.

Navzdory mému povědomí a zájmu o Affective Computing to bylo těžké si představit použití rozpoznávání emocí nad rámec analytiky a hlášení. Koncepčně jsem samozřejmě mluvil o tom, že počítač dokáže rozpoznat emoce uživatele a reagovat na ně, ale nekopal jsem mnohem hlouběji, protože jsem neviděl, jak mohou naše stávající aplikace, jako je Microsoft Word, zefektivnit jeho používání – donedávna. Abychom však lépe pochopili a ocenili význam tohoto odhalení, je důležité udělat krok zpět a zkontrolovat, jaké počítače byly, jak se vyvíjely a jejich pravděpodobná trajektorie (s ohledem na jejich aplikaci a způsob, jakým s nimi komunikujeme).

Stručná historie počítače

Koncept počítače vymyslel v 19. století anglický profesor matematiky s názvem Charles Babbage ; tento koncept byl vhodně pojmenován Analytical Engine , což zdůraznilo jeho účel provádění a výstupu matematických výpočtů. Tento koncept byl nakonec realizován kolem roku 1943 a našel uplatnění v oblasti výpočtů trajektorií pro vojenské účely. Uživatelé měli tendenci být vysoce vyškolenými profesionály, kteří by mohli komunikovat s počítačem pomocí děrných štítků s podrobnými pokyny, podle kterých má počítač postupovat.

https://apple2history.org/history/ah16/

Další přišly průmyslové počítače v podobě sálových počítačů; tyto, vyráběné podobnými společnostmi jako International Business Machines (IBM), se podobaly hodně jejich předchůdcům a znovu vyžadovaly, aby je používali vysoce vyškolení uživatelé, ale jejich fyzické děrovací karty nahradili digitálním rozhraním příkazového řádku (CLI) pro předkládání jejich pokynů.Během této éry; musí být uznáno pokroky v interakci s počítačem u malé skupiny jednotlivců; jednotlivci včetně lidí jako Steve Russell , kteří viděli počítače nad rámec dávkové kalkulačky a představovali (a vytvářeli) interaktivní počítačové programy, které umožňovaly první éru počítačových her, jako je jako Spacewar! John McCarthy , považovaný za otce umělé inteligence (AI), si představoval potenciál pro počítače plnící úkoly lidí a Doug Engelbart , který paradoxně představoval počítače, které nás spíše rozšiřovaly, než aby nás nahradily a byly průkopníkem velké řady přímých koncepty manipulace, které dodnes používáme, včetně myši a grafického uživatelského rozhraní (GUI).

Na konci 70. let jsme zaznamenali vzestup osobních počítačů (PC); navzdory svému jménu nebyli zdaleka osobní, ale nakonec se stali dostupnými a použitelnými pro dostatečně velkou populaci, aby byli považováni za hlavní proud. Zabijáckou aplikací v té době byla tabulka, sofistikovaná kalkulačka pro produktivitu kanceláře. Z důvodu jejich dostupnosti a přijetí se brzy stala velmi důležitá použitelnost a vydávání příkazů prostřednictvím terminálu bylo překážkou pro většinu uživatelů.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Teprve na počátku 80. let se zavedením grafického uživatelského rozhraní došlo (poněkud) k demokratizaci interakce s počítači. GUI používalo mnoho metafor vypůjčených ze skutečného světa, což spolu s přímou manipulací a rychlou zpětnou vazbou umožnilo přístup počítačů k publiku mimo počítačové odborníky. Během této doby jsme zaznamenali vzestup webu a rozšířené případy použití a použití počítačů; od čistých analytických nástrojů k použití pro takové úkoly, jako je komunikace, zábava a kreativní práce. Toto přijetí vedlo k urychlení digitalizace našeho fyzického světa; informace, zábava a naše vztahy se staly bajty.

Dalším významným milníkem, který ovlivnil způsob, jakým jsme používali počítače, bylo kolem poloviny 80. let s rozšířením internetu; e-mail přeměnil počítače na komunikační zařízení; lidé neinteragovali, lidé interagovali s jinými lidmi prostřednictvím počítačů – toto paradigma, komunikující a spolupracující prostřednictvím počítače, se nyní označuje jako sociální výpočetní technika.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Poté přišel iPhone (a poté Android); počítače se nakonec staly skutečně osobními, dotyk dále snižoval tření při používání a přidání senzorů, konektivity a další nárůst digitalizace posílily jejich význam a pohodlí pro skutečný svět a „skutečné lidi“. Až donedávna však od nás (počítače) vyžadovali, abychom je výslovně poučovali a komunikovali prostřednictvím statických rozhraní. Navzdory zvýšení úrovně abstrakce z CLI zůstal základní model interakce stejný – nyní se to mění.

Nyní vstupujeme do éry, kdy vidíme konvergenci umělé inteligence (AI) and Intelligence Augmentation (IA) – přičemž máme systémy, které používají „inteligenci“, aby nám lépe porozuměly (hlasové, obrazové, textové nebo gestické), náš záměr a jsou schopny plnit úkoly poloautonomně a někdy i proaktivně.

https://www.jibo.com /

Abych dále ilustroval vývoj způsobu, jakým komunikujeme s počítači, půjčím si spiknutí od Mark Billinghurst , výzkumník počítačového rozhraní, který v průběhu času zdůrazňuje náš postup směrem k přirozeným uživatelským rozhraním.

Tento graf č ot zdůrazňuje pouze zmenšující se tření mezi námi a počítači (přirozená uživatelská rozhraní), ale také to, jak se naše interakce přesouvají z explicitní na implicitní, tj. stále více našich systémů se stává předjímajících.

Mezi další významné trendy patří role a funkce aplikací; přechod od řešení čistých diskrétních pokynů k těm, které se zabývají vysokou mírou nejednoznačnosti, tj. rané aplikace byly použity pro výpočet trajektorií raket, zatímco moderní aplikace se zabývají doporučováním skladeb, filmů, partnerů a organizováním vašich setkání.Posledním trendem, který chci zdůraznit, je změna formy počítače, od klávesnice a obrazovky po mnoho dalších forem, od přenosných břidlic, které nosíme v kapsách, až po inteligentní reproduktory, které sedí vedle naší postele.

Záměrem výše uvedeného není poskytnout komplexní (nebo přesnou) lekci historie v oblasti výpočetní techniky, ale spíše zdůraznit, jak se funkce, forma a náš vztah s počítači v průběhu času vyvíjely a je pravděpodobné, že se budou vyvíjet – od čistého přechodu funkční nástroj blízkému společníkovi. Stejně jako si GUI těžce vypůjčené z fyzického světa dělá interakci s počítači známější a přirozenější, stejně tak bude potřeba rozpoznávat, reagovat a zobrazovat emoce, tj. Bude pro nás frustrující mluvit s něčím považovaným za inteligentní, pokud nebude schopen rozpoznat a reagovat na náš emoční stav. Schopnost projevovat emoce také poskytuje další způsob komunikace o aktuálním stavu systému, který uživateli pomůže při budování přesnějšího a užitečnějšího mentálního modelu systému, se kterým interaguje, tj. Vykreslení zmatku, může uživateli pomoci pochopit, že systém potřebuje pomoc .

Stručně řečeno; namísto toho, aby se emoce používaly čistě pro analytiku a vytváření zpráv, má emoční inteligence velký smysl, když mluvíte s virtuální osobní asistencí (VPA), digitálními avatary nebo fyzicky ztělesněnými počítači, jako je robot; v podstatě kdykoli máte co do činění s počítačem, se kterým lze přirozeně komunikovat, má určitou autonomii, vypořádává se s nejednoznačností a nejistotou, zná vás a vaše preference a vyžaduje určitou úroveň důvěry. Zní povědomě? Tyto vlastnosti byly obvykle omezeny na lidi, ale nyní tyto vlastnosti získali i naši výpočetní společníci.

Podívejme se krátce na několik případů použití, kde má emoční inteligence smysl a jak ji lze použít.

Jedním příkladem, který ilustruje tento posun ve výpočetní technice, je DragonBot ; výzkumný projekt Social Robotics Group na MIT zkoumající inteligentní doučovací systémy. DragonBot využívá emoční vědomí k přizpůsobení se studentovi, například jednou z aplikací je hra na čtení, která přizpůsobuje slova na základě rozpoznané emoce, tj. Systém dokáže upravit obtížnost úkolu (slova v tomto případě) na základě uživatelů schopnost určená rozpoznanou emocí.

Konverzační agenti (chatboti) jsou zřejmou příležitostí pro použití emočního rozpoznávání. V současné době chatboti provádějí to, co je známé jako Natural Language Understanding (NLU), aby určili odpovědi; tato odpověď obvykle závisí na daném kontextu a odvozeném záměr ale nebude to trvat dlouho (a některé již existují, například Emotibot ), než se stane standardem také použít rozpoznaný emoce při určování odpovědi uživateli (přizpůsobení nejen jazyka, ale také tónu, s nímž bude reagovat). To může nejen zvýšit účinnost komunikace, ale také nám dává příležitost vyhnout se vytváření nežádoucího chování při vzájemné komunikaci. Ve studiu často vtipkujeme o tom, jak hlasoví asistenti, jako je Alexa, vytvářejí u dětí chování, kde budou věci vyžadovat, než aby je žádali „Alexa, řekni mi čas!“.

Jako konverzační rozhraní stávají se všudypřítomnějšími, stejně tak bude potřeba vyvinout účinné způsoby rozpoznávání a přizpůsobování emocí uživatelů, zejména v oblastech kolem lékařské pomoci ( Ada ) a duševních zdraví ( woebot ).

Emocionální rozpoznávání lze obecně použít k automatickému zvýšení zapojení nebo se automaticky přizpůsobí svým uživatelům; Disney Research poskytující mnoho dalších příkladů toho, kde při přizpůsobení obsahu bude hrát roli emoční rozpoznávání; z jejich průzkumu v interaktivních předškolních televizních programech , jejich interaktivního nástroje pro vytváření příběhů a mnoha dalších – Doporučuji vám strávit nějaký čas zkoumáním.

Jak bylo uvedeno výše; katalyzátor tohoto průzkumu pramenil z mé počáteční zvědavosti chtít vědět, jak rozpoznat emoce, která sama pramenila z iniciativy zde Metoda zvané FINE.

FINE je ekosystém navržený na podporu duševního zdraví malých dětí. Emoce je jádrem toho – jak pro vstup, tak pro výstup.I když fotoaparát a klávesnice monitorujeme a odvodíme emocionální stav uživatele (uživatelů) a pomocí těchto údajů pak prezentujeme agregovanou náladu prostřednictvím sdíleného zařízení. To podporuje komunikaci a také nabízí empatického společníka prostřednictvím virtuálního avatara, který učí empatii prostřednictvím inteligence z davu.

Aplikace rozpoznávání emocí je velmi specifická pro danou doménu, ale doufám, že jsem pro její příležitost a pravděpodobnost přijetí v nadcházejících letech předložil dostatečně silný argument. Uznání na druhé straně je univerzální, a proto zbytek tohoto příspěvku stručně představím a shrnu přístupy, které jsme pro FINE využili k odvození emocí uživatele, a to pomocí obrazu jejich tváře i textu, který napsali.

Rozpoznávání emocí z našich výrazů obličeje

Rychlé vyhledávání na Googlu o tom, jaké procento komunikace probíhá prostřednictvím řeči těla, rychle zdůrazňuje, že většina komunikace je neverbální (řeč těla představuje 55\% celkové zprávy , tón tvoří 38\% a slova tvoří pouze 7\%). Nemělo by tedy být překvapením, že mnoho lze odvodit pouhým pohledem na jejich tvář – to je předpoklad, abychom byli schopni odvodit něčí emoce pouhým zkoumáním jejich výrazu obličeje. Úkolem tedy nyní je klasifikace výrazů obličeje k určení emocí a naštěstí to bylo dobře prostudováno a data k dispozici.

Soubor dat použitý při tréninku našeho klasifikátoru pochází z Soutěž Kaggle ; doprovodná datová sada se skládá z více než 20 000 obrázků obličejů ve stupních šedi, které byly ručně označeny jako naštvané , znechucení , strach , šťastný , smutný , překvapení nebo neutrální . Jako u každého projektu Machine Learning (ML); naším prvním úkolem je vybudovat intuici kolem dat a přijít s některými teoretickými hypotézami, jak postupujeme při provádění klasifikace. Níže uvádíme několik příkladů tváří z naší datové sady spolu s přidruženými štítky.

Náš předpoklad je, že mezi výrazem a emocemi existuje nějaký společný vzor; jedním ze způsobů, jak to prozkoumat a ověřit, je vizualizace. Abychom si to vizualizovali, můžeme pro každou emoci vzít průměrnou tvář; níže ukážeme, jak to vypadá na emoce naštvané , šťastné a překvapeni .

Jasně vidíme, že pro každou z těchto emocí existují výrazné výrazy; naším dalším úkolem je naučit se tyto vzorce. V tomto experimentu jsme k naučení těchto vzorů použili konvoluční neuronovou síť (neboli ConvNet) (zde se vzdáváme podrobností, ale budeme sdílet Notebook pro ty, kteří mají zájem vědět technické podrobnosti). Po 15 epochách tréninku jsme dosáhli přesnosti validace blízko 60\% (není to špatné vzhledem k tomu, že základní linie by byla kolem 14\%); výsledky školení uvedené níže.

Rozpoznávání emocí z textu

Před tím jsme viděli, že text (slova, která používáme) tvoří pouze 7\% celkové zprávy; toto a skutečnost, že jazyky dědí nejednoznačnost, ztěžuje, ale stále je cenným zdrojem dat a něčím, co lze snadno pasivně sledovat. Pro tento prototyp jsme proškolili Rekurentní neuronovou síť (zde opět přeskočíme podrobnosti, ale budeme sdílet Notebook pro ty, kteří se zajímají o technické podrobnosti) a přenesl (model) do CoreML , rámce Apples ML. Doprovázela to vlastní klávesnice iOS, která pasivně sledovala, co uživatel zadal, a pomocí tohoto modelu určila aktuální emoční stav uživatele.

Data pro text bylo obtížnější narazit; i když jich bylo několik z důvěryhodných zdrojů, žádný neobsahoval značné množství příkladů pro trénování Deep Neural Network . Zde leží důležitý bod; označená data se děsí a jejich získání může být nákladné.Různé sady dat byly vyzkoušeny poté, co se konečně usadily s datovou sadou zpřístupněnou CrowdFlower , datovou sadou skládající se z přibližně 40 000 řádků tweetů, které byly označeny jednou z 13 emocí ( štěstí, smutek a hněv). Jedním z problémů s datovou sadou byla nevyváženost v příkladech pro každou emoci. Graf níže ukazuje toto rozdělení. Navzdory tomu byl náš cíl spíše v proveditelnosti a aplikaci než v přesnosti, takže jsme s touto datovou sadou pokračovali.

I přes značnou nevyváženost a množství příkladů školení jsme i po 12 epochách dokázali získat přesnost ověření kolem 35\%.

Níže je uvedena klasifikace prováděná na zařízení (i když v tomto případě simulátor) ).

Zde jsme prozkoumali pouze zjevné dostupné zdroje pro rozpoznávání emocí; jiní zahrnují tón (tón hlasu), chování (nebo na základě modelu) a pózu, ale důležité je odnést trend od explicitních k implicitním interakcím a to, jak budou emoce cenným vstupem k určení toho, jak se váš systém zapojuje do uživatel.

Od interakce člověka s počítačem (HCI) po vztahy člověka s počítačem (HCR)

Tento příspěvek uzavíráme tím, že opět zdůrazňujeme vývoj HCI a důležitost našeho vztahu s počítači se stává stejně důležitým, jako to, jak s nimi komunikujeme.

Původní zaměření HCI bylo kolem konceptu použitelnosti. Pokud se původní definice použitelnosti zaměřovala pouze na jednoduchost konceptu, tj. „snadno se učí, snadno se používá“, neustále se vyvíjí spolu s technologickým pokrokem. Nyní zahrnuje vlastnosti zábavy, pohody, kolektivní účinnosti, estetického napětí, zvýšené kreativity, plynulosti, podpory lidského rozvoje a dalších.

Posunula se za hranice jednotlivých uživatelů, kteří sedí za jejich pracovními plochami, a bude pokračovat v pohybu poháněném novými hranicemi umožněnými technologií. Tato závislost na technologii znamená neustále zkoumat, rozvíjet a využívat nové oblasti možností pro posílení lidské činnosti a zkušeností. Tyto technologie nyní nabízejí příležitost rozpoznat emoce uživatele; co s tím uděláte?

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *