Relația umană cu computerele

De Joshua Newnham, Lead Design Technologist – Method London

(9 ianuarie 2018)

În această postare discutăm evoluția relației pe care o avem cu tovarășii noștri de calcul și căutăm să înțelegem mai bine aplicarea tehnologiilor de detectare emoțională.

Având un interes în intersecția design și inteligență artificială vă expune la o mulțime de concepte și instrumente interesante care par atrăgătoare și relevante la prima vedere, dar abia când începeți să lucrați cu ei începeți să puneți întrebări mai profunde și mai semnificative despre aplicația și valoarea acestora pentru utilizatorul final. Acesta a fost cazul tehnologiilor de detectare emoțională, precum cele oferite de popularul furnizor de servicii de recunoaștere emoțională Affectiva , care oferă instrumente pentru recunoașterea emoției utilizatorului pe baza unei imagini de fața lor.

În calitate de tehnolog, sunteți mai întâi atras de cum și este doar după voi Deveniți confortabil cu detaliile complicate ale funcționării sale interioare pe care începeți să le puneți la îndoială de ce. Abia după ce am învățat și realizat sisteme care ar putea clasifica în mod satisfăcător emoția având în vedere un text sau o imagine a unei fețe, am început să mă întreb cum ar putea fi aplicate acestea. Abia recent am realizat semnificația și aplicabilitatea lor; această realizare este punctul de plecare al acestei postări.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Nevoia de obiectiv nou

Nicio introducere de tehnologie nouă nu este completă fără menționarea „trăsurii fără cal”; un termen folosit de Don Norman atunci când descrie adoptarea și evoluția designului pentru noile tehnologii. Evidențiază faptul că noi, proiectanții și tehnologii, proiectăm în mod normal modelele noastre mentale existente pe noile tehnologii și abia după multe iterații începem să creăm noi modele mentale care sunt mai aplicabile pentru tehnologie. O poveste evidentă care ilustrează acest lucru este modul în care emisiunile de televiziune au fost inițial concepute și difuzate; ignorând în cea mai mare parte elementul care îi făcea mai bogați decât radioul, care era capacitatea de a folosi adăugarea de imagini pentru a descrie o poveste. În schimb, emisiunile de televiziune s-au transformat în puțin mai mult decât o emisiune radio cu imagini ale prezentatorilor.

În ciuda conștientizării și interesului meu pentru Computing afectiv , a fost greu de imaginat utilizarea recunoașterii emoțiilor dincolo de analize și raportări. Desigur, din punct de vedere conceptual, aș vorbi adesea despre faptul că computerul este capabil să recunoască și să răspundă la emoția utilizatorului, dar nu am săpat mai adânc, deoarece nu am putut vedea cum aplicațiile noastre existente, cum ar fi Microsoft Word, ar putea face eficiente utilizarea acestuia – până de curând. Dar, pentru a înțelege și a aprecia mai bine semnificația acestei revelații, este important să facem un pas înapoi și să analizăm ce au fost calculatoarele, cum au evoluat și traiectoria lor probabilă (în ceea ce privește aplicația lor și modul în care interacționăm cu ele).

O scurtă istorie a computerului

Conceptul computerului a fost conceput în secolul al XIX-lea de un profesor de matematică engleză numit Charles Babbage ; acest concept a fost denumit în mod corespunzător Motor analitic , subliniind scopul său de a efectua și a produce calcule matematice. Acest concept a fost în cele din urmă realizat în jurul anului 1943 și a fost aplicat în domeniul calculelor traiectoriei în scopuri militare. Utilizatorii au avut tendința de a fi profesioniști foarte pregătiți, care ar interacționa cu computerul folosind punchcards care detaliază instrucțiuni explicite pe care computerul trebuie să le urmeze.

https://apple2history.org/history/ah16/

Apoi au venit calculatoarele industriale sub formă de mainframe; acestea, produse de către International Business Machines (IBM), semănau cu mult cu predecesorii lor și cereau din nou utilizatorilor foarte pregătiți să le folosească, însă înlocuindu-și punchcard-urile fizice cu o interfață digitală de linie de comandă (CLI) pentru trimiterea instrucțiunilor lor.În această eră; trebuie să se recunoască progresele în interacțiunea computer-om (HCI) către un grup mic de indivizi; indivizi, inclusiv de genul Steve Russell , care au văzut calculatoare dincolo de un calculator în serie și au imaginat (și au creat) programe interactive de calculator care permiteau prima eră a jocurilor pe computer, cum ar fi ca Spacewar! John McCarthy , considerat tatăl inteligenței artificiale (AI), a imaginat potențial pentru computerele care îndeplinesc sarcinile oamenilor și Doug Engelbart care, în mod paradoxal, au imaginat computere care ne-au mărit mai degrabă decât să ne înlocuiască și să fie pionier pentru o gamă largă de concepte de manipulare pe care le folosim și astăzi, inclusiv mouse-ul și interfața grafică de utilizator (GUI).

La sfârșitul anilor 70 am văzut creșterea computerelor personale (PC-uri); în ciuda numelui lor, erau departe de a fi personale, dar în cele din urmă au devenit accesibile și aplicabile unei populații suficient de mari pentru a fi considerate mainstream. Aplicația criminală la momentul respectiv era foaia de calcul, un calculator sofisticat pentru productivitatea biroului. Datorită disponibilității și adoptării lor, utilizabilitatea a devenit în scurt timp foarte importantă și emiterea de comenzi printr-un terminal a fost o barieră pentru majoritatea utilizatorilor.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Abia la începutul anilor 80, odată cu introducerea interfeței grafice, interacțiunea cu computerele a devenit (oarecum) democratizată. GUI a folosit multe metafore împrumutate din lumea reală, aceasta împreună cu manipularea directă și feedback-ul rapid au făcut computerele accesibile unui public dincolo de experții în informatică. În acest timp am văzut creșterea web și aplicații extinse și cazuri de utilizare a computerelor; trecând de la instrumente analitice pure la a fi utilizate pentru astfel de sarcini precum comunicarea, divertismentul și munca creativă. Această adopție a condus la accelerarea digitalizării lumii noastre fizice; informațiile, divertismentul și relațiile noastre au devenit octeți.

Următoarea etapă semnificativă care a influențat modul în care am folosit computerele a fost la mijlocul anilor 80, odată cu proliferarea internetului; e-mailul a transformat computerele în dispozitive de comunicații; oamenii nu interacționau, oamenii interacționau cu alte persoane prin intermediul computerelor – această paradigmă, comunicând și colaborând prin intermediul unui computer, este acum denumită calcul social.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Apoi a venit iPhone-ul (și apoi Android); computerele au devenit în cele din urmă cu adevărat personale, atingerea a redus în continuare fricțiunea de utilizare și adăugarea de senzori, conectivitate și creșterea în continuare a digitalizării le-a întărit relevanța și comoditatea pentru lumea reală și „oamenii reali”. Dar până de curând ei (computerele) ne cereau încă să îi instruim în mod explicit și să comunicăm prin interfețe statice. În ciuda faptului că a crescut nivelul de abstracție față de CLI, modelul de interacțiune de bază a rămas în continuare același – acest lucru se schimbă acum.

Intrăm acum într-o eră în care vedem convergența Inteligenței Artificiale (AI) și Intelligence Augmentation (IA) – prin care avem sisteme care folosesc „inteligența” pentru a ne înțelege mai bine (voce, picturale, textuale sau gestuale), intenția noastră și sunt capabili să îndeplinească sarcini semi-autonome și, uneori, proactiv.

https://www.jibo.com /

Pentru a ilustra în continuare evoluția modului în care interacționăm cu computerele, voi împrumuta un grafic de la Mark Billinghurst , cercetător în interfața computerului, care evidențiază progresul nostru către interfețe naturale de utilizator în timp.

Acest complot n nu scoate în evidență decât fricțiunea în scădere dintre noi și computere (interfețe naturale ale utilizatorilor), dar și modul în care interacțiunile noastre trec de la a fi explicite la implicite, adică tot mai multe dintre sistemele noastre devin anticipative.

Celelalte tendințe notabile includ rolul și funcția aplicațiilor; trecerea de la tratarea instrucțiunilor discrete și curate la cele care se ocupă de grade ridicate de ambiguitate, adică aplicațiile timpurii au fost utilizate pentru calcularea traiectoriei rachetelor, în timp ce aplicațiile moderne se referă la recomandarea de melodii, filme, parteneri și organizarea întâlnirilor.Tendința finală pe care vreau să o subliniez este modul în care se schimbă forma computerului, de la tastatură și ecran la multe alte forme, de la ardezii portabile pe care le purtăm în buzunare la difuzoare inteligente care stau lângă patul nostru.

Intenția celor de mai sus nu este de a oferi o lecție cuprinzătoare (sau exactă) de istorie în calcul, ci mai degrabă de a evidenția modul în care funcția, forma și relația noastră cu computerele au evoluat de-a lungul timpului și este probabil traiectoria sa – trecerea de la un nivel pur instrument funcțional pentru un partener apropiat. Deci, la fel cum GUI a împrumutat mult din lumea fizică pentru a face interacțiunea cu computerele mai familiară și naturală, la fel și nevoia de a recunoaște, de a reacționa și de a reprezenta emoția, adică ne va fi frustrant să vorbim cu ceva considerat inteligent dacă nu este capabil să recunoască și să răspundă la starea noastră emoțională. Abilitatea de a manifesta emoție oferă, de asemenea, un alt mijloc de comunicare a stării actuale a sistemului pentru a ajuta utilizatorul în construirea unui model mental mai precis și mai util al sistemului cu care interacționează, adică portretizarea confuziei ar putea ajuta utilizatorul să înțeleagă că sistemul are nevoie de asistență. .

Pe scurt; în loc ca emoția să fie utilizată exclusiv pentru analize și raportări, inteligența emoțională are mult sens atunci când vorbiți cu asistență personală virtuală (VPA), avatare digitale sau computere încorporate fizic, cum ar fi un robot; în esență, oricând aveți de-a face cu un computer cu care se poate interacționa în mod natural, are o anumită autonomie, se ocupă de ambiguitate și incertitudine, vă cunoaște pe dvs. și preferințele dvs. și necesită un nivel de încredere. Suna familiar? Aceste trăsături au fost de obicei limitate la oameni, dar acum tovarășii noștri de calcul au dobândit aceste trăsături.

Să analizăm pe scurt câteva cazuri de utilizare în care inteligența emoțională are sens și cum poate fi aplicată.

Un exemplu care ilustrează această schimbare în calcul este bine DragonBot ; un proiect de cercetare de la Social Robotics Group de la MIT care explorează sisteme inteligente de îndrumare. DragonBot folosește conștientizarea emoțională pentru a se adapta la elev, de exemplu, una dintre aplicații este un joc de lectură care adaptează cuvintele pe baza emoției recunoscute, adică sistemul poate regla dificultatea sarcinii (cuvintele în acest caz) pe baza utilizatorilor abilitate determinată de emoția recunoscută.

Agenții de conversație (chatbots) sunt o ocazie evidentă pentru utilizarea recunoașterii emoționale. În prezent, chatbot-urile efectuează ceea ce este cunoscut sub numele de Natural Language Understanding (NLU) pentru a determina răspunsurile; acest răspuns este de obicei dependent de un context context și dedus intent dar nu va dura mult (și unele există deja, cum ar fi Emotibot ) înainte ca acesta să devină standard pentru a utiliza și recunoscutul emotion la determinarea răspunsului la utilizator (adaptând nu numai limba, ci și tonul pentru a răspunde cu). Acest lucru nu numai că poate crește eficacitatea comunicării, ci ne oferă și posibilitatea de a evita crearea de comportamente nedorite în modul în care comunicăm unii cu alții. Glumim adesea în studio despre modul în care asistenții vocali, cum ar fi Alexa, creează comportamente la copii în care vor cere lucruri, mai degrabă decât să le ceară „Alexa Spune-mi ora!”.

Ca interfețe de conversație devin mai răspândite, așa că și nevoia de a dezvolta modalități eficiente de recunoaștere și adaptare la emoția utilizatorilor, în special în domeniile legate de asistența medicală ( Ada ) și mentală sănătate ( woebot ).

În general, recunoașterea emoțională poate fi utilizată fie pentru a crește în mod automat angajament sau adaptează automat la utilizatorii săi; Disney Research oferind multe alte exemple în care recunoașterea emoțională va juca un rol în adaptarea conținutului; din explorarea lor în programare interactivă de televiziune preșcolară , instrumentul lor de narare interactivă și multe altele – Vă încurajez să petreceți cândva explorând.

După cum sa menționat mai sus; catalizatorul acestei explorări a provenit din curiozitatea mea inițială de a vrea să știu cum să recunosc emoția, care, în sine, a rezultat dintr-o inițiativă aici la Metodă numită FINE.

FINE este un ecosistem conceput pentru a susține sănătatea mintală a copiilor mici. Emoția se află în centrul ei – atât pentru intrare, cât și pentru ieșire.Deși camera și tastatura, monitorizăm și deducem starea emoțională a utilizatorului (utilizatorilor) și folosind aceste date prezentăm starea de spirit agregată printr-un dispozitiv partajat. Acest lucru încurajează comunicarea, precum și oferirea unui însoțitor empatic printr-un avatar virtual, predat empatia prin inteligență provenită de la mulțime.

Aplicarea recunoașterii emoțiilor este foarte specifică domeniului, dar sper că am prezentat un argument suficient de puternic mai sus pentru oportunitatea și probabilitatea adoptării sale în următorii ani. Recunoașterea, pe de altă parte, este universală și, prin urmare, voi petrece restul acestei postări pe scurt introducând și rezumând abordările pe care le-am luat pentru FINE pentru a deduce emoția utilizatorului, folosind atât o imagine a feței lor, cât și textul pe care l-au scris.

Recunoașterea emoțiilor din expresiile noastre faciale

O căutare rapidă pe Google despre ce procent de comunicare vine prin limbajul corpului evidențiază rapid că cea mai mare parte a comunicării este nonverbală (limbajul corpului reprezintă 55\% din mesajul general) , tonul reprezintă 38\%, iar cuvintele reprezintă doar 7\%). Așadar, nu ar trebui să ne surprindă faptul că multe pot fi deduse pur și simplu uitându-ne la fața lor – aceasta este premisa pentru a fi capabili să deducem emoția cuiva doar prin examinarea expresiei lor faciale. Așadar, sarcina vine acum de a clasifica expresiile faciale pentru a determina emoția și, din fericire, acest lucru a fost bine studiat și datele sunt puse la dispoziție.

Setul de date utilizat în instruirea clasificatorului nostru provine dintr-un concurs Kaggle ; setul de date însoțitor constă din peste 20.000 de imagini în tonuri de gri ale fețelor care au fost etichetate manual ca fiind furios , dezgust , frică , fericit , trist , surpriză , sau neutru . Ca și în cazul oricărui proiect de Machine Learning (ML); prima noastră sarcină este să construim intuiția în jurul datelor și să venim cu câteva ipoteze teoretice despre modul în care mergem cu privire la efectuarea clasificării. Mai jos sunt câteva exemple ale fețelor din setul nostru de date împreună cu etichetele asociate acestora.

Presupunerea noastră este că există un tipar comun între expresie și emoție; o modalitate de a explora și valida acest lucru este prin vizualizare. Pentru a-l vizualiza, putem lua fața medie pentru fiecare emoție; mai jos arătăm cum arată acest lucru pentru emoțiile furios , fericit și surprins .

Putem vedea clar că există expresii distincte pentru fiecare dintre aceste emoții; următoarea noastră sarcină este să învățăm aceste tipare. Pentru acest experiment, am folosit o rețea neuronală de convoluție (sau ConvNet) pentru a învăța aceste tipare (renunțăm la detalii aici, dar vom împărtăși blocnotesul pentru cei interesați să știe detaliile tehnice). După 15 epoci de antrenament am obținut o precizie de validare de aproape 60\% (nu este rău, având în vedere că linia de bază ar fi în jur de 14\%); rezultatele instruirii prezentate mai jos.

Recunoașterea emoției din text

Am văzut înainte textul respectiv (cuvintele pe care le folosim) reprezintă doar 7\% din mesajul general; acest lucru și faptul că limbile moștenesc ambiguitatea îl fac mai dificil, dar totuși o sursă valoroasă de date și ceva care poate ușor să fie monitorizat pasiv. Pentru acest prototip am pregătit o rețea neuronală recurentă (încă o dată, vom sări peste detaliile de aici, dar vom împărtăși blocnotesul pentru cei interesați de detaliile tehnice) și l-a portat (modelul) la CoreML , cadrul Apples ML. A însoțit o tastatură iOS personalizată care a monitorizat pasiv ceea ce a tastat utilizatorul și a folosit acest model pentru a determina starea emoțională actuală a utilizatorului.

Datele pentru text erau mai greu de întâlnit; deși erau câteva din surse credibile, niciuna nu conținea o cantitate substanțială de exemple pentru a forma o rețea neuronală profundă . Aici se află un punct important; datele etichetate sunt înfricoșătoare și achiziționarea acestora poate fi costisitoare.Au fost încercate diverse seturi de date după ce s-a stabilit definitiv cu un set de date pus la dispoziție de CrowdFlower , un set de date format din aproximativ 40.000 de rânduri de tweets care au fost etichetate cu una din cele 13 emoții ( cum ar fi fericirea, tristețea și furia). O problemă cu setul de date a fost dezechilibrul în exemple pentru fiecare emoție. Complotul de mai jos arată această distribuție. În ciuda acestui fapt, obiectivul nostru era mai degrabă fezabilitatea și aplicația decât precizia, așa că am continuat cu acest set de date.

În ciuda dezechilibrului semnificativ și a numărului de exemple de instruire, am reușit să obținem o precizie de validare de aproximativ 35\% după 12 epoci.

Mai jos arată clasificarea efectuată pe dispozitiv (deși simulatorul în acest caz ).

Aici am explorat doar sursele evidente disponibile pentru recunoașterea emoției; altele includ tonul (tonul vocii), comportamental (sau bazat pe model) și poză, dar cel mai important lucru care trebuie eliminat este tendința de la interacțiunile explicite la implicite și modul în care emoția va fi o intrare valoroasă pentru a determina modul în care sistemul dvs. se implică în utilizator.

De la interacțiunea computerului uman (HCI) la relațiile computerului uman (HCR)

Încheiem această postare, din nou, subliniind evoluția HCI și modul în care importanța relației noastre computerele devin la fel de importante ca și modul în care interacționăm cu ele.

Obiectivul inițial al HCI era în jurul conceptului de utilizabilitate. În cazul în care definiția inițială a utilizabilității a fost concentrată exclusiv în jurul conceptului de simplitate, adică „ușor de învățat, ușor de utilizat”, a evoluat continuu alături de progresele tehnologice. Acum subsumează calitățile de distracție, bunăstare, eficacitate colectivă, tensiune estetică, creativitate sporită, flux, sprijin pentru dezvoltarea umană și altele. va continua să se miște condus de noile frontiere făcute posibile de tehnologie. Această dependență de tehnologie înseamnă a investiga, dezvolta și valorifica continuu noi domenii de posibilități pentru îmbunătățirea activității și experienței umane. Aceste tehnologii oferă acum oportunitatea de a recunoaște emoția utilizatorului; ce vei face cu asta?

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *