Humanitys Evolving Relationship with Computers (Svenska)

Publicerad

Av Joshua Newnham, Lead Design Technologist – Method London

(9 jan 2018)

I det här inlägget diskuterar vi utvecklingen av förhållandet vi har med våra kompanjoner och ser för att bättre förstå tillämpningen av emotionell avkänningsteknik.

Att ha intresse av korsningen mellan design och artificiell intelligens utsätter dig för många intressanta koncept och verktyg som verkar tilltalande och relevanta vid första anblicken, men det är först när du börjar arbeta med dem du börjar ställa djupare och mer meningsfulla frågor om deras applikation och värde för slutanvändaren. Detta var fallet med teknologier för emotionell avkänning, som de som erbjuds av den populära tjänsteleverantören för emotionell igenkänning Affectiva , som erbjuder verktyg för att känna igen användarens känslor baserat på en bild av deras ansikte.

Som tekniker lockas du först av hur och det är först efter dig bli bekväm med de invecklade detaljerna i det inre arbetet som du börjar ifrågasätta varför. Det var först efter att jag hade lärt mig och skapat system som tillfredsställande kunde klassificera känslor med en viss text eller en bild av ett ansikte, som jag började ifrågasätta hur dessa kunde tillämpas. Det är först nyligen som jag har insett deras betydelse och tillämplighet; denna insikt är utgångspunkten för detta inlägg.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Behovet av nytt objektiv

Ingen introduktion av ny teknik är komplett utan att nämna den ”hästlösa vagnen”; en term som används av Don Norman när han beskriver antagandet och utvecklingen av design för ny teknik. Det framhäver att vi, designers och teknologer, normalt projicerar våra befintliga mentala modeller på ny teknik och det är först efter många iterationer som vi börjar skapa nya mentala modeller som är mer användbara för tekniken. En uppenbar historia som illustrerar detta är hur tv-program ursprungligen designades och sändes; bortser mest från elementet som gjorde dem rikare än radion, vilket var förmågan att använda tillägget av bilder för att skildra en historia. Istället återvände tv-program till lite mer än en radioprogram med bilder av presentatörerna.

Trots min medvetenhet och intresse för Affective Computing är det var svårt att föreställa sig användningen av känslomedkännande utöver analys och rapportering. Naturligtvis talade jag begreppsmässigt ofta om att datorn kunde känna igen och svara på användarens känslor men inte grävde mycket djupare eftersom jag inte kunde se hur våra befintliga applikationer, till exempel Microsoft Word, kunde bli effektiva användning av det – tills nyligen. Men för att bättre förstå och förstå betydelsen av denna uppenbarelse är det viktigt att ta ett steg tillbaka och granska vad datorer var, hur de har utvecklats och deras troliga bana (med avseende på deras tillämpning och hur vi interagerar med dem). p>

En kort historik för datorn

Datorkonceptet utformades på 1800-talet av en engelsk matematikprofessor som heter Charles Babbage ; detta koncept fick lämpligt namnet Analytical Engine , vilket framhöll dess syfte att utföra och matematiska beräkningar. Detta koncept realiserades äntligen omkring 1943 och fann tillämpning inom området för beräkningar av banor för militära ändamål. Användare tenderade att vara välutbildade yrkesverksamma som skulle interagera med datorn med hjälp av stanskort med detaljerade instruktioner för att datorn ska följa.

https://apple2history.org/history/ah16/

Därefter kom industriella datorer i form av stordatorer; dessa, producerade av sådana som International Business Machines (IBM), liknade mycket av sina föregångare och krävde återigen högutbildade användare att använda dem men ersatte deras fysiska stanskort med ett digitalt Command Line Interface (CLI) för att skicka in sina instruktioner.Under denna tid; erkännande måste göras till framsteg inom Human Computer Interaction (HCI) till en liten grupp individer; individer inklusive sådana som Steve Russell som såg datorer bortom bara en batch-kalkylator och förutsåg (och skapade) interaktiva datorprogram som möjliggjorde den första eran av datorspel som som Spacewar! John McCarthy , ansåg fadern till artificiell intelligens (AI), föreställde sig potential för datorer som utför människors uppgifter och Doug Engelbart som paradoxalt nog föreställde sig datorer som förstärkte oss istället för att ersätta oss och en pionjär för ett stort antal direkta manipulationskoncept som vi fortfarande använder idag inklusive musen och grafiskt användargränssnitt (GUI).

I slutet av 70-talet såg vi uppkomsten av PC: er; trots sitt namn var de långt ifrån personliga men blev äntligen överkomliga och tillämpliga på en tillräckligt stor befolkning för att betraktas som vanliga. Dödsapplikationen vid den tiden var kalkylbladet, en sofistikerad kalkylator för kontorsproduktivitet. På grund av deras tillgänglighet och antagande blev användbarheten snart mycket viktigt och kommandon via en terminal var en barriär för de flesta användare.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Det var inte förrän i början av 80-talet, med introduktionen av GUI, att interaktion med datorer blev (något) demokratiserad. GUI använde många metaforer lånade från den verkliga världen, detta tillsammans med direkt manipulation och snabb återkoppling gjorde datorer tillgängliga för en publik bortom datorexperter. Under den här tiden såg vi uppkomsten av webben och utökade applikations- och användningsfall för datorer; gå från rena analytiska verktyg till att användas för sådana uppgifter som kommunikation, underhållning och kreativt arbete. Detta antagande leder till en snabbare digitalisering av vår fysiska värld; information, underhållning och våra relationer blev byte.

Nästa viktiga milstolpe som påverkade hur vi använde datorer var runt mitten av 80-talet med spridningen av internet; e-post förvandlade datorer till kommunikationsenheter; människor interagerade inte, människor interagerade med andra människor via datorer – detta paradigm, kommunicerar och samarbetar via en dator, kallas nu social computing.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Sedan kom iPhone (och sedan Android); datorer blev äntligen riktigt personliga, beröring minskade ytterligare friktionen i användningen och tillägget av sensorer, anslutningsmöjligheter och ytterligare ökad digitalisering stärkte deras relevans och bekvämlighet för den verkliga världen och ”riktiga människor”. Men fram till nyligen krävde de (datorer) oss fortfarande att uttryckligen instruera dem och kommunicerade via statiska gränssnitt. Trots att man ökat abstraktionsnivån från CLI, förblev kärninteraktionsmodellen fortfarande densamma – detta förändras nu.

Vi går nu in i en era där vi ser konvergensen av artificiell intelligens (AI) och Intelligence Augmentation (IA) – där vi har system som använder intelligens för att bättre förstå oss (röst, bild, text eller gest), vår avsikt och kan utföra uppgifter semi-autonomt och ibland proaktivt. p>

https://www.jibo.com /

För att ytterligare illustrera utvecklingen av hur vi interagerar med datorer kommer jag att låna en plot från Mark Billinghurst , forskare på datorgränssnitt, som lyfter fram vår utveckling mot naturliga användargränssnitt över tid.

Denna plot n det lyfter bara fram den minskande friktionen mellan oss och datorer (naturliga användargränssnitt) men också hur våra interaktioner övergår från att vara explicita till implicita, dvs. fler och fler av våra system blir förväntade.

De andra anmärkningsvärda trenderna inkluderar applikationernas roll och funktion; skiftande från att hantera rena diskreta instruktioner till de som hanterar höga grad av tvetydighet, dvs. tidiga applikationer användes för att beräkna missilbanor medan moderna applikationer handlar om att rekommendera låtar, filmer, partners och organisera dina möten.Den sista trenden jag vill lyfta fram är hur datorns form förändras, från tangentbord och skärm till många andra former, från bärbara skiffer som vi bär i fickorna till intelligenta högtalare som sitter bredvid vår säng.

Avsikten med ovanstående är inte att ge en omfattande (eller exakt) historielektion i databehandling utan snarare lyfta fram hur funktionen, formen och vårt förhållande till datorer har utvecklats över tiden och det är troligt att det går – flyttar från en ren funktionellt verktyg för en nära följeslagare. Precis som GUI lånade tungt från den fysiska världen för att göra interaktionen med datorer mer bekant och naturligt, så kommer också behovet av att känna igen, reagera och skildra känslor, dvs vi kommer att finna det frustrerande att prata med något som anses vara intelligent om det inte kan känna igen och svara på vårt emotionella tillstånd. Att kunna visa känslor ger också ett annat sätt att kommunicera det nuvarande tillståndet för systemet för att hjälpa användaren att bygga en mer exakt och hjälpsam mentalmodell av systemet de interagerar med, dvs. att porträttera förvirring kan hjälpa användaren att förstå att systemet behöver hjälp .

Kort sagt; istället för att känslor används enbart för analys och rapportering, är känslomässig intelligens mycket meningsfullt när du pratar med VPA (Virtual Personal Assistance), digitala avatarer eller fysiskt förkroppsligade datorer, till exempel en robot; i princip när som helst du har att göra med en dator som kan interageras med naturligt, har viss autonomi, hanterar tvetydighet och osäkerhet, känner dig och dina preferenser och kräver en viss tillit. Låter bekant? Dessa egenskaper har vanligtvis varit begränsade till människor, men nu har våra kompanjoner också fått dessa egenskaper.

Låt oss kort titta på ett par användningsfall där emotionell intelligens är meningsfull och hur den kan tillämpas.

Ett exempel som illustrerar denna förändring i beräkningsbrunnen är DragonBot ; ett forskningsprojekt från Social Robotics Group vid MIT som utforskar intelligenta handledningssystem. DragonBot använder emotionell medvetenhet för att anpassa sig till eleven, till exempel, en av applikationerna är ett lässpel som anpassar orden baserat på den igenkända känslan, dvs. systemet kan justera uppgiftssvårigheten (ord i detta fall) baserat på användarna förmåga bestämd av den igenkända känslan.

Konversationsagenter (chatbots) är ett uppenbart tillfälle att använda emotionellt igenkänning. För närvarande utför chatbots så kallad NLU (Natural Language Understanding) för att bestämma svaren; detta svar är vanligtvis beroende av en given kontext och härledd intention men det tar inte lång tid (och vissa finns redan, till exempel Emotibot ) innan det blir standard att också använda den igenkända känslor när du bestämmer svaret till användaren (anpassar inte bara språket utan också tonen för att svara med). Detta kan inte bara öka effektiviteten i kommunikationen utan också ge oss möjlighet att undvika att skapa oönskade beteenden i hur vi kommunicerar med varandra. Vi skämtar ofta i studion om hur röstassistenter, som Alexa, skapar beteenden hos barn där de kommer att kräva saker snarare än att be efter dem ”Alexa Tell me the time!”.

Som konversationsgränssnitt bli mer genomgripande, så kommer behovet av att utveckla effektiva sätt att känna igen och anpassa sig till användarnas känslor, särskilt inom områdena kring medicinsk hjälp ( Ada ) och mental hälsa ( woebot ).

Generellt kan emotionellt erkännande användas för att antingen automatiskt öka engagemang eller anpassar automatiskt till sina användare; Disney Research ger många fler exempel på var känslomässig igenkänning kommer att spela en roll för att anpassa innehållet; från deras utforskning i interaktiv förskole-tv-programmering , deras interaktiva berättande författarverktyg och många fler – Jag uppmuntrar dig att spendera någon gång på att utforska.

Som nämnts ovan; katalysatorn för denna utforskning härstammar från min första nyfikenhet att vilja veta hur man känner igen känslor, som i sig härstammar från ett initiativ här på Metod kallad FINE.

FINE är ett ekosystem som är utformat för att stödja små barns mentala hälsa. Känslor är mycket kärnan i det – för både input och output.Även om kameran och tangentbordet övervakar och drar vi slut på det emotionella tillståndet hos användaren / användarna och genom att använda dessa data presenterar vi sedan den sammanlagda stämningen genom en delad enhet. Detta uppmuntrar kommunikation såväl som att erbjuda en empatisk följeslagare genom en virtuell avatar som undervisas om empati genom folkmassa från intelligens.

Tillämpningen av känselsigenkänning är väldigt domänspecifik men jag hoppas att jag har lagt fram ett tillräckligt starkt argument ovan för dess möjlighet och sannolikhet för adoption under de kommande åren. Erkännande å andra sidan är universellt och därför kommer jag att spendera resten av detta inlägg kort på att introducera och sammanfatta de metoder vi tog för FINE för att härleda användarens känslor med både en bild av deras ansikte och text de hade skrivit. p>

Att känna igen känslor från våra ansiktsuttryck

En snabb sökning på Google om hur stor andel av kommunikationen som kommer genom kroppsspråk framhäver snabbt att mest kommunikation är verbalt (kroppsspråk står för 55\% av det totala budskapet , ton står för 38\% och ord står endast för 7\%). Så det borde inte bli någon överraskning att mycket kan dras genom att bara titta på ansikten – detta är förutsättningen för att vi ska kunna dra slutsatsen om andras känslor helt enkelt genom att undersöka deras ansiktsuttryck. Så nu kommer uppgiften att klassificera ansiktsuttryck för att bestämma känslor och lyckligtvis har detta studerats väl och data har gjorts tillgängliga.

Datauppsättningen som används vid utbildning av vår klassificerare kommer från en Kaggle-tävling ; den medföljande datasetet består av över 20 000 gråskalebilder av ansikten som manuellt har märkts som antingen arg , avsky , rädsla , glad , ledsen , överraskning , eller neutral . Som med alla maskininlärningsprojekt (ML); vår första uppgift är att bygga intuition kring data och komma med några teoretiska hypoteser om hur vi går till klassificering. Nedan följer några exempel på ansikten från vår dataset tillsammans med tillhörande etiketter.

Vårt antagande är att det finns något vanligt mönster mellan uttryck och känslor; ett sätt att utforska och validera detta är genom visualisering. För att visualisera det kan vi ta genomsnittet ansiktet för varje känsla; nedan visar vi hur detta ser ut för känslorna arg , glad och förvånade .

Vi kan tydligt se att det finns tydliga uttryck för var och en av dessa känslor; vår nästa uppgift är att lära sig dessa mönster. För detta experiment använde vi ett Convolution Neural Network (eller ConvNet) för att lära oss dessa mönster (vi lämnar detaljerna här men kommer att dela anteckningsboken för dem som är intresserade av att veta de tekniska detaljerna). Efter 15 träningsperioder uppnådde vi en valideringsnoggrannhet nära 60\% (inte dåligt med tanke på att baslinjen skulle vara cirka 14\%); resultaten av träningen som visas nedan.

Känna igen känslor från text

Vi såg innan den texten (orden vi använder) endast står för 7\% av det totala meddelandet; detta och det faktum att språk ärver tvetydighet gör det svårare men ändå en värdefull datakälla och något som lätt kan övervakas passivt. För denna prototyp utbildade vi ett Återkommande neuralt nätverk (återigen hoppar vi över detaljerna här men delar anteckningsboken för dem som är intresserade av de tekniska detaljerna) och portade den (modellen) till CoreML , Apples ML-ramverk. Medföljande detta var ett anpassat iOS-tangentbord som passivt övervakade vad användaren skrev och använde den här modellen för att bestämma användarens nuvarande emotionella tillstånd.

Data för text var svårare att komma över; fastän det fanns ett fåtal från värdefulla källor, ingen innehöll en betydande mängd exempel för att träna ett Deep Neural Network . Här ligger en viktig punkt; märkta data är skrämmande och att skaffa det kan vara dyrt.Olika datamängder prövades efter att slutligen avgöras med en datauppsättning som gjorts tillgänglig av CrowdFlower , en dataset som består av cirka 40 000 rader tweets som har märkts med en av 13 känslor ( som lycka, sorg och ilska). En fråga med dataset var obalansen i exempel för varje känsla. Diagrammet nedan visar denna fördelning. Trots detta var vårt mål genomförbarhet och tillämpning snarare än noggrannhet så vi fortsatte med denna dataset.

Trots den betydande obalansen och mängden träningsexempel kunde vi fortfarande uppnå en valideringsnoggrannhet på cirka 35\% efter 12 epoker.

Nedan visas klassificeringen som utförs på enheten (om än simulatorn i detta fall ).

Här har vi bara undersökt de uppenbara tillgängliga källorna för att känna igen känslor; andra inkluderar ton (röstton), beteende (eller modellbaserad) och pose, men det viktiga att ta bort är trenden från tydliga till implicita interaktioner och hur känslor kommer att vara en värdefull insats för att avgöra hur ditt system engagerar sig i användare.

Från Human Computer Interaction (HCI) to Human Computer Relationships (HCR)

Vi avslutar detta inlägg med återigen att betona utvecklingen av HCI och hur vikten av vårt förhållande med datorer blir lika viktigt som hur vi interagerar med dem.

Det ursprungliga fokuset för HCI var kring begreppet användbarhet. När den ursprungliga definitionen av användbarhet enbart var fokuserad på begreppet enkelhet, dvs. ”lätt att lära sig, lätt att använda”, har den kontinuerligt utvecklats tillsammans med tekniska framsteg. Det undergår nu egenskaperna av roligt, välbefinnande, kollektiv effektivitet, estetisk spänning, förbättrad kreativitet, flöde, stöd för mänsklig utveckling och andra.

Det har gått bortom den enskilda användaren som sitter vid skrivbordet, och kommer att fortsätta att driva drivna av de nya gränserna som möjliggörs av tekniken. Detta beroende av teknik innebär att kontinuerligt undersöka, utveckla och utnyttja nya områden av möjligheter för att förbättra den mänskliga aktiviteten och upplevelsen. Dessa tekniker ger nu möjlighet att känna igen användarens känslor; vad ska du göra med detta?

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *