Humanitetens udviklende forhold til computere

Af Joshua Newnham, Lead Design Technologist – Method London

(9. jan. 2018)

I dette indlæg diskuterer vi udviklingen i det forhold, vi har med vores beregningsmæssige ledsagere, og vi ser bedre på at forstå anvendelsen af ​​følelsesmæssige sensorteknologier.

At have interesse i skæringspunktet mellem design og kunstig intelligens udsætter dig for en masse interessante koncepter og værktøjer, der synes tiltalende og relevante ved første øjekast, men det er først, når du begynder at arbejde med dem, du begynder at stille dybere og mere meningsfulde spørgsmål om deres anvendelse og værdi for slutbrugeren. Dette var tilfældet med følelsesmæssige teknologier, som dem, der tilbydes af den populære udbydere af emotionel genkendelsestjeneste Affectiva , som tilbyder værktøjer til at genkende brugerens følelser baseret på et billede af deres ansigt.

Som teknolog tiltrækkes du først af hvordan og det er først efter dig Bliv fortrolig med de indviklede detaljer i det indre arbejde, som du begynder at stille spørgsmålstegn ved hvorfor. Først efter at have lært og lavet systemer, der tilfredsstillende kunne klassificere følelser givet en eller anden tekst eller et billede af et ansigt, begyndte jeg at stille spørgsmålstegn ved, hvordan disse kunne anvendes. Det er først for nylig, at jeg har indset deres betydning og anvendelighed; denne erkendelse er udgangspunktet for dette indlæg.

https://commons.wikimedia.org/wiki/Fil:Lutzmann\_Motorwagen.jpg

Behovet for nyt objektiv

Ingen introduktion af ny teknologi er komplet uden omtale af “hesteløs vogn”; et udtryk brugt af Don Norman, når han beskriver vedtagelsen og udviklingen af ​​design til nye teknologier. Det fremhæver, at vi, designere og teknologer, normalt projicerer vores eksisterende mentale modeller på nye teknologier, og det er først efter mange gentagelser, at vi begynder at skabe nye mentale modeller, der er mere anvendelige til teknologien. En åbenbar historie, der illustrerer dette, er, hvordan tv-shows oprindeligt blev designet og udsendt; for det meste at se bort fra det element, der gjorde dem rigere end radioen, hvilket var evnen til at bruge tilføjelsen af ​​billeder til at skildre en historie. I stedet vendte tv-shows tilbage til lidt mere end et radioprogram med billeder af præsentanterne.

På trods af min opmærksomhed og interesse for Affective Computing er det var svært at forestille sig brugen af ​​genkendelsesfølelser ud over analyse og rapportering. Selvfølgelig talte jeg begrebsmæssigt ofte om, at computeren kunne genkende og reagere på brugerens følelser, men ikke grave meget dybere, da jeg ikke kunne se, hvordan vores eksisterende applikationer, såsom Microsoft Word, kunne blive effektive brug af det – indtil for nylig. Men for bedre at forstå og forstå betydningen af ​​denne åbenbaring er det vigtigt at tage et skridt tilbage og gennemgå, hvad computere var, hvordan de har udviklet sig og deres sandsynlige bane (med hensyn til deres anvendelse og hvordan vi interagerer med dem). p>

Computerens korte historie

Computerens koncept blev udtænkt i det 19. århundrede af en engelsk matematikprofessor ved navn Charles Babbage ; dette koncept blev passende benævnt Analytical Engine og fremhævede dets formål med at udføre og udsende matematiske beregninger. Dette koncept blev endelig realiseret omkring 1943 og fandt anvendelse inden for banen beregninger til militære formål. Brugere havde tendens til at være højtuddannede fagfolk, der ville interagere med computeren ved hjælp af stempelkort, der beskriver eksplicitte instruktioner, som computeren skal følge. div>

https://apple2history.org/history/ah16/

Derefter kom industrielle computere i form af mainframes; disse, produceret af f.eks. International Business Machines (IBM), lignede meget af deres forgængere og krævede igen højtuddannede brugere til at bruge dem, men udskiftede deres fysiske stempelkort med et digitalt Command Line Interface (CLI) til at indsende deres instruktioner.I løbet af denne æra; anerkendelse skal gøres for fremskridt inden for human computerinteraktion (HCI) til en lille gruppe individer; individer inklusive lignende som Steve Russell , der så computere ud over blot en batchberegner og forestillede (og oprettede) interaktive computerprogrammer, der tillod den første æra af computerspil som som Spacewar! John McCarthy , betragtet som far til kunstig intelligens (AI), forestillede sig potentiale for computere, der udfører opgaverne for mennesker og Doug Engelbart , der paradoksalt nok forestillede sig computere, der forstærkede os snarere end at erstatte os og en pioner for et stort udvalg af direkte manipulationskoncepter, vi stadig bruger i dag, inklusive musen og grafisk brugergrænseflade (GUI).

I slutningen af ​​70erne så vi stigningen i pcer; på trods af deres navn var de langt fra personlige, men blev til sidst overkommelige og anvendelige til en stor nok befolkning til at blive betragtet som almindelig. Killer-applikationen på det tidspunkt var regnearket, en sofistikeret regnemaskine til kontorproduktivitet. På grund af deres tilgængelighed og vedtagelse blev brugervenlighed hurtigt meget vigtig, og udgivelse af kommandoer via en terminal var en barriere for de fleste brugere.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Først i begyndelsen af ​​80erne, med introduktionen af ​​GUI, blev interaktion med computere (noget) demokratiseret. GUI brugte mange metaforer lånt fra den virkelige verden, dette sammen med direkte manipulation og hurtig feedback gjorde computere tilgængelige for et publikum ud over computereksperter. I løbet af denne tid så vi stigningen på nettet og udvidede applikations- og brugssager til computere; går fra rene analytiske værktøjer til at blive brugt til sådanne opgaver som kommunikation, underholdning og kreativt arbejde. Denne vedtagelse førte til en hurtigere digitalisering af vores fysiske verden; information, underholdning og vores forhold blev bytes.

Den næste vigtige milepæl, der påvirkede, hvordan vi brugte computere, var omkring midten af ​​80erne med udbredelsen af ​​Internettet; e-mail forvandlede computere til kommunikationsenheder; folk interagerede ikke, folk interagerede med andre mennesker via computere – dette paradigme, der kommunikerer og samarbejder via en computer, kaldes nu social computing.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Derefter kom iPhone (og derefter Android); computere blev endelig virkelig personlige, berøring reducerede yderligere friktionen ved brug og tilføjelsen af ​​sensorer, tilslutningsmuligheder og yderligere stigning i digitalisering styrket deres relevans og bekvemmelighed for den virkelige verden og virkelige mennesker. Men indtil for nylig krævede de (computere) stadig os til eksplicit at instruere dem og kommunikere gennem statiske grænseflader. Trods at have øget abstraktionsniveauet fra CLI, forblev kerneinteraktionsmodellen stadig den samme – dette ændrer sig nu.

Vi går nu ind i en æra, hvor vi ser konvergensen af ​​kunstig intelligens (AI) og Intelligence Augmentation (IA) – hvorved vi har systemer, der bruger intelligens til bedre at forstå os (stemme, billedlig, tekstlig eller gestural), vores hensigt og er i stand til at udføre opgaver semi-autonomt og undertiden proaktivt. p>

https://www.jibo.com /

For yderligere at illustrere udviklingen af, hvordan vi interagerer med computere, låner jeg et plot fra Mark Billinghurst , computerinterfaceforsker, der fremhæver vores fremgang mod naturlige brugergrænseflader over tid.

Dette plot n det fremhæver kun den faldende friktion mellem os og computere (naturlige brugergrænseflader), men også hvordan vores interaktion skifter fra at være eksplicit til implicit, dvs. flere og flere af vores systemer bliver foregribende.

De andre bemærkelsesværdige tendenser inkluderer applikationernes rolle og funktion skiftende fra at håndtere rene diskrete instruktioner til dem, der beskæftiger sig med høje grad af tvetydighed, dvs. tidlige applikationer blev brugt til at beregne missilbaner, mens moderne applikationer beskæftiger sig med at anbefale sange, film, partnere og organisere dine møder.Den sidste tendens, jeg vil fremhæve, er, hvordan formen på computeren ændrer sig, fra tastatur og skærm til mange andre former, fra bærbare skifer, vi bærer rundt i lommerne til intelligente højttalere, der sidder ved siden af ​​vores seng.

Hensigten med ovenstående er ikke at give en omfattende (eller nøjagtig) historielektion i computing, men fremhæve, hvordan funktionen, formen og vores forhold til computere har udviklet sig over tid, og det sandsynligvis er en bane – skiftende fra en ren funktionelt værktøj til en nær ledsager. Ligesom GUI lånte stærkt fra den fysiske verden for at gøre interaktion med computere mere velkendt og naturlig, så vil også behovet for at genkende, reagere og skildre følelser, dvs. vi vil finde det frustrerende at tale med noget, der anses for intelligent, hvis det ikke er i stand til at genkende og reagere på vores følelsesmæssige tilstand. At være i stand til at udvise følelser giver også et andet middel til at kommunikere systemets aktuelle tilstand for at hjælpe brugeren med at opbygge en mere præcis og hjælpsom mental model af det system, de interagerer med, dvs. at portrættere forvirring kan hjælpe brugeren med at forstå, at systemet har brug for hjælp .

Kort sagt; i stedet for at følelser udelukkende bruges til analyse og rapportering, giver følelsesmæssig intelligens meget mening, når du taler med en Virtual Personal Assistance (VPA), digitale avatarer eller fysisk indlejrede computere, såsom en robot; i det væsentlige når som helst du har at gøre med en computer, der kan interageres med naturligt, har en vis autonomi, beskæftiger sig med tvetydighed og usikkerhed, kender dig og dine præferencer og kræver et niveau af tillid. Lyder det velkendt? Disse træk er typisk blevet begrænset til mennesker, men nu har vores beregningsvenner også erhvervet disse træk.

Lad os kort se på et par brugssager, hvor følelsesmæssig intelligens giver mening, og hvordan den kan anvendes.

Et eksempel, der illustrerer dette skift i computing godt, er DragonBot ; et forskningsprojekt fra Social Robotics Group på MIT, der udforsker intelligente vejledningssystemer. DragonBot bruger følelsesmæssig bevidsthed til at tilpasse sig den studerende, for eksempel er en af ​​applikationerne et læsespil, der tilpasser ordene baseret på den anerkendte følelse, dvs. systemet kan justere opgavens vanskelighed (ord i dette tilfælde) baseret på brugerne evne bestemt af den anerkendte følelse.

Samtaleagenter (chatbots) er en åbenbar mulighed for at bruge følelsesmæssig anerkendelse. I øjeblikket udfører chatbots det såkaldte Natural Language Understanding (NLU) for at bestemme svarene; dette svar afhænger typisk af en given kontekst og udledt intention men det varer ikke længe (og nogle findes allerede, såsom Emotibot ), før det bliver standard for også at bruge den anerkendte følelser når man bestemmer svaret til brugeren (tilpasser ikke kun sprog, men også tone til at svare med). Dette kan ikke kun øge kommunikationseffektiviteten, men giver os også mulighed for at undgå at skabe uønsket adfærd i, hvordan vi kommunikerer med hinanden. Vi joker ofte i studiet om, hvordan stemmeassistenter, såsom Alexa, skaber adfærd hos børn, hvor de vil kræve ting i stedet for at bede om dem “Alexa fortæl mig tiden!”.

Som samtaleinterfaces bliver mere gennemgribende, så behovet for at udvikle effektive måder til at genkende og tilpasse sig brugernes følelser, især i områderne omkring medicinsk assistance ( Ada ) og mentale sundhed ( woebot ).

Generelt kan følelsesmæssig anerkendelse bruges til enten automatisk engagement eller tilpasser automatisk til sine bruger (e); Disney Research giver mange flere eksempler på, hvor følelsesmæssig anerkendelse vil spille en rolle i tilpasningen af ​​indholdet; fra deres udforskning i interaktiv førskole-tv-programmering , deres interaktive fortællingsforfatter værktøj og mange flere – Jeg opfordrer dig til at bruge noget tid på at udforske.

Som nævnt ovenfor; katalysatoren for denne udforskning stammede fra min oprindelige nysgerrighed om at vide, hvordan man genkender følelser, der selv stammer fra et initiativ her på Metode kaldet FINE.

FINE er et økosystem designet til at understøtte små børns mentale sundhed. Følelser er meget kernen i det – for både input og output.Selvom kameraet og tastaturet overvåger og udleder vi brugerens (e) følelsesmæssige tilstand, og ved hjælp af disse data præsenterer vi derefter den samlede stemning gennem en delt enhed. Dette tilskynder til kommunikation såvel som at tilbyde en empatisk ledsager gennem en virtuel avatar, der læres empati gennem crowd sourced intelligens.

Anvendelsen af ​​følelsesgenkendelse er meget domænespecifik, men jeg håber, jeg har fremlagt et stærkt nok argument ovenfor for dets mulighed og sandsynlighed for vedtagelse i de kommende år. Anerkendelse er på den anden side universel, og derfor vil jeg bruge resten af ​​dette indlæg på kort at introducere og opsummere de tilgange, vi tog for FINE for at udlede brugerens følelser ved hjælp af både et billede af deres ansigt og tekst, de havde skrevet. p>

At genkende følelser fra vores ansigtsudtryk

En hurtig søgning på Google om, hvor stor en procentdel af kommunikation der kommer gennem kropssprog, fremhæver hurtigt, at den fleste kommunikation er ikke-verbal (kropssprog tegner sig for 55\% af den samlede besked , tone tegner sig for 38\% og ord udgør kun 7\%). Så det bør ikke overraske, at meget kan udledes ved blot at se på deres ansigt – dette er forudsætningen for, at vi er i stand til at udlede andres følelser ved blot at undersøge deres ansigtsudtryk. Så nu kommer opgaven med at klassificere ansigtsudtryk for at bestemme følelser, og heldigvis er dette blevet undersøgt godt og data gjort tilgængelige.

Datasættet, der blev brugt til træning af vores klassifikator, kommer fra en Kaggle-konkurrence ; det ledsagende datasæt består af over 20.000 gråtonebilleder af ansigter, der er mærket manuelt som enten vred , afsky , frygt , glad , trist , overraskelse eller neutral . Som med ethvert maskinindlæringsprojekt (ML); vores første opgave er at opbygge intuition omkring dataene og komme med nogle teoretiske hypoteser om, hvordan vi går til at udføre klassificering. Nedenfor er nogle eksempler på ansigterne fra vores datasæt sammen med deres tilknyttede etiketter.

Vores antagelse er, at der er et fælles mønster mellem udtryk og følelser; en måde at udforske og validere dette på er gennem visualisering. For at visualisere det kan vi tage gennemsnittet ansigt for hver følelse; nedenfor viser vi, hvordan dette ser ud for følelserne vred , glad og overrasket .

Vi kan tydeligt se, at der er forskellige udtryk for hver af disse følelser; vores næste opgave er at lære disse mønstre. Til dette eksperiment brugte vi et Convolution Neural Network (eller ConvNet) til at lære disse mønstre (vi giver afkald på detaljerne her, men deler Notebook for de interesserede i at vide de tekniske detaljer). Efter 15 træningsperioder opnåede vi en valideringsnøjagtighed tæt på 60\% (ikke dårligt i betragtning af at baseline ville være omkring 14\%); resultaterne af træningen vist nedenfor.

At genkende følelser fra tekst

Vi så før teksten (de ord, vi bruger) kun tegner sig for 7\% af den samlede besked; dette og det faktum, at sprog arver tvetydighed, gør det vanskeligere, men stadig en værdifuld kilde til data og noget, der let kan overvåges passivt. Til denne prototype trænede vi et Tilbagevendende neuralt netværk (endnu en gang springer vi detaljerne over her, men deler Notebook for de interesserede i de tekniske detaljer) og porterede den (modellen) til CoreML , Apples ML framework. Ledsaget af dette var et brugerdefineret iOS-tastatur, der passivt overvågede, hvad brugeren skrev og brugte denne model til at bestemme brugerens aktuelle følelsesmæssige tilstand.

Data til tekst var sværere at komme på tværs af; skønt der var nogle få fra hæderlige kilder, indeholdt ingen en betydelig mængde eksempler til at træne et Deep Neural Network . Her ligger et vigtigt punkt; mærkede data er skræmmende, og det kan være dyrt at erhverve dem.Forskellige datasæt blev forsøgt efter endelig afregning med et datasæt, der blev gjort tilgængeligt af CrowdFlower , et datasæt bestående af omkring 40.000 rækker tweets, der er blevet mærket med en af ​​13 følelser ( såsom lykke, sorg og vrede). Et problem med datasættet var ubalancen i eksempler for hver følelse. Plottet nedenfor viser denne fordeling. På trods af dette var vores mål med gennemførligheden og anvendelsen snarere end nøjagtigheden, så vi fortsatte med dette datasæt.

På trods af den betydelige ubalance og mængden af ​​træningseksempler var vi stadig i stand til at opnå en valideringsnøjagtighed på omkring 35\% efter 12 perioder.

Nedenfor vises klassificeringen, der udføres på enheden (omend simulatoren i dette tilfælde ).

Her har vi kun undersøgt de åbenlyse tilgængelige kilder til at genkende følelser; andre inkluderer tone (stemmetone), adfærdsmæssig (eller modelbaseret) og udgør, men det vigtige at tage væk er tendensen væk fra eksplicit til implicit interaktion, og hvordan følelser vil være et værdifuldt input til at bestemme, hvordan dit system engagerer sig i bruger.

Fra Human Computer Interaction (HCI) til Human Computer Relationships (HCR)

Vi afslutter dette indlæg ved igen at understrege udviklingen af ​​HCI og hvordan vigtigheden af ​​vores forhold med computere bliver lige så vigtigt som hvordan vi interagerer med dem.

Det oprindelige fokus for HCI var omkring begrebet anvendelighed. Hvor den oprindelige definition af brugbarhed udelukkende var fokuseret på begrebet enkelhed, dvs. “let at lære, let at bruge”, har den løbende udviklet sig sammen med teknologiske fremskridt. Det undergraver nu kvaliteterne af sjov, velvære, kollektiv effektivitet, æstetisk spænding, forbedret kreativitet, flow, støtte til menneskelig udvikling og andre.

Det er gået ud over den enkelte bruger, der sidder ved deres skrivebord, og vil fortsætte med at bevæge sig drevet af de nye grænser muliggjort af teknologi. Denne afhængighed af teknologi betyder løbende at undersøge, udvikle og udnytte nye områder af muligheder for at forbedre den menneskelige aktivitet og oplevelse. Disse teknologier giver nu mulighed for at genkende brugerens følelser; hvad vil du gøre med dette?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *