Humanitys Evolving Relationship with Computers

Av Joshua Newnham, Lead Design Technologist – Method London

(9. jan. 2018)

I dette innlegget diskuterer vi utviklingen i forholdet vi har til våre beregningsfeller, og ser for å bedre forstå anvendelsen av emosjonelle sensingsteknologier.

Å ha interesse for skjæringspunktet mellom design og kunstig intelligens utsetter deg for mange interessante konsepter og verktøy som virker attraktive og relevante ved første øyekast, men det er først når du begynner å jobbe med dem, du begynner å stille dypere og mer meningsfylte spørsmål om deres applikasjon og verdi for sluttbrukeren. Dette var tilfelle med emosjonell sensingsteknologi, som de som tilbys av den populære leverandøren av emosjonell anerkjennelse Affectiva , som tilbyr verktøy for å gjenkjenne brukerens følelser basert på et bilde av ansiktet deres.

Som teknolog tiltrekkes du først av hvordan og det er først etter deg bli komfortabel med de intrikate detaljene i det indre arbeidet du begynner å stille spørsmål ved hvorfor. Først etter å ha lært og laget systemer som tilfredsstillende kunne klassifisere følelser gitt tekst eller et bilde av et ansikt, begynte jeg å stille spørsmål ved hvordan disse kunne brukes. Det er først nylig jeg har innsett deres betydning og anvendelighet; denne erkjennelsen er utgangspunktet for dette innlegget.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Behovet for nytt objektiv

Ingen introduksjon av ny teknologi er komplett uten omtale av «hesteløs vogn»; et begrep som brukes av Don Norman når han beskriver bruk og utvikling av design for ny teknologi. Det fremhever at vi, designere og teknologer, normalt projiserer våre eksisterende mentale modeller på ny teknologi, og det er først etter mange iterasjoner at vi begynner å lage nye mentale modeller som er mer anvendelige for teknologien. En åpenbar historie som illustrerer dette, er hvordan TV-show opprinnelig ble designet og kringkastet; ser stort sett bort fra elementet som gjorde dem rikere enn radioen, som var muligheten til å bruke tillegg av bilder til å skildre en historie. I stedet gikk TV-show tilbake til litt mer enn et radioprogram med bilder av programlederne.

Til tross for min bevissthet og interesse for Affective Computing , er det var vanskelig å se for seg bruk av følelsesgjenkjenning utover analyse og rapportering. Selvfølgelig, konseptuelt, snakket jeg ofte om at datamaskinen kunne gjenkjenne og svare på brukerens følelser, men ikke gravde mye dypere da jeg ikke kunne se hvordan våre eksisterende applikasjoner, for eksempel Microsoft Word, kunne bli effektive bruk av den – inntil nylig. Men for å bedre forstå og forstå betydningen av denne åpenbaringen, er det viktig å ta et skritt tilbake og gjennomgå hva datamaskiner var, hvordan de har utviklet seg og deres sannsynlige bane (med hensyn til applikasjonen og hvordan vi kommuniserer med dem). p>

Datamaskinens korte historie

Konseptet med datamaskinen ble utviklet på 1800-tallet av en engelsk matematikkprofessor ved navn Charles Babbage ; dette konseptet ble passende kalt Analytical Engine , og fremhevet formålet med å utføre og fremstille matematiske beregninger. Dette konseptet ble endelig realisert rundt 1943 og fant anvendelse innen banen beregninger for militære formål. Brukere pleide å være høyt trente fagfolk som ville samhandle med datamaskinen ved hjelp av hullkort som beskriver eksplisitte instruksjoner som datamaskinen skal følge.

https://apple2history.org/history/ah16/

Neste kom industrielle datamaskiner i form av mainframes; disse, produsert av slike som International Business Machines (IBM), lignet mange av sine forgjengere og krevde igjen høyt trente brukere å bruke dem, men erstattet de fysiske hullkortene sine med et digitalt kommandolinjegrensesnitt (CLI) for å sende inn instruksjonene.I løpet av denne tiden; erkjennelse må gjøres til fremskritt innen human datamaskininteraksjon (HCI) til en liten gruppe individer; individer inkludert slike som Steve Russell som så datamaskiner utover bare en batch-kalkulator og så for seg (og opprettet) interaktive dataprogrammer som tillot den første æra av dataspill som som Spacewar! John McCarthy , ansett som far til kunstig intelligens (AI), så for seg potensial for datamaskiner som utfører oppgavene til mennesker og Doug Engelbart som paradoksalt sett så for seg datamaskiner som utvidet oss i stedet for å erstatte oss og en pioner for et stort utvalg av direkte manipulasjonskonsepter vi fremdeles bruker i dag, inkludert mus og grafisk brukergrensesnitt (GUI).

På slutten av 70-tallet så vi fremveksten av PC-er; til tross for navnet deres var de langt fra personlige, men til slutt ble de rimelige og anvendelige for en stor nok befolkning til å bli ansett som vanlige. Morderapplikasjonen på den tiden var regnearket, en sofistikert kalkulator for kontorproduktivitet. På grunn av tilgjengeligheten og adopsjonen ble brukervennligheten snart veldig viktig, og kommandoer via en terminal var en barriere for de fleste brukere.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Først på begynnelsen av 80-tallet, med introduksjonen av GUI, ble samspillet med datamaskiner (noe) demokratisert. GUI brukte mange metaforer lånt fra den virkelige verden, dette sammen med direkte manipulasjon og rask tilbakemelding gjorde datamaskiner tilgjengelige for et publikum utover dataeksperter. I løpet av denne tiden så vi fremveksten av nettet og utvidet applikasjons- og brukstilfeller for datamaskiner; går fra rene analytiske verktøy til å bli brukt til slike oppgaver som kommunikasjon, underholdning og kreativt arbeid. Denne adopsjonen fører til at digitaliseringen av vår fysiske verden akselererer; informasjon, underholdning og forholdet vårt ble byte.

Den neste viktige milepælen som påvirket hvordan vi brukte datamaskiner, var rundt midten av 80-tallet med spredningen av internett; e-post forvandlet datamaskiner til kommunikasjonsenheter; folk samhandlet ikke, folk interagerte med andre mennesker via datamaskiner – dette paradigmet, som kommuniserer og samarbeider via en datamaskin, blir nå referert til som sosial databehandling.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Så kom iPhone (og deretter Android); datamaskiner ble til slutt virkelig personlige, berøring reduserte ytterligere friksjonen ved bruk og tillegg av sensorer, tilkobling og ytterligere økning i digitalisering styrket deres relevans og bekvemmelighet for den virkelige verden og virkelige mennesker. Men inntil nylig krevde de (datamaskiner) fortsatt at vi eksplisitt instruerte dem og kommuniserte gjennom statiske grensesnitt. Til tross for å ha økt abstraksjonsnivået fra CLI, forble kjerneinteraksjonsmodellen fortsatt den samme – dette er nå i endring.

Vi går nå inn i en tid der vi ser konvergensen av kunstig intelligens (AI) og Intelligence Augmentation (IA) – hvor vi har systemer som bruker intelligens for å bedre forstå oss (tale, bilde, tekst eller gest), vår intensjon og er i stand til å utføre oppgaver semi-autonomt og noen ganger proaktivt. p>

https://www.jibo.com /

For ytterligere å illustrere utviklingen av hvordan vi kommuniserer med datamaskiner, vil jeg låne et plot fra Mark Billinghurst , forsker på datagrensesnitt, som fremhever vår fremgang mot naturlige brukergrensesnitt over tid.

Dette plottet n det fremhever bare den avtagende friksjonen mellom oss og datamaskiner (naturlige brukergrensesnitt), men også hvordan samspillet vårt skifter fra å være eksplisitt til implisitt, dvs. at flere og flere av systemene våre blir forutseende.

De andre bemerkelsesverdige trendene inkluderer applikasjonenes rolle og funksjon; skifte fra å håndtere rene, diskrete instruksjoner til de som håndterer høye grad av tvetydighet, dvs. at tidlige applikasjoner ble brukt til å beregne missilbaner mens moderne applikasjoner omhandler å anbefale sanger, filmer, partnere og organisering av møtene dine.Den siste trenden jeg vil trekke frem er hvordan datamaskinens form endrer seg, fra tastatur og skjerm til mange andre former, fra bærbare skifer vi bærer rundt i lommene til intelligente høyttalere som sitter ved siden av sengen vår.

Hensikten med det ovennevnte er ikke å gi en omfattende (eller nøyaktig) historieleksjon i databehandling, men fremheve hvordan funksjonen, formen og vårt forhold til datamaskiner har utviklet seg over tid, og det er sannsynlig bane – skiftende fra en ren funksjonelt verktøy til en nær følgesvenn. Akkurat som GUI lånte tungt fra den fysiske verden for å gjøre samhandling med datamaskiner mer kjent og naturlig, vil også behovet for å gjenkjenne, reagere og skildre følelser, dvs. vi vil synes det er frustrerende å snakke med noe som anses intelligent hvis det ikke er i stand til å gjenkjenne og svare på vår følelsesmessige tilstand. Å være i stand til å vise følelser gir også et annet middel for å kommunisere den nåværende tilstanden til systemet for å hjelpe brukeren med å bygge en mer nøyaktig og nyttig mental modell av systemet de kommuniserer med, dvs. å portrettere forvirring kan hjelpe brukeren til å forstå at systemet trenger hjelp .

Kort fortalt; i stedet for at følelser brukes utelukkende til analyse og rapportering, gir emosjonell intelligens mye mening når du snakker med Virtual Personal Assistance (VPA), digitale avatarer eller fysisk innlagte datamaskiner, for eksempel en robot; egentlig når som helst du arbeider med en datamaskin som kan samhandles med naturlig, har litt autonomi, håndterer tvetydighet og usikkerhet, kjenner deg og dine preferanser, og krever et nivå av tillit. Høres kjent ut? Disse egenskapene har vanligvis vært begrenset til mennesker, men nå har våre beregningsmessige følgere også tilegnet seg disse egenskapene.

La oss kort se på et par brukstilfeller der emosjonell intelligens er fornuftig og hvordan den kan brukes.

Et eksempel som illustrerer dette skiftet i databehandling er DragonBot ; et forskningsprosjekt fra Social Robotics Group ved MIT som utforsker intelligente veiledningssystemer. DragonBot bruker emosjonell bevissthet for å tilpasse seg studenten, for eksempel er en av applikasjonene et lesespill som tilpasser ordene basert på den anerkjente følelsen, dvs. systemet kan justere vanskeligheten med oppgaven (ord i dette tilfellet) basert på brukerne evne bestemt av den anerkjente følelsen.

Samtaleagenter (chatbots) er en åpenbar mulighet for å bruke emosjonell anerkjennelse. For øyeblikket utfører chatbots det som er kjent som Natural Language Understanding (NLU) for å bestemme svarene; dette svaret er vanligvis avhengig av en gitt kontekst og utledet intention men det vil ikke vare lenge (og noen eksisterer allerede, for eksempel Emotibot ) før det blir standard å også bruke den anerkjente følelser når du bestemmer svaret til brukeren (tilpasser ikke bare språket, men også tonen for å svare med). Dette kan ikke bare øke effektiviteten i kommunikasjonen, men gir oss også muligheten til å unngå å skape uønsket atferd i hvordan vi kommuniserer med hverandre. Vi tuller ofte i studio om hvordan stemmeassistenter, som Alexa, skaper atferd hos barn der de vil kreve ting i stedet for å be om dem «Alexa Tell me the time!».

Som samtalegrensesnitt bli mer gjennomgripende, så vil behovet for å utvikle effektive måter å gjenkjenne og tilpasse seg brukernes følelser, spesielt på områdene rundt medisinsk hjelp ( Ada ) og mental helse ( woebot ).

Generelt kan følelsesmessig anerkjennelse brukes til å enten øke engasjement eller tilpasser automatisk til brukerne sine; Disney Research som gir mange flere eksempler på hvor emosjonell anerkjennelse vil spille en rolle i tilpasningen av innholdet; fra utforskningen i interaktiv førskolefjernsynsprogrammering , deres interaktive narrative authoring -verktøy, og mange flere – Jeg oppfordrer deg til å bruke en stund på å utforske.

Som nevnt ovenfor; katalysatoren for denne utforskningen stammer fra min første nysgjerrighet om å vite hvordan jeg skal kjenne igjen følelser, som selv stammer fra et initiativ her på Metode kalt FINE.

FINE er et økosystem designet for å støtte den mentale helsen til små barn. Følelser er veldig sentralt i det – for både input og output.Selv om kameraet og tastaturet overvåker og slutter vi den følelsesmessige tilstanden til brukeren (e), og ved hjelp av disse dataene presenterer vi den samlede stemningen gjennom en delt enhet. Dette oppmuntrer til kommunikasjon, i tillegg til å tilby en empatisk følgesvenn gjennom en virtuell avatar som læres empati gjennom intelligens fra publikum.

Anvendelsen av følelsesgjenkjenning er veldig domenespesifikk, men jeg håper jeg har presentert et sterkt nok argument ovenfor for muligheten og sannsynligheten for adopsjon i de kommende årene. Anerkjennelse er derimot universell, og derfor vil jeg bruke resten av dette innlegget på kort å introdusere og oppsummere tilnærmingene vi tok for at FINE skulle utlede følelsen til brukeren, ved å bruke både et bilde av ansiktet og teksten de hadde skrevet. p>

Å gjenkjenne følelser fra ansiktsuttrykk

Et raskt søk på Google om hvor stor prosentandel av kommunikasjon som kommer gjennom kroppsspråk, fremhever raskt at mest kommunikasjon er verbal (kroppsspråk står for 55\% av det totale budskapet , tone utgjør 38\% og ord utgjør bare 7\%). Så det skal ikke komme på noen overraskelse at mye kan utledes bare ved å se på ansiktet deres – dette er premisset for at vi kan utlede andres følelser ved å undersøke ansiktsuttrykket. Så oppgaven kommer nå med å klassifisere ansiktsuttrykk for å bestemme følelser, og heldigvis har dette blitt godt studert og data gjort tilgjengelig.

Datasettet som brukes til å trene klassifisereren vår kommer fra en Kaggle-konkurranse ; det medfølgende datasettet består av over 20.000 gråtonebilder av ansikter som er merket manuelt som enten sint , avsky , frykt , lykkelig , trist , overraskelse , eller nøytral . Som med ethvert maskinlæringsprosjekt (ML); vår første oppgave er å bygge intuisjon rundt dataene og komme med noen teoretiske hypoteser om hvordan vi går frem for å utføre klassifisering. Nedenfor er noen eksempler på ansiktene fra datasettet vårt sammen med tilhørende etiketter.

Vår antagelse er at det er noe vanlig mønster mellom uttrykk og følelser; en måte å utforske og validere dette på er gjennom visualisering. For å visualisere det, kan vi ta gjennomsnittet ansiktet for hver følelse; nedenfor viser vi hvordan dette ser ut for følelsene sint , lykkelig , og overrasket .

Vi kan tydelig se at det er tydelige uttrykk for hver av disse følelsene; vår neste oppgave er å lære disse mønstrene. For dette eksperimentet brukte vi et Convolution Neural Network (eller ConvNet) for å lære disse mønstrene (vi gir detaljene her, men vil dele notatboken for de som er interessert i å vite de tekniske detaljene). Etter 15 treningsperioder oppnådde vi en valideringsnøyaktighet nær 60\% (ikke dårlig gitt grunnlinjen ville være rundt 14\%); resultatene av trening vist nedenfor.

Å gjenkjenne følelser fra tekst

Vi så før teksten (ordene vi bruker) utgjør bare 7\% av det totale budskapet; dette og det faktum at språk arver tvetydighet gjør det vanskeligere, men likevel en verdifull datakilde og noe som lett kan overvåkes passivt. For denne prototypen trente vi et Recurrent Neural Network (nok en gang vil vi hoppe over detaljene her, men vil dele Notisboken for de som er interessert i de tekniske detaljene) og portet den (modellen) til CoreML , Apples ML framework. Ledsaget av dette var et tilpasset iOS-tastatur som passivt overvåket hva brukeren skrev og brukte denne modellen for å bestemme den nåværende emosjonelle tilstanden til brukeren.

Data for tekst var vanskeligere å komme over; om enn det var noen få fra anerkjente kilder, ingen inneholdt en betydelig mengde eksempler for å trene et Deep Neural Network . Her ligger et viktig poeng; merkede data er skremmende, og det kan være dyrt å anskaffe dem.Ulike datasett ble prøvd etter endelig å gjøre opp med et datasett gjort tilgjengelig av CrowdFlower , et datasett som består av rundt 40 000 rader tweets som er merket med en av 13 følelser ( slik som lykke, tristhet og sinne). Et problem med datasettet var ubalansen i eksempler for hver følelse. Handlingen nedenfor viser denne fordelingen. Til tross for dette var målet vårt gjennomførbarhet og anvendelse i stedet for nøyaktighet, så vi fortsatte med dette datasettet.

Til tross for den betydelige ubalansen og mengden av treningseksempler, var vi fortsatt i stand til å oppnå en valideringsnøyaktighet på rundt 35\% etter 12 perioder.

Nedenfor vises klassifiseringen som blir utført på enheten (om enn simulatoren i dette tilfellet ).

Her har vi bare utforsket de åpenbare tilgjengelige kildene for å gjenkjenne følelser; andre inkluderer tone (tonefall), atferdsmessig (eller modellbasert) og positur, men det viktigste å ta bort er trenden fra eksplisitte til implisitte interaksjoner og hvordan følelser vil være en verdifull innspill for å bestemme hvordan systemet ditt engasjerer seg bruker.

Fra Human Computer Interaction (HCI) to Human Computer Relationships (HCR)

Vi avslutter dette innlegget med, igjen, og understreker utviklingen av HCI og hvordan viktigheten av vårt forhold med datamaskiner blir like viktig som hvordan vi kommuniserer med dem.

Det opprinnelige fokuset til HCI var rundt begrepet brukervennlighet. Når den første definisjonen av brukervennlighet bare var fokusert på begrepet enkelhet, dvs. «lett å lære, enkel å bruke», har den kontinuerlig utviklet seg sammen med fremskritt innen teknologi. Det undergraver nå kvalitetene som moro, velvære, kollektiv effekt, estetisk spenning, forbedret kreativitet, flyt, støtte for menneskelig utvikling og andre.

Det har gått utover den enkelte brukeren som sitter ved skrivebordet sitt, og vil fortsette å bevege seg drevet av de nye grensene muliggjort av teknologi. Denne avhengigheten av teknologi betyr kontinuerlig å undersøke, utvikle og utnytte nye områder av muligheter for å styrke menneskelig aktivitet og erfaring. Disse teknologiene gir nå muligheten til å gjenkjenne brukerens følelser; hva vil du gjøre med dette?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *