De evoluerende relatie van de mensheid met computers

Door Joshua Newnham, hoofdontwerp Technologist – Method London

(9 jan 2018)

In dit bericht bespreken we de evolutie van de relatie die we hebben met onze computationele metgezellen, en proberen we de toepassing van emotionele sensortechnologieën beter te begrijpen.

Interesse hebben in het kruispunt van ontwerp en kunstmatige intelligentie stelt je bloot aan veel interessante concepten en tools die op het eerste gezicht aantrekkelijk en relevant lijken, maar pas als je ermee gaat werken, begin je diepere en zinvollere vragen te stellen over hun toepassing en waarde voor de eindgebruiker. Dit was het geval met technologieën voor emotionele detectie, zoals die worden aangeboden door de populaire dienstverlener voor emotionele herkenning Affectiva , die tools biedt om de emotie van de gebruiker te herkennen op basis van een afbeelding van hun gezicht.

Als technoloog wordt u eerst aangetrokken door het hoe en het is pas nadat u vertrouwd raken met de ingewikkelde details van zijn innerlijke werking, zodat je het waarom in twijfel gaat trekken. Pas nadat ik had geleerd en systemen had ontwikkeld die emoties op bevredigende wijze konden classificeren op basis van wat tekst of een afbeelding van een gezicht, begon ik me af te vragen hoe deze konden worden toegepast. Het is pas onlangs dat ik de betekenis en toepasbaarheid ervan heb ingezien; deze realisatie is het startpunt van dit bericht.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

De behoefte aan een nieuwe lens

Geen enkele introductie van nieuwe technologie is compleet zonder de vermelding van de “paardenloze koets”; een term die door Don Norman wordt gebruikt bij het beschrijven van de acceptatie en evolutie van ontwerp voor nieuwe technologieën. Het benadrukt dat wij, ontwerpers en technologen, normaal onze bestaande mentale modellen projecteren op nieuwe technologieën en pas na vele iteraties beginnen we met het creëren van nieuwe mentale modellen die beter toepasbaar zijn voor de technologie. Een voor de hand liggend verhaal dat dit illustreert, is hoe televisieshows aanvankelijk werden ontworpen en uitgezonden; meestal zonder rekening te houden met het element dat hen rijker maakte dan de radio, namelijk de mogelijkheid om de toevoeging van afbeeldingen te gebruiken om een ​​verhaal uit te beelden. In plaats daarvan veranderden televisieshows in weinig meer dan een radioshow met afbeeldingen van de presentatoren.

Ondanks mijn bekendheid met en interesse in Affective Computing , was moeilijk voor te stellen dat emotieherkenning verder ging dan analyse en rapportage. Conceptueel had ik het natuurlijk vaak over de computer die de emotie van de gebruiker kon herkennen en erop kon reageren, maar ik ging niet veel dieper omdat ik niet kon zien hoe onze bestaande applicaties, zoals Microsoft Word, effectief konden zijn. gebruik ervan – tot voor kort. Maar om de betekenis van deze openbaring beter te begrijpen en te waarderen, is het belangrijk om een ​​stap terug te doen en te bekijken wat computers waren, hoe ze zich hebben ontwikkeld en wat hun waarschijnlijke traject betreft (met betrekking tot hun toepassing en hoe we ermee omgaan).

Een korte geschiedenis van de computer

Het concept van de computer werd in de 19e eeuw bedacht door een Engelse wiskundeprofessor genaamd Charles Babbage ; dit concept werd toepasselijk de Analytical Engine genoemd, waarmee het zijn doel van het uitvoeren en uitvoeren van wiskundige berekeningen benadrukte. Dit concept werd uiteindelijk rond 1943 gerealiseerd en vond toepassing op het gebied van trajectberekeningen voor militaire doeleinden. Gebruikers waren meestal hoogopgeleide professionals die met de computer communiceerden met behulp van ponskaarten met expliciete instructies die de computer moest volgen.

https://apple2history.org/history/ah16/

Vervolgens kwamen industriële computers in de vorm van mainframes; deze, geproduceerd door onder meer International Business Machines (IBM), leken veel op hun voorgangers en vereisten opnieuw hoog opgeleide gebruikers om ze te gebruiken, maar hun fysieke ponskaarten te vervangen door een digitale Command Line Interface (CLI) voor het indienen van hun instructies.Tijdens dit tijdperk; Er moet erkenning worden gegeven aan de vooruitgang in Human Computer Interaction (HCI) voor een kleine groep individuen; personen zoals Steve Russell die computers verder zagen dan alleen een batchcalculator en interactieve computerprogrammas bedachten (en maakten) die het eerste tijdperk van computerspellen mogelijk maakten, zoals als Spacewar! John McCarthy , beschouwd als de vader van kunstmatige intelligentie (AI), stelde zich de potentieel voor computers die de taken van mensen uitvoeren en Doug Engelbart die, paradoxaal genoeg, computers voorstelde die ons versterkten in plaats van ons te vervangen en een pionier voor een groot aantal directe manipulatieconcepten die we vandaag de dag nog steeds gebruiken, inclusief de muis en de grafische gebruikersinterface (GUI).

Eind jaren 70 zagen we de opkomst van personal computers (pcs); ondanks hun naam waren ze verre van persoonlijk, maar werden ze uiteindelijk betaalbaar en toepasbaar op een populatie die groot genoeg was om als mainstream te worden beschouwd. De geweldige applicatie op dat moment was de spreadsheet, een geavanceerde rekenmachine voor kantoorproductiviteit. Vanwege hun beschikbaarheid en acceptatie werd bruikbaarheid al snel erg belangrijk en het geven van commandos via een terminal vormde een barrière voor de meeste gebruikers.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Pas in de vroege jaren 80, met de introductie van de GUI, werd de interactie met computers (enigszins) gedemocratiseerd. De GUI gebruikte veel metaforen die uit de echte wereld waren geleend, dit samen met directe manipulatie en snelle feedback maakte computers toegankelijk voor een publiek dat verder gaat dan computerexperts. Gedurende deze tijd zagen we de opkomst van het web en uitgebreide toepassingen en use-cases van computers; gaande van pure analytische tools tot het worden gebruikt voor taken als communicatie, entertainment en creatief werk. Deze adoptie leidde tot een versnelling van de digitalisering van onze fysieke wereld; informatie, amusement en onze relaties werden bytes.

De volgende belangrijke mijlpaal die van invloed was op de manier waarop we computers gebruikten, was rond het midden van de jaren 80 met de verspreiding van internet; e-mail veranderde computers in communicatieapparaten; mensen hadden geen interactie, mensen hadden interactie met andere mensen via computers – dit paradigma, communiceren en samenwerken via een computer, wordt nu social computing genoemd.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Toen kwam de iPhone (en daarna Android); computers werden eindelijk echt persoonlijk, aanraking verminderde de wrijving bij het gebruik verder en de toevoeging van sensoren, connectiviteit en een verdere toename van digitalisering versterkten hun relevantie en gemak voor de echte wereld en ‘echte mensen’. Maar tot voor kort vroegen zij (computers) ons nog om expliciet instructies te geven en te communiceren via statische interfaces. Ondanks dat het abstractieniveau van de CLI is verhoogd, is het kerninteractiemodel nog steeds hetzelfde gebleven – dit is nu aan het veranderen.

We gaan nu een tijdperk binnen waarin we de convergentie van kunstmatige intelligentie (AI) zien. en Intelligence Augmentation (IA) – waarbij we systemen hebben die intelligentie gebruiken om ons beter te begrijpen (stem, afbeeldingen, tekst of gebaren), onze intentie en in staat zijn om taken semi-autonoom en soms proactief uit te voeren.

https://www.jibo.com /

Om de evolutie van hoe we omgaan met computers verder te illustreren, zal ik een plot lenen van Mark Billinghurst , computerinterfaceonderzoeker, die onze progressie naar natuurlijke gebruikersinterfaces in de loop van de tijd benadrukt.

Deze plot n Dit benadrukt niet alleen de afnemende wrijving tussen ons en computers (natuurlijke gebruikersinterfaces), maar ook hoe onze interacties verschuiven van expliciet naar impliciet, dat wil zeggen dat steeds meer van onze systemen anticiperend worden.

De andere opmerkelijke trends zijn onder meer de rol en functie van applicaties; verschuiving van het omgaan met zuivere, discrete instructies naar instructies die te maken hebben met een hoge mate van ambiguïteit, d.w.z. vroege toepassingen werden gebruikt voor het berekenen van rakettrajecten, terwijl moderne applicaties betrekking hebben op het aanbevelen van liedjes, films, partners en het organiseren van uw vergaderingen.De laatste trend die ik wil benadrukken, is hoe de vorm van de computer verandert, van een toetsenbord en scherm tot vele andere vormen, van draagbare leien die we in onze zakken meedragen tot intelligente luidsprekers die naast ons bed staan.

De bedoeling van het bovenstaande is niet om een ​​uitgebreide (of nauwkeurige) geschiedenisles in computergebruik te geven, maar om te benadrukken hoe de functie, vorm en onze relatie met computers in de loop van de tijd zijn geëvolueerd en het waarschijnlijke traject – verschuiving van een puur functionele tool voor een goede metgezel. Dus net zoals de GUI zwaar leende van de fysieke wereld om de interactie met computers vertrouwder en natuurlijker te maken, zo ook de behoefte om emoties te herkennen, erop te reageren en uit te beelden, dat wil zeggen dat we het frustrerend vinden om te praten met iets dat als intelligent wordt beschouwd als het niet kan herkennen en reageren op onze emotionele toestand. Het kunnen tonen van emoties biedt ook een andere manier om de huidige toestand van het systeem te communiceren om de gebruiker te helpen bij het bouwen van een nauwkeuriger en behulpzamer mentaal model van het systeem waarmee ze omgaan, dwz door verwarring uit te beelden, kan de gebruiker begrijpen dat het systeem hulp nodig heeft .

In het kort; in plaats van dat emotie puur wordt gebruikt voor analyse en rapportage, is emotionele intelligentie heel logisch wanneer u praat met een virtuele persoonlijke assistentie (VPA), digitale avatars of fysiek belichaamde computers, zoals een robot; in wezen elke keer dat u te maken heeft met een computer die op een natuurlijke manier kan worden gebruikt, enige autonomie heeft, met ambiguïteit en onzekerheid omgaat, u en uw voorkeuren kent en een zekere mate van vertrouwen vereist. Klinkt bekend? Deze eigenschappen zijn meestal beperkt tot mensen, maar nu hebben onze computergestuurde metgezellen deze eigenschappen ook verworven.

Laten we kort kijken naar een paar use-cases waarin emotionele intelligentie zinvol is en hoe deze kan worden toegepast.

Een voorbeeld dat deze verschuiving in de computerput illustreert is DragonBot ; een onderzoeksproject van de Social Robotics Group aan het MIT waarin intelligente bijlesystemen worden onderzocht. DragonBot gebruikt emotioneel bewustzijn om zich aan de leerling aan te passen, een van de toepassingen is bijvoorbeeld een voorleesspel dat de woorden aanpast op basis van de herkende emotie, dwz het systeem kan de moeilijkheidsgraad van de taak (woorden in dit geval) aanpassen op basis van de gebruikers vermogen bepaald door de herkende emotie.

Gespreksagenten (chatbots) zijn een voor de hand liggende mogelijkheid om emotionele herkenning te gebruiken. Momenteel voeren chatbots wat bekend staat als Natural Language Understanding (NLU) uit om de reacties te bepalen; dit antwoord is doorgaans afhankelijk van een gegeven context en afgeleid intent maar het zal niet lang duren (en sommige bestaan ​​al, zoals Emotibot ) voordat het standaard wordt om ook de herkende emotie bij het bepalen van de reactie op de gebruiker (niet alleen de taal aanpassen maar ook de toon om mee te reageren). Dit kan niet alleen de effectiviteit van communicatie vergroten, maar geeft ons ook de mogelijkheid om ongewenste gedragingen te vermijden in de manier waarop we met elkaar communiceren. We maken in de studio vaak grapjes over hoe stemassistenten, zoals Alexa, gedrag bij kinderen creëren waarbij ze dingen vragen in plaats van ze te vragen “Alexa Vertel me de tijd!”.

Als gespreksinterfaces meer doordringend worden, evenals de noodzaak om effectieve manieren te ontwikkelen om de emotie van de gebruikers te herkennen en aan te passen, vooral in de domeinen rond medische hulp ( Ada ) en mentale health ( woebot ).

Over het algemeen kan emotionele herkenning worden gebruikt om ofwel automatisch te verhogen engagement of past automatisch aan zijn gebruiker (s) aan; Disney Research biedt nog veel meer voorbeelden van waar emotionele herkenning een rol zal spelen bij het aanpassen van de inhoud; op basis van hun verkenning in interactieve televisieprogrammering voor kleuters , hun tool voor het maken van interactieve verhalen en nog veel meer – Ik moedig je aan om wat tijd door te brengen met verkennen.

Zoals hierboven vermeld; de katalysator voor deze verkenning kwam voort uit mijn aanvankelijke nieuwsgierigheid om te willen weten hoe emoties te herkennen, die zelf voortkwam uit een initiatief hier bij Method genaamd FINE.

FINE is een ecosysteem dat is ontworpen om de geestelijke gezondheid van jonge kinderen te ondersteunen. Emotie vormt de kern ervan – voor zowel input als output.Hoewel we de camera en het toetsenbord gebruiken, monitoren en leiden we de emotionele toestand van de gebruiker (s) af en met behulp van deze gegevens presenteren we de geaggregeerde stemming via een gedeeld apparaat. Dit stimuleert de communicatie en biedt een empathische metgezel via een virtuele avatar die empathie wordt aangeleerd door middel van crowdsourcing-intelligentie.

De toepassing van emotieherkenning is zeer domeinspecifiek, maar ik hoop dat ik hierboven een sterk genoeg argument heb aangedragen voor de mogelijkheid en waarschijnlijkheid van adoptie in de komende jaren. Erkenning aan de andere kant is universeel en daarom zal ik de rest van dit bericht besteden aan het kort introduceren en samenvatten van de benaderingen die we hebben gevolgd voor FINE om de emotie van de gebruiker af te leiden, met behulp van zowel een afbeelding van hun gezicht als de tekst die ze hadden geschreven.

Emotie herkennen aan onze gezichtsuitdrukkingen

Een snelle zoekopdracht op Google naar het percentage van de communicatie via lichaamstaal laat al snel zien dat de meeste communicatie non-verbaal is (lichaamstaal is goed voor 55\% van de totale boodschap , toon is goed voor 38\% en woorden zijn goed voor 7\%). Het zou dus geen verrassing moeten zijn dat veel kan worden afgeleid door simpelweg naar iemands gezicht te kijken – dit is het uitgangspunt dat we iemands emotie kunnen afleiden door simpelweg hun gezichtsuitdrukking te onderzoeken. Dus de taak komt er nu een van het classificeren van gezichtsuitdrukkingen om emotie te bepalen en gelukkig is dit goed bestudeerd en zijn de gegevens beschikbaar gesteld.

De dataset die wordt gebruikt bij het trainen van onze classifier is afkomstig van een Kaggle-wedstrijd ; de bijbehorende dataset bestaat uit meer dan 20.000 grijswaardenafbeeldingen van gezichten die handmatig zijn gelabeld als boos , walging , angst , blij , verdrietig , verrassing , of neutraal . Zoals bij elk Machine Learning (ML) -project; onze eerste taak is om intuïtie op te bouwen rond de gegevens en enkele theoretische hypothesen te bedenken over hoe we de classificatie uitvoeren. Hieronder staan ​​enkele voorbeelden van de gezichten uit onze dataset en de bijbehorende labels.

Onze veronderstelling is dat er een gemeenschappelijk patroon is tussen de uitdrukking en emotie; een manier om dit te onderzoeken en te valideren is door middel van visualisatie. Om het te visualiseren, kunnen we voor elke emotie het gemiddelde gezicht nemen; hieronder laten we zien hoe dit eruit ziet voor de emoties boos , blij , en verrast .

We kunnen duidelijk zien dat er verschillende uitdrukkingen zijn voor elk van deze emoties; onze volgende taak is om deze patronen te leren. Voor dit experiment hebben we een Convolution Neural Network (of ConvNet) gebruikt om deze patronen te leren (we laten de details hier achterwege, maar delen de Notebook voor diegenen die geïnteresseerd zijn de technische details). Na 15 trainingsperiodes bereikten we een validatienauwkeurigheid van bijna 60\% (niet slecht gezien de basislijn ongeveer 14\% zou zijn); de resultaten van de onderstaande training.

Emotie herkennen uit tekst

We zagen eerder dat tekst (de woorden die we gebruiken) slechts 7\% van de totale boodschap uitmaakt; dit en het feit dat talen dubbelzinnigheid erven, maakt het moeilijker, maar nog steeds een waardevolle bron van gegevens en iets dat gemakkelijk passief kan worden gecontroleerd. Voor dit prototype hebben we een terugkerend neuraal netwerk getraind (nogmaals, we slaan de details hier over, maar delen de notebook met degenen die geïnteresseerd zijn in de technische details) en porteerde het (het model) naar CoreML , Apples ML-framework. Dit werd vergezeld van een aangepast iOS-toetsenbord dat passief bewaakte wat de gebruiker typte en dit model gebruikte om de huidige emotionele toestand van de gebruiker te bepalen.

Gegevens voor tekst waren moeilijker te vinden; hoewel er een paar waren uit verdienstelijke bronnen, bevatte geen enkele een substantieel aantal voorbeelden om een ​​ diep neuraal netwerk te trainen. Hier ligt een belangrijk punt; gelabelde gegevens zijn beangstigend en het verkrijgen ervan kan duur zijn.Verschillende datasets zijn geprobeerd nadat ze eindelijk genoegen hadden genomen met een dataset die beschikbaar was gemaakt door CrowdFlower , een dataset die bestaat uit ongeveer 40.000 rijen tweets die zijn gelabeld met een van de 13 emoties ( zoals geluk, verdriet en woede). Een probleem met de dataset was de onbalans in voorbeelden voor elke emotie. De onderstaande grafiek toont deze verdeling. Desondanks was ons doel eerder de haalbaarheid en toepassing dan de nauwkeurigheid, dus gingen we door met deze dataset.

Ondanks de aanzienlijke onbalans en het aantal trainingsvoorbeelden, konden we na 12 tijdvakken nog steeds een validatienauwkeurigheid van ongeveer 35\% verkrijgen.

Hieronder ziet u de classificatie die wordt uitgevoerd op het apparaat (zij het in dit geval de simulator ).

Hier hebben we alleen onderzocht de voor de hand liggende beschikbare bronnen voor het herkennen van emotie; andere omvatten toon (tone of voice), gedrag (of model gebaseerd) en pose, maar het belangrijkste om weg te nemen is de trend weg van expliciete naar impliciete interacties en hoe emotie een waardevolle input zal zijn om te bepalen hoe uw systeem omgaat met de gebruiker.

Van Human Computer Interaction (HCI) naar Human Computer Relationships (HCR)

We sluiten dit bericht af door nogmaals de nadruk te leggen op de evolutie van HCI en hoe het belang van onze relatie met computers wordt net zo belangrijk als hoe we ermee omgaan.

De oorspronkelijke focus van HCI lag rond het concept van bruikbaarheid. Waar de oorspronkelijke definitie van bruikbaarheid uitsluitend gericht was op het concept eenvoud, d.w.z. “gemakkelijk te leren, gemakkelijk te gebruiken”, is het voortdurend in ontwikkeling, samen met technologische vooruitgang. Het omvat nu de kwaliteiten van plezier, welzijn, collectieve doeltreffendheid, esthetische spanning, verbeterde creativiteit, flow, ondersteuning voor menselijke ontwikkeling en andere.

Het is verder gegaan dan de individuele gebruiker die achter zijn bureaublad zit, en zal blijven bewegen, gedreven door de nieuwe grenzen die mogelijk worden gemaakt door technologie. Deze afhankelijkheid van technologie betekent dat we voortdurend nieuwe mogelijkheden moeten onderzoeken, ontwikkelen en benutten om de menselijke activiteit en ervaring te verbeteren. Die technologieën bieden nu de mogelijkheid om de emotie van de gebruiker te herkennen; wat ga je hiermee doen?

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *