Rapporto in evoluzione dellumanità con i computer

Pubblicato il

Di Joshua Newnham, Lead Design Technologist – Method London

(9 gennaio 2018)

In questo post discutiamo levoluzione del rapporto che abbiamo con i nostri compagni di calcolo e cerchiamo di comprendere meglio lapplicazione delle tecnologie di rilevamento emotivo.

Avere un interesse per lintersezione tra design e intelligenza artificiale ti espone a molti concetti e strumenti interessanti che a prima vista sembrano accattivanti e pertinenti, ma è solo quando inizi a lavorare con loro che inizi a fare domande più profonde e significative su la loro applicazione e il valore per lutente finale. Questo è stato il caso delle tecnologie di rilevamento emotivo, come quelle offerte dal famoso fornitore di servizi di riconoscimento emotivo Affectiva , che offre strumenti per riconoscere le emozioni dellutente sulla base di unimmagine di la loro faccia.

In qualità di tecnologo, sei prima attratto dal come ed è solo dopo di te acquisisci dimestichezza con i dettagli intricati dei suoi meccanismi interni che inizi a mettere in dubbio il perché. È stato solo dopo aver appreso e realizzato sistemi in grado di classificare in modo soddisfacente lemozione data un testo o unimmagine di un volto, che ho iniziato a chiedermi come questi potessero essere applicati. È solo di recente che mi sono reso conto del loro significato e applicabilità; questa consapevolezza è il punto di partenza di questo post.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

La necessità di un nuovo obiettivo

Nessuna introduzione di nuove tecnologie è completa senza la menzione della “carrozza senza cavalli”; un termine usato da Don Norman per descrivere ladozione e levoluzione del design per le nuove tecnologie. Sottolinea che noi, designer e tecnologi, normalmente proiettiamo i nostri modelli mentali esistenti su nuove tecnologie ed è solo dopo molte iterazioni che iniziamo a creare nuovi modelli mentali che sono più applicabili per la tecnologia. Una storia ovvia che illustra questo è il modo in cui gli spettacoli televisivi sono stati inizialmente progettati e trasmessi; per lo più ignorando lelemento che li rendeva più ricchi della radio, che era la capacità di utilizzare laggiunta di immagini per ritrarre una storia. Invece i programmi televisivi sono tornati a poco più di un programma radiofonico con le immagini dei presentatori.

Nonostante la mia consapevolezza e interesse per Affective Computing , era difficile immaginare luso del riconoscimento delle emozioni al di là dellanalisi e del reporting. Certo, concettualmente, parlavo spesso del fatto che il computer è in grado di riconoscere e rispondere alle emozioni dellutente ma non ho scavato molto più a fondo perché non riuscivo a vedere come le nostre applicazioni esistenti, come Microsoft Word, potessero essere efficaci uso di esso – fino a poco tempo. Ma per comprendere e apprezzare meglio il significato di questa rivelazione è importante fare un passo indietro e rivedere cosa erano i computer, come si sono evoluti e la loro probabile traiettoria (rispetto alla loro applicazione e come interagiamo con loro).

Breve storia del computer

Il concetto di computer è stato ideato nel XIX secolo da un professore di matematica inglese di nome Charles Babbage ; questo concetto è stato appropriatamente denominato Analytical Engine , sottolineando il suo scopo di eseguire ed emettere calcoli matematici. Questo concetto fu finalmente realizzato intorno al 1943 e trovò applicazione nel campo del calcolo della traiettoria per scopi militari. Gli utenti tendevano ad essere professionisti altamente qualificati che interagivano con il computer utilizzando schede perforate che dettagliavano istruzioni esplicite da seguire per il computer.

https://apple2history.org/history/ah16/

Poi vennero i computer industriali sotto forma di mainframe; questi, prodotti da aziende del calibro di International Business Machines (IBM), assomigliavano a gran parte dei loro predecessori e ancora una volta richiedevano utenti altamente qualificati per usarli ma sostituivano le loro schede perforate fisiche con uninterfaccia a riga di comando digitale (CLI) per inviare le loro istruzioni.Durante questa era; è necessario riconoscere i progressi nellinterazione uomo-computer (HCI) a un piccolo gruppo di individui; individui come Steve Russell che vedevano i computer oltre un semplice calcolatore batch e immaginavano (e creavano) programmi per computer interattivi che consentivano la prima era di giochi per computer come come Spacewar! John McCarthy , considerato il padre dellintelligenza artificiale (AI), ha immaginato potenziale per i computer che eseguono i compiti degli esseri umani e Doug Engelbart che, paradossalmente, immaginava computer che ci aumentassero piuttosto che sostituirci e un pioniere per una vasta gamma di dirette concetti di manipolazione che utilizziamo ancora oggi, inclusi il mouse e linterfaccia utente grafica (GUI).

Alla fine degli anni 70 abbiamo assistito allascesa dei personal computer (PC); nonostante il loro nome erano tuttaltro che personali, ma alla fine sono diventati accessibili e applicabili a una popolazione abbastanza ampia da essere considerati mainstream. Lapplicazione killer allepoca era il foglio di calcolo, un sofisticato calcolatore per la produttività dellufficio. A causa della loro disponibilità e adozione, lusabilità divenne presto molto importante e lemissione di comandi tramite un terminale costituiva un ostacolo per la maggior parte degli utenti.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Fu solo allinizio degli anni 80, con lintroduzione della GUI, che linterazione con i computer divenne (in qualche modo) democratizzata. La GUI ha utilizzato molte metafore prese in prestito dal mondo reale, questo insieme alla manipolazione diretta e al feedback rapido ha reso i computer accessibili a un pubblico al di là degli esperti di computer. Durante questo periodo abbiamo assistito allascesa del web e di applicazioni estese e casi duso dei computer; passando da puri strumenti analitici ad essere utilizzati per compiti come la comunicazione, lintrattenimento e il lavoro creativo. Questa adozione ha portato allaccelerazione della digitalizzazione del nostro mondo fisico; informazioni, intrattenimento e le nostre relazioni sono diventati byte.

Il prossimo traguardo significativo che ha influenzato il modo in cui abbiamo utilizzato i computer è stato intorno alla metà degli anni 80 con la proliferazione di Internet; la posta elettronica ha trasformato i computer in dispositivi di comunicazione; le persone non interagivano, le persone interagivano con altre persone attraverso i computer: questo paradigma, comunicare e collaborare tramite un computer, è ora denominato social computing.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Poi è arrivato liPhone (e poi Android); i computer sono finalmente diventati veramente personali, il tocco ha ulteriormente ridotto lattrito di utilizzo e laggiunta di sensori, connettività e un ulteriore aumento della digitalizzazione hanno rafforzato la loro rilevanza e comodità per il mondo reale e per le “persone reali”. Ma fino a poco tempo fa loro (i computer) ci chiedevano ancora di istruirli esplicitamente e di comunicare attraverso interfacce statiche. Nonostante abbia aumentato il livello di astrazione dalla CLI, il modello di interazione principale è rimasto lo stesso: ora sta cambiando.

Stiamo entrando in unera in cui stiamo assistendo alla convergenza dellintelligenza artificiale (AI) e Intelligence Augmentation (IA), grazie ai quali disponiamo di sistemi che utilizzano l “intelligenza” per comprendere meglio noi (vocale, pittorico, testuale o gestuale), il nostro intento e siamo in grado di svolgere compiti in modo semi-autonomo e, a volte, in modo proattivo.

https://www.jibo.com /

Per illustrare ulteriormente levoluzione del modo in cui interagiamo con i computer, prenderò in prestito una trama da Mark Billinghurst , ricercatore di interfacce per computer, che evidenzia la nostra progressione verso interfacce utente naturali nel tempo.

Questo grafico n ot evidenzia solo la diminuzione dellattrito tra noi e i computer (interfacce utente naturali) ma anche come le nostre interazioni si stanno spostando dallessere esplicite a implicite, ovvero sempre più i nostri sistemi stanno diventando anticipatori.

Le altre tendenze importanti includono il ruolo e la funzione delle applicazioni; passando dalla gestione di istruzioni chiare e discrete a quelle che si occupano di alti gradi di ambiguità, ad esempio le prime applicazioni sono state utilizzate per calcolare le traiettorie dei missili mentre le applicazioni moderne si occupano di consigliare canzoni, film, partner e organizzare le vostre riunioni.Lultima tendenza che voglio sottolineare è come sta cambiando la forma del computer, da una tastiera e uno schermo a molte altre forme, dalle lavagnette portatili che portiamo in tasca agli altoparlanti intelligenti che siedono accanto al nostro letto.

Lintenzione di quanto sopra non è fornire una lezione di storia completa (o accurata) sullinformatica, ma piuttosto evidenziare come la funzione, la forma e il nostro rapporto con i computer si siano evoluti nel tempo ed è probabile che la traiettoria – passando da strumento funzionale per un compagno vicino. Così, proprio come la GUI ha preso in prestito pesantemente dal mondo fisico per rendere linterazione con i computer più familiare e naturale, così anche la necessità di riconoscere, reagire e rappresentare le emozioni, ovvero troveremo frustrante parlare con qualcosa ritenuto intelligente se non è in grado di riconoscere e rispondere al nostro stato emotivo. Essere in grado di esibire emozioni fornisce anche un altro mezzo per comunicare lo stato attuale del sistema per aiutare lutente a costruire un modello mentale più accurato e utile del sistema con cui sta interagendo, ad esempio raffigurare la confusione potrebbe aiutare lutente a capire che il sistema ha bisogno di assistenza .

In breve; invece di usare lemozione esclusivamente per analisi e report, lintelligenza emotiva ha molto senso quando parli con unassistenza personale virtuale (VPA), avatar digitali o computer fisicamente incorporati, come un robot; essenzialmente ogni volta che hai a che fare con un computer con cui è possibile interagire in modo naturale, ha una certa autonomia, si occupa di ambiguità e incertezza, conosce te e le tue preferenze e richiede un livello di fiducia. Suona familiare? Questi tratti sono stati tipicamente limitati alle persone, ma ora anche i nostri compagni computazionali hanno acquisito questi tratti.

Diamo unocchiata brevemente a un paio di casi duso in cui lintelligenza emotiva ha senso e come può essere applicata.

Un esempio che illustra bene questo cambiamento nellinformatica è DragonBot ; un progetto di ricerca del Social Robotics Group del MIT che esplora sistemi di tutoraggio intelligenti. DragonBot utilizza la consapevolezza emotiva per adattarsi allo studente, ad esempio, una delle applicazioni è un gioco di lettura che adatta le parole in base allemozione riconosciuta, ovvero il sistema può regolare la difficoltà del compito (parole in questo caso) in base agli utenti abilità determinata dallemozione riconosciuta.

Gli agenti di conversazione (chatbot) sono unovvia opportunità per utilizzare il riconoscimento emotivo. Attualmente i chatbot eseguono ciò che è noto come Natural Language Understanding (NLU) per determinare le risposte; questa risposta dipende in genere da un contesto e dedotto intent ma non passerà molto tempo (e alcuni esistono già, come Emotibot ) prima che diventi standard anche luso del riconosciuto emozione quando si determina la risposta allutente (adattando non solo la lingua ma anche il tono con cui rispondere). Questo non solo può aumentare lefficacia della comunicazione, ma ci dà anche lopportunità di evitare di creare comportamenti indesiderabili nel modo in cui comunichiamo tra di noi. Spesso scherziamo in studio su come gli assistenti vocali, come Alexa, stiano creando comportamenti nei bambini in cui chiederanno cose piuttosto che chiedere loro “Alexa dimmi lora!”.

Come interfacce di conversazione diventare più pervasivo, così come la necessità di sviluppare modi efficaci per riconoscere e adattarsi alle emozioni degli utenti, specialmente nei settori dellassistenza medica ( Ada ) e mentale salute ( woebot ).

In genere il riconoscimento emotivo può essere utilizzato per aumentare automaticamente coinvolgimento o adatta automaticamente ai suoi utenti; Disney Research che fornisce molti altri esempi di dove il riconoscimento emotivo avrà un ruolo nelladattamento del contenuto; dalla loro esplorazione nella programmazione televisiva prescolare interattiva , dal loro strumento di creazione narrativa interattiva e molti altri – Ti incoraggio a trascorrere un po di tempo esplorando.

Come accennato in precedenza; il catalizzatore di questa esplorazione è derivato dalla mia curiosità iniziale di voler sapere come riconoscere lemozione, che a sua volta è nata da uniniziativa qui al Metodo chiamata FINE.

FINE è un ecosistema progettato per supportare la salute mentale dei bambini piccoli. Lemozione è al centro di tutto, sia per input che per output.Attraverso la fotocamera e la tastiera, monitoriamo e deduciamo lo stato emotivo degli utenti e, utilizzando questi dati, presentiamo lumore aggregato attraverso un dispositivo condiviso. Ciò incoraggia la comunicazione e offre un compagno empatico attraverso un avatar virtuale insegnato empatia attraverso lintelligenza di crowdsourcing.

Lapplicazione del riconoscimento delle emozioni è molto specifica per il dominio, ma spero di aver presentato un argomento abbastanza forte sopra per la sua opportunità e probabilità di adozione nei prossimi anni. Il riconoscimento, daltra parte, è universale e quindi trascorrerò il resto di questo post introducendo e riassumendo brevemente gli approcci che abbiamo adottato per FINE per dedurre lemozione dellutente, utilizzando sia unimmagine del viso che il testo che aveva scritto.

Riconoscere le emozioni dalle nostre espressioni facciali

Una rapida ricerca su Google sulla percentuale di comunicazione che proviene dal linguaggio del corpo evidenzia rapidamente che la maggior parte della comunicazione è non verbale (il linguaggio del corpo rappresenta il 55\% del messaggio complessivo , il tono rappresenta il 38\% e le parole solo il 7\%). Quindi non dovrebbe sorprendere che si possa dedurre molto semplicemente guardando il proprio viso: questa è la premessa per noi essere in grado di dedurre le emozioni di qualcuno semplicemente esaminando la loro espressione facciale. Quindi il compito ora è quello di classificare le espressioni facciali per determinare le emozioni e fortunatamente questo è stato ben studiato e i dati resi disponibili.

Il set di dati utilizzato nelladdestramento del nostro classificatore proviene da un Concorso Kaggle ; il set di dati di accompagnamento è costituito da oltre 20.000 immagini in scala di grigi di volti che sono stati etichettati manualmente come arrabbiato , disgusto , fear , happy , sad , sorpresa o neutral . Come con qualsiasi progetto di Machine Learning (ML); il nostro primo compito è costruire unintuizione intorno ai dati e formulare alcune ipotesi teoriche su come eseguire la classificazione. Di seguito sono riportati alcuni esempi dei volti del nostro set di dati insieme alle etichette associate.

La nostra ipotesi è che ci sia uno schema comune tra lespressione e lemozione; un modo per esplorare e convalidare questo è attraverso la visualizzazione. Per visualizzarlo, possiamo prendere la faccia media per ogni emozione; di seguito mostriamo come appare questo per le emozioni arrabbiato , felice e sorpreso .

Possiamo vedere chiaramente che ci sono espressioni distinte per ciascuna di queste emozioni; il nostro prossimo compito è imparare questi modelli. Per questo esperimento abbiamo utilizzato una Convolution Neural Network (o ConvNet) per apprendere questi modelli (qui rinunciamo ai dettagli ma condivideremo il Notebook per coloro che sono interessati a conoscere i dettagli tecnici). Dopo 15 epoche di addestramento abbiamo raggiunto unaccuratezza di convalida prossima al 60\% (non male dato che la linea di base sarebbe intorno al 14\%); i risultati della formazione mostrati di seguito.

Riconoscere le emozioni dal testo

Abbiamo visto prima che il testo (le parole che usiamo) rappresenta solo il 7\% del messaggio complessivo; questo e il fatto che le lingue ereditino lambiguità lo rendono più difficile ma ancora una preziosa fonte di dati e qualcosa che può essere facilmente monitorato passivamente. Per questo prototipo abbiamo addestrato una Rete neurale ricorrente (ancora una volta salteremo i dettagli qui ma condivideremo il Notebook per chi è interessato ai dettagli tecnici) e lo ha portato (il modello) in CoreML , framework Apples ML. Ad accompagnarlo cera una tastiera iOS personalizzata che monitorava passivamente ciò che lutente digitava e utilizzava questo modello per determinare lattuale stato emotivo dellutente.

I dati per il testo erano più difficili da trovare; sebbene ce ne fossero alcuni da fonti attendibili, nessuno conteneva una quantità sostanziale di esempi per addestrare una rete neurale profonda . Qui sta un punto importante; i dati etichettati fanno paura e acquisirli può essere costoso.Vari set di dati sono stati provati dopo essersi finalmente stabiliti con un set di dati reso disponibile da CrowdFlower , un set di dati composto da circa 40.000 righe di tweet che sono stati etichettati con una delle 13 emozioni ( come felicità, tristezza e rabbia). Un problema con il set di dati era lo squilibrio negli esempi per ogni emozione. La trama seguente mostra questa distribuzione. Nonostante ciò, il nostro obiettivo era la fattibilità e lapplicazione piuttosto che laccuratezza, quindi abbiamo continuato con questo set di dati.

Nonostante il notevole squilibrio e la quantità di esempi di addestramento, siamo stati comunque in grado di ottenere una precisione di convalida di circa il 35\% dopo 12 epoche.

Di seguito viene mostrata la classificazione eseguita sul dispositivo (sebbene in questo caso il simulatore ).

Qui abbiamo solo esplorato le ovvie fonti disponibili per riconoscere le emozioni; altri includono tono (tono di voce), comportamentale (o basato su un modello) e posa, ma la cosa importante da togliere è la tendenza che va dalle interazioni esplicite a quelle implicite e come lemozione sarà un input prezioso per determinare come il tuo sistema interagisce con utente.

Da Human Computer Interaction (HCI) a Human Computer Relationships (HCR)

Concludiamo questo post, ancora una volta, sottolineando levoluzione dellHCI e come limportanza della nostra relazione con i computer sta diventando importante tanto quanto il modo in cui interagiamo con loro.

Il focus originale di HCI era intorno al concetto di usabilità . Laddove la definizione iniziale di usabilità era incentrata esclusivamente sul concetto di semplicità, ovvero “facile da imparare, facile da usare”, è stata in continua evoluzione insieme ai progressi della tecnologia. Ora racchiude le qualità di divertimento, benessere, efficacia collettiva, tensione estetica, creatività potenziata, flusso, supporto per lo sviluppo umano e altro.

È andato oltre il singolo utente seduto al desktop e continuerà a muoversi spinto dalle nuove frontiere rese possibili dalla tecnologia. Questa dipendenza dalla tecnologia significa indagare, sviluppare e sfruttare continuamente nuove aree di possibilità per migliorare lattività e lesperienza umana. Queste tecnologie offrono ora lopportunità di riconoscere lemozione dellutente; cosa farai con questo?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *