Az emberiség fejlődő kapcsolata a számítógépekkel

Joshua Newnham, vezető tervezés Technológus – London módszer

(2018. jan. 9.)

Ebben a bejegyzésben a számítástechnikai társainkkal fennálló kapcsolat alakulását vitatjuk meg, és arra törekszünk, hogy jobban megértsük az érzelmi érzékelő technológiák alkalmazását.

Érdeklődik a design és a mesterséges intelligencia metszéspontja iránt A sok érdekes fogalom és eszköz elé tárja Önt, amelyek első ránézésre vonzónak és relevánsnak tűnnek, de csak akkor kezd el mélyebb és tartalmasabb kérdéseket feltenni velük kapcsolatban, alkalmazásuk és értékük a végfelhasználó számára. Ez vonatkozott az érzelmi érzékelő technológiákra, például a népszerű érzelmi felismerési szolgáltató Affectiva által kínáltakra, amelyek eszközöket kínálnak a felhasználó érzelmének felismerésére egy kép alapján. az arcuk.

Technológusként először a hogyan vonzza Önt, hogy és csak utána váljon kényelmessé a belső működésének bonyolult részleteivel kapcsolatban, hogy kezdje el megkérdőjelezni a miértet. Csak miután megtanultam és olyan rendszereket készítettem, amelyek kielégítően osztályozhatták az érzelmeket, ha valamilyen szöveget vagy arcképet kaptak, elkezdtem megkérdőjelezni, hogyan lehet ezeket alkalmazni. Csak nemrég jöttem rá jelentőségükre és alkalmazhatóságukra; ez a felismerés a bejegyzés kiindulópontja.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

Új objektív szükségessége

Az „újszerű technológia” bevezetése nem fejeződik be a „ló nélküli kocsi” megemlítése nélkül; ezt a kifejezést Don Norman használta az új technológiák tervezésének elfogadásának és fejlődésének leírására. Kiemeli, hogy mi, tervezők és technológusok, rendszerint új technológiákra vetítjük meglévő mentális modelljeinket, és csak sok ismétlés után kezdünk el új, a technológiára jobban alkalmazható mentális modelleket létrehozni. Nyilvánvaló történet, amely ezt szemlélteti, hogy a televíziós műsorokat kezdetben megtervezték és sugározták; többnyire figyelmen kívül hagyva azt az elemet, amely gazdagabbá tette őket, mint a rádió, vagyis az a képesség, hogy a képek hozzáadásával történetet ábrázolhat. Ehelyett a televíziós műsorok alig tértek vissza, mint egy rádióműsor a műsorvezetők képeivel.

Annak ellenére, hogy tudatában vagyok és érdeklődöm az affektív számítástechnika iránt , ez nehéz volt elképzelni az érzelemfelismerés alkalmazását az elemzésen és a jelentéseken túl. Természetesen fogalmilag gyakran beszéltem arról, hogy a számítógép képes felismerni és reagálni a felhasználó érzelmeire, de nem mélyedtem el mélyebben, mivel nem láttam, hogy a meglévő alkalmazásaink, például a Microsoft Word hogyan tudnának hatékonyan működni használata – egészen a közelmúltig. De ennek a kinyilatkoztatásnak a jelentőségét jobban megérteni és megbecsülni fontos, hogy egy lépést hátralépve áttekintjük, hogy mik voltak a számítógépek, hogyan fejlődtek és milyen pályájuk volt (az alkalmazásukat és a velük való kölcsönhatásukat illetően).

A számítógép rövid története

A számítógép fogalmát a 19. században egy Charles Babbage ; ezt a koncepciót megfelelően elnevezték a elemző motornak , kiemelve a matematikai számítások végrehajtásának és kiadásának célját. Ezt a koncepciót végül 1943 körül valósították meg, és alkalmazást találtak a pálya-számítások területén katonai célokra. A felhasználók általában magasan képzett szakemberek voltak, akik lyukkártyák segítségével léptek kapcsolatba a számítógéppel, részletesen ismertetve a számítógép követendő utasításait.

https://apple2history.org/history/ah16/

Ezután következnek az ipari számítógépek nagygépek formájában; ezek, amelyeket a Nemzetközi Üzleti Gépek (IBM) gyártottak, hasonlítottak elődeik nagy részéhez, és ismét magasan képzett felhasználókat igényeltek, hogy használhassák őket, de fizikai lyukártyáikat digitális parancssori interfésszel (CLI) cserélik le utasításaik benyújtásához.Ebben a korszakban; tudomásul kell venni az emberi számítógépes interakció (HCI) fejlődését az egyének kis csoportja számára; olyan személyek, mint Steve Russell , akik csak egy kötegelt számológépen túl látták a számítógépeket, és olyan interaktív számítógépes programokat képzeltek el (és hoztak létre), amelyek lehetővé tették a számítógépes játékok első korszakát, például ahogy a mesterséges intelligencia (AI) atyjának tartott Űrháború! John McCarthy elképzelte a az emberi és Doug Engelbart feladatait ellátó számítógépek potenciálja, akik paradox módon olyan számítógépeket képzeltek el, amelyek minket gyarapítanak, nem pedig helyettesítenek minket, és úttörők a közvetlen a mai napig használt manipulációs fogalmak, beleértve az egeret és a grafikus felhasználói felületet (GUI).

A 70-es évek végén a személyes számítógépek (PC-k) térnyerését tapasztaltuk; Nevük ellenére távolról sem voltak személyes jellegűek, de végül megfizethetővé váltak és elég nagy népesség számára alkalmazhatóak ahhoz, hogy mainstreamnek tekinthetők legyenek. A gyilkos alkalmazás akkoriban a táblázat volt, egy kifinomult számológép az irodai termelékenység érdekében. Elérhetőségük és elfogadásuk miatt a használhatóság hamar nagyon fontossá vált, és a parancsok kiadása a terminálon keresztül akadályt jelentett a legtöbb felhasználó számára.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

Csak a 80-as évek elején, a GUI bevezetésével vált (kissé) demokratizálódott a számítógépekkel való interakció. A grafikus felhasználói felület számos, a való világból kölcsönzött metaforát használt, ez a közvetlen manipulációval és a gyors visszacsatolással együtt a számítógépeket a számítógépes szakértőkön túl is elérhetővé tette a számítógépek számára. Ez idő alatt a webes térhódítás és a számítógépek kiterjesztett alkalmazás- és használati eseteinek növekedését tapasztaltuk; a tiszta analitikai eszközöktől az olyan feladatokig történő felhasználásig, mint a kommunikáció, a szórakozás és az alkotó munka. Ez az elfogadás fizikai világunk digitalizálásának felgyorsulásához vezetett; információ, szórakozás és kapcsolataink bájtokká váltak.

A következő jelentős mérföldkő, amely befolyásolta a számítógépek használatát, a 80-as évek közepe táján, az internet elterjedésével volt; az e-mail a számítógépeket kommunikációs eszközökké változtatta; az emberek nem egymással, hanem másokkal léptek kapcsolatba számítógépekkel – ezt a paradigmát, a számítógépen keresztüli kommunikációt és együttműködést ma társadalmi számításnak nevezik.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

Ezután jött az iPhone (majd az Android); a számítógépek végül valóban személyessé váltak, az érintés tovább csökkentette a használat súrlódását, az érzékelők hozzáadása, a csatlakozás és a digitalizálás további növekedése megerősítette relevanciájukat és kényelmüket a való világ és a „valós emberek” számára. De egészen a közelmúltig (számítógépek) még mindig megkövetelték tőlünk, hogy kifejezetten utasítsuk őket és statikus interfészeken keresztül kommunikáljunk. Annak ellenére, hogy növelte a CLI absztrakciójának szintjét, az alapvető interakciós modell továbbra is ugyanaz maradt – ez most változik.

Most egy olyan korszakba lépünk, amikor a mesterséges intelligencia (AI) konvergenciáját látjuk. és az intelligencia kiterjesztése (IA) – amelynek révén olyan rendszereink vannak, amelyek „intelligenciát” használnak, hogy jobban megértsenek minket (hang, kép, szöveg vagy gesztus), szándékunkat, és képesek félig autonóm módon, és néha proaktívan is feladatokat végrehajtani.

https://www.jibo.com /

Annak érdekében, hogy tovább szemléltessem a számítógépekkel való kölcsönhatás fejlődését, kölcsön veszek egy cselekményt a következőtől: Mark Billinghurst , a számítógépes interfész kutatója, amely kiemeli a természetes felhasználói felületek felé való haladásunkat az idő múlásával.

Ez a cselekmény n Csak azt emeli ki, hogy csökken a súrlódás köztünk és a számítógépek között (természetes felhasználói felületek), hanem azt is, hogy interakcióink hogyan mozdulnak el az explicittől az implicitig, azaz egyre több rendszerünk válik előrejelzővé.

A többi figyelemre méltó tendencia a következők: az alkalmazások szerepe és funkciója; áttérés a tiszta, diszkrét utasítások kezeléséről azokra, amelyek nagyfokú kétértelműséggel foglalkoznak, vagyis a rakétapályák kiszámításához a korai alkalmazásokat használták, míg a modern alkalmazások dalok, filmek, partnerek ajánlásával és az értekezletek szervezésével foglalkoznak.Az utolsó trend, amelyet ki szeretnék emelni, az, ahogyan a számítógép formája változik, a billentyűzetről és a képernyőről a sok más formára, a zsebünkben hordozható paláktól kezdve az ágyunk mellett ülő intelligens hangszórókig.

A fentiek célja nem egy átfogó (vagy pontos) történelemóra biztosítása a számítástechnikában, hanem inkább annak kiemelése, hogy a funkció, forma és a számítógépekkel való kapcsolatunk hogyan fejlődött az idők során, és ez valószínűleg a pálya – eltolódva egy tiszta funkcionális eszköz egy közeli társnak. Ahogyan a grafikus felhasználói felület sokat kölcsönzött a fizikai világtól, hogy ismertebbé és természetesebbé tegye a számítógéppel való interakciót, ugyanígy szükség lesz az érzelmek felismerésére, reagálására és ábrázolására is, azaz bosszantónak találjuk, ha intelligensnek tekintünk valamit, ha nem képes felismerni és reagáljon érzelmi állapotunkra. Az érzelmek megjelenítésének egy másik eszköze a rendszer aktuális állapotának kommunikációja is, amely segít a felhasználónak abban, hogy pontosabb és hasznosabb mentális modellt építsen ki a rendszerről, amellyel kommunikálnak, azaz zavart ábrázolva segíthet a felhasználónak megérteni, hogy a rendszernek segítségre van szüksége .

Röviden; Ahelyett, hogy az érzelmeket pusztán elemzésre és jelentésekre használják, az érzelmi intelligenciának sok értelme van, ha virtuális személyes segítséggel (VPA), digitális avatarokkal vagy fizikailag megtestesített számítógépekkel, például robotokkal beszélget; lényegében bármikor olyan számítógéppel foglalkozik, amely természetes módon kölcsönhatásba léphet, rendelkezik bizonyos autonómiával, kétértelműséggel és bizonytalansággal, ismeri Önt és preferenciáit, és bizonyos szintű bizalmat igényel. Ismerős? Ezek a tulajdonságok általában az emberekre korlátozódtak, de most számítástechnikai társaink is megszerezték ezeket a tulajdonságokat.

Vizsgáljuk meg röviden néhány olyan esetet, amikor az érzelmi intelligenciának van értelme és hogyan alkalmazható.

Az egyik példa, amely jól szemlélteti a számítástechnika ezen változását, a DragonBot ; az MIT Social Robotics Group kutatási projektje, amely intelligens oktatórendszereket tár fel. A DragonBot az érzelmi tudatosságot alkalmazza a tanulóhoz való alkalmazkodáshoz, például az egyik alkalmazás egy olvasási játék, amely a felismert érzelem alapján adaptálja a szavakat, vagyis a rendszer a felhasználók alapján beállíthatja a feladat nehézségét (ebben az esetben szavakat). a felismert érzelem által meghatározott képesség.

A beszélgetési ügynökök (chatbotok) nyilvánvaló lehetőség az érzelmi felismerés használatára. Jelenleg a csevegőrobotok a természetes nyelv megértése (NLU) néven elvégzik a válaszok meghatározását; ez a válasz általában egy adott kontextustól függ és következtetett szándék de nem lesz hosszú (és néhány már létezik, például Emotibot ), mire az általánossá válik az elismert használat érzelem a felhasználóra adott válasz meghatározásakor (nemcsak a nyelv, hanem a hangnem is, hogy reagáljon vele). Ez nem csak növelheti a kommunikáció hatékonyságát, hanem lehetőséget ad arra is, hogy elkerüljük a nemkívánatos viselkedés kialakulását abban, ahogyan kommunikálunk egymással. A stúdióban gyakran viccelődünk arról, hogy a hangsegédek, például Alexa, hogyan viselkednek a gyerekekben, ahol inkább dolgokat követelnek, mintsem azt kérnék tőlük, hogy „Alexa Mondd el az időt!”.

Beszélgetési interfészként elterjedtebbé válik, így szükség lesz a felhasználói érzelmek felismerésének és az azokhoz való alkalmazkodás hatékony módjainak kidolgozására, különösen az orvosi segítségnyújtás ( Ada ) és a mentális egészség ( woebot ).

Általában az érzelmi felismerés használható akár automatikusan eljegyzés vagy automatikusan alkalmazkodik a felhasználóhoz; Disney Research számos további példával szolgál arra vonatkozóan, hogy az érzelmi felismerés hol játszik szerepet a tartalom adaptálásában; az interaktív óvodai televíziós műsorszolgáltatásban , az interaktív elbeszélés szerzői eszközükben és még sok másban – Javaslom, hogy töltsön valamikor felfedezéssel.

Mint fent említettük; ennek a feltárásnak a katalizátora abból a kíváncsiságból fakadt, hogy szeretném tudni, hogyan lehet felismerni az érzelmeket, ami maga is a FINE nevű módszer kezdeményezéséből fakadt.

A FINE egy olyan ökoszisztéma, amelyet a kisgyermekek mentális egészségének támogatására terveztek. Az érzelem nagyon középpontjában áll – mind a bemenet, mind a kimenet szempontjából.A kamera és a billentyűzet ugyan figyelemmel kísérjük és kikövetkeztetjük a felhasználó (k) érzelmi állapotát, és ezeket az adatokat felhasználva egy közös eszközön keresztül bemutatjuk az összesített hangulatot. Ez ösztönzi a kommunikációt, empatikus társat kínál egy virtuális avatáron keresztül, amelyet a tömegből származó intelligencia révén megtanított az empátiára.

Az érzelemfelismerés alkalmazása nagyon specifikus, de remélem, hogy fent egy elég erős érvet bemutattam annak lehetőségére és valószínűségére az elkövetkező években. Az elismerés viszont univerzális, és ezért a bejegyzés további részét röviden bemutatom és összefoglalom azokat a megközelítéseket, amelyeket a FINE-nél a felhasználó érzelmeinek következtetésére használtunk, mind az arcuk képe, mind az általuk írt szöveg felhasználásával.

Az érzelmek felismerése az arckifejezéseinkből

A Google-on végzett gyors keresés arról, hogy a kommunikáció hány százaléka érkezik a testbeszéden keresztül, gyorsan rávilágít arra, hogy a kommunikáció nagy része nonverbális (a testbeszéd az összes üzenet 55\% -át teszi ki , a hangnem 38\% és a szavak csak 7\%). Tehát nem lehet meglepő, hogy sok mindenre következtethetünk pusztán az arcukra nézve – ez az előfeltétel számunkra, hogy valakinek az érzelmére következtethessünk pusztán az arckifejezésük vizsgálatával. Tehát a feladat most az arckifejezések osztályozását jelenti az érzelmek meghatározása érdekében, és szerencsére ezt jól tanulmányozták, és az adatok elérhetővé váltak.

Az osztályozónk képzésében használt adatkészlet egy Kaggle verseny ; a kísérő adatkészlet több mint 20 000 szürkeárnyalatos képet tartalmaz azokról az arcokról, amelyeket kézzel dühösként jelöltek meg: , undor , félelem , boldog , szomorú , meglepetés , vagy semleges . Mint minden Machine Learning (ML) projektnél; első feladatunk az intuíció felépítése az adatok köré, és néhány elméleti hipotézis előállítása a besorolás elvégzésének módjáról. Az alábbiakban bemutatunk néhány példát az adatkészlet arcairól és a hozzájuk tartozó címkékről.

Feltételezésünk az, hogy a kifejezés és az érzelem között van valamilyen közös minta; ennek feltárásának és érvényesítésének egyik módja a vizualizáció. Megjelenítéséhez az egyes érzelmek átlagos arcát felvehetjük; az alábbiakban bemutatjuk, hogy néz ki ez az érzelmek dühös , boldog érzelmek számára és meglepte .

Világosan láthatjuk, hogy ezen érzelmek mindegyikéhez külön kifejezések vannak; a következő feladatunk ezeknek a mintáknak a megtanulása. Ehhez a kísérlethez egy Convolution neurális hálózatot (vagy ConvNet) használtunk ezeknek a mintáknak az elsajátításához (itt lemondunk a részletekről, de megosztjuk a Notebookot azok számára, akiket tudni akar a technikai részletek). 15 képzési korszak után 60\% körüli validációs pontosságot értünk el (nem rossz, ha az alapvonal 14\% körüli lenne); az alábbi képzési eredmények.

Érzelmek felismerése szövegből

Korábban láttuk, hogy a szöveg (az általunk használt szavak) csak a teljes üzenet 7\% -át teszi ki; ez és az a tény, hogy a nyelvek örökölik a kétértelműséget, megnehezítik, de mégis értékes adatforrást és valamit, amelyet passzívan könnyen ellenőrizni lehet. Ehhez a prototípushoz egy visszatérő ideghálót képeztünk (ismét itt kihagyjuk a részleteket, de megosztjuk a Jegyzetfüzetet a technikai részletek iránt érdeklődők számára), és a modellt a CoreML , Apples ML keretrendszerbe továbbította. Ez egy egyedi iOS billentyűzet volt, amely passzívan figyelte a felhasználó által beírt információkat, és ezt a modellt használva meghatározta a felhasználó aktuális érzelmi állapotát. bár volt néhány hiteles forrásból, egyik sem tartalmazott jelentős mennyiségű példát egy mély neurális hálózat kiképzésére . Itt rejlik egy fontos pont; a címkézett adatok megijesztenek, és megszerzése drága lehet.Különböző adathalmazokat próbáltak ki, miután végül egy CrowdFlower által rendelkezésre bocsátott adatkészlettel rendeztek egy adathalmazot, amely körülbelül 40 000 sor tweetet tartalmaz, amelyeket a 13 érzelem egyikével címkéztek ( mint a boldogság, a szomorúság és a harag). Az adatkészlet egyik kérdése az egyes érzelmek példáinak egyensúlyhiánya volt. Az alábbi ábra ezt az eloszlást mutatja. Ennek ellenére a célunk a megvalósíthatóság és az alkalmazás volt, nem pedig a pontosság, ezért folytattuk ezt az adatkészletet.

A jelentős egyensúlyhiány és a képzési példák mennyisége ellenére 12 korszak után is 35\% körüli validációs pontosságot tudtunk elérni.

Az alábbiakban bemutatjuk az eszközön végzett osztályozást (bár ebben az esetben a szimulátor) ).

Itt csak feltártuk az érzelem felismerésének nyilvánvalóan rendelkezésre álló forrásai; mások magukban foglalják a hangnemet (hangnem), a viselkedési (vagy modellalapú) és a pózot, de a fontos dolog, amit el kell távolítani, az a tendencia, amely az explicit és az implicit interakciótól távolodik, és hogy az érzelem értékes input lesz annak meghatározásához, hogy a rendszere hogyan viszonyul a felhasználó.

Az emberi számítógépes interakciótól (HCI) az emberi számítógépes kapcsolatokig (HCR)

Ezt a bejegyzést azzal fejezzük be, hogy ismét hangsúlyozzuk a HCI evolúcióját és a kapcsolatunk fontosságát. A számítógépekkel való kapcsolat éppoly fontos, mint az, hogy miként viszonyulunk hozzájuk.

A HCI eredeti fókuszában a használhatóság fogalma állt. Ahol a használhatóság kezdeti meghatározása kizárólag az egyszerűség, vagyis a „könnyen megtanulható, könnyen használható” fogalom köré összpontosult, a technológia fejlődésével párhuzamosan folyamatosan fejlődött. Mostanra elragadja a szórakozás, a jólét, a kollektív hatékonyság, az esztétikai feszültség, a fokozott kreativitás, az áramlás, az emberi fejlődés támogatása és mások tulajdonságait.

Túllépett az asztalon ülő egyéni felhasználókon, és továbbra is mozogni fognak a technológia által lehetővé tett új határok. Ez a technológiától való függés azt jelenti, hogy folyamatosan vizsgáljuk, fejlesszük és kiaknázzuk az emberi tevékenység és tapasztalat fokozásának új lehetőségeit. Ezek a technológiák most lehetőséget kínálnak a felhasználó érzelmének felismerésére; mit fog ezzel kezdeni?

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük