컴퓨터와 인간의 진화하는 관계

Joshua Newnham, 수석 디자인 Technologist — Method London

(2018 년 1 월 9 일)

이 게시물에서는 컴퓨터 동료와의 관계 진화에 대해 논의하고 감정 감지 기술의 적용을 더 잘 이해하려고합니다.

디자인 인공 지능의 교차점에 관심이 있습니다. 는 언뜻보기에 매력적이고 관련성있는 흥미로운 개념과 도구를 많이 보여 주지만, 작업을 시작할 때만 더 깊고 의미있는 질문을하기 시작합니다. 최종 사용자에게 그들의 응용과 가치. 이는 인기있는 감성 인식 서비스 제공 업체 인 Affectiva 에서 제공하는 것과 같은 감성 감지 기술의 경우입니다.이 기술은 다음과 같은 이미지를 기반으로 사용자의 감정을 인식하는 도구를 제공합니다. 그들의 얼굴.

기술자로서 당신은 먼저 방법 에 매력을 느끼고 이유에 대해 질문하기 시작하는 내부 작업의 복잡한 세부 사항에 익숙해집니다. 텍스트 나 얼굴 이미지가 주어지면 감정을 만족스럽게 분류 할 수있는 시스템을 배우고 만든 후에야 이것이 어떻게 적용될 수 있는지 의문을 갖게되었습니다. 나는 그들의 중요성과 적용 가능성을 깨달은 것은 최근에야. 이 실현이이 게시물의 시작점입니다.

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

새 렌즈의 필요성

“말없는 마차”에 대한 언급 없이는 새로운 기술의 도입이 완료되지 않았습니다. Don Norman이 새로운 기술을위한 디자인의 채택과 발전을 설명 할 때 사용하는 용어입니다. 우리, 디자이너 및 기술자는 일반적으로 기존의 정신 모델을 새로운 기술에 투영하고 많은 반복 후에야 기술에 더 적용 할 수있는 새로운 정신 모델을 만들기 시작한다는 점을 강조합니다. 이것을 보여주는 분명한 이야기는 텔레비전 쇼가 처음에 디자인되고 방송 된 방식입니다. 라디오보다 더 풍성하게 만든 요소, 즉 스토리를 표현하기 위해 이미지를 추가하는 기능을 사용하는 기능은 대부분 무시했습니다. 대신 텔레비전 쇼는 발표자의 이미지가있는 라디오 쇼에 불과했습니다.

효과적인 컴퓨팅 에 대한 저의 인식과 관심에도 불구하고 분석과보고 이상의 감정 인식 사용을 상상하기 어려웠습니다. 물론 개념적으로는 컴퓨터가 사용자의 감정을 인식하고 반응 할 수 있다고 자주 이야기하지만 Microsoft Word와 같은 기존 응용 프로그램이 어떻게 효과를 줄 수 있는지 알 수 없었기 때문에 깊이 파헤 치지 않았습니다. 그것의 사용 — 최근까지. 그러나이 계시의 중요성을 더 잘 이해하고 이해하기 위해서는 한 걸음 물러서서 컴퓨터가 무엇인지, 컴퓨터가 어떻게 진화했는지, (응용 프로그램 및 우리가 컴퓨터와 상호 작용하는 방식과 관련하여) 가능한 궤도를 검토하는 것이 중요합니다.

컴퓨터의 간략한 역사

컴퓨터의 개념은 Charles Babbage라는 이름의 영어 수학 교수가 19 세기에 고안했습니다. / a>; 이 개념은 수학적 계산을 수행하고 출력하는 목적을 강조하면서 분석 엔진 이라고 적절하게 명명되었습니다. 이 개념은 마침내 1943 년경에 실현되었고 군사 목적의 궤적 계산 영역에 적용되었습니다. 사용자는 컴퓨터가 따라야 할 명시적인 지침을 자세히 설명하는 펀치 카드를 사용하여 컴퓨터와 상호 작용하는 고도로 훈련 된 전문가 인 경향이있었습니다.

https://apple2history.org/history/ah16/

다음에는 메인 프레임 형태의 산업용 컴퓨터가 등장했습니다. IBM (International Business Machines)과 같은 회사에서 제작 한이 제품은 이전 제품과 비슷했으며 고도로 훈련 된 사용자가이를 사용해야하지만 지침을 제출하기 위해 물리적 펀치 카드를 디지털 명령 줄 인터페이스 (CLI)로 교체해야했습니다.이 시대에 소수의 개인에게 HCI (Human Computer Interaction)의 발전을 인정해야합니다. Steve Russell 과 같은 개인은 배치 계산기 이상의 컴퓨터를보고 컴퓨터 게임의 첫 번째 시대를 가능하게하는 대화 형 컴퓨터 프로그램을 구상했습니다. 인공 지능 (AI)의 아버지로 여겨지는 Spacewar! John McCarthy 는 인간과 Doug Engelbart 의 작업을 수행하는 컴퓨터에 대한 잠재력은 역설적이게도 우리를 대체하기보다는 우리를 보강하는 컴퓨터를 구상했으며, 마우스와 그래픽 사용자 인터페이스 (GUI)를 포함하여 오늘날 우리가 여전히 사용하는 조작 개념입니다.

70 년대 후반에 우리는 개인용 컴퓨터 (PC)의 부상을 보았습니다. 그들의 이름에도 불구하고 그들은 개인적이지는 않았지만 마침내 주류로 간주 될 수있을만큼 충분히 많은 인구에 적용 할 수있게되었습니다. 당시 킬러 애플리케이션은 사무 생산성을위한 정교한 계산기 인 스프레드 시트였습니다. 가용성과 채택으로 인해 곧 유용성이 매우 중요 해졌고 터미널을 통한 명령 실행은 대부분의 사용자에게 장벽이되었습니다.

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

80 년대 초반 GUI가 도입되면서 컴퓨터와의 상호 작용이 (다소) 민주화되었습니다. GUI는 실제 세계에서 차용 한 많은 은유를 사용했으며, 직접 조작 및 빠른 피드백과 함께 컴퓨터 전문가를 넘어서는 청중이 컴퓨터에 액세스 할 수 있도록했습니다. 이 기간 동안 우리는 웹의 부상과 컴퓨터의 확장 된 애플리케이션 및 사용 사례를 보았습니다. 순수한 분석 도구에서 커뮤니케이션, 엔터테인먼트 및 창의적인 작업과 같은 작업에 사용됩니다. 이 채택은 물리적 세계의 디지털화를 가속화합니다. 정보, 엔터테인먼트 및 우리의 관계는 바이트가되었습니다.

컴퓨터 사용 방식에 영향을 준 다음 중요한 이정표는 인터넷이 확산 된 80 년대 중반이었습니다. 이메일은 컴퓨터를 통신 장치로 바 꾸었습니다. 사람들은 상호 작용하지 않았고, 사람들은 컴퓨터를 통해 다른 사람들과 상호 작용했습니다.이 패러다임, 컴퓨터를 통한 의사 소통 및 협업을 이제 소셜 컴퓨팅이라고합니다.

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

그런 다음 iPhone (그리고 Android)이 나왔습니다. 컴퓨터는 마침내 진정한 개인이되었고, 터치는 사용의 마찰을 더욱 줄였으며 센서, 연결의 추가, 그리고 디지털화의 증가는 현실 세계와 실제 사람들에 대한 관련성과 편리 성을 강화했습니다. 그러나 최근까지도 그들은 (컴퓨터) 우리에게 명시 적으로 지시하고 정적 인터페이스를 통해 통신해야했습니다. CLI에서 추상화 수준이 증가 했음에도 불구하고 핵심 상호 작용 모델은 여전히 ​​동일하게 유지되었습니다. 지금은 변화하고 있습니다.

우리는 이제 인공 지능 (AI)의 융합을 보는 시대에 접어 들고 있습니다. 및 인텔리전스 증강 (IA) — 지능을 사용하여 우리 (음성, 그림, 텍스트 또는 몸짓), 우리의 의도를 더 잘 이해하고 작업을 반자동으로, 때로는 사전에 수행 할 수있는 시스템을 갖추고 있습니다.

https://www.jibo.com /

컴퓨터와 상호 작용하는 방식의 진화를 더 자세히 설명하기 위해 Mark Billinghurst , 컴퓨터 인터페이스 연구원은 시간이 지남에 따라 자연스러운 사용자 인터페이스로의 발전을 강조합니다.

이 플롯 n ot는 우리와 컴퓨터 (자연스러운 사용자 인터페이스) 사이의 마찰이 줄어드는 것뿐 아니라 상호 작용이 어떻게 명시 적에서 암시 적으로 바뀌고 있는지를 강조합니다. 즉, 점점 더 많은 시스템이 예상되고 있습니다.

다른 주목할만한 트렌드는 다음과 같습니다. 응용 프로그램의 역할과 기능; 깨끗한 이산 지침을 다루는 것에서 높은 수준의 모호성을 다루는 것으로 전환합니다. 즉, 초기 응용 프로그램은 미사일 궤적을 계산하는 데 사용되었지만 최신 응용 프로그램은 노래, 영화, 파트너 추천 및 회의 구성을 처리합니다.마지막으로 강조하고 싶은 트렌드는 키보드와 화면에서 주머니에 넣고 다니는 휴대용 슬레이트에서 침대 옆에있는 지능형 스피커에 이르기까지 다양한 형태로 컴퓨터의 형태가 어떻게 변하고 있는지입니다.

위의 의도는 컴퓨팅에 대한 포괄적 (또는 정확한) 역사 교훈을 제공하는 것이 아니라 컴퓨터와의 기능, 형태 및 관계가 시간이 지남에 따라 어떻게 진화했는지를 강조하는 것입니다. 가까운 동반자에게 기능적인 도구. 따라서 GUI가 컴퓨터와 더 친숙하고 자연스럽게 상호 작용할 수 있도록 물리적 세계에서 많이 빌린 것처럼 감정을 인식하고 반응하고 묘사해야 할 필요가 있습니다. 즉 인식 할 수없는 경우 지능적이라고 여겨지는 것과 대화하는 것이 답답할 것입니다. 우리의 감정 상태에 반응합니다. 감정을 표현할 수 있다는 것은 사용자가 상호 작용하는 시스템의보다 정확하고 유용한 정신 모델을 구축하는 데 도움이되는 시스템의 현재 상태를 전달하는 또 다른 수단을 제공합니다. 즉, 혼란을 묘사하는 것은 사용자가 시스템에 도움이 필요하다는 것을 이해하는 데 도움이 될 수 있습니다. .

요컨대; 감정이 분석 및보고에만 사용되는 대신 VPA (Virtual Personal Assistance), 디지털 아바타 또는 로봇과 같이 물리적으로 구현 된 컴퓨터와 대화 할 때 감성 지능이 훨씬 의미가 있습니다. 본질적으로 자연스럽게 상호 작용할 수 있고, 어느 정도의 자율성을 갖고, 모호성과 불확실성을 처리하고, 자신과 선호도를 알고, 신뢰 수준이 필요한 컴퓨터를 다룰 때마다. 익숙한가요? 이러한 특성은 일반적으로 사람에게 국한되었지만 이제는 컴퓨터 동료도 이러한 특성을 획득했습니다.

감성 지능이 의미가있는 몇 가지 사용 사례와이를 적용 할 수있는 방법을 간략하게 살펴 보겠습니다.

p>

이러한 컴퓨팅의 변화를 잘 보여주는 한 가지 예는 DragonBot 입니다. MIT의 소셜 로보틱스 그룹 에서 지능형 튜터링 시스템을 탐구하는 연구 프로젝트입니다. DragonBot은 감정 인식을 사용하여 학생에게 적응합니다. 예를 들어 응용 프로그램 중 하나는 인식 된 감정에 따라 단어를 조정하는 읽기 게임입니다. 즉, 시스템이 사용자를 기반으로 작업 (이 경우 단어)의 난이도를 조정할 수 있습니다. 인식 된 감정에 의해 결정되는 능력.

대화 에이전트 (챗봇)는 감정 인식을 사용할 수있는 확실한 기회입니다. 현재 챗봇은 NLU (자연어 이해)를 수행하여 응답을 결정합니다. 이 응답은 일반적으로 주어진 컨텍스트 추론 된 의도 그러나 오래되지 않을 것입니다 (그리고 Emotibot 과 같은 일부는 이미 존재 함). 사용자에 대한 응답을 결정할 때 감정 (언어뿐만 아니라 응답 할 어조 조정). 이것은 의사 소통의 효율성을 증가시킬뿐만 아니라 우리가 서로 의사 소통하는 방식에서 바람직하지 않은 행동을 피할 수있는 기회를 제공합니다. 우리는 종종 스튜디오에서 Alexa와 같은 음성 비서가 아이들에게 “Alexa Tell me the time!”을 요청하기보다 원하는 행동을 만드는 방법에 대해 농담을합니다.

대화 인터페이스로서 특히 의료 지원 ( Ada ) 및 정신적 영역에서 사용자의 감정을 인식하고 이에 적응하는 효과적인 방법을 개발해야 할 필요가 있습니다. 건강 ( woebot ).

일반적으로 감정 인식은 자동으로 증가하는 데 사용할 수 있습니다. 참여 또는 사용자에게 자동으로 조정 Disney Research 는 콘텐츠를 조정하는 데 정서적 인식이 어떤 역할을할지에 대한 더 많은 예를 제공합니다. 대화 형 유치원 TV 프로그램 , 대화 형 내러티브 작성 도구 등을 탐색 한 결과 — 시간을내어 탐험을하시는 것이 좋습니다.

위에서 언급했듯이; 이 탐구의 촉매제는 감정을 인식하는 방법을 알고 싶어하는 저의 초기 호기심에서 비롯되었으며, 이는 FINE이라는 방법 의 이니셔티브에서 비롯되었습니다.

FINE은 어린 아이들의 정신 건강을 지원하도록 설계된 생태계입니다. 감정은 입력과 출력 모두에서 핵심입니다.카메라와 키보드이지만 사용자의 감정 상태를 모니터링하고 추론하고이 데이터를 사용하여 공유 된 장치를 통해 전체적인 분위기를 표현합니다. 이는 커뮤니케이션을 장려하고 군중 기반 정보를 통해 공감을 배운 가상 아바타를 통해 공감하는 동반자를 제공합니다.

감정 인식의 적용은 매우 도메인에 따라 다르지만 향후 몇 년 동안 채택 가능성과 기회에 대해 위에서 충분히 강력한 주장을 제시했으면합니다. 다른 한편으로 인식은 보편적이므로이 게시물의 나머지 부분에서는 FINE이 사용자의 감정을 추론하기 위해 취한 접근 방식을 간략하게 소개하고 요약하며 얼굴 이미지와 사용자가 작성한 텍스트를 모두 사용합니다.

얼굴 표정에서 감정 인식

신체 언어를 통해 전달되는 의사 소통의 비율에 대한 Google의 빠른 검색은 대부분의 의사 소통이 비언어적임을 빠르게 강조합니다 (전체 메시지의 55 \%를 차지하는 신체 언어 , 어조가 38 \%를 차지하고 단어가 7 \%를 차지함). 따라서 단순히 사람의 얼굴을보고 많은 것을 추론 할 수 있다는 것은 놀라운 일이 아닙니다. 이것은 우리가 단순히 얼굴 표정을 살펴봄으로써 누군가의 감정을 추론 할 수 있다는 전제입니다. 따라서 이제 작업은 감정을 결정하기 위해 얼굴 표정을 분류하는 것입니다. 운 좋게도이 작업은 잘 연구되었으며 데이터가 제공되었습니다.

분류자를 훈련하는 데 사용 된 데이터 세트는 Kaggle 대회 ; 함께 제공되는 데이터 세트는 angry , 혐오 , 공포 , 행복 , 슬픈 , 놀람 또는 중립 . 머신 러닝 (ML) 프로젝트와 마찬가지로 첫 번째 작업은 데이터에 대한 직관을 구축하고 분류를 수행하는 방법에 대한 몇 가지 이론적 가설을 만드는 것입니다. 다음은 데이터 세트의 얼굴과 관련 라벨의 몇 가지 예입니다.

표현과 감정 사이에는 공통적 인 패턴이 있다고 가정합니다. 이것을 탐구하고 검증하는 한 가지 방법은 시각화를 통한 것입니다. 이를 시각화하기 위해 각 감정에 대한 평균 얼굴을 사용할 수 있습니다. 아래는 화난 , 행복한 감정에 대해 어떻게 보이는지 보여줍니다. 놀라움 .

우리는 이러한 각 감정에 대해 뚜렷한 표현이 있음을 분명히 알 수 있습니다. 다음 과제는 이러한 패턴을 배우는 것입니다. 이 실험을 위해 Convolution Neural Network (또는 ConvNet)를 사용하여 이러한 패턴을 학습했습니다 (여기서는 자세한 내용은 생략하지만 알고 싶은 사람들을 위해 노트북을 공유 할 것입니다. 기술적 세부 사항). 15 에폭의 훈련 후에 우리는 60 \%에 가까운 검증 정확도를 달성했습니다 (기준이 약 14 \% 일 것이라는 점을 감안하면 나쁘지 않습니다). 아래 표시된 학습 결과입니다.

텍스트에서 감정 인식

이전에는 텍스트 (우리가 사용하는 단어)가 전체 메시지의 7 \%만을 차지하는 것을 보았습니다. 이것과 언어가 모호성을 상속한다는 사실은 더 어렵지만 여전히 귀중한 데이터 소스이며 수동적으로 쉽게 모니터링 할 수있는 무언가입니다. 이 프로토 타입을 위해 우리는 Recurrent Neural Network 를 훈련 시켰습니다 (다시 한 번 여기서 세부 사항은 건너 뛰지 만 기술적 세부 사항에 관심이있는 사람들을 위해 노트북을 공유 할 것입니다). (모델)을 Apples ML 프레임 워크 인 CoreML 으로 포팅했습니다. 이와 함께 사용자가 입력 한 내용을 수동적으로 모니터링하고이 모델을 사용하여 사용자의 현재 감정 상태를 확인하는 맞춤형 iOS 키보드가 함께 제공되었습니다.

텍스트 데이터는 찾기가 더 어려웠습니다. 신뢰할 수있는 출처의 출처가 몇 개 있었지만 Deep Neural Network 를 훈련하기위한 상당한 양의 예제는 포함되지 않았습니다. 여기에 중요한 점이 있습니다. 레이블이 지정된 데이터는 두렵고 수집하는 데 많은 비용이들 수 있습니다.13 가지 감정 중 하나로 라벨이 지정된 약 40,000 행의 트윗으로 구성된 데이터 세트 인 CrowdFlower 에서 제공하는 데이터 세트로 최종 설정 한 후 다양한 데이터 세트를 시도했습니다 ( 행복, 슬픔, 분노 등). 데이터 세트의 한 가지 문제는 각 감정에 대한 예제의 불균형이었습니다. 아래 그림은이 분포를 보여줍니다. 그럼에도 불구하고 우리의 목표는 정확성보다는 실행 가능성과 적용에 있었으므로이 데이터 세트를 계속 사용했습니다.

심각한 불균형과 훈련 예제의 양에도 불구하고 12 세대 후에도 약 35 \%의 검증 정확도를 얻을 수있었습니다.

아래는 기기에서 수행되는 분류를 보여줍니다 (이 인스턴스에서는 시뮬레이터가 ).

여기에서는 감정을 인식 할 수있는 명백한 출처; 다른 것에는 어조 (음조), 행동 (또는 모델 기반) 및 포즈가 포함되지만, 제거해야 할 중요한 것은 명시 적 상호 작용에서 암시 적 상호 작용으로의 추세와 감정이 어떻게 시스템과 상호 작용하는지 결정하는 귀중한 입력이 될 것입니다.

HCI (Human Computer Interaction)에서 HCR (Human Computer Relationships)로

우리는 HCI의 진화와 우리 관계의 중요성을 강조하면서이 게시물을 마무리합니다. 컴퓨터와의 상호 작용 방식만큼이나 중요 해지고 있습니다.

HCI의 원래 초점은 유용성 개념이었습니다. 사용성에 대한 초기 정의는 개념 단순성 (예 : 배우기 쉽고 사용하기 쉬움)에만 초점을 맞추었지만 기술 발전과 함께 지속적으로 발전해 왔습니다. 이제 재미, 웰빙, 집단적 효능, 미적 긴장감, 창의력 향상, 흐름, 인간 개발 지원 등의 특성을 포함합니다.

데스크톱에 앉아있는 개별 사용자를 넘어서서 기술로 가능해진 새로운 개척에 의해 계속 움직일 것입니다. 기술에 대한 이러한 의존성은 인간의 활동과 경험을 향상시키기위한 새로운 가능성 영역을 지속적으로 조사, 개발 및 활용하는 것을 의미합니다. 이러한 기술은 이제 사용자의 감정을 인식 할 수있는 기회를 제공합니다. 이것으로 무엇을 하시겠습니까?

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다