コンピューターとの人類の進化する関係

投稿日:

ジョシュア・ニューナム、リードデザイン技術者—メソッドロンドン

(2018年1月9日)

この投稿では、計算コンパニオンとの関係の進化について説明し、感情的なセンシング技術の適用をよりよく理解することを目指しています。

デザイン人工知能の交差点に関心があるは、一見魅力的で関連性があるように見える多くの興味深い概念やツールにあなたをさらしますが、それらを使い始めて初めて、より深く、より意味のある質問をし始めます。それらのアプリケーションとエンドユーザーへの価値。これは、人気のある感情認識サービスプロバイダー Affectiva が提供するような、感情センシングテクノロジーの場合でした。このテクノロジーは、の画像に基づいてユーザーの感情を認識するためのツールを提供します。彼らの顔。

技術者として、あなたは最初にどのようにに惹かれ、それはあなたの後だけです理由を疑問視し始める内部の仕組みの複雑な詳細に慣れてください。 テキストや顔の画像を与えられた感情を十分に分類できるシステムを学び、作成した後で初めて、これらをどのように適用できるか疑問に思い始めました。私がそれらの重要性と適用可能性に気付いたのはつい最近のことです。この認識がこの投稿の出発点です。

https://commons.wikimedia.org/wiki/File:Lutzmann\_Motorwagen.jpg

新しいレンズの必要性

「馬なし馬車」についての言及がなければ、新技術の導入は完了しません。新しいテクノロジーの設計の採用と進化を説明するときにDonNormanが使用する用語。私たちデザイナーと技術者は通常、既存のメンタルモデルを新しいテクノロジーに投影し、そのテクノロジーにより適した新しいメンタルモデルの作成を開始するのは何度も繰り返した後です。これを説明する明らかな話は、テレビ番組が最初にどのように設計され放送されたかです。物語を描写するために画像の追加を使用する能力であったラジオよりも彼らを豊かにした要素をほとんど無視しました。代わりに、テレビ番組はプレゼンターの画像を含むラジオ番組に戻りました。

感情コンピューティングに対する私の認識と関心にもかかわらず、それは分析と報告を超えた感情認識の使用を想像するのは困難でした。もちろん、概念的には、コンピューターがユーザーの感情を認識して応答できることについてよく話しますが、Microsoft Wordなどの既存のアプリケーションがどのように効果を発揮するかがわからなかったため、あまり深く掘り下げませんでした。それの使用—最近まで。しかし、この啓示の重要性をよりよく理解して理解するには、一歩下がって、コンピューターが何であったか、コンピューターがどのように進化してきたか、そしてコンピューターの可能性のある軌道(アプリケーションとコンピューターとの対話方法に関して)を確認することが重要です。

コンピューターの簡単な歴史

コンピューターの概念は、19世紀にチャールズバベッジという名前の英国の数学教授によって考案されました。;この概念は、適切に分析エンジンと名付けられ、数学計算を実行および出力する目的を強調しています。この概念は1943年頃にようやく実現され、軍事目的の軌道計算の分野で応用されました。ユーザーは高度な訓練を受けた専門家である傾向があり、コンピューターが従うべき明確な指示を詳述したパンチカードを使用してコンピューターと対話します。

https://apple2history.org/history/ah16/

次はメインフレームの形の産業用コンピュータです。これらは、International Business Machines(IBM)のようなものによって作成され、前任者の多くに似ており、高度な訓練を受けたユーザーがそれらを使用する必要がありましたが、指示を送信するために物理的なパンチカードをデジタルコマンドラインインターフェイス(CLI)に置き換えました。この時代の間に;ヒューマンコンピュータインタラクション(HCI)の進歩を、少人数の個人グループに認める必要があります。 Steve Russell のような個人は、単なるバッチ計算機を超えたコンピューターを見て、コンピューターゲームの最初の時代を可能にするインタラクティブなコンピュータープログラムを構想(および作成)しました。 Spacewar! John McCarthy は、人工知能(AI)の父と見なされており、人間と Doug Engelbart のタスクを実行するコンピューターの可能性。逆説的に、私たちに取って代わるのではなく、私たちを増強するコンピューターを想像し、マウスやグラフィカルユーザーインターフェイス(GUI)など、現在でも使用されている操作の概念。

70年代後半に、パーソナルコンピューター(PC)の台頭が見られました。彼らの名前にもかかわらず、彼らは個人的なものとはほど遠いものでしたが、最終的に手頃な価格になり、主流と見なされるのに十分な数の人口に適用できるようになりました。当時のキラーアプリケーションは、オフィスの生産性を高めるための洗練された計算機であるスプレッドシートでした。それらの可用性と採用により、使いやすさはすぐに非常に重要になり、端末を介してコマンドを発行することは、ほとんどのユーザーにとって障壁でした。

https://en.wikipedia.org/wiki/File:Apple\_Macintosh\_Desktop.png

GUIの導入により、コンピューターとの対話が(ある程度)民主化されたのは80年代初頭まででした。 GUIは、現実の世界から借用した多くの比喩を使用しました。これに加えて、ダイレクトマニピュレーションと迅速なフィードバックにより、コンピューターの専門家以外の聴衆もコンピューターにアクセスできるようになりました。この間、Webの台頭と、コンピューターの拡張アプリケーションおよびユースケースが見られました。純粋な分析ツールから、コミュニケーション、エンターテインメント、クリエイティブな仕事などのタスクに使用されるようになります。この採用は、私たちの物理的な世界のデジタル化の加速につながります。情報、エンターテインメント、そして私たちの関係はバイトになりました。

私たちがコンピューターをどのように使用するかに影響を与えた次の重要なマイルストーンは、インターネットの普及とともに80年代半ば頃でした。電子メールはコンピューターを通信デバイスに変えました。人々は相互作用していませんでした。人々はコンピューターを介して他の人々と相互作用していました。このパラダイムは、コンピューターを介して通信およびコラボレーションし、現在はソーシャルコンピューティングと呼ばれています。

https://www.pexels.com/photo/iphone-6-apple-hand-time-9041/

次にiPhone(そしてAndroid)が登場しました。コンピュータはついに真にパーソナルになり、タッチによって使用の摩擦がさらに減少し、センサー、接続性が追加され、デジタル化がさらに進んだことで、現実世界と「現実の人々」にとっての関連性と利便性が強化されました。しかし、最近まで、彼ら(コンピューター)は、静的インターフェースを介して明示的に指示し、通信することを私たちに要求していました。 CLIからの抽象化のレベルを上げたにもかかわらず、コアインタラクションモデルは同じままでした。これは現在変化しています。

人工知能(AI)の収束が見られる時代に突入しています。およびIntelligenceAugmentation(IA)—「インテリジェンス」を使用して、私たち(音声、画像、テキスト、またはジェスチャー)、私たちの意図をよりよく理解し、半自律的に、場合によっては積極的にタスクを実行できるシステムがあります。

https://www.jibo.com /

コンピューターとの対話方法の進化をさらに説明するために、 Mark Billinghurst 、コンピューターインターフェースの研究者。時間の経過とともにナチュラルユーザーインターフェースへの進歩を強調しています。

このプロットn otは、私たちとコンピューター(ナチュラルユーザーインターフェース)の間の摩擦の減少だけでなく、私たちの相互作用が明示的なものから暗黙的なものにどのように移行しているか、つまり、ますます多くのシステムが予測的になっていることを強調しています。

その他の注目すべき傾向には、アプリケーションの役割と機能。クリーンな個別の指示を処理するものから、高度なあいまいさを処理するものに移行します。つまり、初期のアプリケーションはミサイルの軌道を計算するために使用され、最新のアプリケーションは曲、映画、パートナーの推奨、会議の開催を処理します。私が強調したい最後の傾向は、コンピューターの形態が、キーボードや画面から、ポケットに入れて持ち歩くポータブルスレートから、ベッドの横にあるインテリジェントスピーカーまで、他の多くの形態にどのように変化しているかです。

上記の目的は、コンピューティングにおける包括的な(または正確な)履歴レッスンを提供することではなく、機能、形式、およびコンピューターとの関係が時間の経過とともにどのように進化してきたか、そしてその軌道が純粋からシフトしている可能性があることを強調することです。親しい仲間への機能的なツール。したがって、GUIが物理的な世界から大いに借りて、コンピューターとの対話をより親しみやすく自然なものにするのと同じように、感情を認識し、反応し、描写する必要もあります。つまり、認識できない場合、インテリジェントと見なされるものと話すのはイライラします。そして私たちの感情的な状態に対応します。感情を表現できることは、システムの現在の状態を伝達する別の手段も提供し、ユーザーが対話しているシステムのより正確で役立つメンタルモデルを構築するのに役立ちます。つまり、混乱を描写することで、システムが支援を必要としていることをユーザーが理解するのに役立ちます。 。

要するに;感情が純粋に分析とレポートに使用されるのではなく、仮想パーソナルアシスタンス(VPA)、デジタルアバター、またはロボットなどの物理的に具現化されたコンピューターと話しているときに、感情的知性は非常に理にかなっています。基本的に、自然に操作でき、ある程度の自律性があり、あいまいさと不確実性に対処し、あなたとあなたの好みを知っており、ある程度の信頼を必要とするコンピューターを扱っているときはいつでも。おなじみですか?これらの特性は通常、人に限定されていましたが、今では計算コンパニオンもこれらの特性を取得しています。

心の知能指数が理にかなっているいくつかのユースケースと、それをどのように適用できるかを簡単に見てみましょう。

このコンピューティングの変化をうまく説明する1つの例は、 DragonBot です。 MITの Social Robotics Group による、インテリジェントな家庭教師システムを調査する研究プロジェクト。 DragonBotは感情認識を使用して学生に適応します。たとえば、アプリケーションの1つは、認識された感情に基づいて単語を適応させる読書ゲームです。つまり、システムはユーザーに基づいてタスクの難易度(この場合は単語)を調整できます。認識された感情によって決定される能力。

会話エージェント(チャットボット)は、感情認識を使用するための明らかな機会です。現在、チャットボットは自然言語理解(NLU)と呼ばれるものを実行して応答を決定します。この応答は通常、特定のコンテキストおよび推定 インテント but 認識されたものも使用することが標準になるまで、長くはありません( Emotibot などの一部はすでに存在します)。 感情ユーザーへの応答を決定するとき(言語だけでなく、応答するトーンも適応させる)。これにより、コミュニケーションの効果が高まるだけでなく、お互いのコミュニケーション方法に望ましくない行動を起こさないようにする機会も得られます。スタジオでは、Alexaなどの音声アシスタントが子供たちに「AlexaTell me the time!」と尋ねるのではなく、物事を要求する行動をどのように作り出しているかについてよく冗談を言います。

会話型インターフェースとして特に医療支援( Ada )とメンタルの分野では、ユーザーの感情を認識して適応する効果的な方法を開発する必要があります。健康( woebot )。

一般的に、感情認識は自動的に増加するために使用できます。エンゲージメントまたはは自動的にをユーザーに適応させます。 Disney Research は、感情的な認識がコンテンツの適応に役割を果たす場所の例をさらに多く提供しています。 インタラクティブな就学前のテレビ番組インタラクティブなナラティブオーサリングツールなどの調査から—時間をかけて探索することをお勧めします。

上記のとおり。この探求のきっかけは、感情を認識する方法を知りたいという私の最初の好奇心から生じました。それ自体は、ここメソッドでのFINEと呼ばれるイニシアチブから生じました。

FINEは、幼児のメンタルヘルスをサポートするために設計されたエコシステムです。感情は、入力と出力の両方にとって、その中心にあります。カメラとキーボードを使用して、ユーザーの感情状態を監視および推測し、このデータを使用して、共有デバイスを介して全体的な気分を提示します。これにより、コミュニケーションが促進されるだけでなく、クラウドソースのインテリジェンスを通じて共感を教える仮想アバターを通じて共感的な仲間が提供されます。

感情認識の適用は非常にドメイン固有ですが、今後数年間で採用される機会と可能性について、上記で十分に強力な議論を示したことを願っています。一方、認識は普遍的であるため、この投稿の残りの部分では、ユーザーの顔の画像とユーザーが書いたテキストの両方を使用して、FINEがユーザーの感情を推測するために採用したアプローチを簡単に紹介して要約します。

顔の表情から感情を認識する

ボディランゲージを介したコミュニケーションの割合をGoogleですばやく検索すると、ほとんどのコミュニケーションが非言語的であることがすぐにわかります(ボディランゲージがメッセージ全体の55%を占めています) 、トーンは38%を占め、言葉は7%しか占めていません)。ですから、顔を見ただけで多くのことが推測できるのは当然のことです。これは、顔の表情を調べるだけで感情を推測できることが前提です。そのため、感情を判断するために顔の表情を分類することが課題になりました。幸い、これは十分に研究され、データが利用可能になりました。

分類器のトレーニングに使用されるデータセットは、 Kaggleコンペティション;付随するデータセットは、怒り、嫌悪感、恐怖幸せ悲しいサプライズ、またはニュートラル。他の機械学習(ML)プロジェクトと同様に;私たちの最初のタスクは、データに関する直感を構築し、分類を実行する方法についていくつかの理論的な仮説を立てることです。以下は、データセットの顔とそれに関連するラベルの例です。

私たちの仮定は、表現と感情の間にいくつかの共通のパターンがあるということです。これを調査および検証する1つの方法は、視覚化によるものです。それを視覚化するために、感情ごとに平均の顔をとることができます。以下に、これが感情怒り幸せに対してどのように見えるかを示します、および驚いた

これらの感情のそれぞれに異なる表現があることがはっきりとわかります。次のタスクは、これらのパターンを学習することです。この実験では、畳み込みニューラルネットワーク(またはConvNet)を使用してこれらのパターンを学習しました(ここでは詳細を省略しますが、知りたい人のためにノートブックを共有します技術的な詳細)。 15エポックのトレーニングの後、60%近くの検証精度を達成しました(ベースラインが約14%であることを考えると悪くありません)。以下に示すトレーニングの結果。

テキストから感情を認識する

その前に見たテキスト(私たちが使用する単語)は、メッセージ全体の7%しか占めていません。これと言語があいまいさを継承するという事実は、それをより困難にしますが、それでも貴重なデータソースであり、受動的に監視できる ものです。このプロトタイプでは、リカレントニューラルネットワークをトレーニングしました(ここでも詳細はスキップしますが、技術的な詳細に関心のある人のためにノートブックを共有します)。それ(モデル)を CoreML 、ApplesMLフレームワークに移植しました。これに付随して、ユーザーが入力した内容を受動的に監視し、このモデルを使用してユーザーの現在の感情状態を判断するカスタムiOSキーボードがありました。

テキストのデータを見つけるのはより困難でした。信頼できる情報源からの情報はいくつかありましたが、ディープニューラルネットワークをトレーニングするためのかなりの量の例が含まれていませんでした。ここに重要なポイントがあります。ラベル付けされたデータは恐ろしく、取得に費用がかかる可能性があります。 CrowdFlower によって利用可能になったデータセットで最終的に解決した後、さまざまなデータセットが試されました。このデータセットは、13の感情の1つでラベル付けされた約40,000行のツイートで構成されています(幸福、悲しみ、怒りなど)。データセットに関する1つの問題は、各感情の例の不均衡でした。以下のプロットは、この分布を示しています。それにもかかわらず、私たちの目標は正確さではなく実現可能性とアプリケーションにあったため、このデータセットを継続しました。

トレーニングの例が大幅​​に不均衡で量が多いにもかかわらず、12エポック後でも約35%の検証精度を得ることができました。

以下は、デバイスで実行されている分類を示しています(この場合はシミュレーターですが) )。

ここでは調査のみを行いました感情を認識するための明白な利用可能な情報源。その他には、トーン(声のトーン)、行動(またはモデルベース)、ポーズが含まれますが、取り除くべき重要なことは、明示的な相互作用から暗黙的な相互作用への傾向と、システムがどのように関与するかを決定するための貴重な入力となる感情です。ユーザー。

ヒューマンコンピュータインタラクション(HCI)からヒューマンコンピュータインタラクション(HCR)へ

この投稿は、HCIの進化と、私たちの関係の重要性を強調することで締めくくります。コンピューターとのやり取りは、コンピューターとのやり取りと同じくらい重要になっています。

HCIの当初の焦点は、の使いやすさの概念にありました。 ユーザビリティの最初の定義は、「習得しやすく、使いやすい」という概念の単純さにのみ焦点を当てていましたが、テクノロジーの進歩とともに進化し続けています。今では、楽しさ、幸福、集合的な効果、美的緊張、創造性の向上、流れ、人間開発のサポートなどの品質が含まれています。

デスクトップに座っている個々のユーザーを超えて、テクノロジーによって可能になった新しいフロンティアに牽引されて動き続けます。このテクノロジーへの依存は、人間の活動と経験を向上させるための新しい可能性の領域を継続的に調査、開発、活用することを意味します。これらのテクノロジーは、ユーザーの感情を認識する機会を提供します。これで何をしますか?

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です