2017年、音声インターフェースを搭載した「スマートスピーカー」が日本でも次々と発売された。「近未来のデジタル家電」と宣伝されたが、使い勝手が悪いと思った人も多く、あまり普及しなかったようだ。対話ロボットにも同じようなことが言える。本書『音声に未来はあるか?』(日経BP社 発行、日経BPマーケティング 発売)は、音声インターフェースを使った商品の未来に危機感を覚えた専門家からの仕切り直しの書である。
著者の河野道成さんは、ソニーでユーザーインターフェースなどの研究開発に携わり、音声対話やAIをベースにした次世代家電のプロジェクトを立ち上げた。2014年にソニーを退職し、ネオマデザイン株式会社を設立。慶応義塾大学大学院メディアデザイン研究科付属メディアデザイン研究所のリサーチャーに就任。音声ユーザーインターフェースに関するコンサルティングや研究開発に携わっている。
音声インターフェースは、スマートフォンなどの指を使ったタッチと似ているようで、実は非常に異なる点が多いと指摘する。音声インターフェースは何が得意で、何が苦手なのかを知ってもらい、その上で、改めてスマートスピーカーや対話ロボットに期待すれば、社会は便利に、人々の暮らしは豊かになるのでは、という思いから執筆したという。
本書の構成は以下の通り。
第1章 音声インターフェースの現状と未来 第2章 音声インターフェースの歴史 第3章 音声インターフェースの特徴とメリット 第4章 音声インターフェースを使った商品 第5章 音声インターフェースの技術 第6章 音声インターフェースの問題 第7章 エージェント/ロボットの音声インターフェース「対話」 第8章 音声インターフェースビジネスの勢力図 第9章 音声インターフェースの未来
音声インターフェースの原理からビジネスへの応用まで取り上げ、これ1冊で音声インターフェースについて知ることができる。
「第3章 音声インターフェースの特徴とメリット」が、その10点を説明している。
・文字入力の手間削減 ・ショートカット(手間削減) ・手ぶら操作(ながら操作) ・自由な操作姿勢 ・条件付きの指示が可能 ・曖昧な表現を許容する ・コミュニケーション体験価値を生む ・感情や心理状況が反映される ・文化や言語の違いが影響する ・人にとって都合の良い認知レベルのメディア
ショートカット(手間削減)の恩恵は、アマゾンプライムを利用して映画やドラマを見ている評者は、常に感じている。大量のコンテンツの中から、作品名をひとこと言うだけで、登録されている限り、作品が表示され、即座に見ることができる。
現在発売されている音声インターフェースを使った商品の機能は、大きく分けると以下の6つがある。1 情報検索(調べ物) 2 予定管理 3 連絡 4 メディアプレーヤー 5 機器連携 6 雑談・エンターテインメント。
さらに「音声アシスタント」「スマートスピーカー」「人口知能内蔵ロボット」「音声認識機能付きスマート家電」「ゲーム」などの商品群がある。アップルの「Siri」、「グーグル ホーム」、「アマゾン エコー」など、個別の商品について詳しく説明している。
そして、いよいよ第6章で問題点を検討している。最初に挙げているのは、「伝言ゲーム」と同じということである。音声インターフェースは、まず「集音」し、その後「認識」する。環境やユーザーの発話、発話内容などに問題があると、システム側では判断できず、エラーとして処理を中断する。また、音声インターフェースには「今はこれです」という状況がない、などの問題がある。
さらに「発話は労力が必要」とか、起動させるための「ウェイクワード(マジックワード)はまどろっこしい」などの問題もあるという。
本書の真骨頂は、第7章の「エージェント/ロボットの音声インターフェース『対話』」にあると思う。会話を「一般的な人と他愛のない話、日常的な挨拶」、対話を「自分の感情や思考を伝える、相手の思考を受けて理解する、コミュニケーション」と定義し、対話は「非タスク指向型」、つまり目的のない雑談など、対話そのものを楽しむための発話である、としている。
雑談の機能は評価しにくいのでこれまで重要度は低いとされてきたが、近年は研究が進んでいるそうだ。河野さんは「話がつまらない問題」を掘り下げている。一つは話者の言動だが、もう一つは話の内容(コンテンツ)だ。そして、現在の音声インターフェースでの対話内容を調べると、大半が「ウンチク」「雑学」であり、それが飽きられる理由だというのだ。
ソフトバンクと吉本興業が組んで、若手作家を起用し、対話ロボット用の面白い受け答えのできるコンテンツを大量に作ったが、完成したそばから飽きられてしまった、と書いている。
日本語は英語などに比べて音声インターフェースに向かないという指摘もあり、日本文化や日本語についての理解が開発者には求められると河野さんは見ている。
音声認識や音声合成については、一朝一夕では技術開発できないため古くから研究開発していた企業が優勢で、数十カ国の多言語対応している音声認識技術を持っている会社はわずかしかないという。米・ニュアンス・コミュニケーションズ、グーグル、IBM、国内ベンダーのNTTドコモなどの技術についても解説。対話ビジネスに関心のある人には必読の本と言えるだろう。
当サイトご覧の皆様!
おすすめの本を教えてください。
本のリクエスト承ります!
広告掲載をお考えの皆様!
BOOKウォッチで
「ホン」「モノ」「コト」の
PRしてみませんか?