GoogleのDeepMindチームが人工知能による読唇技術を開発し、聴覚障害や高齢者の聴覚サポートの可能性を開いた - A.I.lab（エー・アイ・ラボ）- 人間の、人間による、人間のための人工知能メディア

Google社のDeepMindプロジェクトチームが読唇を人工知能で実現するプロジェクトで一定レベルの成果を上げました。論文によると、イギリス国営放送BBCの番組で学習させ、読唇が十分にできる人の読唇レベルよりも優れた成果を出したとのこと。

f:id:ailab:20161126160642j:plain — 人工知能による読唇

これによって、聴覚障害をもった方は会話中読唇をしなくても、別の方法で情報を受取ることができます。高齢者の難聴などは、この技術を使うことで、喋っている内容を解析し、補聴器や骨伝導でより明確なメッセージとして会話をサポートする可能性を広げました。

このプロジェクトの研究者は、Siriのような音声アシスタントを指示する新しい方法として、あるいは音声認識を強化する方法として、この技術がいつか電話などのデバイスと連携していくことを目指しているとのことです。静かな場所で、声が出せないシチュエーションなどで、通話をすることも可能になるのかもしれませんね。

学習リソースが一般的なメディアなどからの情報ともあり、学術的に特定の限定された環境とはことなり、ごく一般的なシチュエーションを想定して開発を進めていることがとれます。いままでの研究を一歩先行く実用的な成果を生んだことは革新的な出来事であるといえます。

ちなみにですが、プロの読唇でも精度は平均52%程度とのことだが、本プロジェクトでの成果は93.4%の精度で読唇を行うことができるといいます。

人工知能の発展に伴い、これまでは単語を読み取るにとどまる読唇だったものが、読唇から文章の理解へと進化しているとも言い換えることができます。

先日のGoogle翻訳の精度向上という記事にもある通り、

ailab.hatenablog.com

日常会話などで使用される会話を解析する技術である自然言語処理の精度があがることで、さまざまな技術とクロスし、より便利で精度の技術が開発されはじめています。

このように、社会的にも意義のある人工知能の活用というのはどんどん進化してほしい分野です。