人類の目、耳、そして口になり始めたGoogleのAI：Google I/O 2019

June 5, 2019 スクラム代表・宮田ブログ

すでに6月に入ってしまいましたが、今回のポストでは、5/7-9に開催されたGoogleの開発者会議、Google I/Oを振り返りたいと思います。過去三年も、Google I/Oでの発表を、GoogleのAIを発展を中心にまとめてきました。

今回も、初日のKeynoteとDeveloper Keynoteでの発表をベースに、さらに進化を遂げたGoogleのAIが提供する新しい機能を中心に紹介したいと思います。 Keynoteを見ていないという方には、この13分間のサマリー動画もおすすめです。また、Google I/Oの一週間前に開催されたFacebookの開発者会議f8のブログ（果てしないソーシャルとAIの戦い。マルチモーダル、動画ハッシュタグ、インクルーシブ / f8 2019）も合わせてご覧いただくと、両社の違いがよくわかって面白いと思います。

Google Lens：翻訳+読み上げ

2年前のI/Oで発表された「カメラをかざすだけで検索」機能、Google Lensですが、今回大きなアップデートがありました。

これまではレストランのメニューにカメラをかざすと、自分の言語に翻訳ができるのがメインの機能でしたが、今回人気のメニューが自動でハイライトされ、さらにそこをタップするとその写真やレビューを見ることができるようになりました。

翻訳だけでも十分に画期的でしたが、ここまで来ると、全く言葉の分からない国でレストランに入る時に本当に助かる機能になりました。

さらに、世界にまだ8億人もいるという「非識字者（文字が読めない人）向けの機能」も追加されました。

途上国向けのアプリ、Google GoにGoogle Lensの機能が追加され、これまで人の力を借りなければ読めなかった文字を自分の言語に翻訳し、さらにそれを読み上げてくれるようになりました。

AIのサイズの大幅な縮小により実現した機能で、非識字者が、自分のスマホ１つで、食品のパッケージの注意書きを読んだり、子供の成績表を読んだり、銀行のATMや鉄道の券売機の説明を読んだりということができるようになります。

まさにGoogle Lensが、多くの人の「目」になるということだと思います。

まずは、12ヶ国語に対応しているということです。

Duplex : 店舗代理予約

次は、昨年のI/Oで発表され、大きなインパクトを与えた「店舗代理予約機能」Duplexの進化です。

これは昨年のI/Oでの紹介動画ですが、AIが人間の代わりに美容院に電話をし、予定などの情報を巧みに取り入れなかがら、担当者の人間と会話をし、予約を成立させるというデモでした。

このDuplexが、ついに公開され、アメリカの44の州で使えるようになるということです。

まだオンライン予約に対応していないレストランは非常に多いので、幅広く使われる機能になりそうです。

一方で、膨大な数のレストランの店員が知らず知らずのうちにAIと会話をすることになっていくということが、どんな影響を及ぼすのかは気になるところです。

今回新たに、DuplexのWebへの展開、Duplex on the webも発表されました。

これはレンタカーのスマホでの予約での事例ですが、予約時に多くのフォームに必要事項を入力をしていくのは結構な手間です。

Deplex on the webは、カレンダーなどの情報をベースに、日程や人数など事前に明らかな情報は自動的にフォームに入力してくれます。

昨年の合成音声ほど見た目のインパクトは感じませんが、地味ながら幅広く使われる機能になりそうです。

LiveTranscribe : 自動文字起こし

次は、世界に1億人以上いるという難聴の人々に向けて、相手が言った言葉をその場でテキストに変換していくという機能「LiveTranscribe」です。

動画にも自ら出演している難聴のサイエンティスト Dimitri Kanevskyが同僚と一緒に開発したという機能ですが、これまでは手話などが必要であったシーンで、健常者とのコミュニケーションが、非常にスムーズに行えています。 20%のボランティア時間で開発された機能ということですが、LiveTranscribeは、難聴者にとっての「耳」の機能を果たしています。すでに70の言語に対応しているということで、多くの人の生活にインパクトを与えそうな機能です。

LiveCaption : 自動字幕

このLiveTranscribeの技術が元になり開発されたのが、自動字幕、Live Captionの機能です。

これまでは必死に編集をしてつけていた字幕ですが、AIの力により、自動的に字幕がつけられるようになります。

動画は静止画と比べて情報量は多いものの検索が難しいということで、5-6年前に大学の授業に字幕をつけてトピック毎に検索可能にするというスタートアップに投資をしていましたが、LiveCaptionのデモを見るとまさ隔世の感があります。

LiveRelay : 難聴者通話支援

もう１つ発表された「Live系」機能が、音声認識と音声合成を組み合わせた「Live Relay」です。

難聴者の人が家のインターネット接続が故障した時にサポートの人とコミュニケーションができずに苦労したというソーシャルメディアの投稿がきっかけで開発されたということのようですが、Duplexと同様の技術を活用することで、まさに難聴者の「耳と口」の代わりをする機能です。

Google AssistantやDuplexは、出てきた当初は「便利ではあるものの、、」、という機能でしたが、これはまさに多くの人にとってなくてはならない機能になりそうです。

Project Euphonia : 障害者向け音声認識

そして最後に紹介するのが、これからの機能の延長線上で現在開発されている、Project Euphonia。

Live Transcriptionの生みの親であるDimitriのように、難聴やALSなど何らかの理由で発音や発話がクリアではない人の音声、画像データを学習させることで、そうした人々の声も認識するというプロジェクトです。

普通に聞くと半分も聞き取れないDimitriの会話を、Project Euphoriaは完璧に聞き取り、文字に起こしてくれます。また、まだ開発は始まったばかりのようですが、ALSの患者さんの顔の表情を使ったコミュニケーション機能は、AIができることの可能性を改めて感じさせてくれます。 音声認識、音声合成、画像認識とAIが進化したことで人間の目、口、耳といった機能を補完してくれる多くの機能が今回発表されました。しっかりとしたデータセットさえ用意ができ、それをアルゴリズムに学習させることができれば、AIはまだまだ様々なパワーを提供してくれるということでしょう。

今回のGoogle I/Oではここに紹介した以外にも、まだまだいろんな発表がありました。