何がフェイクか分からない。着実に進化するAIそしてVR :Facebook f8 2018
日本のゴールデンウィーク前後のこの二週間は、Facebook、Google、Microsoftと立て続けに大手テック企業の開発者会議が行われた怒涛の二週間でした。
私はようやくFacebookの開発者会議、f8のキーノート3時間を見終わったところなので、今回はf8の注目ポイントについてまとめたいと思います。
昨年のf8(ブログ「AIの進化で実現したスマホARのオープン化 :Facebook f8 2017」)は、スマホARプラットフォームのオープン化の発表、ARグラスの開発、脳コンピュータインターフェースなど、かなりアグレッシブな内容満載でしたが、今年はまだ収まっていない情報セキュリティ問題の直後ということもあってか、二日ともかなり「安全運転」な印象のKeynoteでした。
デーティング機能の発表、履歴削除機能の発表など、各種新機能の発表もありましたが、今回のポストでは、二日間の3時間に及ぶKeynote(Keynote 1日目 / Keynote 2日目 :すでに日本語字幕付いています)から、主に二日目に語られた「AIの進化」と、Facebookが次のプラットフォームと力を入れる「VRの進化」を中心にまとめてみたいと思います。
ハッシュタグで劇的に進化するAI
これはおなじみの二年前のf8で発表されたFacebookの10年ロードマップです。
右側から、彼らが今後10年の視野で取り組んでいる[Technology]分野(Connectivity、AI、VRの三つ)、そしてそれらを徐々に[Product]化して行き、最終的には開発者コミュニティを巻き込みながら[Ecosystem]化していくという構成になっています。
昨年、InstagramがEcosystemに、WorkplaceがProductにそれぞれ格上げされましたが、今年は大きな変化はありませんでした。
それではまずは、AIの進化の話から。
今回のKeynote全般でもっとも時間を費やしたフェイクニュース対策、プライバシー問題ですが、そこでもAIの活用が進んでいます。
さすがの規模の数字ですが、毎日数百万のフェイクアカウントをAIによって発見し、99%のアルカイダ/ISISコンテンツは誰の目に触れることもなくAIにより削除されているそうです。
20億ユーザという巨大プラットフォームがいかにそうした勢力と日々戦いを強いられており、AIがそこで用いられているかがわかります。
これもなかなかピンとこない数字ではありますが、2年前にリリースされたCaffe2というAIフレームワークにより、1日に200T(20兆回)というとてつもない回数の「予測」がなされているということです。改めてFacebookというプラットフォームの規模を感じさせる数字です。
そしてもはやそうした処理はクラウド側で処理されている訳ではなく、10億台以上のスマホの中で処理されているということです。これも昨年のf8で紹介された内容ですが、動画にステッカーをつけるなど様々なAIの処理はエッジ側で行われているのです。
続いて、AIの三つの注力分野での進化について。
まずは、もっとも著しい進化を見せている「画像(Vision)」の認識。
去年のf8で、動画の中から人物を見つけるだけでなく、それぞれの姿勢まで細かくトラッキングできるようになったという話がありましたが、今年はそれがさらにスムーズかつ詳細に分かるようになっています。
そして驚くのが今回初めて紹介された「Dense Pose」で、動画に映る複数の人物の体の詳細な動きを、極めて細くトラッキングできるようになっています(下の動画は別のイベントでFacebookのAI研究者が発表したものです)。
動画の後半にも出てきますが、今のステッカーをさらに進化させて、複数の人にリアルタイムでステッカーをつけるというようなことが可能になりそうです。
このように驚異的な進化を遂げているFacebookの画像認識ですが、さらなる飛躍を遂げるために、そのTrainingのために使われるデータにも大きな進化がありました。
これまではインドなどで大量の人がマニュアルでタグ付けした画像を使っていたのですが、昨年からはパブリックに公開されている35億のハッシュタグ付き画像をトレーニングに使える仕組みを導入したということです。
その結果、トレーニングに使える画像が増加したことで、右側のグラフにあるように認識精度は着実に向上しているということです。
みなさんがInstagramを使えば使うほど、AIの認識精度が向上するという仕組みになっているということですね。よく「うちには大量にデータがあります!」と聞くのですが、ほとんどは全く使える状態にはなく、こうして実際にTrainingに使える仕組みを構築したということはとても大きいです。
次は、パラメータの数の話です。
Facebookの画像認識では、8.6億ものパラメータがあるということです。どんなパラメータなのかは語られませんでしたが、広辞苑が25万語、Wikipediaが500万語であることを考えると、8.6億というのはとてつもない数であるということはわかります。
そして、下記のように信じられないレベルまで精度が上がっています。
つい数年前まで、こうした写真から「花」「鳥」「木」と判別することさえ非常に難しかったのですが、彼らはそのカテゴリ、種類まで詳細な判別できるまでになっています。
このレベルまで来ると、より詳細に画像からのターゲティングが可能となるため、広告、コマース、検索など利用の用途は無限に広がります。
ちなみにFacebookやInstagramにアップされるであろうこんな写真では、「誰が写っている」というレベルでなく、「誰がどんなコンテクストでどんな商品と写っているか」まで判別できます。これまでは雑誌の編集者が時間をかけてやっていたような、紹介文の作成、関連商品の紹介などもAIが取って代われるようになるでしょう。
続いては、「言語(Language)」についてです。
今年から日本でもAmazon EchoなどのVUI端末が発売され始めましたが、音声認識の精度が低くあまり評判が高くないと聞きます。英語や中国語を中心に開発されているので、日本語認識の精度が低いのは仕方のない状況とも言えます。
そして世界には、6,000種類もの言語があり、それらを自在に翻訳するためには、画像認識におけるハッシュタグのような大きなジャンプが必要となるわけです。
まだ実験段階のようですが、言語間の翻訳を、準備された教師データを用いるのではなく、言語の重なりを予測することができるMuseというシステムを開発しているということです。Museは、Visionにおけるハッシュタグデータのような、Trainingにおける大きな飛躍になる可能性を秘めています。
最後に、「予測(Reasoning)」です。
大きな進化を遂げているVision、Languageと比べて、まだまだAIが得意でないのがReasoningです。
今回紹介されたのは、バーチャルな環境とエージェントを用意して、下にある「バスタブの色は何色?」「キャンドルがあるのはどの部屋?」というような質問に、Vision、Language、Reasoningそれぞれ組み合わせて答えるという手法です。
右上にあるようなバーチャルなモデルが用意されており、それらを画像認識を使ってエージェントが進みながら、回答を探すというアプローチです。
モデルがバーチャルなので何度もトレーニングができるため、Reasoningの進化に大いに寄与するということです。
我々人類が日々行なっているように、AIがどんどん推論ができるようになるためにはもう少し時間がかかるのかもしれません。
ソーシャルVR時代の到来を強烈に感じたOculusGo
続いては、VRの進化について。
モバイルの大きな波にのり成長したFacebookですが、自社でハードウェアプラットフォームを持ちたいという悲願を実現しようとしているのがVRです。
Oculusを買収して約四年になりますが、今回大きなステップであるスタンドアローン端末を発表しました。
これまでも、Oculus Rift、 Gear VRなどの製品を発売してきましたが、高価である、PCなどと接続する必要がある、画質が低いなど様々な課題がありました。
今回発売されたOculusGoは、$199と安価で、スマホやPCと接続する必要がなく、そして高画質な端末です。
これまで、Oculus Rift、Gear VRと試してきましたが、OculusGoは圧倒的に実用レベルの端末になっています。Oculus RyftなどのようにPCが必要ないので持ち歩けますし、Gear VRのようにスマホを差し込む必要もないので、いつでも使えます。
先週出張にも持って行きましたが、少し大きいことを除けば完璧です。
Facebookとの連携がスムーズになったことでソーシャル感が一気に出たこと、アプリにも成熟感が出てきたことで一般にもいよいよ広がっていきそうです。
個人的には、ベタですが、OculusGoの巨大画面でNetflixのオリジナルコンテンツを楽しむことにすっかりハマりました。容量が増えて映画がダウンロードできるようになったら飛行機の中はずっとこれをつけていることになりそうです。
2000年代後半にPDAからスマホの時代が来て、あらゆる場所でスマホを触るのが一般的になったように、2018年、OculusGoをきっかけにVRも当たり前のライフスタイルに準備がいよいよ整ったような気がします。
リアルかバーチャルか見分けのつかない時代がいよいよやってきた
期待感の大きいOculusGoですが、まだできないこと一つが手や頭のトラッキングです。
去年のf8でも紹介されたProject Santa Cruzでは、このトラッキングを実現すべく引続き研究中とのことです。すでにベータ版はできているということで、MagicLeapも出るという今年の後半にはリリースされるのかもしれません。
ソーシャルVRをよりナチュラルなものにするためにFacebookが取り組んでいる技術開発分野がこの8つです。
その中で、今回は以下の四つの分野、「光学/ディスプレイ」「画像認識」「ハンドトラッキング」「アバター」について説明がありました。
まずは、「光学/ディスプレイ」。
上が今のVRデバイスの現状、下が人類の能力です。
最初の「ピクセル」の問題は今後パネルの技術の進化で解決される可能性が高いということです。
一方で課題は、「視野角」と「フォーカスの深さ」で、現在でOculusの研究チームで様々な研究を続けているということです。
次は「画像認識」です。
実際の環境を3DキャプチャしてVRの中で再現するために、画像認識技術が使われます。
表題の「何がフェイクか分からない」というのは、ここのデモをみて感じたことです。
動画の中(2日目Keynote 29分付近)で紹介されているので、ぜひご覧ください。
鏡に映る内容まで正確に再現されており、目を凝らして見ても、リアルとほぼ見分けがつかないレベルのバーチャル画像です。
Oculus Goを実際に使って見て驚くのですが、バーチャルで再現されているNetflixなどの部屋のクオリティが非常に高いです。画像認識と3次元再構成の技術を使うことで、リアルな部屋かバーチャルな部屋かほぼ見分けがつかないレベルまで来ています
次は、「ハンドトラッキング」。
OculusGoでは、片手だけのシンプルなコントローラで操作をしますが、よりリアルに離れた場所にいる友人とインタラクションをするためには両手を使った自然な操作は重要です。
ただ、指同士の重なりなどかなり難しいということで、これはまだ先が長そうです。
そして最後が、「アバター」です。
これも今回OculusGoで大きく進化しています。
昨年ソーシャルVRが紹介された際は一番左。現在のOculusGoで実現されているのが二つ目。まだリアルとは程遠いですが、カスタマイズもかなりできて、いい感じには仕上がっています。
ただ、より自然なコミュニケーションをするために、一枚の写真から一番右のようなリアルなアバターを作る研究をしているということです。
ここも動画(2日目Keynote 32分付近)を見ないとイメージが伝わりにくいのですが、様々な言語と口の動きをシンクさせたり、様々な人種の顔に対応することにまでトライしています。
さらに研究レベルでは、こうした本当にリアルな顔のアバターでの会話実験もすでにできているということです。
ロボットの世界でも人間と見分けがつかないアンドロイドの研究が進んでいますが、一足先に、VRの世界でリアルの人間と話をしているのか、バーチャルなのか見分けがつかない時代がそこまで来ているようです。
次のチャレンジ:AIの倫理
ここまでAI、そしてAI技術と連携してVRがどの程度進化をしているかを見てきました。
そして今回初めてf8で語られたのが「AIの倫理(Ethics)」です。
多くのフェイクニュース、テロ組織のブロックなどにAIが活躍する一方で、現実と見分けのできないレベルでバーチャルコンテンツを簡単に生成できるレベルまできています。
そして、20億人からさらに増加し続けている世界最大規模のプラットフォームであるFacebookは、今回アメリカ大統領選挙で我々が学んだように、選挙という仕組みさえも動かしてしまえる力を持っています。
Facebookでは、こうした現状を踏まえ、今後のAIの運用にむけて、学者、政治家、コミュニティなど様々な人とともにAIの倫理について検討をしているということです。AIの進化がもはや無視できないレベルまできた今、その運用は今後大きな議論となりそうです。
また、以前からも噂されていたことですが、Facebookが独自の仮想通貨を開発するということが話題となっています。
今回紹介したAIやVRの進化は純粋に技術的な視点から本当にワクワクするのですが、一方で、さらに世界最大の国家以上のユーザ数を誇るFacebookが独自の経済圏を持つようになった時に、世界はどこへ向かうのか、そんなことを考えざるを得ないf8でした。