AIの進化で実現したスマホARのオープン化：Facebook f8 2017

April 26, 2017 スクラム代表・宮田ブログ

今月から始まるGAFA各社の開発者向け会議シリーズの先陣を切って、4/18-19にFacebookの開発者会議f8が開催されました。

昨年のf8では、「今後10年間の開発のロードマップ」が初めて公開されましたが、今回はその中身がより具体的になったという印象です。

これが今回のf8での10年ロードマップですが、Instagramが[Product]から[Ecosystem]に格上げになったのと、Workplaceが[Product]に追加になった程度で、去年から大きな変化はありません。

10年の視野で「Connectivity」「AI」「VR/AR」という三つの[Technology]を柱に据え、それを徐々に[Product]化をしていき、そこから花開いたものについては開発者コミュニティを巻き込みながら[Ecosystem]化していくという構成になっています。

現時点でEcosystemに位置付けられているものは、FacebookそのものとInstagramだけで、最近急成長しているMessengerなどが後に続く形になっています。

今回3時間に及ぶKeynote（Keynote 1日目 / Keynote 2日目）でそれぞれの要素が詳しく語られましたが、今回の発表の目玉である「スマホAR」と、その実現に大きな役割を果たした「AIの進化」についてまとめて見たいと思います。

AI：「スマホ内」で人の姿勢までトラッキング

昨年11月にGoogleがMade By Googleのイベントを開催した際に「「AIファースト」のGoogleと「Peopleファースト」のFacebook」というポストで、AIという技術を核に据えるGoogleと人を核に据えるFacebookという対比で書きましたが、二年前に「売上の1/3をR & Dに投下するFacebook。ザッカーバーグが明かしたAIを研究する理由。」というポストで書いた通り、Facebookも世界中のAI関連のトップ研究者を大量に採用し、AIの研究を進めています。

今回、我々が日々Facebookのプロダクトを通して何気なく使っているAIの進化について、詳しい説明がありました。

これは、初日にCTOのMike Schroepferが説明した、過去4年間のComputer Visionの進化です。

4枚とも同じ写真ですが、2012年の時点では人が写っているということしかわからなかったものが、2015年には犬や冷蔵庫などだいぶ詳しい情報が分かるようになっています。最後の二枚はMask R-CNNという最新のアルゴリズムを適用したもので、正確にオブジェクトを認識するだけでなく、姿勢や向きまで正確に把握できています。

この技術が活用されているのが、動画の中から人物と背景などを自動で区別し自在に加工できるStyle Transferです。Facebookのアプリを右にスワイプしてカメラを立ち上げて画像加工ボタンをクリックすると簡単に体験できるのでぜひ試してみてください。

そして驚くのがその進化のスピードです。初めて関連の論文が提出されたのがわずか2年前で、それからサーバで実装されたと思ったら、今はすでにスマホ内でリアルタイム処理できるようになっています。このスマホ内で処理が可能になったというのが、次に説明する「スマホAR」の実現につながっています。

そして、AIの現状と課題について。これまでみてきたComputer Visionの進化により「見たものを理解する (Perception)」についてはかなりのことが実現できるようになりました。しかし今後、AIがより人間に近づいていくためにまだまだ実現できていないのが「文脈の理解と習得 (Understanding & Learning) 」、「未来の予測 (Prediction) 」、「プランニング (Planning)」などです。

そしてこの質問。「このピザはベジタリアンピザですか？」

答えは当然No。人間には簡単な質問ですが、人間は「これはペパロニピザ」「ペパロニは肉」「ベジタリアンは肉を食べない」といういくつかの一般常識を組み合わせて答えを導き出しています。Computer Visionで画像に写っているものは判断できても、AIはまだそうした一般常識を組み合わせた判断まではできていないということです。先日行われたNYUのAIカンファレンスでも、「これからはAIが人に学ぶタイミングだ」と言っていました。

Understanding & Learningの状況について。2年前は一番左にある非常に簡単な語彙の質問にもAIは答えられなかった。現在は、真ん中にある英語のWikiの500万のエントリにある全てのテキストの質問に答えられるレベルまできている。そして、現在は一番右にあるような複雑なデータのトレーニングに取り組んでいるそうです。

次は、現在開発中の複数のAIアルゴリズムを組み合わせた動画のストーリー全体を理解するためのシステム。人にタグをつけ、そのアクションをトラッキングし、喋った言葉を認識、そして翻訳、まで可能となると言います。ここまでできると広告、ゲームなどいろんな複雑な展開が可能になりそうです。

Facebookは、新たに構築したDeep LearningフレームワークCaffe2をオープンソース化しています。開発者は一つのコードを書くだけで、データセンターとスマホいずれにも最適化されるよう設計されています。Caffe2を使うことで、スマホローカルでのComputer Vision処理が100倍高速化したそうです。すごい。

人間が片目を隠しても奥行きをある程度理解できるのと同じ原則を使ってAIをトレーニングすることで、こうした2Dの画像の奥行きも表現することができるようになりました。動画で見ると、月面の2Dの画像を動かすと3Dのように奥行きが感じられます。

また最近スマホで実装されはじめているDeep Effectも実現できています。Deep Effectは、iPhone7など複数のカメラがついたスマホで、被写体を認識して背景を自動でぼかす機能ですが、FacebookはそれをAIで実現しています。

スマホAR：オープン化で誰もが開発可能に

そして今回のProductの目玉、「スマホAR」です。

前回のf8では、将来的なメガネ型デバイスを使ったARの未来とOculsのヘッドセットを中心としたVRが話題の中心でしたが、今回、この一年で劇的に進化を遂げたAIをベースにしたスマホARプラットフォームのオープン化を発表しました。

当初は「ARはメガネ型デバイスから」と考えていたようですが、スマホでの簡易的なARの急速な広がりを見て、今回オープン化することを決めたといいます。GoogleのTangoなどとは違い、専用のハードウェアを必要としないため、Facebookの11億人のモバイルユーザに向けていきなりサービスを展開することが可能となります。

スマホARの具体的なユースケースは、文字などを載せる「情報の表示 (Information)」、Pokemon Goのような「デジタルオブジェクトの表示 (Digital Object) 」、そしてフェイスフィルターなどの「加工 (Enhancement) 」の3つがあります。

これはNikeによるデモ。ランニングをしているとき専用のフェイスフィルターで、デジタルのヘアバンドと走行時間などを体の動きに連動させることができます。今回のオープン化で、企業はこうしてARを使ったプロモーションやコンテンツなどの展開が可能になります。

これはARゲームの例。テーブルを認識させ、テーブルの上でゲームも可能。

そしてアート。場所を指定して、スマホを通してのみ見えるアートを展示することも可能。

冷蔵庫の上に、家族向けのメモを残すというアプリケーションなども実現可能。

このスマホARのプラットフォーム、Camera Effect Platformがオープン化されるにあたってデベロッパー向けに公開されるのツールは二つ。

一つ目がFrame Studio。誰でも簡単にフレームが作れるというツール。

都市によって違うフレームを提供するということも簡単に可能。スタンプラリー的な展開やイベント展開もしやすいですね。

二つ目のツールがAR Studio。3Dオブジェクトやインタラクションなど複雑な設定が可能なツール。こちらも技術者やプログラミングはなしで利用ができるようです。

これはEAによるデモ。顔の動きや表情をリアルタイムでトラッキングして、ゲームの主人公のような3DのヘルメットをかぶるというARコンテンツを作ることができます。Pokemon Goみたいな企画がしたかった人たちが飛びつきそうなツールですね。

これはサッカーのマンUのデモ。サッカーの試合とリアルタイムで連動して、スコアを表示したり、顔にデジタルの旗を載せたり、音楽を流したりできるということです。

ライブ動画にも対応しています。これはGiphyのデモですが、ライブ動画にアニメーションを載せたりすることもできるようです。

これがAR Studioの機能一覧です。これが全てスマホ内で処理できるというのだからすごいですね。15年も前にComputer Visionの会社を経営していた身としては遠い目になります。

また将来的には、このような画像から「お店の中にいる」「ここがカウンター」「これが人物」と言ったレベルの文脈やオブジェクトの認識も可能にしていくといいます。

そうすると、お店の特定の場所に、友達向けのノートを残したり、情報を表示したり、デジタルオブジェクトを置くなんていう使い方もできるようになります。

また将来的には、ハンドトラッキング、体のポーズトラッキングなどの機能も追加予定だということです。

ARのプロモーション利用などでは、Snapchatが先行しており、去年のスーパーボールでGateradeが展開したキャンペーンは1.6億インプレッションを達成し大きな話題となりました（下のGifはテニスのセレーナウィリアムス）。

今回はるかにユーザベースの大きいFacebookが、多様な機能が搭載されたツールと合わせて「スマホAR」をオープン化したことで、企業やアーティスト、スポーツチームなどが一気にARコンテンツやプロモーションを展開することが可能になりました。

昨年、Pokemon Goが大きな社会現象となりましたが、それに続く、もしくはそれを超えるARサービス、ARコンテンツが生まれて来るのではないかと思います。

ソーシャルVR、メッセンジャー2.0

スマホAR以外にも面白いプロダクトの発表がいくつかありました。

VRでは、去年10月のOculus Connect3で予告があったソーシャルVRプロダクト、Facebook Spacesが発表されました。

Oculusのヘッドセットをかけた4人のFacebookの友達と一緒に入れるバーチャル空間です。話をしたり、ゲームをしたり、動画を見たりすることができます。私も実際にNYにいる友達と動画を見たり、セルフィーを撮ったりして見ましたが、想像以上にリアルで全く新しい体験でした。

これはOculusのヘッドセットが必須という大きなハードルはありますが、将来的には大きなインパクトを及ぼしそうです。

前回Botが導入されたメッセンジャーも色々な発表がありました。

12億ユーザまで成長したメッセンジャーアプリ向けには、わずか1年間で10万ものBotが開発されたということです。

新しい機能の一つが「Parametric Codes」。メッセンジャーのカメラから認識できるコードで、1つのBotに複数のコードを対応させることができ、コード毎に違う挙動をさせることができるそうです。

二つ目が「Chat Extensions」。チャットの途中にSpotifyなどのアプリ内を検索し、友達と一緒に音楽を聴いたり、レストラン予約、チケット予約、UBER予約などもできるようになるということです。

またAIも導入も随時進めており、二週間前にMというメッセンジャー向けのAIが米国でローンチしています。現在、MはDelivery.comというフードデリバリーのサービスと連携しており、友達とチャットをしている途中で「I’m hungry」と呟くと、そこから食事をオーダーすることができます。今後いろんなChat Extensionにも対応していくようです。

日本ではLINEが早くから企業アカウントに力を入れており、スタンプや問い合わせなど様々な機能がすでに提供されていますが、この一年で3億人もユーザが増えたメッセンジャーも進化が加速している感があり、今後がますます楽しみな感じがします。

ARグラスをかけ、考えるだけで入力できる未来

今回スマホARのプラットフォーム化という現実的な路線に舵を切ったFacebookですが、やはり将来的にはみんながスマートグラスをかけてARの世界に生きるという未来を夢見ています。

Oculus ResearchのChief Scientist Michael Abrash が、やはりARグラスが究極のゴールで、これから50年間でコンピュータのインターフェースは大きく変わると熱く語っていました。

2013年にGoogleがGoogle Glassでチャレンジして失敗し、2016年にはSnapがよりエンタメにふって参入したARグラスの世界。

今回見てきたようにAIが大いに進化し、ARがより現実的な世界に近づいた今。スマホARのプラットフォームから、ARグラスに向けてFacebookがどんなステップでProductを出していくのかに非常に興味がそそられます。

そして最後を締めくくったのが、元DARPA長官という超大物で去年Facebookにジョインして、Building8というハードウェアの開発グループのトップをしているRegina Duganによるスピーチ。

まだ研究初期段階のようですが、光学センサーを使って脳波から直接コンピュータに入力を行い、肌からコンピュータの出力を受け取るという新しいハードウェアを開発しているということです。まだ現時点では十分な分解能のあるセンサーは存在しないようですが、決して絵空事ではなく、確実に実現に向けたロードマップがあるように感じました。

ドラフトからだいぶ削ったのですが、それでもだいぶ長いエントリになりました。

最近のf8は本当に面白いです。GWにお時間あれば是非3時間全編（1日目 / 2日目）動画で見ることをオススメします。5/26と5/31のTackle!でもお話しします。