Google DeepMindでは科学者らが、あるシーンを多角度から「監視」することができ、同じ空間での全く別の見え方を予測できる機械学習システムを構築した。この機械学習に人間が立ち会うことはない。このシステムは状況の3次元構造を学習でき、わずか数枚のそのシーンの2次元サンプル画像を使用するのみで、決定的なことには人間による監視なしに学習ができると著者らは報告している。Generative Query Network(GQN)と呼ばれるそのシステムのおかげで、システム自身のセンサーを使用して自立的に状況を学習できる機械への道が開かれるかもしれない。こういったシステムは人がラベル付けしたデータセットでトレーニングする必要はなく、それは今日のコンピュータビジョンシステムが求めているところである。Seyed Mohammadali Eslamiらに構築されたGQNは2つのパーツで構成されている。1つは表現ネットワークで、これはサンプル画像からそのシーンの符号化表現を作る。もう1つは生成ネットワークで、これは新しい観点から起こり得るシーンの画像を出力しつつ、そのシーンが部分的に曖昧な場合は不確実性も明らかにする。Eslamiらはオブジェクトや照明一式が載ったコンピュータが作り出した単純な状況を使ってGQNのトレーニングを行った。そしていくつかの新しいシーンの画像を与え、その範囲内であらゆる観点から予測されるシーンの画像を生成できた。さらには、色などそのシーンが変更された後でも同じことができ、このことはそれが単に「因数分解」された空間の特徴を学習しているわけではないことを示している。GQNの表現を足したり引いたりすることで新しいシーンを構築することができた。赤い球体が入ったシーンを青い球体が入ったシーンから取り除き、赤い円柱が入ったシーンを加えることで、青い円柱が入ったシーンができる。すべてにおいてGQNへの人による色や形の概念の明確な教授はない。このネットワークはまたロボットを学習させた後のコントロール方法としても有望である。その叙述的な能力を使って、たとえば固定カメラを1つだけ使用して様々なアングルからロボットアームを「監視する」ことができる。つまり、正確な位置決めとコントロールのために必要な原データは少なくてすむ。関連するPerspectiveではMatthias Zwickerがこれらの結果を解説している。
###
Journal
Science