News Release

身体を持つ新しいAI、ロボットと幼児がどのように理解することを学ぶのかを解明

脳にヒントを得たアーキテクチャを持つモデルが、ニューラルネットワークにおける認知の発達や情報処理について新たな洞察をもたらします。

Peer-Reviewed Publication

Okinawa Institute of Science and Technology (OIST) Graduate University

私たち人間は、物事を一般化するのが得意です。例えば、幼児に赤いボールや赤いトラック、赤いバラを見せて、それらが「赤い色」だと教えれば、初めてトマトを見たときにも、その色を正しく認識できる可能性が高いでしょう。

一般化を学習する上で重要なマイルストーンとなるのが「合成性」です。合成性とは、物体の色のように、全体を再利用可能な部分に分解したり、再構成したりする能力のことです。この能力をどのように獲得するのかを知ることは、発達神経科学、そしてAI研究において重要な課題です。

私たちの社会に革命をもたらす大規模言語モデル(LLM)へと進化することになった初期のニューラルネットワークは、もともと、脳がどのように情報を処理するかを研究する目的で開発されました。皮肉なことに、これらのモデルが洗練されるにつれ、内部の情報処理経路は不透明になっており、現在では何兆もの調整可能なパラメータを持つモデルも登場しています。

しかし、このほど、沖縄科学技術大学院大学(OIST)認知脳ロボティクス研究ユニットの研究チームが、ニューラルネットワークのさまざまな内部状態にアクセスできる新しいアーキテクチャを備えた身体性知能モデルを開発しました。このモデルは、子どもが一般化する方法を学ぶのと同じ方法で学習しているように見えます。本研究成果は、『Science Robotics』に掲載されました。「この論文では、ニューラルネットワークがどのように合成性を実現しているのか、そのメカニズムの一例を示しています」と、本研究の筆頭著者であるプラサンナ・ヴィジャヤラガヴァン博士は述べています。「私たちのモデルは、膨大なデータセットに基づく推論ではなく、視覚と言語、固有感覚、作業記憶、注意を組み合わせることでこれを達成します。まさに幼児がするのと同じようにです。」

完璧な不完全さ

トランスフォーマーと呼ばれるニューラルネットワーク・アーキテクチャを使ったLLMは、膨大なテキストデータに基づいて、文中の単語間の統計的な関係を学習します。あらゆる文脈における、あらゆる単語にアクセスすることができ、その理解に基づいて、与えられた指示に対する最も可能性の高い答えを予測します。これに対して、本研究による新しいモデルは、PV-RNN(Predictive coding inspired, Variational Recurrent Neural Network:予測符号化に着想を得た、変分再帰型ニューラルネットワーク)フレームワークに基づいており、①視覚(ロボットアームが色付きブロックを動かす動画を通して得られる)、②固有感覚(ロボットアームが動く際の関節角度による、手足の動きを感知する感覚)、③言語指示「青の上に赤を置いて」などの言語による指示の三つの異なる感覚情報を同時に入力・統合し、身体化された相互作用を通じて訓練しました。モデルには、視覚予測と言語指示に対応する関節角度、または感覚入力に対する言語指示のいずれかを生成するようタスクが与えられます。 

このシステムは、「自由エネルギー原理」に着想を得ています。自由エネルギー原理は、脳が過去の経験に基づいて感覚入力を継続的に予測し、予測と観察の差異を最小限に抑えようと行動するというものです。この差異は「自由エネルギー」として数値化され、不確実性の尺度となります。自由エネルギーを最小限に抑えることで、脳は安定した状態を維持します。このAIは、限られた作業記憶と注意力といった、人間の認知の限界を再現しており、LLMのようにすべてを一度に処理するのではなく、入力の処理と予測の更新を順番に行うように強制します。研究チームは、モデル内の情報の流れを研究することで、さまざまな入力をどのように統合して、行動をシミュレートし、生成するのかについて洞察を得ることができます。

このモジュール式のアーキテクチャにより、研究チームは幼児がどのようにして合成性を獲得するのかについて、より深く理解することができました。ヴィジャヤラガヴァン博士は「モデルが同じ単語を異なる文脈でより多く目にすればするほど、その単語をよりよく学習できることを発見しました。これは、幼児が赤いトラックを何度も押すだけよりも、さまざまな赤い物体に多様に働きかける方が、 赤という色の概念をより早く学習できるという現実の状況を再現しています」と説明します。

ブラックボックスを開ける

「私たちのモデルは、合成性を達成するために、LLMよりもはるかに少ない訓練データと、より少ないコンピューティング能力しか必要としません。一方、LLMよりも間違いを犯すことが多いですが、人間がするのと同じような間違いをします」とヴィジャヤラガヴァン博士は言います。この特徴こそが、認知科学者や、モデルの意思決定プロセスをマッピングしようとしているAI研究者にとって、このモデルが非常に有用であるゆえんです。現在使われているLLMとは異なる目的で使用されているため、効果を比較することはできませんが、PV-RNNは、ニューラルネットワークがどのように構成されているのか、その情報処理経路についてより深い洞察が得られることを示しています。比較的浅いアーキテクチャにより、研究チームはネットワークの潜在状態を視覚化することができます。潜在状態とは、過去から保持され、現在の予測に使用される情報の、進化する内的表象のことです。

このモデルは、子どもの急速な言語習得を説明するには、子どもが利用できる言語入力が不十分であるという「刺激の貧困」問題にも取り組んでいます。このモデルは、特にLLMと比較すると、非常に限られたデータセットしか持たないにもかかわらず、高い合成性を達成しており、言語を行動に結びつけることが、子どもの優れた言語学習能力にとって重要な促進要因である可能性を示唆しています。

この「身体化された学習」は、透明性を高め、自らの行動の影響をよりよく理解することで、将来的により安全で倫理的なAIの実現に向けた道筋を示す可能性がさらに高まります。LLMのように純粋に言語的な観点から「苦しみ」という言葉を学習することは、身体化された経験と言語を併せて意味を学習するPV-RNNに比べ、感情的な重みは軽くなります。

「私たちはこのモデルの性能向上に向けた研究を続けており、発達神経科学のさまざまな領域を探求する際にこのモデルを活用しています。今後、認知発達や言語学習プロセスに関して新たな知見が得られることを期待しています」と、論文の責任著者で、同ユニットを率いる谷淳教授は述べています。私たちの社会を築く知性は、どのようにして獲得されるのかは、科学における大きな疑問の一つです。PV-RNNはまだその問いに答えを出していませんが、脳内で情報がどのように処理されるかという新たな研究分野を開拓しました。「このモデルが言語と行動を組み合わせることを学習する過程を観察することで、人間の認知の根底にある基本的なプロセスを理解することができます」とヴィジャヤラガヴァン博士は総括します。「このモデルにより、すでに、言語習得における合成性について多くのことが分かってきており、より効率的で、透明性が高く、安全なモデル構築の可能性が示されています。」


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.