【概要】
奈良先端科学技術大学院大学(学長:塩崎一裕) 先端科学技術研究科 情報科学領域の田中沙織特任准教授、株式会社国際電気通信基礎技術研究所(ATR)脳情報通信総合研究所の酒井雄希主任研究員、玉川大学 脳科学研究所の酒井裕教授らの研究グループは、強い不安とそれを一時的に軽減するための繰り返し行動で特徴づけられる強迫症(強迫性障害)について、症状の仕組みを明らかにする計算論モデルを作成し、そのモデルから予測された変化が、強迫症患者に見られることを実際につきとめました。さらに、強迫症の治療において最も有効とされる行動療法・薬物療法のメカニズムを、計算論モデル・実験データにおいて解明しました。この成果は、患者の特性に応じて、どういった治療が最適かを選択する有力な手掛かりとして応用できる可能性があります。
この研究成果は、2022年8月30日に米科学誌Cell Reportsに掲載されました。
【背景と目的】
行動や脳の神経活動の背景にある仕組みを数理モデルによって明らかにしようとする研究方法は、「計算論的アプローチ」と呼ばれます。このアプローチでは、私たちが何かを知覚し行動する際に脳が行っている脳神経の信号処理を、ある種の「計算」と捉えて、そのプロセスの計算論モデルを作成します。近年、精神疾患を対象として、この計算論的アプローチを用いることで、検査データなど客観的な指標だけではわからない疾患の仕組みを理解しようとする「計算論的精神医学(computational psychiatry)」が注目を集めています。私たちは、この計算論的アプローチを用いることで、強迫症(強迫性障害)の症状・治療のメカニズム解明を目指しました。
【解説】
強迫症は、生涯有病率約2%とよくみられる精神疾患で、強迫観念と強迫行為によって特徴づけられます。強迫観念は繰り返される持続的な思考で、強い不安を伴います。強迫行為は強迫観念によって起こった不安を一時的に軽減するための過剰な繰り返し行動です。代表的な症状としては、「鍵がしっかり閉まっていないことでなにか起こるのではないかと不安に思い(強迫観念)、何回もドアノブを確認する(強迫行為)」などが知られています。治療法として、不安に立ち向かい強迫行為をしないことを練習する行動療法と、抗うつ薬としても知られている「セロトニン再取り込み阻害薬(serotonin reuptake inhibitor: SRI)」による薬物療法があり、これらは治療ガイドラインで第一選択の治療法とされています。しかし、強迫観念と強迫行為が悪循環する強迫症状がなぜ生じてくるのか、行動療法やSRIの投与がどのようにして治療効果を発揮しているのかのメカニズムはよく分かっていませんでした。
そこで、私たちはこのメカニズムを解明するために、なぜ強迫症患者の脳がこの悪循環を「学習」してしまうのかについて、計算論モデルを使って調べました。ここでいう「学習」は、試験勉強のような学習ではなく、人間が様々な行動を身につけることを指します。私たちは、脳が行なっているとされる学習の一つである強化学習に着目し、その時に脳が行っているプロセスをある種の「計算」とみなし、計算論モデルを作成しました。ある個人がどのような行動を身につけやすいかといった特性を表す学習パラメータを、パソコンで実施可能な、簡単な選択課題で計測することができます。この学習パラメータの例として、学習の速度や探索の度合い、予想との差分(違い)をどれぐらい過去の行動まで関連付けるかなどがあります。
様々な学習パラメータの組み合わせを用いたコンピューター・シミュレーションや理論的解析を行った結果、どれぐらい過去の行動まで学習に関連付けるかを調整する学習パラメータνについて、現在の結果が予想より悪かった場合(ν-)のパラメータが、予想より良かった場合(ν+)のパラメータよりも極端に小さい(“アンバランス”)場合、強迫症状(強迫観念と強迫行為の繰り返し)がいつのまにか学習されてしまうことを見い出しました。さらに、この学習してしまった強迫症状は、「強迫観念があっても強迫行為をしない」といった行動療法を行うことによって改善できることも、シミュレーションで見い出すことができました。
次に、計算論モデルから予測された学習パラメータの性質が、実際の強迫症患者において観察されるのかどうかを検証しました。強迫症患者と健常者において選択課題のデータ収集を行い、個々人の学習パラメータを推定したところ、計算論モデルから予測された通り、強迫症患者は健常者と比較してアンバランスな学習パラメータを示すことが分かりました。
また、これまで治療薬であるSRIがどのようにして強迫症への治療効果を発揮しているのかは解明されていませんでした。そこで、SRIの投与量と学習パラメータのアンバランスさの関係性を調べたところ、治療薬であるSRIの投与量を増やすほど、アンバランスを解消できていることが分かりました。つまり、行動レベルのメカニズムとしては、学習パラメータのアンバランスを解消することによって、治療効果を発揮しているというメカニズムが示唆されました。
これらの成果は、強迫症状やその治療の根本的なメカニズムの理解において、大きな進展と言えます。
【今後の展開】
臨床的なエビデンスとして、一部の強迫症患者は行動療法での治療がうまくいかないこと(治療抵抗性)が知られています。私たちの研究では、学習パラメータを計測・推定して、より極端なアンバランスが存在する場合、行動療法のみでは治療ができないということも、理論的に導き出すことができました。現状の臨床では、強迫症を治療する際にどの治療法が効果を発揮するかを事前に予測することはできません。今後、私たちの計算論的アプローチを適用し、治療前に学習パラメータを評価することで、行動療法のみでの治療が可能かどうかといった、治療の最適化ができる可能性があります。
###
【掲載論文】
タイトル: Memory trace imbalance in reinforcement and punishment systems can reinforce implicit choices leading to obsessive-compulsive behavior
著者: Yuki Sakai*, Yutaka Sakai*, Yoshinari Abe, Jin Narumoto & Saori C. Tanaka (*共同筆頭著者)
掲載誌: Cell Reports
DOI: 10.1016/j.celrep.2022.111275
【研究室ホームページ】
http://isw3.naist.jp/Research/ai-cbn-ja.html
【用語解説】
強化学習:強化学習は、試行錯誤を重ねて学習するアルゴリズムの一つで、AI(人工知能)、ロボット工学、神経科学の研究に大きな影響を与えています。学習者である「エージェント」が、与えられる報酬を最大化できるような行動を獲得するために、自分の選択した行動が想定したよりも良かったか悪かったかの評価について、それまでの選択で得られた報酬を「価値」として計算し、より価値が高い行動を選択しやすくなるように学習します。様々な研究によって、動物やヒトの学習方法と類似すると考えられるようになっています。
学習パラメータν:私たちの日常では、何らかの行動を行った際に、すぐに結果が得られることはまれです。強化学習では、行動と結果が時間的に離れている場合でも学習を効率的に行う仕組みとして、過去の行動を一種の記憶(トレース記憶)として保持して、その記憶の強度によって結果と行動の関連付けを調整する枠組みがあります(適格度トレース)。選択されない行動のトレース記憶は次第に忘却(減衰)していきます。これは、直近に選択した行動や何回も選択した行動は、現在の結果との関連性が高く、過去になるほど現在の結果との関連性が低くなることを表しています。私たちの計算論モデルでは、過去の行動を忘れる減衰のスピードについて、結果が予想よりも良かった場合を減衰係数ν+、悪かった場合をν-と想定しています。つまり、結果が予測よりも良かった場合と悪かった場合において、過去の行動を忘れるスピードが異なるという想定をしていることになります。この想定は、過去の研究からこれらが異なった神経回路に実装されていると考えられていることに基づきます。
Journal
Cell Reports
Article Title
Memory trace imbalance in reinforcement and punishment systems can reinforce implicit choices leading to obsessive-compulsive behavior