いきなり論文や説明を読むと難解な部分もあるが、
私にとって重要な部分は、
1.脳内に世界モデルがある。(内部モデル internal model)
2.脳内の世界モデルを使ってシミュレーションする。そして実行する。
3.実行してみて、結果を脳内シミュレーション結果と比較照合する。
4.訂正する。世界モデルは精密になる。世界モデルがあまりに現実とずれていると生きていけない。なるべく差が小さくなるように訂正しつつ生きている。ここに使うエネルギーを最小化しようというのが、自由エネルギー原理の一側面である。
この部分が私の理論に役立つ。
提唱者のフリストンはシゾフレニー研究していた人だというから、だいたい同じイメージなのかもしれないとも思う。
私は長い間、自由エネルギー原理や内的モデルの話でいうところの、照合部分における、外部感覚からの信号到着と、内部シミュレーションからの信号到着の時間差を問題にしてきた。
この部分で、内的信号が外的信号よりも早く到着すれば正常。同時なら自生思考。内部信号が外部信号に送れると、させられ体験などの自我障害になる。
これがシゾフレニーで起こっていることの一部だと考えている。
させられ体験系の自我障害はたくさんある。指標としては、思考や意思の自己所属性の問題、また、能動性の問題などがあげられる。
シゾフレニーの症状として有名な幻聴もおそらく、内部信号を外部信号と感覚していることによる症状である。聴覚要素が大きいものから、思考要素が大きいものまで、幅があると考えている。
多分、私が、自分の都合のいいように誤解しているのだろうと思うが、こうした背景説明を使えば、私の考えを説明しやすくなると感じている。
ーーーーーーーーーーーーーーーーー
背景
生物の感覚入力に基づく適応的な行動は、何らかの自己組織化(つまり適応、最適化)によって特徴付けることができる。生物は、感覚入力を生成する外部環境のダイナミクスに関する内部表現(内部モデル)を自己組織化的に獲得することで環境の状態を認識する。さらに、環境に適応するために自分の行動を更新し、それによって生存と繁殖の確率を高めている。このような生物の自己組織化は、一般に何らかのコスト関数の最小化として定式化が可能であり、コスト関数の勾配(つまり微分)は神経活動やシナプス可塑性の方程式を導くことができる。これは神経科学の理論研究において広く共通する考え方である。
19世紀の物理学者兼医師であったHermann von Helmholtzは、ヒトの感覚入力は不完全であるため、脳は不十分な情報を補うために無意識に推論を行うことで知覚を支えているという無意識的推論の概念を提唱した[1]。つまり、脳は感覚入力の背後にある隠れた状態変数(隠れ状態)のダイナミクスを無意識に推論していると考えられる。ここでは、このように自律的に外界を推論する実体をエージェントと呼ぶこととする。Helmholtzの提唱した概念的な枠組みに加えて、無意識的推論は計算神経科学や機械学習の分野において統計学に基づき実装されてきた[2]。とりわけ予測符号化は、予測誤差というコスト関数を最小化することで外界の予測を行うための内部表現を自律的に獲得する理論的な枠組みであり、視覚野[3]や他の脳領域における情報処理のモデルとして適用されてきた。このような最適化はベイズ推論(ベイズ推定)と呼ばれる統計学的な推論として理解することができる。ベイズ推論とは、観測データに基づき事前確率(prior belief)を事後確率(posterior belief)に更新する過程のことであり、事前確率・事後確率とはそれぞれ観測の前・後におけるエージェントが持つ外部状態に関する信念を意味している。そこで、ベイズ推論の枠組みに基づき脳を理解しようとする、ベイズ脳仮説が提唱されてきた[4][5]。以上のように脳の理論が発展してきた流れの中で、イギリスの神経科学者であるKarl J. Fristonは、ベイズ推論の枠組みの下で脳認知機能や神経・精神疾患、心理・生命現象を数理的かつ統一的に説明するための理論として、自由エネルギー原理を提唱した[6][7]。
理論の概要
図. 自由エネルギー原理の概念図。ここでは、外界(飼い主)は生成モデルに従い隠れた状態変数(隠れ状態)から感覚入力を生成すると考える。エージェント(イヌ)は、自由エネルギーを最小化するように隠れ状態やパラメータの期待値や行動を更新することで能動的な推論を行う。図は総説[8]より改変。
自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は変分自由エネルギーと呼ばれるコスト関数を最小化するように決まり、その結果生物は外界に適応できる」という理論である。変分自由エネルギーの最小化というシンプルな法則に基づき、生物の知能をベイズ推論により統一的に記述し理解することを目的としている[6][7]。
生物は、外界や身体のダイナミクスを表現する生成モデルを脳内に保持していると考えられている(内部モデル仮説を参照)。生成モデルとは、隠れた状態変数から感覚入力が生成される仕組みをメカニカルに表す数式のことであり、外部状態と感覚入力の同時確率分布として記述できる。この生成モデルに基づき、感覚入力のみからその背後にある生成過程を推論し、将来の感覚入力や隠れ状態を予測する。言い換えれば、生成モデルは、外部状態がどのように感覚入力を生成するかについてエージェントが持っている仮説を意味しており、知覚や学習は生成モデルを実際の生成過程と一致するように自己組織化的に最適化することであると解釈できる。それによって、エージェントの神経回路の活動は、外部の環境状態を正確に推測し、その後の感覚入力や隠れ状態を予測できるようになる(予測符号化も参照)。
生成モデルを構成する隠れ状態やパラメータはベイズ推論に基づき定義される予測誤差の指標である変分自由エネルギーを最小化することで最適化することができる。自由エネルギー原理は、生物の内部状態や行動は変分自由エネルギーを最小化するように更新されることを主張している。神経活動やシナプス結合は、変分自由エネルギーを最小化させる方向に変化し、その結果、神経回路は外界のベイズ推論を行うように自己組織化する。さらに自由エネルギー原理が特徴的なのは、推論の最適化の法則により、原因の推論や未来の入力の予測などの知覚のみならず、行動制御や意思決定の最適化についても説明可能な統一理論である点である。ベイズ推論に基づく行動制御・意思決定の最適化は能動的推論(active inference)と呼ばれ、生物学的に妥当で適応的な制御の理論として近年活発に研究されている[9][10][11]。
図は、自由エネルギー原理の下で、能動的推論がどのように動作するかの例を示している。ここでは、外界(飼い主)が何か信号を生成すると、エージェント(イヌ)は直接観測できる感覚入力だけから背後の飼い主の状態(気持ち)を推論し、その事後確率(期待値)を脳内で表現する。このとき、自由エネルギーを最小化するように事後確率を更新することで、ベイズ推論を最適に行うことができる。さらに、将来期待される自由エネルギー(期待自由エネルギー)を最小化する行動を能動的に推論し選択することで、欲しい感覚入力(エサ)を得られる確率を最大化することができる。
また生成モデルは事前分布により特徴付けられることから、様々な精神障害の神経メカニズムを誤った生成モデルや事前分布に基づくベイズ推論・予測の破綻として理解することが提唱されている[12][13]。
以下では、変分ベイズ推論と能動的推論の概要について総説[8]をもとに手短に紹介するが、より包括的な解説や議論に関しては他の優れた総説[7][14][15][16][17]を参照していただきたい。
変分ベイズ推論
自由エネルギー原理は、感覚入力(o)の起こりにくさの主観的な指標であるサプライズ(surprise)を最小化することが生物の普遍的な特性であると提唱している。サプライズは、感覚入力の負の対数尤度−logPm(o1:t)により定義される。ただしここでは、o1:t={o1,…,ot}は時刻1からtまでの感覚入力のことである。また、確率分布Pm(o1:t)は、モデル構造mによって特徴付けられるoの統計モデルを意味しており、外界がoを生成する真の分布P(o1:t)とは必ずしも一致しない。サプライズは予期せぬ入力を受けたときに大きな値を取るため、サプライズの最小化は与えられた環境に対する適応度を高めることを意味する。ただし、このサプライズは統計的に定義された指標であり、驚きを感じるという意識的な経験とは概念的に異なることに注意する必要がある。
サプライズを直接計算するためには、対数の中にある周辺化尤度(つまり同時確率分布の積分)を計算する必要があるため、神経回路にとっては扱いが困難である。そのため神経回路は間接的にサプライズを計算するための扱いやすい代替方法として、変分自由エネルギーと呼ばれるサプライズの上限値を評価していると考えられている。自由エネルギー原理という名称は、この変分自由エネルギーに由来する。こうした自由エネルギーの概念は、統計物理学から導かれたものであり、機械学習の分野において広く用いられている[6]。この枠組みの下では、変分自由エネルギーを最小化するように神経活動やシナプス結合強度が更新され、行動が生成される。この性質は、熱力学や化学におけるルシャトリエの原理を彷彿とさせるものである。この原理に従い神経回路は自己組織化し、外部状態の変分ベイズ推論を行うことで、様々な脳機能を実現していると考えられている。
変分ベイズ推論は、一連の感覚入力(o)に基づいて、外部状態に関する事前分布Pm(ϑ)を対応する(近似)事後分布Q(ϑ)に更新する過程である。この推論は、外部状態がどのように感覚入力を生成するかをメカニカルに表現した(階層的)生成モデルPm(o1:t,ϑ)に基づいている[18]。ここでは、外部状態(ϑ)は、隠れ状態(s)、エージェントの行動(δ)、システムパラメータ(θ)、ハイパーパラメータ(λ)の集合として定義し、ϑ={s1:t,δ1:t,θ,λ}と表す(ϑとθの違いに注意されたい)。一連の行動δに代わって方策πを使ってϑを構成してもよい。例えば、外部環境が離散状態空間である場合、部分観測マルコフ決定過程の形式で外部環境を表現することができる[11]。
変分ベイズ推論の目的は、エージェントが外部状態に関して主観的に持っている信念の分布である(近似)事後分布Q(ϑ)を最適化することであるため、そのコスト関数である変分自由エネルギー(F)はoとQ(ϑ)の関数(汎関数)として、次のように与えられる:F(o1:t,Q(ϑ))=EQ(ϑ)[−logPm(o1:t,ϑ)+logQ(ϑ)]
ただし、EQ(ϑ)[∙]はQ(ϑ)についての期待値を表している。このFは常にサプライズ以上の値をとり、等号はQ(ϑ)とPm(o1:t|ϑ)が一致したときのみ成り立つ。したがって、Fを最小化することにより、間接的にサプライズの最小化が可能である。変分法により、Q(ϑ)を微小に変化させたときのFの変化の仕方に着目することで、Fを最小化するQ(ϑ)の解(つまり、微小に変化させると常にFが大きくなるようなQ(ϑ))を見つけることができる。
上式を変形することにより、変分自由エネルギーは予測誤差(prediction error)と複雑さ(complexity)の和として表すことができる。予測誤差は、感覚入力や隠れ状態の予測値が実際の値とどの程度異なるかを測定するもので、背景ノイズをガウスとみなした場合、広く用いられている平均二乗誤差に簡略化できる[18]。複雑さとは、事前分布と事後分布の差のことであり、通常、Kullback-Leibler divergenceを用いて評価される。この項は、事後分布が対応する事前分布から離れすぎないように正則化する役割を担っている。
多くの場合、事後期待値ϑ(すなわち、観測に基づくϑの推定値)は事後分布を近似的に表すのに十分である。なお太字で表した変数ϑは対応する変数ϑの期待値の意味である。このことから、Fのϑについての最小化問題を解くことで、元のFのQ(ϑ)についての最小化問題を解くことが可能である。したがって、勾配降下法を用いて、Fをϑの各成分について最小化することで、事後分布を最適化することができる:ϑ˙i∝−∂F∂ϑi
ここで、ϑiはϑのi番目の成分を示している。このϑの更新は固定点(すなわち、ϑ˙=0を与えるϑ)に到達して収束する。そのϑ(より一般にはQ(ϑ))はベイズ推論の意味で最適な内部表現と行動であることを意味している。このように、自由エネルギー原理は、推論(すなわち、sの最適化)、学習(θの最適化)、適応的行動制御(δの最適化)、将来のoとsの予測、将来の結果に関するリスクを最小化する行動計画について、一つの法則で統一的に説明することができる。
能動的推論
自由エネルギー原理の特徴の一つは、変分ベイズ推論を行動制御と行動計画の説明に応用している点、すなわち能動的推論である[9][10][11]。エージェントが行動を生成し外部環境に対してフィードバックを返すとき、生成過程およびサプライズはエージェントの行動の関数となる。したがって、エージェントは、将来期待される自由エネルギー(期待自由エネルギー, expected free energy, G)を最小化するような行動を選択することで、将来の感覚入力を好ましい入力(つまり予測通りの入力)に近づけることができる。好ましい入力はpreference priorと呼ばれる事前分布によって決まる。図の例では、エージェントの犬は、餌を得るために期待自由エネルギーを最小化する行動を能動的に推論し、選択する。このように、能動的推論は、知覚と行動の両方を過去あるいは未来について積算された変分自由エネルギーの最小化により導出することができ、推論・予測・学習・行動計画・行動制御などを統一的に説明できる。そのため、生物の感覚入力に基づく適応的な行動の普遍的な特性を説明する理論的な枠組みとして期待されている。
能動的推論は、エージェントが予測と異なる感覚入力を受け取ったときに起きる。例えば、エージェントが外界の生成過程と異なる生成モデルを採用している場合、外部環境の生成過程をエージェントが採用している生成モデルに近づけるために行動が生成される[9]。一例として、エージェントである鳥が他の鳥の歌が聞こえている状態を学習すると、その歌が聞こえている状態がサプライズを最小化するようになる[19][20][21]。したがって、エージェントが歌を聞いていないときは、歌がないことで大きなサプライズが生じるため、自ら歌う、あるいは同種の鳥を探すなどの行動をすることで歌を聞こうとする。行動生成の結果、エージェントは自分自身の予測(つまり、予測された歌)を実際の感覚入力として受け取ることになり、サプライズを最小化することができる。なお、鳥は行動生成に先立ち、歌が聞こえない状況に再適応する可能性もある。このように、サプライズの最小化には、エージェントの内部状態が外部環境状態に近づく場合と、エージェントの行動によって外部環境状態が内部状態に近づく場合の2通りの方法が存在する。学習速度と行動生成の閾値のバランスにより、学習と行動生成のどちらを行うかが決定される。
能動的推論は行動計画の説明にも適用できる[11]。行動計画は、将来の不確実性を最小化するための方策(policy)の選択に相当し、推論の一種である[22][23][24][25][26]。行動(δ)が外部の環境に直接影響を与えるのに対して、方策(π)は将来の計画(つまり一連の行動)を表し、行動を決定するパラメータに相当する。方策の事後確率は負の期待自由エネルギーに精度を乗じたものの指数に比例する。したがって、エージェントは各方策に対応する期待自由エネルギーを計算し、最小の期待自由エネルギーを与える方策を選択する。ここでは、将来の結果に関するprior preferenceが、報酬と罰に相当する情報を含んでおり、期待自由エネルギーの形状を特徴づける。
また、能動的推論では、探索と搾取のバランスは期待自由エネルギーによって決定される。ある方策が他よりはるかに小さい期待自由エネルギーを与える場合は、その方策は1に近い確率で選択されるため、エージェントは搾取的な戦略をとる。逆に、すべての方策が同程度の期待自由エネルギーを与える場合は、エージェントは無作為に方策を選択し、探索的な振る舞いをする。さらに、期待自由エネルギーの大きさを制御する精度も、変分自由エネルギーを最小化するように最適化され、精度が高いほどエージェントの行動はより搾取的になる。
問題点と展望
数理的には、変分自由エネルギーを最小化するエージェントがベイズ推論や学習を実行できること自体はよく知られた事実である。しかし、それが脳の仕組みとして生物学的に正しいかは別の問題である。自由エネルギー原理は抽象度の高い理論であり、その神経基盤に関しては未だ議論が続いている。通常は、隠れ状態とパラメータの事後分布は、神経活動とシナプス結合強度がそれぞれ符号化していると考えられており、その妥当性に関する証拠も蓄積されつつある[27]。一つには、大脳皮質の局所回路の解剖学的特性[28]と階層的予測符号化モデル[18]の比較により、検証可能な理論予測行われている。皮質浅層の神経活動の周波数は高く、皮質深層の神経活動の周波数は低いことから、前者が予測誤差を、後者が期待値をそれぞれ符号化していることが示唆されている。しかしこれらの議論は、予測符号化モデルの妥当性に関するものであり、自由エネルギー原理の妥当性の証拠としては間接的であることに注意されたい。脳の基本単位である神経細胞やシナプス結合の活動や可塑性が、どのような仕組みで変分自由エネルギーの最小化を行い、システムとしてベイズ推論や学習を実現しているのかに関しては、その神経基盤が何であるかはまだ十分に解明されているとは言えない。
一方で、理論的考察により自由エネルギー原理の普遍性を示す研究も行われている。一般に、生物とその周囲の環境が区別されることは、内部状態と外部状態を統計的に分離するマルコフブランケット(Markov blanket)の存在を示唆する。システムが(非平衡)定常状態に達したとき、生物の内部状態の条件付き期待値は、外部状態に関する事後確率を表現していると見なすことができる[29][30][31][17]。このことは、いかなる(非平衡)定常状態も、何らかのベイズ推論を実現していると解釈できることを意味する。あるいは、完備類定理(complete class theorem)[32][33][34]によれば、エージェントが何らかのコスト関数を最小化しているとき、エージェントの挙動をベイズ推論の観点から説明できる事前分布とベイズ的コスト関数の組が少なくとも1つは存在する。これは、生物あるいは脳がベイズ推論を行うエージェントとして振る舞うという仮説は実験的に反証できない(自明に正しい)かもしれないことを意味する[35]。この性質は、自由エネルギー原理の実験的検証を設計する際に問題になると考える人もいるかもしれないが、この性質こそが脳の理論を構築する上での重要な長所であると見ることもできる。最近の理論研究においては、古典的な神経活動やシナプス可塑性の方程式を導くような神経生理学的に妥当なコスト関数と、部分観測マルコフ決定過程の下での変分自由エネルギーが数理的に等価であることが示されている[36]。これらの数理的な性質は、脳が自由エネルギー原理に従っていると見なすことができることを示唆している。
————————
内部モデル
英: internal model 独: interne Modelle 仏: modèle interne
外部世界の仕組みを脳の内部で模倣・シミュレーションする神経機構である。ヒトや動物は、複雑な筋骨格系で構成される身体を、速く正確に制御できる。これは、脳の内部に、運動司令と身体の動きの関係を定量的に対応づけるモデル(信号変換器)が存在し、運動を実行する前に結果を予測したり、望ましい運動結果を実現するために必要な運動司令を予測することを可能にしているからと考えられている。このようなモデルは、身体の延長として機能する物体や道具の入出力特性も反映する。また、言語や思考などさまざまな認知機能に関与する可能性も指摘されている。
内部モデルとは
ヒトを含むさまざまな動物は、過去の経験に基づいて、外部世界でこれから起こる現象を素早く予測し、情報処理の効率を高め、外界の変化に対して適切な対応をとることができる。時として、未来の予測を瞬時に行えるのは、外界の仕組みを反映する「モデル」を、学習によって脳内に獲得しているからと考えられる。外部世界の仕組みを脳内で模倣・シミュレーションする神経機構のことを内部モデルと言う。
運動制御における内部モデル
脳科学で内部モデルという言葉が広まったのは、ヒトの運動制御に関する1990年代の研究からと考えられる。ヒトが目標物に手を伸ばすときの手先の軌道は、ほぼ直線の軌道で、滑らかに加速・減速する[1]。従来の研究では、筋肉自体のバネのような性質からこのような特徴が生じると考えられていた(文献[2] [3]など)。しかし、運動中の腕には、慣性力・遠心力・コリオリ力などの力がかかり、筋肉の剛性をかなり高くしないと、筋肉の性質のみで上記のような軌道はできない。だが、実際に運動中の腕の剛性を計測すると、従来考えられていたよりも遙かに低い剛性であることが解った[4]。この結果から、脳は、運動中に刻々と変化する慣性力やコリオリ力などの動力学的な要因を予測して、必要最小限の力で制御していることが示唆された。
ほぼ同時期に、ヒトの予測的な運動制御を示す研究が多く報告された。例えば、手先に力をかけて、腕が見えない状態で運動したときの手先位置の予測誤差は、脳内にカルマンフィルターモデルが存在すると仮定したときの結果と良く合うこと[5]、指で物体を摘んで上下させるときに、慣性力など物体にかかる力(負荷力)を正確に予測して、指の力(把持力)を調節していることなどである[6]。これらの研究が、定量的な予測を可能にする神経機構の名称として「内部モデル」を用いた[7]。
順モデルと逆モデル
内部モデルは、順モデルと逆モデルに区分される。順モデルは、脳から筋肉に送信された運動司令の遠心性コピーから運動結果(感覚フィードバック)を予測する[8]。逆モデルは、望ましい運動結果から、それを実現するために必要な運動司令を計算する[9]。
外界の操作対象物の内部モデル
ヒトは身体の延長として、さまざまな物体や道具を操作する。身体と同様に、道具などの外界の対象物の内部モデルを獲得することで、早く正確な操作が可能になると考えられる[10][11]。例えば、使い慣れたコンピュータマウスであれば、画面上のカーソルをある場所に移動させたいと思ったときに、マウスをどの方向にどれくらい移動させればよいか、過去の経験の蓄積に基づいて予測できる。
知覚・認知における内部モデル
視覚など感覚情報における変化が、自分の運動によるものか、他者や他の物の運動によるものかを区別することは、外界の恒常性を保ち、外敵から身を守るために重要である。順モデルは自分の運動による感覚フィードバックを予測するので、感覚入力から順モデルの予測を差し引けば、外界の変化を正確に知ることできる。自分で自分をくすぐってもくすぐったくないのは、くすぐるための運動司令の遠心性コピーから、くすぐられる感覚を予測し、引き算しているためと考えられている[12]。
統合失調症の陽性症状で見られる幻聴は、このような予測や引き算のメカニズムに障害があり、自分自身の「つぶやき」や内語を自己に帰属できないために、他人の声のように感じられるという可能性が指摘されている[13]。
脳の定量的な予測システムに関する研究は、運動制御から知覚・認知へと波及している。「内部モデル」は、学習によって獲得された予測メカニズムを示す言葉として広く使われつつあるが、分野や研究者によってだいぶ意味が異なることもある。どのような情報から(入力)、どのような情報を予測(出力)する神経機構を想定しているのか、始めに示してから話を展開することが重要と思われる。
————————
自由エネルギー原理も内部モデルも、そのように考えればつじつまが合うのは確かであるが、では実際に、脳神経細胞をどのように結合して、内部モデルが成立するのか、それを訂正して精密にするとは、実際のところどうなのかと考えると道は遠いように思われる。
しかしまた、これ以外のモデルを考えられるかといえば、そうでもなく、考えやすく、納得しやすい話である。
このような場合多くあることなのだが、これは脳を含む世界の特性を言い当てているのではなく、人間がそのように考える癖があるから、そう考えているだけなのかの知れない。
問題は、この「理論」が、反対する人をも納得させるような実験的証拠を提出できるかどうかであるが、困難であると思う。また、反証可能性を論じるのも、困難と思う。
しかし実際にここまで練り上げているのだから、立派なものだ。次の一歩が開ければよいと思う。
まえがき
脳の構造
1 知 覚――脳は推論する
2 注 意――信号の精度を操る
3 運 動――制御理論の大転換
4 意思決定――二つの価値のバランス
5 感 情――内臓感覚の現れ
6 好奇心と洞察――仮説を巡らす脳
7 統合失調症と自閉症――精度制御との関わり
8 認知発達と進化、意識――自由エネルギー原理の可能性
あとがき
参考文献
付録 自由エネルギー原理の数理を垣間見る
ーーーーーーーーーーーーーーーーー
世界モデルを訂正しつつ、だんだん精密なモデルを作るということは、言葉やイメージでは簡単につかめそうだが、それはどのように測定できるかといえば、難問である。
そこで、訂正するときに使うエネルギーが最小になるように動作すると考えれば、当然、現実世界と世界モデルが一致していれば、訂正のエネルギーが少なくて済むわけだから、これが一つの入り口となる。
次の難問は、訂正するときに使うエネルギーを測定するにはどうするか、それが問題だ。脳神経細胞の可塑性の話、実際に訂正した時に必要となるエネルギー、そんなふうに考えるが、最終的に使ったエネルギーは脳全体の発熱量とか、代謝や脳血流を測定する機械が使えるのかもしれない。局所の必要エネルギーが問題だから、どこをどのように測定するのか。それは脳回路の訂正に要したエネルギーだとどうしていえるのか、など問題が多い。