~とある湖畔から~

脳と意思決定の研究の記録

海馬リプレイは過去の回顧か未来の計画か?

 

 記憶に関連する脳部位の海馬では、動物が睡眠中に過去に通った経路を繰り返すリプレイ現象が知られていた。研究が進み、動物が迷路課題中にも海馬リプレイ現象が観察されることがわかってきた。この課題中の海馬リプレイが、過去に通過した経路を示すのか、未来に通る経路を表現しているのかは議論があった。その点を新たな迷路課題によって検討し、海馬のリプレイ現象が、過去に報酬を獲得した経路を表すことを明らかとした。

 

Gillespie AK, Astudillo Maya DA, Denovellis EL, Liu DF, Kastner DB, Coulter ME, Roumis DK, Eden UT, Frank LM. Hippocampal replay reflects specific past experiences rather than a plan for subsequent choice. Neuron. 2021 Oct 6;109(19):3149-3163.e6. 

https://pubmed.ncbi.nlm.nih.gov/34450026/

 

概要

ラットは8本の放射状の通路から、報酬が獲得できる1本の通路を選択

海馬CA1領域から、多数の電極により神経活動を記録

海馬のリプレイは、過去に報酬を獲得した通路を反映

海馬のリプレイは記憶のメンテナンスの機能を持つと提案

 

ラットは複数の通路から正解を選ぶ

 ラットは、8本の通路から報酬が獲得できる一本の通路を選ぶことを訓練された(fig1)。テストは正解の通路が異なる複数のブロックから構成された。ラットが正解通路を学習し安定して選べるようになると、正解の通路は、他の通路に変更された。つまり、テストは、正解の通路が異なる複数のブロックから構成された。

 

海馬のリプレイは過去に報酬を獲得した通路を表す

 通路を選ぶ前の海馬CA1領域の神経活動を記録し、リプレイ現象をデコーディング法により解析すると、リプレイ現象は8本の通路のうちどれかを反映していた(Fig.2)。

 

 海馬リプレイが反映する内容を検討すると、過去のブロックの正解の通路を反映する海馬リプレイが最も多く、その出現確率もチャンスレベルを超えていた(Fig.3)。

さらに、この過去の正解通路の表現は、直前のブロックだけでなく、数ブロックの前の正解の通路も表していた(Fig.6)。

 

海馬のリプレイは未来の通路を表すことは少ない

 一方で、スタート後に選択する通路を表す海馬リプレイ(予測、計画)は、一試行で一回未満と少なかった(Fig.5)。

 

まとめ

海馬のリプレイは、過去の重要な経験を反映すると考えられる。

海馬リプレイの機能として、記憶の保持・固定に関わるとの仮説と将来の予測・計画に関わるとする仮説があった。

本研究の結果は、記憶の保持・固定のための記憶のメンテナンスに関わることを示唆している。

 

感想

ディスカッションで、これまでの海馬リプレイの機能に関する先行研究の結果について、記憶のメンテナスで解釈していくところが面白い。

脳は期待値から価値を判断するー報酬強度とドーパミン神経系ー

f:id:Neuart:20211206211846j:plain

 

複数の報酬が期待されるとき

 脳にとっての価値は、獲得した報酬と状態から予測される価値との差分で表されます。

 

neuartblog.hatenablog.com

この研究では、一つの報酬が得られたか否かという点に着目していました。

 

 しかし、私たちの日常では、期待される報酬が一つとは限りません。

例えば、宝くじでは金額によって複数のあたりが用意されています。

では、複数の報酬が期待できる場面で、私たちの脳はどのように価値を判断しているのでしょうか?

 

ドーパミン神経は主観的な価値の大きさを表す

 サルに複数の手がかり刺激と報酬の関係を学習させました。

手がかり刺激に応じて、報酬の種類(ジュース、バナナ)とその量が異なる5パターンが用意されました(下図)。

まず、サルの行動をみることによってそれらの報酬の種類によって、好きの度合いが異なることがわかりました。一番好きな大量のジュースが期待される手がかりが提示されると、サルは盛んにその報酬を獲得しようと行動します。一方で、あまり好まない報酬が期待と結びついた手がかりが提示された場合は、報酬獲得行動は少なくなります。

次に、それぞれの手がかり刺激が提示された場合のドーパミン神経の活動を観察しました。

その結果、期待される報酬が好ましいほど、ドーパミン神経の活動は高くなりました。

 

好ましさの低い報酬期待ではドーパミン神経の活動が下がる

 さらに興味深いことに、5つの手がかりのうち、好ましさの低い報酬が期待される2つの手がかり刺激が提示されたときには、ドーパミン神経の活動は、報酬が獲得できるにもかかわらず、ベースラインの活動よりも下がってしまいました。

また、5つの手がかりのうち、真ん中の3番目に好ましい報酬が期待される手がかりが提示されたときには、ドーパミンの活動はほとんどベースラインの活動量から変化しませんでした。

 

f:id:Neuart:20211206213731p:plain

                                                                                              参考:Lak et al., PNAS 2014

 

 

脳は平均的な価値を基準に価値判断する

 これらの結果は以下のことを示唆します。

 

  1. ドーパミン神経はその活動強度によって主観的な価値を表す
  2. 主観的な価値は、期待される複数の報酬の平均的価値からの差分で表される

 

小さな幸せに気づけない?

 何でも手に入ることがあたりまえになると、小さな幸せに気づくことができなくなるのは、このドーパミン神経活動の性質から来るのかもしれません。

 

 

参考文献

Lak A, Stauffer WR, Schultz W. Dopamine prediction error responses integrate subjective value from different reward dimensions. Proc Natl Acad Sci U S A. 2014 Feb 11;111(6):2343-8. https://www.pnas.org/content/111/6/2343

 

 

Image by Nattanan Kanchanaprat from Pixabay

脳にとっての価値は予測とのズレー報酬予測誤差と状態価値ー

f:id:Neuart:20211206210806j:plain

 

ドーパミン神経活動は価値の情報処理に関係する

 これまでの記事の中で、報酬の予測に対するドーパミン神経系の活動を見てきました。

neuartblog.hatenablog.com

ドーパミン神経と報酬のとの関係をまとめると以下の通りでした。

 

  1. ドーパミン神経は、予告無しの報酬の獲得に反応して活動をあげる
  2. ドーパミン神経は、報酬を予告する刺激に反応して活動する
  3. 予告刺激によって獲得が予想される報酬が実際に得られてもドーパミン神経は活動しない
  4. 予告刺激によって獲得が予想される報酬が得られないとドーパミン神経活動は抑制される

 

これは、ドーパミン神経は予測される価値と実際に獲得した価値との差分を表すことを示しています。

この予測される価値を”状態価値”といい、状態価値と実際に獲得した価値との差分を”報酬予測誤差”といいます。

 

ドーパミン神経活動は獲得した報酬の価値を単に表すわけではない

 では、具体的にドーパミン神経活動の特徴を見ていきます(下図)。

 

"1. ドーパミン神経は、予告無しの報酬の獲得に反応して活動をあげる"

報酬の予告がないため、状態価値は将来の報酬の価値を考慮していません。

その状態で報酬を得ると、獲得した報酬の価値の分だけ状態価値よりも高くなり、その価値の差分を反映するようにドーパミン神経の活動が上がります。

 

"2. ドーパミン神経は、報酬を予告する刺激に反応して活動する"

ドーパミン神経は、まず報酬の予告刺激に反応して活動をあげます。

これは報酬予告刺激が実際に獲得できる報酬と同様の価値を持ち、その価値と状態価値との差分に対応してドーパミン神経活動が上がったことを示します。

また、この時点で状態価値は報酬を獲得した状態となりました。

 

"3. 予告刺激によって獲得が予想される報酬が実際に得られてもドーパミン神経は活動しない"

しかし、面白いことに、予告刺激の後に実際に報酬を獲得しても、状態価値は既に報酬を獲得した価値となっており、状態価値と実際に獲得した報酬の価値との差分がないため、ドーパミン神経の活動は起こりません。

 

"4. 予告刺激によって獲得が予想される報酬が得られないとドーパミン神経活動は抑制される"

報酬の予告刺激によって状態価値は既に報酬を獲得した状態となっているため、実際に報酬が獲得できないと、実際は報酬を獲得していないとう現状維持状態にもかかわらず、価値を失ったと判断されドーパミン神経活動は下がってしまいます。

 

f:id:Neuart:20211206211406p:plain

                                 参考:Keiflin et al., Neuron 2015

 

ドーパミン神経は状態価値と実際の報酬価値の差分を表す

 このようなドーパミン神経の活動は、ドーパミン神経が状態価値と実際に獲得した価値との差分を表していることを示します(上図)。

数式で表すと下記になります。

 

報酬予測誤差 = 今の報酬t + 今の状態価値t – 前の状態価値t-1 (t:時間)

 

これは、脳にとっての価値は、得られる報酬の絶対的な価値ではなく、得られた報酬の価値とその時に予測していた(予測できていた)価値との差となることを示しています。

例えば、期待していたことが起こらないと、実際は損をしていないのにがっかりしてしまったりするのは、このためです。

 

 

参考文献

Keiflin R, Janak PH. Dopamine Prediction Errors in Reward Learning and Addiction: From Theory to Neural Circuitry. Neuron. 2015 Oct 21;88(2):247-63. 

https://pubmed.ncbi.nlm.nih.gov/26494275/

 

 

Photo by petr sidorov on Unsplash 

 

 

 

 

脳の価値判断ー報酬の予測とドーパミン神経系ー

f:id:Neuart:20211206210322j:plain

 

価値は脳内の報酬系が関与する

前回は報酬を獲得するとドーパミン神経の活動が高まることを見てきました。

 

neuartblog.hatenablog.com

 今回はもう少しドーパミン神経の活動を見ていきます。

 

ドーパミン神経は報酬の予測でも活動する

 サルが報酬を獲得すると、ドーパミン神経の活動が上がます(下図(a))。

この報酬を獲得したときに反応したドーパミンの活動は実際にはどのような情報を処理していることが反映されているのでしょうか?

 

 次にサルに音刺激を提示して一定時間後にジュースを与えました(下図(b))。

しばらくこの手続きを繰り返すと、サルは音刺激を聞いた段階でジュースが与えられることを予測できるようになります。

この現象は条件付けとして知られ、音刺激を条件付け刺激といいます。

 

 このようにサルが音刺激によって報酬が予測できるようになると、ドーパミン神経は音刺激が提示された段階で活動し、ジュースを獲得した時には活動しなくなります(下図(b))。

このことは、

  • 脳が音刺激がジュースと同様の価値を持つことを学習したこと
  • 脳が音刺激が提示された段階でジュースを獲得できると判断していること

を示唆します。

 

予測した報酬が得られないとドーパミン神経は抑制される

 さらにこの実験では、音刺激ー報酬の関係を学習した後に、音刺激を提示した後にジュースを与えない場合のドーパミン神経の活動を検討しています。

この条件では音刺激が提示された際にドーパミン神経の活動は上がりますが、音刺激提示後の通常であればジュースが与えられるタイミングになると、ドーパミン神経の活動は抑制されます(下図(c))。

 

f:id:Neuart:20211206205802p:plain

                                                                                                               参考:Schultz et al., Science 1997



報酬の予測と実際の報酬

  サルの条件付け実験の結果をまとめると、

  • ドーパミン神経は報酬予測に反応して活動する
  • 予測される報酬が実際に得られてもドーパミン神経は活動しない
  • 予測される報酬が得られないとドーパミン神経活動は抑制される

ということがわかりました。

上記を言い換えると、

  • 報酬が予測された時点で(実際に報酬は得ていなくても)、その報酬の価値を得たと感じる
  • 予測された報酬を実際に獲得した時点では、その報酬の価値を感じない
  • 予測された報酬が得られないと、損失を感じる

ということです。

 

この報酬予測と報酬獲得に見られるドーパミン神経の活動から、脳がどのように価値を判断しているのかが見えてきます。この点については、次回の記事で見ていきます。

 

 

参考文献

  1. Schultz W, Dayan P, Montague PR. A neural substrate of prediction and reward. Science. 1997 Mar 14;275(5306):1593-9. doi: 10.1126/science.275.5306.1593.
  2. Tsai HC, Zhang F, Adamantidis A, Stuber GD, Bonci A, de Lecea L, Deisseroth K. Phasic firing in dopaminergic neurons is sufficient for behavioral conditioning. Science. 2009 May 22;324(5930):1080-4. doi: 10.1126/science.1168878. Epub 2009 Apr 23.

 

Photo by Riccardo Annandale on Unsplash 

 

 

 

 

脳の価値判断ー報酬とドーパミン神経系ー

f:id:Neuart:20211206205653j:plain

 

価値判断と脳の報酬系

脳が価値判断するとき、どのような情報処理がなされているのでしょうか?それを知るために、報酬を得たときの脳の活動を見る必要があります。

価値判断とドーパミン

価値判断には、脳内の報酬系として知られるドーパミン神経系が知られています。

このドーパミン神経の活動を見ることで、脳がどのように価値判断するのかが見えてきます。

 

報酬を獲得すると脳内ではドーパミン神経が活動亢進し、脳内にドーパミンが放出されます。

ここでは、報酬を獲得したときにドーパミン神経系の活動はどうなるかドーパミン神経の研究の第一人者であるShultsの研究を見ていきます。

 

この研究では、サルを対象に、中脳の一領域である腹側被蓋野ドーパミン神経と報酬獲得の関係を検討しています。

サルに報酬を与えたときのドーパミン神経の活動を計測すると、報酬の獲得に反応してドーパミン神経が発火(活動)しました (下図)[1]。このことは、ドーパミン神経がその活動により獲得した報酬の価値を計算していることを示唆しています。

 

f:id:Neuart:20211206205150p:plain参考:Schultz dt al., Science 1997

 

ドーパミン神経の活動は行動を学習・強化する

この報酬獲得によって放出されたドーパミンは、報酬の獲得につながった行動が価値が高いことを示し、その報酬を獲得した行動の学習を促進しその行動を強化します。

例えば、オプトジェネティクス(光遺伝学 - 脳科学辞典)という特定の神経細胞の活動を光で操作する最新手法を用いた研究において、自由行動下のマウスのドーパミン神経活動を報酬獲得時と同じように活動亢進させると、ドーパミン神経の活動を亢進させた際にとっていた行動が強化されます [2]。

このように、ドーパミンを介して私たちは行動の価値を判断し、価値の高い行動を学習・強化します。

 

参考文献

  1. Schultz W, Dayan P, Montague PR. A neural substrate of prediction and reward. Science. 1997 Mar 14;275(5306):1593-9. doi: 10.1126/science.275.5306.1593.
  2. Tsai HC, Zhang F, Adamantidis A, Stuber GD, Bonci A, de Lecea L, Deisseroth K. Phasic firing in dopaminergic neurons is sufficient for behavioral conditioning. Science. 2009 May 22;324(5930):1080-4. doi: 10.1126/science.1168878. Epub 2009 Apr 23.

 

 

Photo by Siora Photography on Unsplash 

 

 

 

 

 

 

 

 

 

 

脳は比較することが好きー見え方で判断が変わるー

見え方で変わる判断

 

まずは、有名な実験を実際にやってみてください。

実験では、被験者に経済誌の購読(今でいうサブスク)で契約する内容について、提示されたオプションから選んでもらっています。

まずは下記の場合どちらを選びますか?? 

経済誌エコノミストを1年間購読

  • (1) ウェブ版を購読             $59
  • (2) 冊子&ウェブ版を購読   $125

 

実際の研究では、下記の結果となりました。

経済誌エコノミストを1年間購読

  • (1) ウェブ版を購読              $59          68人
  • (2) 冊子&ウェブ版を購読 $125         32人

 

では次の場合はどうでしょうか??

経済誌エコノミストを1年間購読

  • (1) ウェブ版を購読             $59
  • (2) 冊子のみを購読             $125
  • (3) 冊子&ウェブ版を購読   $125

 

実際の研究の結果は下記となりました

経済誌エコノミストを1年間購読

  • (1) ウェブ版を購読                $59         16人
  • (2) 冊子のみを購読                $125         0人
  • (3) 冊子&ウェブ版を購読      $125       84人

 

最初の条件だと、(1)ウェブ版を行動 を選んだ人が多かったです。

一方、後半の条件だと(3)冊子&ウェブ版を購読 $125 を選択する人数が多くなります。

 

このように、後半の条件では、誰も選択しない明らかに損をする選択肢を追加することで、人々の選択の傾向を逆転させてしまっています。

 

この一見無意味な選択肢を追加することで選択を誘導することを「おとり効果」といいます。

 

脳は比較して価値判断する

上記の例は、脳は選択肢を比較することで価値判断していることを示しています。

 

神経科学的に脳の価値判断を見る

行動や主観的経験から想像するに、脳は選択肢を比較することで、最も良い選択肢を選んでいるように感じます。

しかし、実際にそのような計算が脳内で行われているのでしょうか?

 

それを確かめるためには、脳内の価値判断行っている脳領域や神経の活動を知る必要があります。

 

 

 

 

 

 

 

 

 

意思決定は脳から逃れられないー錯視ー

脳は現実を見ていない

 

下図のAとBの青い縦線のうち長い方はどちらでしょうか?

f:id:Neuart:20210624200932p:plain

 

 

Aが長く見えると思います。

ですが正解は、どちらも同じ長さです。

f:id:Neuart:20210624201136p:plain

 

 

このAの方が長く見える現象は、ミューラー・リヤー錯視と言われる有名な錯視現象です。

フランツ・カール・ミュラー・リヤー - Wikipedia

 

 

脳は現実を見ていない

ミューラー・リヤー錯視の例は、私たちの脳が現実をそのまま見ていないことを示しています。

このように、私たちは脳というのフィルターを通して世界を認識しています。

つまり、私たちの認識している世界は、現実をそのまま反映しておらず、脳によって歪められています。

 

 

脳の性質を理解し利用する

私たちは、世界を脳を通してしか認識できません。

また、この脳が認識した世界に応じて、思考し意思決定が行われています。

脳の性質やクセを理解することは、私たちの思考、行動、意思決定を理解するために不可欠です。

また、脳の性質やクセを利用することで、より良い思考、行動、意思決定を導くことができる可能性があります。