~とある湖畔から~

脳と意思決定の研究の記録

不確実な報酬の価値評価- 価値の期待値とドーパミン

f:id:Neuart:20220103221152j:plain

 

脳は不確かな報酬を期待しすぎない

 脳は報酬の獲得確率が低くなるほど、その価値を低く見積もる性質があります。

この不確かな報酬の価値を脳はどのように計算しているのでしょうか。

neuartblog.hatenablog.com

 

ドーパミン神経が価値を計算している

 獲得が予想される報酬の価値は、脳内ではドーパミン神経の活動量によって計算されています。

そして、実際に報酬を得た際に、その予測された価値と実際に得られた報酬の価値に誤差が生じた場合、その誤差(報酬予測誤差)もドーパミン神経の活動によって計算しています。

報酬予測誤差を示すドーパミン神経の活動が上がれば、その行動は予測よりも良い行動であることを示し、次の機会にも同じ行動をとるように行動を強化します。

neuartblog.hatenablog.com

 

では、報酬を獲得できる確率が100%ではない場合、すなわち報酬の獲得が不確かである場合、ドーパミン神経はどのように報酬価値を計算しているのでしょうか。

 

 

不確かさに応じてドーパミン神経の活動が変わる

 サルの条件付けの実験系を用いて、手がかり刺激に応じて報酬の獲得確率とドーパミン神経活動の関係を検討した実験があります。

この実験では、サルに手がかりの刺激を提示し、その一定時間後にジュースの報酬を与えることを学習させます。

手がかり刺激は5種類が用意され、手がかり刺激はそれぞれ異なる報酬の確率(0-100%)を示しています。

つまり、サルは刺激に応じて報酬が得られる確率も学習することになります。

 

 この条件付けを学習させた後、各手がかり刺激の提示後に報酬を与えた場合のドーパミン神経の活動を見てみます(図)。

 

 確率100%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は最も高く、報酬のジュースを獲得したときはドーパミン神経の活動は上がりません。

これは、手がかり刺激が提示された段階で報酬が完全に予測されたこと、報酬獲得の際には報酬予測とのズレがなかったことを示します。

 

 確率75%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は高くなりますが、報酬のジュースを獲得したときにもドーパミン神経の活動は少し上がります。

これは、期待される報酬価値が不確かさによって低下していること、そのため実際に獲得した報酬価値が報酬予測よりも高くなるため報酬予測誤差が生じたことがわかります。

 

 確率25%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は少し上がり、報酬のジュースを獲得したときにはドーパミン神経の活動は大きく上がります。

これは、低い報酬確率により期待される報酬価値がかなり低くなること、そのため実際に獲得した報酬価値が報酬予測よりもかなり高くなるため大きな報酬予測誤差が生じたことを示します。

 

f:id:Neuart:20220103220005j:plain

                                                   参考:Fiorillo et al., Science, 2003

 

 

脳は行動・選択肢が持つ価値の期待値を計算している

 ここまで見てきた不確かな報酬とドーパミン神経活動から、脳は行動の結果の価値の期待値を計算していることが示唆されます。

例えば1000円を80%で獲得できると言われれば、1000円 ✖️ 80% = 800円と計算してその価値を評価することに似ています。

このことから、脳が行動を選ぶ際には、その行動がもたらす価値の期待値を計算していることになります。

 

 

 

参考文献

Fiorillo CD, Tobler PN, Schultz W. Discrete coding of reward probability and uncertainty by dopamine neurons. Science. 2003 Mar 21;299(5614):1898-902. doi: 10.1126/science.1077349.

 

 

 

Image from Pixabay

 

 

将来を期待しすぎない脳ー不確実な報酬の価値評価

 

不確実性により報酬の価値は低下する

 私たちの日常における意思決定では、結果が確実に予測される選択肢は稀です。

そのため、私たちは選択肢を選ぶ際に、その選択肢で得られる結果(報酬量)だけでなく、その報酬の獲得の不確実性、つまり報酬の獲得確率を考慮し統合的に選択肢の価値を予測します。

これまでの研究から、報酬の獲得確率の低下に伴い報酬の価値が割引かれることが明らかとなっています。

例えば、先行研究のデータを見てみると、「70%で得られる$1000」と「100%で得られる$700」を選択する場合、人は100%で得られる$700を選ぶ傾向があります(Rachlin et al., 1991)。

これは報酬の獲得確率が70%であるために$1000の価値が割引かれ低くなったことを示しています。

 

主観的な報酬確率は実際より低く見積もられる

 この不確実性による報酬価値の割引率は、双曲線関数で表されることがわかっています。

 

  V = A/(1 + hθ)

  θ = (1/p) - 1(オッズアゲインスト)

  V:割引された報酬価値

  A:獲得する報酬価値

  h:割引率を決定するパラメーター

  p:報酬の確率

 

 先にふれた先行研究のデータだと、h = 1.6で下記のような確率価値割引のグラフになります。

 

f:id:Neuart:20211218205132p:plain   参考:Rachlin et al., 1991

 

グラフのように、私たちの確率による価値割引は、期待値よりも大きいことがわかります。

つまり、私たちが実際に感じる主観的確率は、実際の確率よりも低く見積もられていることになります。

 

大きい価値ほど不確実性による価値割引率が大きくなる

 不確実性による価値割引率は、報酬量が大きいほど大きくなることがわかっています。

下のグラフは、確実に得られる報酬量を1として、報酬の確率が小さく(θ:オッズアゲインスト  [報酬確率が20%なら4、50%なら1] が大きく)なるほど報酬の主観的強度が低下することを示しています。

$200と$5,000の低下率を比較すると、$5,000の方が$200よりも大きいことがわかります。

 

f:id:Neuart:20211218220407p:plain参考:Green and Myerson 2004

 

確率価値割引は将来の成功を期待しすぎないことあらわれか

 報酬の獲得確率が小さくなるほど報酬の主観的価値が低下することは、報酬に対する期待が獲得確率の低下に伴い小さくなっていくことを表します。

これは、確率の低い結果ほど期待しないようなっているように見えます。

また、報酬量が大きいほど価値割引率が大きくなりました。

これは、例えば宝くじを考えると、当選金額が大きいほど当選しないと感じるていることを示唆します。

つまり確率価値割引の現象や、私たちの脳が達成できなさそうな将来の事象について期待しすぎないような性質を持っていることを示唆しています。

 

 

参考文献

Rachlin H, Raineri A, Cross D. Subjective probability and delay. J Exp Anal Behav. 1991 Mar;55(2):233-44. doi: 10.1901/jeab.1991.55-233. PMID: 2037827; PMCID: PMC1323057.

 

Green L, Myerson J. A discounting framework for choice with delayed and probabilistic rewards. Psychol Bull. 2004 Sep;130(5):769-92. doi: 10.1037/0033-2909.130.5.769. PMID: 15367080; PMCID: PMC1382186.

 

 

Photo by Naser Tamimi on Unsplash 

 

 

 

 

クリスマス気分を生み出す脳ネットワーク

f:id:Neuart:20211215140718j:plain

 

クリスマス気分を感じることはありますか?

 クリスマスソングを聞いたりすると、クリスマスをどのように過ごすのかを想像したり、喜びや興奮を感じることがある方もいると思います。

このクリスマス気分に関連する脳領域はあるのでしょうか?

クリスマス気分と脳の関係を検討した研究が報告されています。

 

Hougaard A, Lindberg U, Arngrim N, Larsson H B W, Olesen J, Amin F M et al. Evidence of a Christmas spirit network in the brain: functional MRI study doi:10.1136/bmj.h6266

Evidence of a Christmas spirit network in the brain: functional MRI study | The BMJ

 

クリスマス気分には複数の大脳皮質領域が関わる

 習慣的にクリスマス祝いをするヒト10名、クリスマス祝いをしないひと10名に、クリスマスに関連する写真と関連しない写真を見てもらい(各写真2秒提示)、その時の脳活動をfMRI機能的磁気共鳴画像法 - 脳科学辞典)で計測しました。

 

 クリスマス祝いをするヒトとしないヒトの脳活動を比較すると、どのような違いがあったのでしょうか?

比較の結果、クリスマス祝いをするヒトで高い活動を示す脳領域が見つかりました。

高い活動を示した脳領域は、体性感覚野、一次運動野、運動前野、上頭頂小葉、下頭頂葉でした(https://www.bmj.com/content/351/bmj.h6266)。

 

 先行研究より、

  • 頭頂葉→自己超越、スピリチュアル傾向
  • 運動前野→他者との感情の共有
  • 体性感覚野→感情と社会関連性に関する表情認知
が報告されている。
著者らは、今回の結果から、クリスマス気分を引き起こす神経ネットワークには複数の大脳皮質が含まれると解釈している。

 

感想

 体性感覚野や運動野あたりの活動の亢進が顕著である。

一方で、感情や記憶に関わる大脳辺縁系や高次機能に関わる前頭前野とかには違いがほとんどないが、そのあたりの領域も関連している方が個人的には自然な気がする。

さらに、脳活動の違いは、写真の意味の違いではなく、写真の物理的側面の違いの影響とかもあるかもしれない。

以上のことから、クリスマス気分の脳ネットワークという解釈が難しい感じがするので、もっと他の研究が必要そう。

 

 

Photo by Rodion Kutsaev on Unsplash 

 

 

価値の遅延とセロトニンの操作

f:id:Neuart:20211207212555j:plain

 

遅延価値割引とセロトニンの研究

 脳内物質のセロトニンが遅延価値割引の計算に関与することが、ヒトを対象とした研究によって示唆されています。

 

neuartblog.hatenablog.com

 上記の研究では、セロトニンの合成の材料となるアミノ酸であるトリプトファンの摂取量を調節することで脳内セロトニン量を変化させていました。

しかしこの方法は、間接的なセロトニン量の調節であるため、実際に脳内のセロトニンが遅延価値割引に関与しているのかについて因果的関係を検討できていません。

 

 このような問題を解決するために、近年、動物を対象としてセロトニン神経の活動を直接操作する手法による研究が行われてきています。

 

セロトニン神経活動の直接操作法

 セロトニンの遅延価値割引への直接的な関与を検討するためには、セロトニンを放出するセロトニン神経の活動を人為的に操作する必要があります。

近年、特定の神経細胞の活動を操作するための手法「オプトジェネティクス法(光遺伝学)」が開発されました。光遺伝学 - 脳科学辞典

オプトジェネティクス法は、神経活動を操作したい神経細胞に光照射に反応するタンパク質を遺伝子導入により発現させ、そこへ脳内に挿入した光ファイバーを介して光を照射することで神経活動を亢進したり抑制したりすることができます。

この手法をセロトニン神経へ適用することで、セロトニン神経の活動を選択的に操作することができます。

 

報酬獲得までの待機時間とセロトニン神経活動の操作

 では、セロトニンの直接操作と遅延価値割引の研究を見ていきます(Miyazaki et al., 2014)。

研究では、ネズミをポートで一定時間待機すれば報酬を獲得できることを学習させます(下図)。

この時、報酬獲得までの待機時間を3秒あるいは9秒に設定しました。

ネズミは、3秒の待機時間は待つことができましたが、9秒の待機時間では待つことができませんでした。

 

 次に、オプトジェネティクス法によりセロトニン神経の活動を亢進した状態で、ネズミに同様の課題を行わせました。

そうすると、ネズミは9秒の待機時間の場合でも報酬獲得までポートで待つことができました。

これは、セロトニンが忍耐強く待つことを促進したことを示します。

 

f:id:Neuart:20211207212329p:plain

 

遅延価値割引とセロトニン神経活動の操作

 もう一つの研究を見ていきます。

この研究では、ネズミに報酬前の遅延を含む2つの選択肢を選ばせる選択課題を学習させました(Xu et al., 2017)。

実験では、まずネズミは中心の匂いポートに鼻を入れます。

この匂いポートでは、2つの匂いが混合して提示されます。

匂いAと匂いBはその匂いの強さにより、各々、左側の餌ポートの選択時の報酬獲得までの待機時間、あるいは右側の餌ポートの選択時の報酬獲得までの待機時間を示します(匂いが強いほど待機時間が長い)。

これによりネズミは選択の際に報酬までの待機時間を考慮する必要があります。

そして、左側ポートの報酬の待機時間が長くなれば、左側の選択肢の選択回数が減少していきます。

この待機時間の延長に伴う選択回数の減少率により、遅延価値割引率を計算しています。

 

 この課題中にオプトジェネティクスによりセロトニン神経の活動を亢進すると、遅延価値割引率が抑制されました。

つまり、ネズミは我慢強く報酬まで待機できるようになりました。

一方で、セロトニン神経の活動を抑制すると、遅延価値割引率が増加しました。

つまり、ネズミは待機することができなくなりました。

 

セロトニンは忍耐力を促進する

 以上の研究の結果から、セロトニンは忍耐力を高めたり、長期的な利得の価値の減少を抑制し長期的な行動を促進することがわかります。

 

 

 

参考文献

Miyazaki KW, Miyazaki K, Tanaka KF, Yamanaka A, Takahashi A, Tabuchi S, Doya K. Optogenetic activation of dorsal raphe serotonin neurons enhances patience for future rewards. Curr Biol. 2014 Sep 8;24(17):2033-40.

https://pubmed.ncbi.nlm.nih.gov/25155504/

 

Xu S, Das G, Hueske E, Tonegawa S. Dorsal Raphe Serotonergic Neurons Control Intertemporal Choice under Trade-off. Curr Biol. 2017 Oct 23;27(20):3111-3119.e3. doi: 10.1016/j.cub.2017.09.008.

https://pubmed.ncbi.nlm.nih.gov/28988863/

 

 

Photo by Erik Mclean on Unsplash 

 

価値の遅延とセロトニン

f:id:Neuart:20211030183859j:plain

 

報酬獲得の遅延は報酬価値を下げる

 獲得するまでに遅延がある価値や損失は、即時に獲得するよりも小さく見積もられます。

これにより、将来の大きな利得よりも即時に獲得できる小さい利得を選ぶことが起こります。

 

neuartblog.hatenablog.com

 

また、肥満者や中毒患者など強い利得への欲求が高い人では、この遅延による価値のわり引き率が非常に大きく、長期的な利得(健康)の見積もりが低くなることが報告されています。

 

neuartblog.hatenablog.com

 

遅延価値割引に関わるセロトニン

 では、この遅延価値割引について、脳内ではどのように調節されているのでしょうか?

遅延価値割引に関与する脳内物質としてセロトニンが研究されています。脳内セロトニン量と遅延割引の関係を調べた研究を見ていきます。

 

 この研究では、脳内のセロトニン合成に使われる前駆物質トリプトファンの経口摂取量を変え、脳内のセロトニン量を調整し、通常量、過剰、不足の3条件を設定しています。

セロトニン量を調節した後、被験者は、待ち時間は短いが報酬(ジュース)が少しの選択肢と待ち時間は長いが報酬が多い選択肢のどちらかを選択する課題を行いました。

その結果、セロトニン量の低い被験者は、その他の条件の被験者に比べ遅延価値割引率が大きく、目先の小さい報酬の選択肢の選択割合が大きくなりました。

 

セロトニン量と遅延価値割引課題中の脳活動

 さらに課題遂行中の脳の活動をfMRIによって測定しています。

その結果、通常のセロトニン量の条件では、短期的な報酬と長期的な報酬が大脳基底核線条体の腹側部と背側部で各々計算されていることがわかりました。

セロトニン量が高い条件では、線条体の背側部にのみ長期的な報酬に関わる活動が見られた。一方で、セロトニン量が低い条件では、線条体の腹側部にのみ短期的な報酬に関わる活動が見られました。

 

 

f:id:Neuart:20211204143629p:plain

Tanaka SC, Schweighofer N, Asahi S, Shishida K, Okamoto Y, Yamawaki S, et al. (2007) Serotonin Differentially Regulates Short- and Long-Term Prediction of Rewards in the Ventral and Dorsal Striatum. PLoS ONE 2(12): e1333. (CC BY 4.0)

 

 この結果は、以下の2つのことを示唆しています。

①情動的な機能を持つとされる腹側線条体が、短期的な報酬の計算に関わり、理性的な高次機能を持つ背側線条体が長期的な報酬の計算に関わる

セロトニン線条体の神経回路を調節し、遅延割引を調節する

 

このように、脳内のセロトニン量は、将来の報酬をどのくらい待てるのか、将来の報酬の価値はどれくらいなのか、を調節していることがわかります。

 

 

参考文献

  1. Schweighofer N, Bertin M, Shishida K, Okamoto Y, Tanaka SC, Yamawaki S, Doya K. Low-serotonin levels increase delayed reward discounting in humans. J Neurosci. 2008 Apr 23;28(17):4528-32. doi: 10.1523/JNEUROSCI.4982-07.2008
  2. Tanaka SC, Schweighofer N, Asahi S, Shishida K, Okamoto Y, Yamawaki S, Doya K. Serotonin differentially regulates short- and long-term prediction of rewards in the ventral and dorsal striatum. PLoS One. 2007 Dec 19;2(12):e1333.

 

 

 

 

 

 

 

 

遅延価値割引と薬物中毒、肥満、うつ病、PTSD

f:id:Neuart:20211030183344j:plain

 

遅延価値割引とセルフコントロール

 遅延価値割引は、私たちのどのような行動に関連するのでしょうか?

 

 遅延価値割引が強く現れる人は、長期的な利得を低く見積もってしまいます。

これは、長期的な利得を獲得するよりも、今すぐ獲得できる短期的な利得を相対的に大きく評価して選ぶ傾向が強くなります。

つまり、自制心が低く我慢ができません。

この自制心の低下は、高い遅延価値割引率として現れます。

そして、高い遅延価値割引率は、様々な疾患や行動障害に見られます。

 

薬物中毒、肥満と遅延価値割引

 薬物中毒患者は、遅延割引率が非常に高いことが報告されています(Green 2004)。

例えば下図をみると、薬物中毒者は、健康な人と比べ、同額の金銭的価値に対する遅延価値割引率が高いことがわかります。

これは、薬物中毒では、長期的な利益を低く見積もる傾向があり、そのために短絡的な行動を抑制し長期的な目標に向けた行動を選択することを困難にしていることを示します。

この高い遅延価値割引率に、薬物への欲求を自制できないことが現れていると考えられます。

 

f:id:Neuart:20211101185618j:plain参考:Green 2004

 

 肥満者も遅延価値割引率が高いこともわかっています(Amlung 2016)。

これも、日々の食事の制限とコントロールを困難にし、肥満に繋がっていると考えられます。

 

 このように、高い遅延価値割引にあらわれる短期的欲求に対する自制の低下が、薬物中毒や肥満など様々な症状の原因の一つとなっている可能性があります。

 

うつ病PTSDと遅延価値割引

 うつ病性障害患者にも遅延価値割引率が高い傾向が見られます(下図)。

これは、うつ病などの気分障害患者は、現状のネガティブな状況や事象に強くとらわれ、将来を見据えた思考や行動が困難となっていることの現れであると考えられます。

 

 興味深いことに同じ気分障害でも、PTSD患者では、利得に対する遅延価値割引率は非常に高い一方で、損失に対する遅延価値割引率は非常に低くなっており、大うつ病性障害とは異なるパターンを示します(下図)。

これは、PTSD患者が、将来をポジティブに捉えることができず、かつ、現在と将来のネガティブな事象についてはより強く感じることを示しているように見えます。

この利得と損失に対する遅延価値割引率の乖離は、PTSD患者が、強い恐怖や不安といった感情や、悲観的な思考から逃れられない原因となっていると考えられます。

 

 このように、気分障害に見られる症状は、遅延価値割引率の変化として現れる悲観的思考の増加や長期的思考の低下に起因しているかもしれません。

 

f:id:Neuart:20211101192847j:plain参考:Engelmann 2013

 

 

 

参考文献

Engelmann JB, Maciuba B, Vaughan C, Paulus MP, Dunlop BW. Posttraumatic stress disorder increases sensitivity to long term losses among patients with major depressive disorder. PLoS One. 2013 Oct 7;8(10):e78292.

https://pubmed.ncbi.nlm.nih.gov/24116235/

 

Green L, Myerson J. A discounting framework for choice with delayed and probabilistic rewards. Psychol Bull. 2004 Sep;130(5):769-92.

https://pubmed.ncbi.nlm.nih.gov/15367080/

 

Amlung M, Petker T, Jackson J, Balodis I, MacKillop J. Steep discounting of delayed monetary and food rewards in obesity: a meta-analysis. Psychol Med. 2016 Aug;46(11):2423-34.

https://pubmed.ncbi.nlm.nih.gov/27299672/

 

Photo by Alexandar Todov on Unsplash 

すぐに獲得できないものの価値は下がるー遅延価値割引ー

f:id:Neuart:20211030183859j:plain

 

報酬は予測していても嬉しい

報酬の価値を計算するドーパミン神経の活動から、獲得する報酬の価値の大きさは獲得前に予測された価値との差分で決まることがわかります。

 

neuartblog.hatenablog.com

 

ですが、いくら将来に報酬が獲得できることが予測されていたとしても、実際に報酬を受け取ると嬉しいものです。

この原因は何なんでしょうか?

 

遅延が報酬の価値を下げる

 私たちは、同じ報酬でも、将来に受け取る場合の価値を、現在受け取る場合の価値よりも低く見積もってしまいます。

この報酬を獲得するまでの遅延によって価値が下がってしまう現象を、「遅延価値割引」といいます。

 

 例えば、$200の獲得によって得られる主観的価値を評価してもらうと、今受け取る場合の主観的価値に比べ、将来受け取る場合の主観的価値は低下してしまいます(下図)。

そのため、予測していた報酬を実際に獲得しても、嬉しく感じます。

                               

f:id:Neuart:20211027195959j:plain参考:Estle et al., 2006

 

損失も遅延によって割引かれる

  遅延価値割引は、損失に対しても観察されます(上図)。

つまり、−$200の損失の主観的な強度は、今すぐに起こる場合よりも、将来に起こる場合の方が小さくなります。

 

遅延割引と将来に向けた行動

 将来の利得や損失は、今受け取る場合と比べ、小さく感じることを見てきました。

これは、私たちの行動にどのように関わるのでしょうか?

将来の利得や損失を小さく見積もってしまうと、長期的な目標に対する行動が取れず、今楽しければ良いと言った行動になってしまいます。

例えば資格試験では、長期的な試験の合格という目標に向けた行動をとらなければなりませんが、試験の合格という利得や試験の不合格で被る損失の見積もりが低くなると、合格に向けた勉強ではなくテレビを見るなどの短絡的な利得を選択してしまいます。

ダイエットも、痩せるという長期的利得と、今美味しいものを食べるという短絡的利得の間の選択に晒されています。

 

遅延価値割引を防ぐには

 遅延割引を防ぐには、長期的な利得を強く意識し実感することが大切です。

この点については、別の記事にまとめます。

 

 

参考文献

Green L, Myerson J. How many impulsivities? A discounting perspective. J Exp Anal Behav. 2013 Jan;99(1):3-13. doi: 10.1002/jeab.1. Epub 2012 Dec 5.  https://pubmed.ncbi.nlm.nih.gov/23344985/

Estle SJ, Green L, Myerson J, Holt DD. Differential effects of amount on temporal and probability discounting of gains and losses. Mem Cognit. 2006 Jun;34(4):914-28. doi: 10.3758/bf03193437.  https://pubmed.ncbi.nlm.nih.gov/17063921/

 

 

Photo by Sonja Langford on Unsplash