不確実な報酬の価値評価- 価値の期待値とドーパミン
脳は不確かな報酬を期待しすぎない
脳は報酬の獲得確率が低くなるほど、その価値を低く見積もる性質があります。
この不確かな報酬の価値を脳はどのように計算しているのでしょうか。
ドーパミン神経が価値を計算している
獲得が予想される報酬の価値は、脳内ではドーパミン神経の活動量によって計算されています。
そして、実際に報酬を得た際に、その予測された価値と実際に得られた報酬の価値に誤差が生じた場合、その誤差(報酬予測誤差)もドーパミン神経の活動によって計算しています。
報酬予測誤差を示すドーパミン神経の活動が上がれば、その行動は予測よりも良い行動であることを示し、次の機会にも同じ行動をとるように行動を強化します。
では、報酬を獲得できる確率が100%ではない場合、すなわち報酬の獲得が不確かである場合、ドーパミン神経はどのように報酬価値を計算しているのでしょうか。
不確かさに応じてドーパミン神経の活動が変わる
サルの条件付けの実験系を用いて、手がかり刺激に応じて報酬の獲得確率とドーパミン神経活動の関係を検討した実験があります。
この実験では、サルに手がかりの刺激を提示し、その一定時間後にジュースの報酬を与えることを学習させます。
手がかり刺激は5種類が用意され、手がかり刺激はそれぞれ異なる報酬の確率(0-100%)を示しています。
つまり、サルは刺激に応じて報酬が得られる確率も学習することになります。
この条件付けを学習させた後、各手がかり刺激の提示後に報酬を与えた場合のドーパミン神経の活動を見てみます(図)。
確率100%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は最も高く、報酬のジュースを獲得したときはドーパミン神経の活動は上がりません。
これは、手がかり刺激が提示された段階で報酬が完全に予測されたこと、報酬獲得の際には報酬予測とのズレがなかったことを示します。
確率75%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は高くなりますが、報酬のジュースを獲得したときにもドーパミン神経の活動は少し上がります。
これは、期待される報酬価値が不確かさによって低下していること、そのため実際に獲得した報酬価値が報酬予測よりも高くなるため報酬予測誤差が生じたことがわかります。
確率25%を示す手がかりが提示された場合、手がかり刺激が提示された時のドーパミン神経活動は少し上がり、報酬のジュースを獲得したときにはドーパミン神経の活動は大きく上がります。
これは、低い報酬確率により期待される報酬価値がかなり低くなること、そのため実際に獲得した報酬価値が報酬予測よりもかなり高くなるため大きな報酬予測誤差が生じたことを示します。
参考:Fiorillo et al., Science, 2003
脳は行動・選択肢が持つ価値の期待値を計算している
ここまで見てきた不確かな報酬とドーパミン神経活動から、脳は行動の結果の価値の期待値を計算していることが示唆されます。
例えば1000円を80%で獲得できると言われれば、1000円 ✖️ 80% = 800円と計算してその価値を評価することに似ています。
このことから、脳が行動を選ぶ際には、その行動がもたらす価値の期待値を計算していることになります。
参考文献
Fiorillo CD, Tobler PN, Schultz W. Discrete coding of reward probability and uncertainty by dopamine neurons. Science. 2003 Mar 21;299(5614):1898-902. doi: 10.1126/science.1077349.
Image from Pixabay