脳にとっての価値は予測とのズレー報酬予測誤差と状態価値ー
ドーパミン神経活動は価値の情報処理に関係する
これまでの記事の中で、報酬の予測に対するドーパミン神経系の活動を見てきました。
ドーパミン神経と報酬のとの関係をまとめると以下の通りでした。
- ドーパミン神経は、予告無しの報酬の獲得に反応して活動をあげる
- ドーパミン神経は、報酬を予告する刺激に反応して活動する
- 予告刺激によって獲得が予想される報酬が実際に得られてもドーパミン神経は活動しない
- 予告刺激によって獲得が予想される報酬が得られないとドーパミン神経活動は抑制される
これは、ドーパミン神経は予測される価値と実際に獲得した価値との差分を表すことを示しています。
この予測される価値を”状態価値”といい、状態価値と実際に獲得した価値との差分を”報酬予測誤差”といいます。
ドーパミン神経活動は獲得した報酬の価値を単に表すわけではない
では、具体的にドーパミン神経活動の特徴を見ていきます(下図)。
"1. ドーパミン神経は、予告無しの報酬の獲得に反応して活動をあげる"
報酬の予告がないため、状態価値は将来の報酬の価値を考慮していません。
その状態で報酬を得ると、獲得した報酬の価値の分だけ状態価値よりも高くなり、その価値の差分を反映するようにドーパミン神経の活動が上がります。
"2. ドーパミン神経は、報酬を予告する刺激に反応して活動する"
ドーパミン神経は、まず報酬の予告刺激に反応して活動をあげます。
これは報酬予告刺激が実際に獲得できる報酬と同様の価値を持ち、その価値と状態価値との差分に対応してドーパミン神経活動が上がったことを示します。
また、この時点で状態価値は報酬を獲得した状態となりました。
"3. 予告刺激によって獲得が予想される報酬が実際に得られてもドーパミン神経は活動しない"
しかし、面白いことに、予告刺激の後に実際に報酬を獲得しても、状態価値は既に報酬を獲得した価値となっており、状態価値と実際に獲得した報酬の価値との差分がないため、ドーパミン神経の活動は起こりません。
"4. 予告刺激によって獲得が予想される報酬が得られないとドーパミン神経活動は抑制される"
報酬の予告刺激によって状態価値は既に報酬を獲得した状態となっているため、実際に報酬が獲得できないと、実際は報酬を獲得していないとう現状維持状態にもかかわらず、価値を失ったと判断されドーパミン神経活動は下がってしまいます。
参考:Keiflin et al., Neuron 2015
ドーパミン神経は状態価値と実際の報酬価値の差分を表す
このようなドーパミン神経の活動は、ドーパミン神経が状態価値と実際に獲得した価値との差分を表していることを示します(上図)。
数式で表すと下記になります。
報酬予測誤差 = 今の報酬t + 今の状態価値t – 前の状態価値t-1 (t:時間)
これは、脳にとっての価値は、得られる報酬の絶対的な価値ではなく、得られた報酬の価値とその時に予測していた(予測できていた)価値との差となることを示しています。
例えば、期待していたことが起こらないと、実際は損をしていないのにがっかりしてしまったりするのは、このためです。
参考文献
Keiflin R, Janak PH. Dopamine Prediction Errors in Reward Learning and Addiction: From Theory to Neural Circuitry. Neuron. 2015 Oct 21;88(2):247-63.
https://pubmed.ncbi.nlm.nih.gov/26494275/
Photo by petr sidorov on Unsplash