06/09/22 15:57:06
強化学習に関して、
現在、大脳基底核が、機械学習の分野で知られている強化学習を何らかの形で行っていると考えられている。
その発端となったのは、大脳基底核にあるドーパミン神経細胞の反応が、強化学習の一つの手法であるTD学習で
用いられるTD誤差に似ているという指摘である。この指摘の基礎となるSchultzらの実験では、報酬が来ることを
知らせる刺激(条件刺激;CS)の後に報酬を与える。条件付けが不十分だと、報酬が与えられた直後にドーパミン
神経細胞の一過性の反応がある。その一方十分に条件付けが行われると、ドーパミン細胞CSに一過性に反応し、
報酬への反応は消える。さらに、CSの前にもう一つ別のCSを与えると、その刺激にドーパミン細胞は反応し、
元々のCSへの反応は消える。これらのドーパミン細胞の反応がTD誤差によく似ているというのである。
---「脳の計算機構」より---
とありますが、
たとえばドーパミンをブロックすると甘みという報酬によってモーティベートされた器械的反応は妨げられるが、
おいしいものが得られたときにそれを食べることは妨げられない---動物はそれを食べるときに依然としてその
報酬を「好む」。ただ、それを得るために努力することはなくなる。そういうわけでドーパミンは達成行動に
ではなく、期待行動に関わっている。だが空腹であることや喉が渇いていることは不快なことだ。快楽はそれを
経験としてとらえるかぎり期待の状態では生じず、達成のあいだに生じるものだ。ドーパミンは期待の局面だけ
にかかわっていて、達成の局面にかかわっていないのだから、その作用は快楽という観点からは説明できない。
…ドーパミンが主観的快楽にも達成反応の表現にもかかわっていないことは明らかだが、どんな条件がドーパミン
に左右されるのかについては意見が一致していない。
---「シナプスが人格をつくる」より---
もう数ステップ回路の解明(付け足し)がないと、人工知能の実現は難しいような気がします。