2024年7月17日,《Nature Communications》在线发表了我院题为“Anterior Cingulate Cortex Provides the Neural Substrates for Feedback-Driven Iteration of Decision and Value Representation”的最新医工交叉研究成果。本文针对大脑在适应不断变化的外界环境过程中,如何编码外界刺激与自身行为之间的映射关系,通过什么计算方式驱动最终决策的改变,以及如何复现这种认知计算能力等核心问题,建立了利用预期误差反馈改变决策习惯的生物认知行为模型,发现了平衡调节决策灵活性和稳定性的神经网络机制,为理解大脑高级认知功能及其复现提供了全新的认识和技术手段。
在动态不确定的外部环境中调整决策是智能的标志,同时也是大脑认知功能的核心。要有效地做到这一点,需要一个能够快速处理外界反馈信息并实时更新内部价值的系统来不断监测自身行为所带来的结果,重新评估当前的行动策略,并在适当的时候进行决策转换。然而,这种内部反馈循环在哪里以及如何进行?更具体地说,外部刺激与奖赏这种偶然事件的不断变化是如何在大脑中编码的?这些反馈信息是如何计算并用于调整决策策略的?以及大脑是如何根据实际认知需求动态调配神经系统资源的?
以上问题的解答将极大促进对脑功能及生物智能的认知。尤其是在当下人工智能已经逐渐成为主要社会生产力的大背景下,鉴于生物智能对人工智能的启发作用,其发展水平将决定我国在国际竞争中的优势地位。与现有人工智能相比,生物脑系统在应对复杂环境中的不确定输入和多样化外部反馈时,展现出了卓越的决策灵活性和鲁棒性。基于大脑生理学机制和神经信号处理机制,通过结合数学计算原理提出新型计算模型,有利于利用神经群体计算来模拟生物脑处理信息及学习的过程,从而在认知行为和智能决策上使人工智能接近、达到类人水平。
为实现以上目标,我院医工交叉研究团队与基础医学院神经科学研究团队共同展开大脑前扣带回皮层认知决策机制的研究工作。本研究通过使用双光子钙成像技术采集了大脑前扣带回皮层(ACC)兴奋性神经元的Ca2+动态活动。包括测试动物在进行感知辨别任务过程中经历稳定奖励、不可预测反馈和反转学习等不同任务阶段的神经活动,重点分析了刺激-奖励关联的反馈信息在神经元群体中的编码特征和转换规律。
本研究深入探讨了个体前扣带回皮层神经元在反馈驱动的价值表征迭代中的作用,尤其是如何将意外结果转化为信号以引导刺激表征和决策策略的转变。揭示了ACC具有监测结果、检测意外事件并存储和整合意外结果历史的功能,推动外界刺激的价值表征转变,为理解大脑的灵活决策机制提供了重要的见解。
此外,本研究还通过强化学习算法(Reinforcement learning)估计不同刺激的激励值变化,探讨了在反馈驱动的价值迭代系统中,双功能神经元的募集如何形成一个非线性价值迭代系统来控制学习速率。结果表明在反向学习阶段早期的学习速率高于不可预测阶段并且模型预测的学习速率与双功能神经元的募集数量增加呈一致性,表明了这些神经元在价值迭代和决策转换中的重要性。这种动态募集机制使得大脑能够在保持决策更新的灵活性和稳健性的同时,实现快速的行为调整。
本项研究揭示了大脑ACC区域在处理反馈信息、动态更新价值表示和优化决策过程中的关键作用,强调了意外结果在引导灵活决策和学习过程中的重要性,丰富了对大脑如何通过反馈驱动决策变化的理解,也为智能决策系统的设计提供了新的类脑决策模型设计方案。
作者信息:
同济医学院博士研究生陈文琪和机械学院梁杰俊一副教授为本文的共同第一作者,机械学院硕士研究生邬起云为本文的共同作者,同济医学院韩芸耘教授为本文通讯作者。
论文信息:
Chen, W., Liang, J., Wu, Q. et al. Anterior cingulate cortex provides the neural substrates for feedback-driven iteration of decision and value representation. Nat. Commun. 15, 6020 (2024). https://doi.org/10.1038/s41467-024-50388-9