-
生物通官微
陪你抓住生命科技
跳动的脉搏
神经科学的新发现:照亮大脑的奖赏通路
【字体: 大 中 小 】 时间:2024年01月03日 来源:Nature
编辑推荐:
最近的研究揭示了大脑中的多巴胺如何引导动物识别和改进导致奖励的行为。这项研究将特定行为与多巴胺释放联系起来,对改善教育和人工智能的学习过程具有重要意义。
想象一下,你正在教狗玩接球游戏。你扔了一个球,你的狗会追着球跑,捡起来,然后跑回去。然后你奖励你喘息的小狗吃点东西。但现在对你的狗来说真正的诀窍是:弄清楚这个序列的哪一部分获得了奖励。科学家称这种现象为大脑中的“信用分配问题”。这是一个关于理解哪些行为对我们所经历的积极结果负责的基本问题。
多巴胺是大脑中一种重要的化学信使,在这一过程中起着至关重要的作用。但大脑是如何将特定行为与多巴胺的释放联系起来的,目前还不清楚。
12月13日,艾伦研究所、哥伦比亚大学祖克曼心智大脑行为研究所、尚帕利莫德未知中心和西雅图儿童研究所的科学家们在《Nature》杂志上发表了一项研究,为这个谜团提供了新的线索。它揭示了多巴胺不仅是奖励的信号,而且还引导动物通过试验和错误来确定导致这些奖励的特定行为。
有趣的是,研究还表明,大脑的奖励系统可以迅速、动态地改变动物的全部动作和行为。这项研究的资深作者、医学博士Rui Costa说,这凸显了一种复杂的学习策略,在这种策略中,行为不仅得到强化,而且通过经验积极地塑造和调整。“当你强化行为时,我们通常会认为这只是一种行为,但事实并非如此:你正在改变整个行为结构。真正令人惊讶的是它的速度有多快。”
为了揭示这些见解,该团队与尚帕利莫德未知中心的工程师和神经科学家合作,开发了一种新的“闭环”系统,可以将小鼠的特定行为与实时多巴胺释放联系起来。研究人员给鼠配备了无线传感器,以便在一个简单的受控空间内跟踪它们的运动。然后,他们将这些数据输入机器学习算法,该算法将这些行为分为不同的组。然后,研究人员使用光遗传学(一种用光控制神经元的方法),一旦小鼠完成预定的“目标动作”,就刺激多巴胺神经元。
他们发现小鼠在多巴胺释放后迅速改变了它们的行为。最初,他们不仅增加了目标动作的频率,而且增加了类似动作和在多巴胺释放前几秒钟发生的动作的频率。与此同时,与目标不同的动作迅速减少。随着时间的推移,这种改进变得更加精确,小鼠越来越关注导致多巴胺释放的确切动作。
这项研究还研究了小鼠是如何学习一系列动作的,揭示了一个类似于倒带时间的关键过程,以了解是什么导致了奖励。当触发多巴胺的动作发生在更远的地方时,小鼠的学习速度就会更慢。这表明,动作之间等待的时间越长,小鼠就越难以将动作顺序与奖励联系起来。从本质上讲,在获得奖励之前的行动会被迅速掌握并完善,而较早的行动则会逐渐完善。这种“倒带”过程加强了行为,并帮助小鼠逐渐确定哪些精确的动作和顺序会产生奖励。
该研究的主要作者、华盛顿大学儿科医学院、西雅图儿童研究所的助理教授Jonathan C. Y. Tang博士表示,这些发现可能会影响教育和人工智能(AI)等多个领域。例如,允许在课堂上进行探索、犯错和逐步完善,可能更符合我们大脑天生的学习过程。
在人工智能领域,这些见解可能会带来更复杂、更高效的学习系统。通过更好地复制生物学习过程,我们可以创造出更善于适应新数据和新情况的人工智能。
这项研究让我们更深入地了解了我们的大脑是如何通过试错来学习和适应的——无论你是科学家还是小狗。
“我们认为很多事情都是理所当然的,包括信用分配,”Tang说,他在哥伦比亚大学与Costa一起开始了这项研究。“但只有当你真正开始投入其中时,你才会意识到其中的复杂性。这就是人们从事科学研究的原因:找到事物的真相。”
参考文献:“Dynamic behaviour restructuring mediates dopamine-dependent credit assignment” by Jonathan C. Y. Tang, Vitor Paixao, Filipe Carvalho, Artur Silva, Andreas Klaus, Joaquim Alves da Silva and Rui M. Costa, 13 December 2023, Nature.