物体识别网络中抽象数量编码的稳健性研究:生物启发模型揭示腹侧视觉通路对数量感知的潜在贡献
《Neural Computation》:Encoding of Numerosity With Robustness to Object and Scene Identity in Biologically Inspired Object Recognition Networks
【字体:
大
中
小
】
时间:2025年11月19日
来源:Neural Computation 2.1
编辑推荐:
本研究针对真实世界数量感知需要抽象于物体特性与场景身份的挑战,利用合成光真实感刺激,探究了经物体识别优化的深度卷积神经网络(CNN)如何编码近似数量信息。研究发现,仅训练后的CNN高层分布式活动模式可线性解码数量信息,且该能力可泛化至不同物体与场景类别,不受低阶图像统计量与非数值几何参数干扰。此结果强调了使用复杂自然刺激研究数量感知机制的重要性,并提示腹侧视觉通路在抽象数量表征中可能存在未被充分认识的贡献。
当我们快速扫视一个场景,比如瞥一眼草地上嬉戏的猫群,我们几乎能瞬间感知到猫的大致数量,而无需逐一计数。这种被称为“数量感”(number sense)的基本非语言能力,在人类和许多动物中广泛存在,并被视作更复杂数学技能发展的基石。然而,大脑究竟如何从复杂的视觉输入中提取出抽象的“数量”信息,至今仍是一个待解的谜题。
传统上,神经科学研究将数量处理的核心机制定位于大脑的背侧视觉通路,特别是顶叶皮层。功能磁共振成像(fMRI)研究显示,这些区域的活动对数量的变化呈比率依赖性敏感,并且存在对特定数量有选择性反应的神经元,其反应特性类似于在猕猴等动物中记录的“数量神经元”。然而,这些发现大多基于高度简化的刺激,如黑白点阵。在现实世界中,数量感知需要克服一个根本性挑战:抽象出“四”这个概念,无论面对的是四只猫还是四把吉他,尽管它们的视觉特征和出现背景截然不同。这要求视觉系统在需要敏感识别物体具体属性的同时,又能忽略这些属性以提取数量信息。这种看似矛盾的需求,使得数量感知的神经机制更加引人入胜。
近年来,深度卷积神经网络(CNN)已成为研究高级视觉处理的主流模型。这些受视觉神经生理学启发的人工网络,在物体识别任务上表现出色,其内部表征与大脑腹侧视觉通路(负责物体识别)的活动有诸多相似之处。一个有趣的发现是,即使在训练之前,这类网络的高层中也存在对点阵数量表现出选择性反应的“人工神经元”,其调谐曲线与生物神经元相似。这引发了猜想:数量感可能是特定网络架构的涌现特性,无需专门优化。但关键问题在于,这种基于简单点阵的发现,能否推广到充满复杂物体和场景的真实世界?网络是否只是利用了与数量相关的低阶图像统计量(如总周长、空间频率分布)作为“捷径”,而非真正表征了离散物体的数量?如果经物体识别训练的网络无法在物体身份和场景背景变化的情况下稳健地表征数量,或许能解释为何灵长类大脑中数量处理主要依赖背侧通路。反之,如果这两种信息可以共存,则提示腹侧视觉通路对数量感的贡献可能被低估了。
为了回答这些问题,Thomas Chapalain、Bertrand Thirion和Evelyn Eger在《Neural Computation》上发表了他们的研究。他们摒弃了简单的点阵,精心设计了一套新颖的合成光真实感刺激数据集。这些图像包含不同数量(1-4为感数范围,6-24为估算范围)的3D物体模型(如动物、工具),这些物体被随机放置在不同的背景场景(自然或人工)中,并系统性地改变了物体的非数值参数(大小和间距)。这种设计巧妙地解耦了数量与低阶图像统计量(如亮度均值、标准差、高频空间频率能量、聚合傅里叶幅度、图像复杂度和纹理相似度)之间的关系,使得研究人员能够严格测试网络表征数量信息时,能否泛化跨越物体和场景的剧烈变化。
研究人员主要采用了以下几种关键技术方法:首先,利用Blender软件和真实的高动态范围图像(HDRI)生成包含可变物体数量、身份、大小、间距及背景场景的光真实感刺激。其次,从三种常见的CNN架构(AlexNet, ResNet50, VGG16)的五个不同深度卷积层提取特征表征,并比较经ImageNet数据集预训练的模型与随机初始化权重的未训练模型。核心分析采用线性岭回归(ridge regression)解码从网络表征中预测数量(对数转换后)的能力,并通过严格的泛化测试方案(如跨粗粒度语义类别和跨细粒度个体物体/背景的泛化)来评估其稳健性。此外,通过量化多种低阶图像统计量并进行多元回归分析,评估了它们对数量解码表现的贡献。最后,复现了先前研究中识别“数量神经元”的方法,并对比了这些神经元与分布式种群活动在编码光真实感刺激数量信息中的作用。
通过系统量化六种低阶图像统计量,研究发现,虽然部分统计量与数量存在一定相关性,但改变物体身份和背景场景所引起的统计量变异程度,在许多情况下甚至超过了数量变化带来的影响。这表明,通过利用物体和背景变化引入的高变异性,可以有效检验CNN的表征是否超越了这些基本的视觉摘要统计量。
2.2 CNN中的数量信息可跨粗粒度物体和场景类别泛化
多元解码分析表明,只有在经过物体识别训练的网络中,才能从分布式活动模式中线性解码出数量信息,并且这种解码能力随着网络层级的加深(从Conv1到Conv5)而增强。未训练网络则无法进行有效的泛化。更重要的是,即使通过实验设计控制非数值几何参数(如项目面积、总面积、场面积、稀疏度),使其在训练集和测试集中与数量的关系呈矛盾状态,训练后的网络依然能够解码数量,且性能下降很小。这证明了解码能力并非由这些非数值参数中介。
当测试解码器在从未见过的单个物体或背景上的泛化能力时(细粒度泛化),训练网络的表现虽有所下降,但仍显著优于未训练网络。未训练网络在背景变化下的泛化能力尤其差,这与背景变化引起低阶统计量最显著改变的现象一致。进一步分析显示,仅使用低阶图像统计量作为特征进行解码,其性能远低于训练网络,而未训练网络的解码表现则与低阶统计量模型相近。此外,通过多元线性回归发现,低阶统计量对训练网络数量预测值的解释方差远低于对未训练网络的解释方差,特别是在高层卷积层。这表明训练网络编码的是离散物体的数量,而未训练网络则更多地反映了基本的视觉摘要统计量。
通过分析数量预测值与刺激参数空间三个正交维度(数量、面积大小、间距)的关联,研究发现,在训练网络的较低层,预测更偏向于与总周长等参数对齐,而在较高层则更接近数量本身。未训练网络的预测则始终更接近总周长。这进一步证实,训练网络高层驱动解码的是离散项目的数量。
当将光真实感刺激二值化(模拟简单点阵)后,训练与未训练网络在数量解码性能上的差异显著减小。这表明先前基于简单点阵的研究未能揭示训练在获得抽象数量表征中的关键作用,突出了使用复杂光真实感刺激的重要性。
研究复现了先前识别“数量神经元”的方法,但发现这些对点阵选择性的神经元,在光真实感刺激的泛化测试中无法支持数量解码。相反,排除这些“数量神经元”后剩余的更大种群单元,在训练网络中仍能成功解码数量。随机抽样分析表明,需要一定规模的种群单元才能维持泛化性能,极少数单元无法独立完成此任务。此外,基于光真实感刺激本身定义的“数量选择性”单元,其具体身份依赖于刺激类型和数据集版本,且其解码性能通常不优于排除它们后的种群。这表明对物体和场景身份变化稳健的数量编码,是分布式种群活动的属性,而非少数高度选择性单元的特性。
本研究通过创新的光真实感刺激,揭示了物体识别优化的深度CNN能够在其高层形成一种分布式的数量表征,该表征对物体身份、场景背景以及相关的低阶图像统计量和非数值几何参数具有一定的稳健性。这与未训练网络形成鲜明对比,后者主要捕获低阶特征,无法支持抽象的数量感知。
这一发现具有多重重要意义。首先,它强烈建议认知神经科学领域不应忽视腹侧视觉通路在数量感知中的潜在作用,未来研究需在更自然的刺激背景下同时考察背侧和腹侧通路的贡献。其次,它提示在发育性计算障碍(dyscalculia)等数学学习困难的研究中,使用复杂多变的刺激可能更易揭示其潜在的视觉处理缺陷。第三,研究结果表明,新生儿早期可能并不具备完全抽象的数量表征能力,其数量感可能随着腹侧通路物体识别能力的成熟而逐步发展,但这需要未来婴儿研究使用类似泛化范式进行验证。此外,分布式编码而非少数特异性“数量神经元”负责抽象数量信息的发现,与视觉系统使用一套灵活的特征基集来支持多种判别任务的观念相符。
最后,尽管研究使用了监督式解码器,但这并不排除生物系统通过无监督学习(如观察物体添加、移除等操作引发的视觉变化)来发展数量感的可能性。未来的研究可以比较不同任务目标(如物体识别与空间行动)优化的网络,以深入理解塑造大脑数量感涌现的约束条件。
总之,这项研究强调了使用生态效度更高的刺激来探究生物和人工系统中数量感知机制的必要性,为理解这一基本认知能力的计算和神经基础提供了新的重要视角。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号