多模态语义网络的大尺度结构特征分析

《Cognitive Science》:Characterizing the Large-Scale Structure of Multimodal Semantic Networks

【字体: 时间:2025年10月25日 来源:Cognitive Science 2.4

编辑推荐:

  语义网络的小世界结构与截断幂律分布源于环境语义规律。本研究通过STEP-Tag方法收集四类多模态数据(自然场景、日常活动视频、现代艺术、情绪语音),构建了包含7916刺激的语义网络。分析显示这些网络具有显著的小世界特性(平均最短路径2.5-3.0步)和截断幂律分布(拟合指数>0.96),且能预测人类相似判断(相关系数0.4-0.7)和词汇决策反应时间(相关系数-0.13至-0.43)。对比发现与传统自由关联和WordNet网络具有25%-45%的语义重叠,但节点度分布更集中(截断幂律指数1.49-2.3)。研究证实多模态环境数据驱动的语义网络能反映人类认知的跨模态整合机制,为语义发展理论提供了新证据。

  人类在认知过程中会将语义知识组织成复杂的网络,这些网络编码了概念之间的关系。这些语义网络的结构对人类认知过程具有广泛的影响,同时也为语义发展的理论提供了重要依据。来自大规模词汇网络的证据,例如从词语联想任务中得出的网络,表明语义网络通常具有高稀疏性和高聚类性,同时保持概念之间较短的平均路径长度,这种现象被称为“小世界”网络。此外,有人认为这些网络是“无标度”的,即概念之间的连接数(或度)遵循幂律分布,其中大多数概念仅具有少量连接,而少数概念具有大量连接。然而,无标度特性仍然存在争议,且尚未系统地研究词汇证据是否反映了环境中的自然语义规律。为此,我们收集并分析了来自三个模态(视觉、听觉和视听)的四个大规模自然刺激数据集,涵盖7916个刺激和610,841个参与者反馈。通过连接相同刺激的描述性词语,我们构建了“多模态”语义网络。研究显示,这些网络表现出清晰的小世界结构,其度分布更接近截断幂律(即最连接的概念比完美幂律预测的要少见)。我们进一步发现,这些网络可以预测人类在这些领域中的感官判断,以及独立的词汇判断任务中的反应时间。最后,我们发现多模态网络与之前分析的词汇网络也存在重叠的主题,而经过更严谨的重新分析后,这些词汇网络也被发现是截断的。我们的研究为语义网络结构的起源提供了新的视角,即将其与环境中的语义规律联系起来。

在认知科学领域,语义网络的结构、发展及其支持的计算一直是研究的核心。早期的研究主要关注如何设计网络结构以支持如有效记忆搜索和事实验证等操作。例如,Collins和Quillian(1969)提出了一个分层语义网络(见图1),以捕捉动物分类及其属性。分层结构的顶层(图1的中心节点)对应于“动物”这一类别及其核心属性(如“有皮肤”、“能吃”),而每个分支(或边)则对应于其他概念(或节点)的包含关系(如“动物”→“鸟类”、“动物”→“鱼类”),这些关系在分层结构中进一步细化(如“鸟类”→“金丝雀”、“鸟类”→“鸵鸟”)。为了确保表示的经济性,分层结构中较高层级的属性(如“有翅膀”对于“鸟类”)不会在较低层级的概念中重复出现。基于此结构,Collins和Quillian(1969)提出了一种搜索算法,该算法利用其特性来验证陈述,例如“金丝雀有翅膀”,并展示了该算法可以预测人类在相关任务中的反应时间。

数十年后,Steyvers和Tenenbaum(2005)通过研究词汇网络的结构特性,从词语联想任务中得出的网络(即两个词语若彼此被联想则连接,如“天空”与“蓝色”),尝试解释这些特性为认知发展过程的产物。他们发现,词汇语义网络具有稀疏连接(即两个通用概念之间连接的概率较低)、高聚类(即两个概念如果都连接到第三个概念,则它们很可能彼此连接)和短平均路径长度(即从一个概念到另一个概念可以通过少量边进行遍历)。这种网络被称为“小世界”网络(Watts & Strogatz, 1998),由于其普遍性以及在秩序(高聚类)和随机性(短平均路径)之间的插值特性,引起了广泛的关注(Dorogovtsev & Mendes, 2002)。Steyvers和Tenenbaum(2005)进一步指出,这些网络的度分布符合幂律形式(即大多数词语只有少量连接,而少数“枢纽”词语有大量连接),这一现象被称为“无标度”网络(Barabási, 2009)。

从信息处理的角度来看,这些观察结果具有重要意义。首先,小世界组织通过保持相关概念的聚类,确保了搜索效率,同时通过“捷径”边实现了网络的快速遍历。其次,无标度网络结构对语义组织的发育过程提出了约束。Steyvers和Tenenbaum(2005)提出了一个语义成长模型,其中新概念通过“概念分化”机制加入语义网络,即新概念继承现有概念的一部分连接,且选择现有概念的概率与其连接数成正比,这一过程被称为优先附着(Barabási & Albert, 1999;Dorogovtsev & Mendes, 2002)。最后,小世界和无标度特性与Collins和Quillian(1969)提出的分层组织是不一致的,因为分层网络没有聚类性,也没有枢纽(节点的邻居之间不相互连接,且每个节点只有少量连接;见图1)。

尽管这些研究令人信服,但后续研究揭示了更为复杂的图景。首先,概念分化只是产生小世界和无标度网络的一种可能机制(Borge-Holthoefer & Arenas, 2010;Hills et al., 2009;Jones et al., 2018)。例如,Hills et al.(2009)分析了早期名词学习的纵向数据,认为更合适的机制是优先获取(preferential acquisition),即名词的学习顺序取决于其在外部学习环境(如成人言语语义网络)中的连接数(度)。这与Steyvers和Tenenbaum(2005)的模型不同,后者认为名词的学习顺序取决于儿童内部语义网络中的节点度。其次,一些对词汇网络的分析似乎表明其偏离无标度特性(Siew & Vitevitch, 2020a;Siew & Vitevitch, 2020b;Utsumi, 2015)。例如,Siew和Vitevitch(2020a)通过分析语音网络(即词语如果具有相似的发音则连接),提供了非无标度结构的证据,该结构最好通过混合机制来解释。最后,网络科学领域后来的发展(Clauset, Shalizi, & Newman, 2009)提出了一个强有力的论点,即用于评估无标度特性的简单回归分析可能因统计波动而不够充分,更严谨的技术已被提出。

或许最重要的是,所有上述研究都依赖于高度整理的词汇数据集。现有文献没有考虑语义网络的一个重要组织原则,即它们适应于感官环境,因此应该反映其规律。为了强调这一点,考虑“天空”或“绿色”这样的概念,这些是自然场景中的高频特征,因此预计会与多种更具体的概念(如特定动物或植被)频繁共现。同样,日常生活中经常出现人类进行各种活动的场景,因此可以预期“男人”和“女人”这样的概念在描述这些场景的语词中出现频率很高。人类不断处理周围环境,并主动交流有关环境的有用信息,这使得语义网络的结构可能反映环境中的共现规律。通过分析这些共现模式,我们可以构建多模态语义网络,即词语如果在描述同一刺激时共现则被连接(见图2C)。为了验证这一假设,我们采用了一种传统的做法,即让参与者自由描述他们所观察的刺激。为了研究不同学科感兴趣的多种领域,我们选择了涵盖自然场景(如Chang等,2019)和现代艺术作品(如Mohammad和Kiritchenko,2018a)的视觉数据集,以及情绪语调录音(如Livingstone和Russo,2018)的听觉数据集,以及视频片段(如Xie等,2018)的视听数据集。总体而言,我们四个行为数据集包含了7916个刺激和610,841个参与者响应。

通过这些多模态语义网络,我们进行了严格的统计分析,以评估它们是否具有小世界和无标度特性。我们计算了不同的网络统计指标,如聚类系数和平均最短路径长度,并使用基于对数似然的方法评估幂律度分布,并将其与竞争模型进行比较(Alstott, Bullmore, & Plenz, 2014;Clauset et al., 2009;见方法部分)。我们还分析了这些网络的语义内容,包括其最连接的词语,以及使用现代社区检测算法来揭示主题聚类(见方法部分)。

除了结构分析,这是我们当前工作的主要贡献,我们还进行了一系列行为验证研究,以评估多模态网络是否与独立的心理学数据相容。首先,我们测试了所提取的描述性词语是否能预测人类在每个领域中的成对相似性判断(例如,“两幅图像在0-1的范围内有多相似?”)。相似性判断在认知科学中具有悠久的历史,并且是高度诊断性表示的指标(Shepard, 1980;Tversky, 1977)。因此,自然地,我们想知道我们的提取性描述是否能预测这些数据。我们通过将这些描述嵌入到合适的文本嵌入模型中,然后将这些嵌入转化为相似性度量,来生成数值预测(见方法部分)。其次,我们明确评估了我们的网络与词汇网络的重叠,通过重新分析Steyvers和Tenenbaum(2005)所考虑的两个经典词汇网络,即自由联想(Nelson et al., 2004)和WordNet(见方法部分)。最后,按照Steyvers和Tenenbaum(2005)的研究,我们还测试了多模态和词汇网络中词语的连接度是否可以预测人类在词汇判断任务中的反应时间(Balota et al., 2007)。

在论文的其余部分,我们将系统地评估多模态语义网络的属性和行为相关性,这些网络直接从丰富的感官数据中得出。论文的结构如下:在下一节中,我们将回顾所有数据集、实验和分析技术的详细技术细节。然后,我们将进入结果部分,详细描述所构建的多模态网络的特性、其语义内容和统计指标,这些统计指标随后由行为评估进行验证。最后,我们将进行讨论。

我们的研究结果表明,多模态语义网络确实具有小世界结构,并且其度分布最好通过截断幂律来捕捉。此外,这些网络与词汇网络具有相似的特性,并且在预测人类行为数据方面表现出良好的相关性。我们的研究不仅揭示了语义网络结构与环境规律之间的联系,还为理解语义组织的起源提供了新的视角。通过构建和分析多模态网络,我们展示了这些网络在不同刺激领域中的行为相关性,这进一步支持了它们在人类认知中的作用。此外,我们的研究还强调了多模态语义网络与词汇网络之间的重叠,这表明无论是通过自由联想还是通过多模态标签,人类对语义的组织方式都具有共性。研究结果还显示,多模态网络的结构与环境中的语义规律一致,这为语义网络的发育机制提供了新的见解。

我们的研究为语义网络的结构提供了新的证据,揭示了它们在不同刺激领域中的小世界特性,并且其度分布符合截断幂律。这些发现表明,人类在处理自然环境时,其语义网络的结构反映了环境中的规律。我们还发现,这些网络在预测相似性判断和反应时间方面具有显著的相关性,这进一步支持了它们在人类行为中的重要性。通过比较多模态网络与词汇网络的度分布,我们发现它们都具有相似的特征,这表明无论是通过自由联想还是通过多模态标签,人类对语义的组织方式具有共性。

此外,我们还发现,多模态网络与词汇网络在主题上存在重叠,这表明语义网络的结构可能与环境中的语义规律有关。例如,我们发现自然场景中的“白色”、“树木”、“草”、“绿色”、“天空”、“男人”等词语在多模态网络中具有较高的连接度,而在词汇网络中,这些词语也经常出现。这表明,无论通过何种方式获取语义信息,这些基本概念都可能在语义网络中占据核心地位。我们的研究还强调了语义网络在不同领域中的结构差异,例如自然图像的室内-室外分解,以及情绪语调的正向-负向分解,这表明语义网络的结构可能受到环境规律的影响。

我们的研究还表明,多模态网络在预测相似性判断和反应时间方面具有良好的表现,这为理解语义网络的结构和其在人类认知中的作用提供了新的视角。通过分析这些网络的度分布,我们发现它们符合截断幂律,这意味着虽然大多数节点只有少量连接,但某些枢纽节点的连接数远高于预期。这可能是因为存在某些限制,使得词语在连接度上无法无限制增长。然而,我们尚未确定哪些词语在理论上应具有更高的连接度,这可能需要进一步的研究。此外,我们还发现,这些网络的结构与环境中的规律一致,这表明语义网络的结构可能是由环境中的共现模式驱动的。

总的来说,我们的研究揭示了多模态语义网络的结构特征,表明它们与词汇网络具有相似的特性,并且在预测人类行为数据方面表现出良好的相关性。这些发现不仅扩展了我们对语义网络结构的理解,还为探索语义网络的发育机制提供了新的思路。通过构建和分析多模态网络,我们展示了这些网络在不同刺激领域中的行为相关性,这进一步支持了它们在人类认知中的作用。此外,我们的研究还强调了语义网络的结构可能受到环境规律的影响,这为理解语义网络的发育机制提供了新的视角。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号