生成式AI驱动的多媒体知识图谱自动构建与质量评估新框架
《IEEE Transactions on Artificial Intelligence》:A Generative AI application for Qualitative Automatic Population of Multimedia Knowledge Graphs
【字体:
大
中
小
】
时间:2025年12月01日
来源:IEEE Transactions on Artificial Intelligence CS6.4
编辑推荐:
本文针对多媒体知识图谱(MKG)构建中人工质量评估效率低、成本高的问题,提出了一种基于生成式人工智能的自动图谱构建与质量评估框架。研究团队利用潜在扩散模型(LDM)从WordNet文本描述生成图像,结合CLIP-Score、FID、IS等多维度质量指标构建质量指数(QI),实现了高效、客观的图像质量评估。实验表明,该方法在保持图像质量的同时显著提升评估效率,生成的合成ImageNet-1k数据集在神经网络训练中达到与原数据集相当的分类性能。该研究为大规模MKGs的自动化构建提供了可靠解决方案,对推动数据中心化人工智能发展具有重要意义。
随着人工智能技术的飞速发展,知识图谱(Knowledge Graphs, KGs)作为高效管理知识的工具,在数据组织和关系挖掘方面展现出巨大潜力。特别是在多媒体领域,多媒体知识图谱(Multimedia Knowledge Graphs, MKGs)能够将视觉内容与结构化知识相结合,为人工智能系统提供更丰富的语义信息。然而,当前MKGs的构建面临着一个突出挑战:传统方法严重依赖人工质量评估,导致图谱构建过程耗时费力,且难以保证评估标准的一致性。这种人工主导的流程不仅限制了MKGs的扩展性,还可能引入主观偏差,影响图谱的可靠性。
在数据中心化(Data-Centric, DC)人工智能范式兴起的背景下,研究人员开始关注如何通过提升数据质量来优化AI系统性能。尽管已有研究证明了高质量数据对模型性能的重要性,但针对MKGs的自动化质量评估方法仍处于探索阶段。现有的提取式图谱构建方法在处理多媒体内容时存在明显局限,特别是在图像质量评估方面缺乏系统化的解决方案。
针对这一研究空白,来自意大利那不勒斯费德里科二世大学的研究团队在《IEEE Transactions on Artificial Intelligence》上发表了一项创新性研究,提出了一套基于生成式AI的MKGs自动构建框架。该研究的核心创新在于将生成式人工智能技术与系统化的质量评估策略相结合,实现了从文本描述到高质量图像节点的自动化转换,为MKGs的规模化构建提供了新的技术路径。
研究团队采用的技术方法主要包括:基于WordNet的语义描述提取、稳定扩散模型(Stable Diffusion 3, SD3)的图像生成、多维度质量评估指标(CLIP-Score、Fréchet Inception Distance(FID)、Inception Score(IS))的集成计算,以及利用多模态大语言模型(Multimodal Large Language Model, MLLM)进行语义对齐验证。通过优化权重组合,研究团队构建了综合质量指数(Quality Index, QI),实现了对生成图像质量的客观量化评估。
研究团队对比了三种主流潜在扩散模型(Latent Diffusion Models, LDMs)——SD3、FLUX和Midjourney的生成性能。通过50名参与者对10个随机选择的同义词集(synset)进行评估,结果显示SD3在图像真实性和细节表现方面表现最优,获得约45%的偏好率。这一选择确保了后续图像生成阶段的质量基础。
通过分析FID随图像数量变化的曲线,研究团队发现当每批生成图像数量达到10张时,FID值的下降趋势明显减缓,表明此时已达到效率与质量的最佳平衡点。这一发现为大规模图像生成提供了重要的参数指导。
研究团队利用Llava模型生成图像描述,并通过计算余弦相似度(Cosine Similarity, CS)来验证生成图像与原始文本描述的语义一致性。实验结果显示,Llava生成的描述在保持语义准确性的同时,能够捕捉图像的具体细节特征,为图像质量评估提供了额外的验证维度。
通过具体案例(如sombrero同义词集)的详细分析,研究团队证明了质量指数(QI)计算相比人工评估具有显著的时间优势(2.1秒/图像 vs 7.3秒/图像)。同时,QI评估结果与50名用户的主观评价高度一致,验证了该方法的有效性和可靠性。
研究团队构建了包含1000个类别的合成ImageNet-1k数据集,并利用该数据集对AlexNet(AN)和MobileNet-v3(MNv3)进行微调训练。实验结果表明,基于合成数据集训练的模型在MS COCO测试集上保持了与原始数据集相当的分类性能(准确率分别为0.68和0.64),证明了合成MKGs的实际应用价值。
该研究的核心贡献在于提出了一套完整的MKGs自动构建与质量评估框架,通过生成式AI技术实现了从文本描述到高质量图像节点的转换。研究证明,基于多维度质量指标的质量指数(QI)能够有效替代人工评估,在保证质量的同时显著提升效率。这种方法不仅解决了MKGs构建中的可扩展性问题,还为数据中心化人工智能的发展提供了重要技术支持。
研究的实际意义体现在多个层面:在技术层面,为多媒体知识管理提供了自动化解决方案;在经济层面,能够显著降低组织的数据管理成本;在社会层面,通过降低技术门槛使更多研究机构和行业能够受益于高质量多媒体资源。尽管当前方法在精细视觉细节生成方面仍存在改进空间,但该框架为未来研究奠定了重要基础,特别是在动态描述优化和跨模态语义建模方面具有广阔的发展前景。
未来研究方向包括引入图像参考输入、改进提示工程策略、探索动态词汇变体等,这些进展将进一步增强MKGs自动构建的精确性和适用性。总体而言,这项研究为多媒体知识管理领域提供了创新性的方法论支持,对推动人工智能从模型中心向数据中心范式转变具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号