数字人面部质量评估:融合形态学和谐与表情协调性的双分支框架研究

【字体: 时间:2025年09月17日 来源:Disease-a-Month 3.8

编辑推荐:

  本文提出了一种创新的双分支框架(静态形态和谐性分析+动态表情协调性建模),通过整合医学美学先验(面部美学亚单位)和动作单元(AU)拓扑图分析,解决了数字人(DH)特有的形态失真和表情不连贯问题。该框架采用门控循环单元(GRU)建模时序依赖,结合损失厌恶池化策略捕捉瞬时严重失真,并通过图卷积网络(GCN)量化动态扭曲水平,在THQA数据集上显著优于传统方法(如PSNR、SSIM),为数字人建模优化和实时渲染提供了可量化的评估标准。

  

Section snippets

Traditional no-reference quality assessment methods

数字人面部质量评估的发展深受无参考质量评估(no-reference quality assessment)进步的推动。早期统计方法通过空间域特征建模自然图像失真:BRISQUE利用局部亮度统计量化质量退化,而NIQE通过测量与原始自然图像多元高斯模型的偏差来评估质量。然而,这些方法(包括BRISQUE、NIQE等)被证明不足以处理数字人特有的复杂失真模式。

Overall framework

我们提出了一种双分支架构,协同整合静态结构分析和动态表情建模,以实现全面的面部质量评估。如图1所示,该框架包含两个核心模块:面部形态和谐性(Facial Morphological Harmony, FMH)作为静态分支,以及时序表情收敛性(Temporal Expressive Convergence, TEC)作为动态分支。当FMH和TEC融合时,静态几何先验动态调节AU强度容忍阈值,而检测到的动态失真则反馈以优化形态评估权重。

Datasets and evaluation metrics

本研究在三个THQA基准数据集上验证了所提出的数字人面部质量评估方法的有效性:THQA-3D、THQA和THQA-10K,这些数据集涵盖了从静态3D模型到动态AI生成视频的广泛数字人形式,提供了带有主观评估数据的丰富失真标注。

THQA-3D数据集专注于3D数字人头像在传输过程中的质量退化。该数据集基于Meta的MultiFace真实扫描数据构建,包含10个基础模型,通过模拟不同压缩级别(包括几何简化、纹理量化等)生成600个失真样本。每个样本由25名受试者使用绝对类别评分(Absolute Category Rating, ACR)进行评分,最终平均意见分(Mean Opinion Score, MOS)范围在1~5之间。

THQA数据集专注于动态数字人视频的表情自然性评估,包含200个视频序列,覆盖6种基本表情(高兴、悲伤、愤怒等),通过操纵AU激活参数引入五种典型失真(如过度激活、异步激活等)。采用ACR-HR(ACR with Hidden Reference)方法收集了15,000次主观评分,MOS值遵循正态分布。

THQA-10K作为大规模扩展数据集,包含10,000个数字人视频,额外引入了生成对抗网络(GAN)生成的面部和非线性光照变化失真。该数据集采用一对比较法(Pair Comparison)和ACR混合策略进行标注,确保了主观评分的可靠性和多样性。

评估指标方面,我们采用皮尔逊线性相关系数(PLCC)和斯皮尔曼秩相关系数(SRCC)衡量预测分数与主观MOS的一致性,同时使用均方根误差(RMSE)量化预测偏差。

Conclusion

本研究通过提出一种融合医学美学先验和动态表情拓扑分析的双分支协同框架,解决了元宇宙场景中数字人质量评估的独特挑战。通过将美学面部亚单位分类标准转化为可计算的几何约束,并建模多维动作单元之间的不对称相关性,我们的框架实现了对DH特有失真的精确量化,为生成模型优化提供了可解释的反馈。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号