《Computational Visual Media》:VarGes: Improving variation in co-speech 3D gesture generation via StyleCLIPS
编辑推荐:
编辑荐语:针对语音驱动3D手势常因数据单一而风格趋同的难题,研究者提出VarGes框架,以StyleCLIPS引入视觉风格线索,通过变分增强特征提取、补偿式风格编码与跨模态自回归预测,将手势多样性提升7.7%,FGD降低88%,BC逼近真值,为虚拟人、HCI与动画注入更鲜活、同步且个性鲜明的非语言表达。
当虚拟主播、在线教育与元宇宙社交愈发普及,人们渴望数字角色能像真人般“活”起来:开口说话时,头部、手臂乃至指尖都能自然、丰富且富有个性地动作。然而传统语音驱动3D手势方法大多只依赖音频信息,数据集又局限于少数演员,结果生成的动作像“复制黏贴”,节奏呆板、幅度雷同,难以匹配不同语境与人物风格。如何让一段任意语音就能自动“跳”出多彩手势?Ming Meng、Ke Mu等作者发表在《Computational Visual Media》的VarGes研究给出了新答案。
为破解“风格单一”顽疾,团队提出“以视觉风格补音频不足”的思路,构建三模块协同框架:先借风格参考视频提炼个性化动作韵律,再与语音深度融合,最后通过量化-自回归模型逐帧预测高自然度手势。实验结果显示,VarGes在公开SHOW数据集上将手势多样性(Variation)提升到0.9977,与真值1.0069几乎持平;Fréchet Gesture Distance(FGD)仅5.463,比现有最佳方法再降一个量级;Beat Consistency(BC)0.8690,逼近真实录制的0.8680,实现“同步中带变化,变化里显自然”。
关键技术方法
采用Wav2vec 2.0与MFCC双路提取语音特征,兼顾音素与节奏信息
引入任意风格参考视频,经PyMAF-X等工具提取SMPL-X参数,构建156维StyleCLIPS
设计Transformer-风格编码器(VCSE),通过自注意力池化输出稳定风格码
跨注意力融合风格码与MFCC,驱动VQ-VAE自回归手势预测器(VDGP)
使用SHOW四人多模态数据集,8:1:1划分,Adam优化训练100 epoch
研究结果
变分增强特征提取模块:StyleCLIPS成功捕获幅度、节奏等整体风格,使同一语音输入可随参考视频不同而输出迥异动作,避免过度重复
变分补偿风格编码器:t-SNE可视化显示,8层Transformer加自注意力池化对四人风格码聚类最清晰,对应Variation 0.9731、FGD 8.072,为最佳配置
变分驱动手势预测器:跨注意力相较“直接拼接”将FGD从8.072降至5.463,Variation升至0.9977,验证风格-音频动态耦合比硬编码更有效
定量对比:VarGes全面超越Audio2Gesture、LS3DCG、TalkSHOW等,多样性提高7%以上,真实度提升一个数量级,节奏同步与真值无显著差异
定性用户研究:31名跨学科受试者MOS评分显示,VarGes在“类人感”“语音-手势相关”“流畅度”“自然度”“变化度”五项均显著优于TalkSHOW, pairwise偏好率平均超80%
结论与讨论
VarGes首次系统地把“视觉风格参考”作为独立信息源引入语音手势生成,通过StyleCLIPS、跨注意力与VQ-VAE自回归的协同,实现“多样性+自然度+同步性”三赢,为虚拟数字人、影视动画、智能客服等场景提供了更高表现力的动作引擎。未来工作将拓展多人交互、更深语义关联与实时性能优化,推动全息通信与元宇宙沉浸式体验再进一步。