关于数字健康应用中声学语音质量指数（Acoustic Voice Quality Index）测量可靠性的研究：对语音样本长度要求的叙述性回顾与实证评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Digital Health》：On Acoustic Voice Quality Index measurement reliability in digital health applications: a narrative review and empirical evaluation of speech sample length requirements

【字体：大中小】 时间：2025年11月24日 来源：Frontiers in Digital Health 3.8

编辑推荐：

　　声学语音质量指数（AVQI）在数字健康应用中的可靠性及语音样本长度需求研究。通过文献综述发现，现有AVQI验证研究存在语音样本长度差异大（4-200词）且缺乏统一标准的问题，同时多数研究未进行交叉验证，可能导致性能指标虚高。通过模拟实验表明，使用50词或20秒的连续语音（读或自发）可实现AVQI稳定测量，建议数字健康应用中标准化语音样本长度以提高可靠性。

　　该研究聚焦于评估一种名为“声学嗓音质量指数”（Acoustic Voice Quality Index, AVQI）的嗓音评估工具的可靠性问题，特别是在数字健康应用中的适用性。AVQI作为一种用于检测嗓音障碍（dysphonia）的声学分析方法，因其在临床和研究中的广泛应用而受到关注。然而，其测量结果的内部一致性（internal consistency）和数据采集过程中的标准化程度仍然是研究中的关键问题。

在数字健康领域，嗓音评估工具的可靠性直接关系到其在实际临床应用中的有效性和可信度。AVQI通过结合持续的元音发音和连续语音样本，旨在提高评估的生态效度（ecological validity），即在更接近真实生活场景的条件下进行嗓音评估。尽管如此，目前关于AVQI在不同语音材料长度下的稳定性，以及其在不同任务类型（如朗读和自发性说话）中的表现，仍存在诸多未解问题。本研究通过两个子研究，系统地探讨了这些问题，并试图为AVQI在数字健康中的标准化使用提供依据。

在第一项研究中，作者对涉及“AVQI”和“可靠性”的文献进行了叙述性综述，旨在分析不同研究中如何确保AVQI测量的内部一致性。通过检索Google Scholar和Scopus数据库，共识别出129篇相关研究，其中85篇提供了足够的方法学细节，可以用于评估AVQI的可靠性。研究发现，尽管许多研究使用了推荐的3秒语音片段，但这种推荐并未得到充分的方法学支持。此外，不同语言环境下的AVQI验证研究中，使用的语音材料长度差异较大，从4个词到200个词不等。这表明，在不同研究中，对语音材料长度的选择存在较大的随意性，缺乏统一标准。

值得注意的是，部分研究中使用的语音材料长度虽然较短，但其结果仍然能够达到一定的稳定性。例如，某些研究中使用了27个音节的语音材料，其结果与未进行手动分割的语音数据相比，表现相当。这说明在某些情况下，较短的语音材料可能也足以提供可靠的AVQI测量。然而，这种做法并未在所有研究中被广泛采用，也未得到足够的验证。因此，研究者建议，未来在AVQI的验证和应用中，应更加重视语音材料长度的选择，并建立统一的标准。

在第二项研究中，作者通过模拟实验进一步验证了语音材料长度对AVQI测量稳定性的影响。研究对象为54名母语为瑞典语的参与者（22名女性，32名男性），年龄范围为46至78岁。他们被要求朗读两篇标准文本，并进行自发性说话任务。研究结果显示，当语音材料长度达到50个词或20秒时，AVQI测量结果趋于稳定，且其波动幅度较小，处于临床可接受的范围内。这一发现与第一项研究的结果一致，表明目前广泛采用的3秒语音材料可能不足以提供可靠的AVQI测量。

此外，研究还发现，无论是朗读还是自发性说话，当语音材料长度足够时，AVQI测量结果的稳定性相似。这意味着，在数字健康应用中，无论语音任务的类型如何，只要语音材料长度达到一定标准，AVQI都能提供可靠的评估结果。然而，当前的许多应用研究中，语音材料长度的选择并不一致，这可能导致评估结果的不一致，从而影响其在临床实践中的适用性。

研究进一步指出，AVQI的可靠性不仅依赖于语音材料的长度，还受到其他因素的影响，例如录音设备的质量、录音环境的控制程度以及语音压缩技术的使用。在某些研究中，语音材料被存储为MP3格式，这种压缩技术可能会对某些声学参数（如谐波-噪声比HNR和倒谱峰突出度CPPS）产生影响。尽管如此，由于MP3压缩在当前文献中并未被广泛使用，因此对AVQI测量结果的影响目前尚不明确。然而，随着AVQI在智能手机等移动设备上的应用逐渐增多，这种影响可能会变得更加显著，因此需要进一步研究。

研究还强调了AVQI在不同语言环境下的适用性问题。尽管AVQI在多种语言中已被验证，但其阈值（threshold）的设定往往基于特定语言的本地验证，而缺乏跨语言的统一标准。这可能导致在不同语言背景下，AVQI的测量结果存在差异，从而影响其在国际范围内的推广和使用。因此，研究建议，未来在AVQI的验证过程中，应更加注重跨语言的标准化，并确保阈值的设定具有广泛的适用性。

此外，研究指出，当前许多研究在评估AVQI的可靠性时，往往仅依赖于训练数据集，而缺乏独立的验证数据集。这种做法可能导致性能评估结果被高估，从而影响AVQI在实际应用中的可信度。为了解决这一问题，研究建议采用分层抽样的方法，将训练数据集和验证数据集进行合理划分，并确保两者在人口学特征（如年龄、性别）和疾病状态上的分布相似。这样可以减少因数据分布不均而导致的评估偏差，提高AVQI的泛化能力。

在临床实践中，AVQI的可靠性对于诊断和治疗嗓音障碍至关重要。由于嗓音评估通常需要较长的语音材料，而数字健康工具往往要求简洁、高效的采集方式，因此如何在保证测量准确性的前提下，减少语音材料的长度，成为研究者关注的重点。研究结果显示，50个词或20秒的语音材料足以提供稳定的AVQI测量，这为未来开发更加便捷的数字健康工具提供了理论依据。

总体而言，本研究揭示了AVQI在数字健康应用中面临的可靠性挑战，并提出了改进方向。首先，应建立统一的语音材料长度标准，以确保不同研究和应用之间的测量结果具有一致性。其次，需要进一步研究语音压缩技术对AVQI测量结果的影响，特别是在移动设备上的应用。此外，跨语言的验证和标准化也是未来研究的重要方向，以确保AVQI在不同文化和社会背景下的适用性。最后，研究建议在AVQI的验证过程中，采用分层抽样的方法，并使用独立的验证数据集，以提高其泛化能力和临床适用性。

研究的局限性也值得关注。首先，文献综述仅使用了两个数据库（Google Scholar和Scopus），可能遗漏了其他来源的研究。其次，研究者仅一人进行了信息提取和分析，可能存在一定的主观偏差。此外，模拟实验中使用的参与者数量相对较少，未来需要在更大的样本量和更多语言背景下进行验证，以确保研究结果的普适性。

综上所述，AVQI作为一种用于嗓音障碍评估的声学工具，在数字健康领域具有广阔的应用前景。然而，其测量结果的可靠性仍需进一步优化。通过标准化语音材料长度、改进数据采集方法、加强跨语言验证以及采用独立的验证数据集，可以有效提高AVQI的内部一致性和临床适用性。未来的研究应更加关注这些方面，以推动AVQI在数字健康领域的广泛应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号