基于交叉非抽取小波变换与贝叶斯优化多元线性回归的帕金森病早期语音诊断新方法
《Scientific Reports》:Earlier prediction of Parkinson’s disease using cross non-decimated wavelet transform and machine learning algorithm
【字体:
大
中
小
】
时间:2025年11月21日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对帕金森病(PD)早期诊断难题,提出了一种创新的语音信号分析方法。研究人员开发了交叉非抽取小波变换(CNDWT)预处理技术,结合贝叶斯优化多元线性回归(BOMLR)算法,通过对语音信号进行幅值切片增强和特征提取,实现了PD的早期精准识别。该方法在测试中达到99%的准确率,显著优于传统方法,为PD的早期筛查提供了非侵入性、低成本的有效工具。
帕金森病(PD)作为一种常见的神经退行性疾病,全球患病率呈上升趋势,预计到2050年将达到每10万人中267例,比2021年增长76%。这种疾病主要影响大脑中控制身体运动的区域,特别是黑质(substantia nigra)中的多巴胺能神经元。当PD发生时,由于多巴胺水平不足,黑质细胞失去传递信息的能力,从而显著影响身体运动。
传统的PD诊断方法如磁共振成像(MRI)、功能磁共振成像(fMRI)和脑电图(EEG)虽然有效,但成本高昂且需要临床监督,许多患者难以获得这些检查。更重要的是,当临床诊断做出时,多巴胺能神经元的退化可能已经迅速发生,近80%的细胞可能已经死亡而未被察觉。
值得注意的是,PD患者在疾病早期阶段就会出现语音障碍,这为早期诊断提供了独特机会。语音分析作为一种非侵入性、易于获取的检测方法,具有重要的研究价值。然而,现有的语音分析方法往往无法捕捉由噪声、有限特征选择和缺乏优化预测模型引起的细微语音损伤。
为了解决这一问题,B.Veena等人开展了一项创新研究,提出使用交叉非抽取小波变换(CNDWT)和贝叶斯优化多元线性回归(BOMLR)算法进行PD的早期预测。该研究通过分析语音信号中的声学特征,开发了一种高效、准确的PD早期诊断方法。
研究方法上,研究人员使用了来自Kaggle的PD语音数据集,包含31人的语音记录,其中23人为PD患者,8人为健康对照。为了解决数据不平衡问题,采用了幅值切片增强技术,通过对语音信号的振幅包络进行分段,生成现有样本的变体,同时保留病理语音特征。经过增强后,数据集包含661个样本(323个PD样本和338个健康样本)。
研究采用了创新的交叉非抽取小波变换(CNDWT)进行信号预处理,其中使用Haar小波进行信号分解,使用Daubechies-3(DB3)小波进行信号重建。与传统的离散小波变换(DWT)相比,CNDWT具有平移不变性,能保留相位信息,对固定和非平稳信号都能提供更好的时间-频率分辨率。
在特征选择方面,研究通过相关性分析确定了与PD高度相关的声学特征,包括MDVP:Jitter(%)、MDVP:Jitter(Abs)、MDVP:RAP、MDVP:PPQ、Jitter:DDP和NHR等。这些特征反映了PD患者语音中的频率扰动、振幅扰动和噪声成分变化。
最终,研究采用贝叶斯优化多元线性回归(BOMLR)模型进行PD预测,该模型能有效处理高维数据,创建复杂的决策边界,有效分离重叠类别。
研究使用的PD语音数据集来自Kaggle,包含31名受试者的语音记录,其中23名被诊断为帕金森病(PD)患者,8名健康对照。每个参与者录制了多个样本,如持续元音、单词、短语和数字。从语音记录中提取了各种声学特征,包括抖动(jitter)、闪烁(shimmer)、谐波噪声比(HNR)、梅尔频率倒谱系数(MFCCs)等。数据集中没有缺失值或空值。
为解决原始数据集中PD样本与健康样本之间的不平衡问题,研究采用了幅值切片增强技术。该技术将振幅包络分割为离散水平或"切片",通过选择性修改或替换这些切片来模拟信号强度的变化,同时保留原始波形的时空和频谱特征。经过增强后,生成了630个合成数据样本(300个PD样本和330个健康样本),使总样本数达到661个。
CNDWT是一种改进的非抽取小波变换(NDWT),使用Haar小波进行信号分解,DB3小波进行信号重建。与DWT不同,NDWT不进行下采样,在所有尺度上保持相同数量的小波系数,具有平移不变性,能更好地检测静止和非静止信号中的隐藏特征。这种特性使其特别适合分析受PD影响的语音模式。
研究计算了语音特征间的两两相关性,选择相关性系数大于0.8的高度相关特征用于预测。这些特征包括MDVP:Jitter(%)、MDVP:Jitter(Abs)、MDVP:RAP、MDVP:PPQ、Jitter:DDP和NHR等,它们反映了PD患者语音中的基本频率变化、振幅扰动和噪声成分。
BOMLR模型用于基于选定特征的PD预测。多元线性回归(MLR)能分析三个或更多变量之间的关系,其中一个因变量与两个或多个自变量的组合效应相关。贝叶斯优化用于超参数调优,确保模型性能最优。
研究结果表明,提出的CNDWT方法在PD预测方面显著优于传统方法。在准确率、精确度、马修斯相关系数(MCC)、接收者操作特征(ROC)曲线值等指标上均表现优异。
BOMLR模型在准确率方面达到98%,显著高于支持向量机(SVM)、随机森林(RF)和多层感知器等传统算法。在误差指标方面,该模型的平均绝对误差(MAE)、均方根误差(RMSE)也优于传统方法。
为了验证方法的通用性,研究还在帕金森语音数据集(PSD)和UCI机器学习仓库(UCIMLR)数据集上评估了CNDWT方法。在PSD数据集上,预测准确率达到98%,分类准确率为96.35%;在UCIMLR数据集上,预测准确率为97.45%,分类准确率为98%。这些结果表明CNDWT方法在不同数据集上都能保持高性能。
研究还比较了不同特征提取方法的性能,包括快速傅里叶变换(FFT)、离散小波变换(DWT)和提出的CNDWT方法。结果表明,CNDWT在假阴性率(FNR)、假阳性率(FPR)、假遗漏率(FOR)、阴性预测值(NPV)、敏感性、特异性、准确度(ACC)和精确度等指标上均优于FFT和DWT。
统计分析显示,大多数声学和非线性动态特征与PD存在显著关联(p<0.05)。MDVP:Fo(Hz)、MDVP:Fhi(Hz)、MDVP:Flo(Hz)、MDVP:Jitter(%)、MDVP:Shimmer、RPDE、DFA、spread2和D2等变量的95%置信区间不包含零,增强了这些效应的可靠性。残差的标准差(0.2375)表明模型能够捕捉数据中的大部分变异性。
通过10次独立训练运行的评估显示,模型的R2值稳定在0.84-0.88之间,RMSE和MAE值也保持一致,证明了模型的可靠性和稳定性。
研究采用留一主体交叉验证(LOSO)来评估模型的泛化能力。结果显示,各折的分类准确率 consistently 保持在97-98%之间,表明模型在不同受试者间都能可靠性能,对PD的早期预测具有强大的泛化能力。
ROC曲线分析显示,CNDWT方法在PD分类方面表现出色,AUC(曲线下面积)为1.00,表明两类完美分离。混淆矩阵显示59个样本中有56个被正确分类,进一步验证了方法的高精度。
本研究提出的CNDWT方法在PD早期预测方面表现出色,主要贡献在于有效选择了高度相关的语音特征。通过相关性矩阵分析,确定了MDVP:Jitter(%)、MDVP:RAP和Jitter:DDP等与PD检测显著相关的特征,相关系数超过0.9。
与传统的回归和机器学习算法相比,CNDWT方法在准确率、精确度、马修斯相关系数(MCC)、ROC曲线面积、平均绝对误差(MAE)、均方根误差(RMSE)和R2值等多个评估指标上均优于随机森林、支持向量机(SVM)、决策树和多层感知器等传统技术。
研究成功解决了数据不平衡问题。原始PD语音数据集中只有8个健康受试者,而PD患者有23个,这种不平衡最初导致模型性能不理想,准确率和F-score值约为68-70%。通过应用幅值切片增强,平衡了类别分布,最终使用留一主体交叉验证(LOSO)获得的精确度、召回率和F-score值均达到约98%,显著提高了分类器性能。
模型的稳健性通过多个指标得到验证,平均准确率达到93.8%,AUC为0.948,RMSE和MAE值相对较低,表明预测能力强且误差小。迭代评估显示R2值稳定在0.84-0.88之间,RMSE和MAE得分一致,证明了模型的可靠性。
研究还识别了使用合成数据的潜在风险,如过拟合、数据不平衡、有限变异性和模型复杂性,并制定了相应的缓解策略,如生理学上合理的增强、类别平衡和正则化,以保持模型的泛化能力和稳健性。
帕金森病的早期检测对于避免患者并发症至关重要,为患者提供适当医疗和专业治疗开始的机会。由于PD患者多表现为发音障碍,本研究使用语音数据集进行预测具有重要价值。
本研究通过交叉NDWT方法实现了PD的早期检测,其中使用Haar小波变换进行信号分解,使用DB3变换进行重建。通过对原始输入语音数据进行幅值切片增强,生成新的合成数据以平衡数据集。通过确定属性间的相关性,选择高度相关的属性,应用贝叶斯优化多元线性回归(BOMLR)模型进行PD预测。
研究表明,CNDWT在性能上优于CDWT。与支持向量机(SVM)、决策树(DT)和随机森林等先进方法相比,BOMLR表现更优。评估结果显示,提出的CNDWT方法在所有情况下都优于其他方法,在PD早期检测中达到99%的准确率。
除了PD语音数据集,研究还使用PSD数据集和UCINLR数据集作为输入,展示了提出的CNDWT方法在PD预测和分类中的效率。该研究的实际意义在于为帕金森病的早期非侵入性诊断提供了重要工具。使用语音数据的方法提供了一种低成本、易获取且易于部署的PD初步筛查解决方案,可集成到远程医疗平台或移动健康应用中,对于神经科医生或先进诊断工具可及性有限的偏远或服务不足地区尤其有益。
未来研究方向可考虑整合多模态特征进行PD预测,而非仅依赖语音数据。结合脑电图(EEG)信号、步态分析、手写模式或基于传感器的运动数据等其他数据源,可提供更丰富、更全面的患者状况视图,可能提高预测准确性、稳健性,并减少不同数据集间的变异性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号