
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于部分标记数据的函数型数据回归与分类方法研究
【字体: 大 中 小 】 时间:2025年09月21日 来源:Journal of Multivariate Analysis 1.7
编辑推荐:
本文推荐一项关于缺失数据下函数型数据回归与分类的创新研究。针对响应变量存在缺失(MNAR机制)的问题,研究人员提出了一种基于两步估计和验证似然的新方法,通过构建半参数选择概率模型和核回归估计,实现了回归函数和分类器的有效估计。该方法在理论上证明了估计量的相合性,并通过数值模拟验证了其优越性能,为处理复杂缺失数据提供了重要工具。
在统计学和生物医学研究中,函数型数据(functional data)分析正日益受到关注,这类数据通常表现为曲线、图像或时间序列等形式。然而,在实际应用中,响应变量缺失(missing response)的问题十分普遍,尤其是当缺失机制为非随机缺失(MNAR, Missing Not At Random)时,传统方法如完整案例分析(complete-case analysis)往往会产生有偏估计。这一挑战在医学诊断、流行病学调查和金融预测等领域尤为突出,因此开发能够处理MNAR机制下函数型数据的方法具有重要意义。
近期发表在《Journal of Multivariate Analysis》上的一项研究,针对上述问题提出了一种新颖的解决方案。该研究由国内团队完成,致力于在响应变量存在非随机缺失的情况下,实现函数型协变量(functional covariate)与响应变量之间回归关系(regression function)的有效估计,并进一步构建分类器(classifier)用于预测。
为了开展研究,作者主要采用了几个关键技术方法:首先,利用核回归(kernel regression)技术基于部分标记数据(partially labeled data)进行函数型回归估计;其次,通过验证似然(validation likelihood)方法估计选择概率模型(selection probability model)中的未知函数;此外,研究还涉及数据分拆(data splitting)策略,将样本分为训练集和测试集,以优化模型选择;数值模拟中使用了Epanechnikov型核函数,并借助R软件包“fda.usc”进行实现。样本数据通过模拟生成,其中函数型协变量被构造为二次型随机过程,响应变量则根据两种不同噪声水平的模型产生。
研究结果部分,作者通过理论推导和数值实验全面验证了所提方法的有效性。
理论结果方面,论文在适当假设下建立了估计量的相合性(consistency)。Theorem 1表明,在假设A0-A8成立时,回归估计量m?(χ;φ?n)的Lp误差几乎完全(a.co.)收敛于真实回归函数。Theorem 2则进一步证明,基于该回归估计构建的分类器T?n(χ;φ?n)的误分类误差也几乎完全收敛于贝叶斯分类器(Bayes classifier)的误差。这些理论结果为方法的可靠性提供了严格保障。
数值模拟结果显示,新方法在多种缺失比例下均表现优异。如表1-3所示,当缺失比例为50%时,所提估计量的L2误差显著低于完整案例估计量,且与无缺失情况下的估计量性能接近。值得注意的是,随访子样本(follow-up subsample)的平均规模非常小(仅1-3个样本),表明该方法在实际应用中具有高效性。图2的箱线图进一步直观展示了不同设置下各估计量的误差分布,新方法始终表现出更优且更稳定的性能。
研究结论与讨论部分强调,该工作首次系统解决了MNAR机制下函数型数据的回归与分类问题。通过融合半参数建模和验证似然思想,所提方法有效克服了缺失数据带来的偏差,同时避免了大规模随访调查的成本问题。理论方面,建立的相合性结果为领域提供了新的理论基准;应用方面,该方法为医学诊断(如基于影像数据的疾病分类)、经济预测等需处理复杂缺失数据的领域提供了实用工具。未来研究可进一步探索高维设置、更复杂的缺失机制以及深度学习等现代技术的集成。
生物通微信公众号
知名企业招聘