基于自适应波数选择框架的药品真伪评估新方法:ATR-FTIR光谱与机器学习融合策略

【字体: 时间:2025年09月24日 来源:The Journal of Pharmacology and Experimental Therapeutics 3.1

编辑推荐:

  本研究针对全球假药泛滥的严峻挑战,开发了一种创新的两步自适应波数选择框架,用于快速准确鉴别真伪药品。研究人员结合ATR-FTIR光谱技术和机器学习分类器,通过引入相关性-冗余度综合评价指标,成功实现了在Cialis数据集上99.97%准确率(仅需2.9个波数)和Viagra数据集上98.73%准确率(仅需12.4个波数)的卓越性能。该研究为药品安全监管提供了高效可靠的技术支撑,对保障公共健康安全具有重要意义。

  

在全球医药安全领域,假冒药品的泛滥已成为威胁公众健康的严重问题。据估计,全球每年在假冒医疗产品上的支出高达305亿美元,这些假药不仅含有错误成分或剂量导致治疗无效,还可能含有污染物或有毒物质直接危害健康,甚至通过增加抗菌药物耐药性造成间接危害。在巴西等国家,磷酸二酯酶5型(PDE-5)抑制剂如西地那非(sildenafil)和他达拉非(tadalafil)成为最常被假冒的药物之一,这主要源于其高昂的成本和患者对相关疾病的羞耻感。

面对这一挑战,衰减全反射傅里叶变换红外光谱(ATR-FTIR)技术提供了一种快速分析药品化学成分的有效手段。该技术简化了红外分析过程,减少了样品处理问题,无需称重或将样品溶解在溶剂中,能够直接分析样品而无需大量制备,从而提高了效率和准确性。然而,FTIR光谱通常包含大量波数,需要大幅减少波数数量来建立分类和回归模型。

在此背景下,巴西联邦大学的研究团队开发了一种新颖的两步自适应波数选择框架,用于区分真伪药品。该方法最初根据类别距离将光谱数据划分为区间,随后通过迭代排序过程整合波数相关性和冗余度信息。通过惩罚相关特征,该方法避免了冗余信息,识别出最佳波数组合。

研究人员使用了25片正宗Viagra?片剂(含50mg西地那非)和28片正宗Cialis?片剂(含20mg他达拉非),以及巴西联邦警察提供的104片假冒样品。所有分析使用配备 deuterated triglycine sulfate (DTGS)检测器和Smart Orbit单反射金刚石ATR采样装置的Nicolet 380 FTIR光谱仪进行。光谱数据在4000-525cm-1范围内收集,光谱分辨率为4cm-1

研究采用的技术方法主要包括:基于类别平均距离的波数区间划分、结合ReliefF算法和Pearson相关系数的特征重要性评估、以及五种机器学习分类器(K最近邻、逻辑回归、决策树、支持向量机和朴素贝叶斯)的集成验证。通过5折交叉验证评估分类性能,并采用统计检验方法验证结果显著性。

2.3. Proposed method for wavenumber selection

研究提出的框架包含两个操作步骤。第一步基于两个类别间平均吸光度值的差异将波数划分为K个区间。这种初始分割作为一种预选择过滤器,优先考虑真伪药品在吸光度上表现出最显著差异的波数区域。第二步依靠一种新颖的波数评分,根据波数对分类的相关性和冗余度对候选波数进行排序;该评分被迭代整合到前述分类器中。

第一步计算训练集中每个波数的两个类别之间的平均距离。观测值按类别分开,将假冒样品(Y=1)与正宗样品(Y=0)分离。然后,对于每个波数,计算类别0和1的平均吸光度值,并计算这些平均值之间的绝对差异。这产生了一个标量di,代表波数i的平均类别距离。较大的di值表示具有显著吸光度差异的波数,表明这些波数为区分真伪样品提供了更多信息。

第一步通过将距离剖面切片为K个分位数来完成,每个分位数包含相同数量的波数。第一个分位数将包含具有最高平均类别距离的100%/K波数,而第k个分位数将包含具有最低平均距离的100%/K波数。选择分位数确保每个区间包含相同数量的波数,无论类别距离的基础分布如何。

在定义区间后,继续进行框架的第二步,该步骤将对每个K区间重复进行。首先基于一个评分对第k个区间中的波数进行排序,该评分衡量了波数对样品分类的相关性和冗余度的组合。在该评分中,相关性衡量每个波数区分两个类别的效果,使用ReliefF方法计算。至于冗余度,它估计每对波数之间共享的信息量,通过给定候选波数与所有先前选择的波数之间的平均Pearson相关性来量化。

接下来,从最高的Sj开始,候选波数被顺序添加到一个最初为空的保留波数子集中。每次添加波数后,使用5折CV对数据集进行分区,在训练折上训练分类器;然后评估在验证折上的平均分类准确性。如果添加的候选波数提高了平均验证准确性,则保留;否则丢弃。然后更新评分Sj> - 考虑到所选波数子集的变化可能影响冗余度项 - 并开始下一次迭代。这个迭代选择过程持续直到实现完美的验证准确性(1.0)或区间内的所有波数都已评估。选择产生最大准确性的子集。

3. Results and discussion

研究结果显示,当应用于Cialis数据集时,提出的方法 consistently达到接近完美的准确性(99.97%),同时平均仅保留2.9个波数。对于Viagra数据集,该方法达到98.73%的准确性,同时保留12.4个波数的子集。与仅相关性替代方法相比,该方法在所有分类器中保留的波数显著减少,同时 consistently实现相当甚至更高的分类性能。

Wilcoxon符号秩检验统计验证表明,提出的方法在十种场景中的八种中保留了显著更少数量的波数(p<0.05)。考虑到SVM分类器在两个数据集中都是表现最佳者,研究人员推荐在未来样品分类问题中使用提出的方法结合SVM分类器。

准确性-保留分析显示了提出的方法在波数使用效率上的优势。对于Cialis数据集,提出的方法仅用三个波数就达到99.91%的准确性,而替代方法需要更多波数来提高分类性能。类似模式在Viagra数据集中也可观察到,对于任何给定数量的保留波数,提出的方法相比替代方法实现了更高的分类准确性。

灵敏度分析表明,SVM超参数的选择对模型性能有重要影响。径向基函数(RBF)核以较少的保留波数实现了最高准确性,使其成为最有效的核函数。正则化参数C在模型复杂度和泛化能力之间达到平衡,最佳点出现在C=1.0时。gamma参数的分析显示,较高的gamma值(10.0和100.0)实现了最高准确性,同时保留了较少数量的波数。

波数保留频率分析揭示了Cialis数据集的三个不同聚类和Viagra数据集的四个区域具有潜在信息性。Cialis数据集在995cm-1处有一个主导峰,保留率高达92%,是最显著的判别信号。两个额外区域需要考虑:第一个包含754-756cm-1的波数(40-60%保留),第二个落在1093-1107cm-1范围内(30-40%保留)。Viagra数据集显示了四个不同的潜在信息性波数区域,最突出的区域跨越1092-1130cm-1范围,保留频率在80%到90%之间,强调了其对于判别的重要性。

这些波数的化学解释表明,Cialis中较高保留的波数(754和756cm-1)是芳香环中C-H面外变形的特征。995cm-1处的波段是碳水化合物中C-O-C伸缩振动的特征。1107、1093和1095cm-1处的波段来自醚和醇中典型的C-O伸缩振动。对于Viagra,1699和1701cm-1处的波段表明C=O伸缩振动,可能与西地那非中存在的羰基有关。1323、1350和1352cm-1处的波段与芳香环振动和西地那非的C-N伸缩模式有关。

4. Conclusion

该研究开发的新型两步自适应波数选择方法为药品真伪鉴定提供了有效解决方案。通过整合波数相关性和冗余度的综合评价,结合机器学习分类器的迭代优化,该方法在保持高准确性的同时显著减少了所需波数数量。研究结果表明,Cialis样品的分类任务相对简单,需要较少的光谱变量即可实现高性能,而Viagra样品则需要更多的波数来达到相当的准确性水平。

该方法的主要贡献在于:首先,在波数排序时向重要性指数添加了去相关项,通过惩罚相关波数,选择了更多样化和信息丰富的特征子集;其次,通过将分类准确性整合到特征排序过程中,迭代评估相关性和冗余度,能够捕获复杂相互作用并识别最佳波数组合。

研究的实际意义在于为药品监管部门提供了高效、准确的真伪鉴定工具,特别适合现场快速检测场景。该方法不仅适用于PDE-5抑制剂类药品,其技术框架也可扩展至其他类型药品的真伪鉴定,具有广泛的应用前景。

未来研究方向包括探索超越相关性的替代指标来衡量冗余度,以捕获非线性依赖性;考虑在重要性评分中采用相关性和冗余度的不同权重,例如在早期迭代中优先考虑相关性,后期再考虑冗余度;以及将该方法应用于更广泛的药品类别和更复杂的光谱数据分析场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号