
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习利用光谱和气体传感器特征,解锁了植物衍生代谢物的化学计量分析方法
《Food Analytical Methods》:Machine Learning Unlocks Chemometric Profiling of Plant-Derived Metabolites Using Spectral and Gas Sensor Fingerprints
【字体: 大 中 小 】 时间:2025年11月20日 来源:Food Analytical Methods 3.0
编辑推荐:
本研究构建多模态化学计量框架,融合紫外-可见-近红外光谱与金属氧化物气体传感器,利用机器学习预测岩蔷薇精油中次生代谢物浓度。通过t-SNE、UMAP等分析揭示了化学相关的样本聚类及传感器响应与代谢物家族的关联,证实多模态特征融合对解析异质化、低丰度代谢物至关重要。Ridge回归表现最佳(R2=0.999),验证了该框架在非破坏性、实时精油分析及可持续农业中的应用潜力。
精油(EOs)是化学结构复杂的天然物质,其质量和生物活性受多种次级代谢产物的影响。传统的技术如气相色谱-质谱(GC–MS)能够提供详细的成分分析,但这些方法成本较高、操作繁琐,且不适用于实时监测。本文提出了一种多模态化学计量框架,该框架结合了紫外-可见-近红外光谱(190–1100 nm)与低成本的金属氧化物气体传感器,并利用机器学习来定量预测精油的代谢物浓度。通过使用t-分布随机邻域嵌入(t-SNE)、均匀流形近似与投影(UMAP)以及相关性分析等方法,研究发现Cistus ladanifer精油样本在化学上具有显著的聚类特征,并揭示了传感器响应与代谢物家族之间的生物学关联,从而凸显了融合特征空间的丰富性。通过GC–MS鉴定出的代谢物被分为七类:萜类烃、倍半萜类烃、醇类、醛类、酮类、酯类以及残余物质。这些分类结果为回归模型的构建提供了指导。数据验证采用了GC–MS测量的代谢物作为参考。在测试的算法中,岭回归(Ridge regression)的表现最佳(R2 = 0.999),其次是Lasso回归(R2 = 0.971),后者虽然牺牲了数据的完整性但能够实现较好的稀疏性。而偏最小二乘法(Partial least squares)则无法有效处理高维多模态数据集中的方差。基于Shapley值的特征贡献分析表明,准确的预测需要光谱带和传感器响应的协同作用,这进一步强调了多模态融合在处理化学性质复杂且含量较低的代谢物时的必要性。本研究建立了一种可扩展、非破坏性的实时精油分析方法,对产品的可追溯性、可持续种植以及智慧农业具有重要意义,同时也展示了机器学习在天然产物化学计量分析中的变革性作用。
生物通微信公众号
知名企业招聘