针对新鲜茶叶的多性状快速质量评估,优化了近红外光谱(NIRS)与机器学习相结合的框架

《LWT》:Optimized NIRS-machine learning framework for rapid multi-trait quality assessment of fresh tea leaves

【字体: 时间:2025年11月17日 来源:LWT 6.0

编辑推荐:

  本研究通过整合近红外光谱(NIRS)与四种先进波长选择算法(CARS、BOSS、VCPA-GA、VCPA-IRIV),建立了针对茶叶鲜叶的多组分同步检测模型。基于233份样本(含两种茶种及三种嫩度等级),验证了模型在茶多酚、氨基酸、咖啡因及EGCG/ECG等关键成分预测中的可靠性,RPD值达2.07-4.06,优于传统检测方法。CARS算法在茶多酚预测中表现最佳(RPD=2.92),VCPA-GA在氨基酸检测中最优(RPD=2.93)。光谱预处理与特征筛选显著提升了模型泛化能力,为智能化茶加工中的实时质量监控提供了有效解决方案。

  茶叶作为全球三大主要饮料之一,在世界农业经济中占据着重要的战略地位。中国是全球最大的茶叶生产国,其年产量约为355万吨,占全球总产量的近50%。湖南作为中国重要的茶叶产区之一,凭借其独特的地理位置和丰富的茶叶种质资源,成为研究茶叶品质评估的关键区域。随着茶叶产业对智能化升级的迫切需求,开发一种快速、无损的在线检测技术对于提升茶叶生产效率和产品质量具有重要意义。传统的生化检测方法,如高效液相色谱法(HPLC),虽然具有较高的准确性,但存在样品破坏、检测周期长和成本高等缺点,难以满足实际生产中的实时监控需求。因此,本研究旨在探索一种基于近红外光谱(NIRS)和先进波长选择技术相结合的快速、无损茶叶品质评估方法。

近红外光谱技术因其快速、无损和多组分同步检测的优势,广泛应用于茶叶品质分析。通过捕捉含氢基团(如C–H、O–H、N–H)的分子振动信息,NIRS能够与茶叶中的关键生化成分建立关联。然而,尽管NIRS在茶叶品质检测方面展现出巨大的潜力,其实际应用仍面临数据高维冗余、光谱共线性和模型泛化能力不足等挑战。近年来,变量选择算法的发展为优化光谱特征选择和提升模型性能提供了新的思路。本研究引入了四种波长选择算法(CARS、BOSS、VCPA-GA和VCPA-IRIV)与偏最小二乘法(PLS)相结合,以期构建一个高效的茶叶品质预测模型。

在实验设计方面,本研究收集了233个来自两个主要品种(珠玉旗和宝井黄金茶1号)的鲜叶样本,并覆盖了三种不同的嫩度等级(一芽一叶、一芽两叶、一芽三叶)。这些样本涵盖了七次采收时间点,从2024年3月30日到5月13日。为确保数据的代表性,所有样本在采集后立即装入防光保温容器中,并使用干冰保持温度在5-10°C之间。为了避免冻伤和水分流失,样本在干冰上覆盖了两层干毛巾,并在运输过程中尽可能减少氧化反应。最终,依据样本到达时的状态,挑选出233个高质量的鲜叶样本进行后续分析。

为了获得茶叶的化学组成信息,研究采用了多种分析方法。对于总茶多酚含量的测定,遵循了中国国家标准GB/T 8313-2018,使用分光光度法。具体步骤包括将0.20克茶叶粉末加入10 mL离心管,加入5 mL 70%甲醇溶液,然后在70°C水浴中提取10分钟。提取后的样品在室温下冷却,并以3500 rpm离心10分钟,收集上清液。重复提取过程后,将上清液稀释至10 mL,并通过0.45 μm有机膜过滤,得到最终的茶多酚提取液。总氨基酸含量的测定同样遵循国家标准GB/T 8314-2013,通过分光光度法进行。具体步骤为将3.0克茶叶粉末加入500 mL锥形瓶,加入300 mL沸腾的蒸馏水,然后在100°C水浴中提取45分钟。提取液在过滤后,用蒸馏水稀释至500 mL,得到总氨基酸提取液。通过邻苯二甲酸氢钾比色法,在570 nm波长下测定总氨基酸含量,并利用L-茶氨酸标准溶液构建标准曲线以实现定量分析。

此外,茶多酚和氨基酸含量的检测还涉及其他成分,如儿茶素和咖啡因。儿茶素(如EGCG、ECG)和咖啡因(CAF)的含量采用高效液相色谱法(HPLC)进行分析。首先,将总茶多酚提取液稀释至10 mL,并过滤后得到用于儿茶素和咖啡因分析的样品溶液。HPLC分析使用Shimadzu LC-20A系统,配备紫外-可见检测器,通过C18色谱柱进行分离。流动相由两种不同的溶液组成,分别用于梯度洗脱。在分析过程中,采用外部标准法进行定量分析,以确保结果的准确性。

为了提高模型的预测性能,本研究还采用了多种光谱预处理方法,包括Savitzky-Golay(SG)平滑、差分(Diff)、SG二阶平滑、标准正态变量变换(SNV)、多元散射校正(MSC)以及SG平滑+Diff和SG平滑+SG二阶平滑。这些预处理方法对原始光谱数据进行了优化,使得模型更加稳健。通过对比不同预处理方法的性能,发现使用Diff和CARS预处理的模型在预测能力上表现最佳。具体而言,Diff预处理将主成分(PCs)从20减少至9,大大降低了模型的复杂度,同时提升了模型的预测能力。

为了进一步优化模型,本研究引入了四种波长选择算法,即BOSS、CARS、VCPA-GA和VCPA-IRIV。其中,BOSS算法基于自助采样和模型种群分析,利用重采样稳定性分析和稀疏性技术筛选出对预测具有显著贡献的变量。CARS算法则通过迭代加权和动态优化PLS模型,选择出对预测目标具有最强解释能力的变量。VCPA-IRIV和VCPA-GA是两种混合变量选择策略,首先将原始变量空间压缩至100个变量,再通过IRIV和GA进一步优化。这种混合策略结合了各自的优点,弥补了各自的不足。

在模型构建过程中,采用了PLSR(偏最小二乘回归)方法,通过将预测变量和响应变量分别投影到新的低维空间中,进行回归分析。研究中使用了10折交叉验证来评估模型的稳定性。在模型评估过程中,采用了多种指标,包括决定系数(R2)、交叉验证均方根误差(RMSECV)和残差预测偏差(RPD)。其中,RPD作为衡量模型预测能力的重要指标,其值越大,表明模型的稳健性越强。根据研究结果,所有模型的RPD值均在2.07至4.06之间,且均超过了2.5,表明这些模型在实际应用中具有较强的预测能力。

研究还发现,不同变量选择算法在不同质量指标上的表现存在差异。例如,VCPA-GA在氨基酸预测中表现最佳,而CARS在多酚分析中表现出色。此外,不同预处理方法对模型性能的影响也各不相同,其中Diff预处理在降低模型复杂度和提升预测能力方面具有显著优势。通过对比不同算法的性能,研究团队确定了最优的变量选择策略,并验证了其在茶叶品质预测中的有效性。

本研究还展示了不同预处理方法对光谱数据的影响。原始光谱数据经过SG平滑、Diff、SG二阶平滑、SNV、MSC等方法处理后,光谱曲线变得更加平滑,特征峰更加明显。这些预处理方法在提升模型性能方面发挥了重要作用,其中Diff和CARS预处理的模型在预测性能上表现最佳。通过进一步分析,研究团队还发现,不同变量选择算法在筛选出关键波长方面具有各自的优势,例如VCPA-IRIV在筛选与茶叶品质指标相关性强的波长方面表现尤为突出。

在模型构建和评估过程中,研究团队采用了多种统计方法,包括Shapiro-Wilk检验来评估数据的正态性。结果显示,部分质量指标(如总氨基酸、咖啡因)的数据分布接近正态分布,而其他指标(如EGCG)则表现出一定的偏态分布。这些分布特性对模型的构建和优化具有重要影响,研究团队通过调整变量选择策略,成功提升了模型的稳健性和预测能力。

研究还探讨了不同变量选择算法在茶叶品质预测中的应用。通过对比不同算法的性能,发现VCPA-GA和CARS在筛选关键波长方面具有显著优势,分别在氨基酸和多酚的预测中表现最佳。此外,研究还发现,某些波长(如1936 nm)与茶叶中的特定成分(如多酚)具有密切的关联性,这为模型的构建提供了理论依据。这些波长的选择不仅提高了模型的准确性,还增强了模型的可解释性。

在实际应用方面,本研究提出的模型为实现茶叶生产的智能化和无损检测提供了新的解决方案。通过将NIRS技术与先进的变量选择算法相结合,研究团队成功构建了一个快速、无损的茶叶品质评估系统,能够在实际生产中实现对多组分的同步检测。这不仅提高了检测效率,还降低了生产成本,为茶叶行业的可持续发展提供了技术支持。

综上所述,本研究通过结合近红外光谱技术和先进的变量选择算法,成功构建了一个高效的茶叶品质预测模型。该模型在多种质量指标(如茶多酚、氨基酸、咖啡因、EGCG、ECG等)的预测中表现出色,其RPD值均超过2.5,表明模型在实际应用中具有较强的预测能力。此外,研究还展示了不同预处理方法和变量选择算法对模型性能的影响,为未来的茶叶品质评估研究提供了参考。随着技术的不断进步,预计未来将有更多的研究致力于提升模型的鲁棒性和泛化能力,以满足茶叶产业对智能化和精准化的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号