
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于XGBFFS-GA算法与近红外光谱的生鲜乳品质多指标集成分级模型研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Computers and Electronics in Agriculture 7.7
编辑推荐:
为解决生鲜乳多指标品质快速评价难题,研究人员提出基于XGBoost特征选择与遗传算法(GA)优化的近红外(NIR)光谱集成模型(XGBFFS-GA-SVM),实现脂肪、蛋白质和体细胞数(SCC)的联合分级,预测准确率达94.84%,为乳品质量智能监测提供新方法。
乳制品作为人类重要营养来源,其原料奶品质直接决定终端产品质量。传统检测方法如凯氏定氮法(蛋白质)和罗兹-哥特里法(脂肪)耗时费力,而现有近红外(NIR)光谱技术多局限于单指标分析。如何实现脂肪、蛋白质和体细胞数(SCC)多参数联合分级,成为制约乳业智能化发展的关键瓶颈。
黑龙江省畜牧兽医技术服务中心的研究团队在《Computers and Electronics in Agriculture》发表研究,通过617份荷斯坦奶牛生鲜乳样本,创新性融合极端梯度提升(XGBoost)与遗传算法(GA),开发XGBFFS-GA变量选择方法,构建支持向量机(SVM)集成分级模型。关键技术包括:采用标准正态变量变换(SNV)预处理NIR光谱数据;基于XGBoost重要性评分进行前向特征选择(XGBFFS);通过GA二次优化变量空间;对比ReliefF、竞争性自适应重加权采样(CARS)等传统方法。
光谱数据分析
原始光谱在980.98 nm(O-H键二级倍频)和1800.51 nm(C-H键一级倍频)等特征波段显示明显吸收峰,经SNV处理后信噪比显著提升。
变量选择结果
XGBFFS-GA将变量维度从2151压缩至47个关键波长,较传统方法减少60%冗余信息,其中1942.12 nm波段与乳成分氢键网络高度相关。
模型性能评估
XGBFFS-GA-SVM模型预测集准确率达94.84%,F1值94.21%,较单一XGBoost模型提升8.3%,证实多算法协同能有效捕捉脂肪-蛋白质-SCC的复杂非线性关系。
该研究突破传统"单指标-单模型"局限,首创基于机器学习的生鲜乳多参数集成评价体系。XGBFFS-GA算法为NIR光谱变量选择提供新范式,模型部署后可使检测效率提升20倍,对实现乳品生产线实时质量控制具有重要工程价值。未来可扩展至其他农产品多指标联检领域。
生物通微信公众号
知名企业招聘