利用机器学习和定量结构-活性关系(QSAR)模型,高效预测PFAS(全氟和多氟烷基物质)与人肝脂肪酸结合蛋白的结合亲和力

【字体: 时间:2025年11月26日 来源:Environment International 9.7

编辑推荐:

  PFAS结合肝脂蛋白结合蛋白(L-FABP)的亲和力研究:开发基于机器学习的QSAR模型预测9177种PFAS的Kd值,揭示碳氟键、醚基团等关键结构特征对结合能力的影响,并生成76,216种AI设计PFAS的预测数据。

  
### PFAS与肝脂蛋白结合亲和力的机器学习预测模型研究

#### 研究背景与问题提出
全氟和多氟烷基化合物(PFAS)因其持久性和生物累积性已成为全球环境与健康领域的重要挑战。PFAS的肝脏蓄积潜力与它们对肝脂蛋白结合蛋白(L-FABP)的结合亲和力密切相关,而传统实验方法难以应对PFAS种类剧增(超过12,000种注册化合物)和商业标准品稀缺的问题。研究团队针对这一瓶颈,建立了基于机器学习的快速预测体系,旨在通过分子结构特征解析,筛选高潜在蓄积风险PFAS并指导新型环保替代品的设计。

#### 研究方法与技术创新
1. **多维度数据采集**
实验选取44种标准PFAS(涵盖羧酸、磺酸、醚类及环状结构)和72种环境样本中半定量分析的PFAS,采用超滤法测定结合亲和力。该方法通过分离游离PFAS与结合PFAS,结合蛋白浓度与总PFAS浓度计算游离比([F]/[F]+[B]),公式简化为:
\[
\text{log } K_{d\text{FABP}} = \log \left( \frac{[\text{F}]}{[\text{R}][\text{LR}]} \right)
\]
其中[F]为游离浓度,[R]为蛋白浓度,[LR]为结合复合物浓度。

2. **机器学习模型构建**
研究团队整合了超滤实测数据与分子特征,开发了极端梯度提升回归(XGBoost)模型。创新点包括:
- **多源数据融合**:结合Mordred分子指纹(1,024位特征)与SHAP可解释性分析,筛选出AATS0d、AATS8pe等5个关键分子描述符
- **动态特征优化**:通过递归特征消除(RFE)和排列重要性(PI)双重筛选,将特征维度从1,826降至50
- **不确定性量化**:引入蒙特卡洛模拟(10,000次迭代),建立预测值的95%置信区间

3. **模型验证策略**
采用Y-随机化测试验证模型泛化能力,发现真实数据集的R2值(0.30)显著低于随机化数据集(0.91),证明模型有效性。同时通过不同实验条件下的数据比对(如纯品与工业级PFAS对比),发现当蛋白浓度固定在2 μM时,模型预测误差可控制在±0.5 log μM范围内。

#### 关键发现与结构生物学解析
1. **结构-活性关系(SAR)规律**
- **强结合特征**:含硫酰基(-SO?-)的PFAS(如DTXSID40896722)表现出最低的结合亲和力(log Kd=-0.88),其三维结构通过三个硫酰基与L-FABP的ARG122和ASN111形成氢键网络
- **弱结合特征**:含氟三环结构(如DTXSID80597246)因缺乏酸性基团和疏水尾链,导致结合亲和力显著降低(log Kd>1.5)

2. **分子描述符重要性排序**
通过SHAP值分析,确定以下关键结构特征:
- **电子效应**:AATS8pe(疏水表面能)和VR1_A(极性体积)贡献度达38%
- **空间构型**:ATSC1d(碳氟键密度)和AATSC2Z(共轭体系)分别影响25%和17%的预测结果
- **氢键能力**:含氧官能团(如醚基、羧酸基)通过Morgan指纹(695号特征)增强与L-FABP的结合

3. **环境PFAS的预测分析**
对9,177种EPA注册PFAS的预测显示:
- **高风险类别**:Class 1(log Kd - **低风险类别**:Class 10(log Kd>1.5)中89%为短链(C8以下)或含氮杂环化合物
- **异常值检测**:通过欧氏距离计算发现483种PFAS(5%)因氟碳比>3.2或分子量<500Da,需排除模型预测

#### 模型应用与新型PFAS设计
1. **人工智能生成PFAS评估**
利用RDKit生成76,216种新型PFAS(PFAS-AI),发现:
- **合成可行性**:58%的PFAS-AI比GenX更易合成(SA评分降低)
- **安全设计趋势**:低亲和力PFAS-AI多含:
- 醚基(19.3%)和羧酸基(8.7%)
- 碳氟键密度<5(Class 10占比达89%)
- 短链(C8以下)占比62%

2. **替代品设计启示**
通过分子对接模拟发现,最佳替代品应具备:
- 氟化支链长度控制在C6-C10之间
- 含2-3个硫酰基或羧酸基团
- 避免连续氟化碳链(>C12)
- 优先引入醚键(降低MAE达23%)

#### 环境健康意义
1. **污染源解析**
在太湖湖水和消泾河样本中,检测到:
- 高风险PFAS:PFOS(3.2 ng/L)、PFDA(1.8 ng/L)
- 新兴污染物:PFECAs(4:2结构,0.47 ng/L)、PFESAs(6:2结构,0.89 ng/L)
- 预测显示,82%的环状PFAS(如PFECHS)具有中等以上亲和力

2. **风险管控建议**
- 优先管控Class 1-4化合物(蓄积风险最高)
- 对含硫酰基的PFAS(如DTXSID40896722)需加强环境监测
- 推广含醚键(-O-)和短碳链(C6以下)的新型结构

#### 方法论创新点
1. **混合验证机制**
结合蒙特卡洛不确定性分析和Y-随机化测试,建立双重验证体系。蒙特卡洛模拟显示,所有实测值(n=582)均位于预测值的95%置信区间内。

2. **动态特征工程**
开发迭代式特征筛选算法:
- 第一轮:排除方差<0.05的无效特征
- 第二轮:通过排列重要性保留前30%特征
- 第三轮:应用SHAP值排序,最终保留50个核心特征

3. **跨尺度建模**
将实验测定的3.6 μM(n=132)与文献数据(n=582)整合,通过核平均技术(K-means)实现跨数据集建模,R2提升至0.87。

#### 局限与未来方向
1. **模型局限性**
- 仅考虑单一浓度(50 ng/mL)下的结合特性
- 对大分子(>Mw 1000)的预测偏差达±0.3 log单位
- 未涵盖金属离子协同作用

2. **深化研究方向**
- 开发多组学整合模型(结合代谢组学数据)
- 构建动态更新数据库(每季度纳入新检测PFAS)
- 开发高通量实验验证平台(如微流控芯片)

3. **政策应用建议**
- 将模型纳入PFAS替代品筛选指南(如OECD 484测试法)
- 建立高风险PFAS的优先管控清单(Class 1-3占比7.3%)
- 制定新型PFAS的affinity阈值(log Kd>1.2设为高风险)

#### 结论
本研究构建的XGBoost预测模型在PFAS化学多样性(覆盖C3-C16,F1-F4)和结构复杂性(含环状、杂环、硫酯基等)方面展现出优异性能,成功预测了9,177种商业PFAS和76,216种AI生成PFAS的结合特性。通过解析关键分子描述符(如AATS8pe、VR1_A)和化学特征(碳氟键密度、醚基含量),为设计低亲和力PFAS提供了理论框架。研究建议将log Kd>1.2作为环境PFAS的优先管控阈值,并开发基于此模型的绿色合成路线图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号