
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MegaEye:应用多机器学习方法鉴定具有眼部生物活性的口服化合物
【字体: 大 中 小 】 时间:2025年09月17日 来源:Artificial Intelligence in the Life Sciences 5.4
编辑推荐:
本研究针对口服药物治疗眼部疾病临床疗效不佳的难题,创新性地整合多种机器学习方法,构建了预测化合物眼部生物活性的综合计算平台。研究人员通过建立血脑屏障(MPO)评分、有机阳离子转运体(OCT)底物预测及角膜渗透性(PAMPA)等模型,成功筛选出115种FDA批准的口服药物和数百种天然产物具有潜在眼部活性。该研究为眼科药物重定位和天然产物开发提供了高效的计算预测工具,显著提升了药物研发效率。
眼睛作为视觉形成的关键器官,具有复杂的生理结构和多重保护屏障,这使得口服药物治疗眼部疾病面临巨大挑战。眼部组织被血眼屏障(BRB)和血房水屏障(BAB)等精密结构保护,导致口服药物在眼部的生物利用度通常低于2%。传统的局部给药方式如滴眼液也存在泪液稀释、角膜渗透性差以及患者依从性低等问题。尽管玻璃体内注射等侵入性治疗方式逐渐普及,但对于慢性视网膜疾病而言,开发低侵入性的口服治疗方案具有重要的临床意义。
为应对这一挑战,Collaborations Pharmaceuticals Inc.的研究团队开展了名为"MegaEye"的创新研究,通过整合多种机器学习方法系统预测口服化合物的眼部生物活性。这项研究发表在《Artificial Intelligence in the Life Sciences》期刊上,由Fabio Urbina、Scott H. Greenwald等研究人员共同完成。
研究人员采用了多层次的计算生物学方法开展本研究。他们首先从ChEMBL、PubChem等公共数据库获取并精心整理了包括吸收、分布、代谢、排泄和毒理学(ADME/Tox)属性在内的数百万个化合物数据。利用自主研发的Assay Central?软件平台,研究人员构建了多种机器学习模型,包括随机森林、支持向量机、深度神经网络和XGBoost等算法,并采用扩展连通性指纹(ECFP6)作为分子描述符。研究还运用了嵌套5折交叉验证进行模型验证,确保预测结果的可靠性。此外,团队还开发了基于Transformer架构的大型语言模型MolBART,通过对SMILES字符串的预训练和微调,实现了多任务学习预测。
数据集构建与标准化
研究人员从ChEMBL 34下载训练数据集,采用内部自动化流程e-Clean进行严格的数据标准化处理。这个过程包括标准化同位素、去除立体异构体信息、断开金属键、去除常见盐类和溶剂、识别母体分子等步骤。对于分类模型,研究人员将同一分子的测量值通过二值化阈值转换为单个二进制值;对于回归模型,则丢弃所有非等号限定符的数据,确保数据质量。
血脑屏障相关模型构建
研究团队使用辉瑞公司的多参数优化(MPO)评分来预测血脑屏障(BBB)透过性,该评分基于ChemAxon计算的六个化学特性:LogP、分子量(MW)、LogD、拓扑极性表面积(TPSA)、pKa和氢键供体数(HBD)。同时,他们还建立了专门的BBB机器学习模型作为血视网膜屏障(BRB)的替代预测指标。
有机阳离子转运体模型开发
鉴于OCT转运体在眼部的重要作用,研究人员系统整理了OCT1、OCT2和OCT3的底物数据。通过文献检索和数据库挖掘,他们获得了563个OCT1化合物、372个OCT2化合物和274个OCT3化合物的数据集,并设定了摄取比率≥1.5和≥3.0两个阈值来定义阳性底物。
眼部特异性模型建立
研究还利用了人视网膜色素上皮细胞系(ARPE-19)的毒性实验数据,建立了眼部毒性预测模型。同时,基于平行人工膜渗透性测定(PAMPA)数据集构建了角膜渗透性预测模型,该模型包含189个药物分子,此前已被用于预测角膜通透性。
大型语言模型MegaEye的开发
研究人员创新性地使用了双向自回归Transformer模型(MolBART),该模型在数百万个SMILES字符串上进行预训练,能够学习分子结构的"语言"。通过在OCT1/2/3、ARPE-19细胞毒性和角膜PAMPA结果等所有数据集上进行微调,创建了名为"MegaEye"的综合预测模型。
FDA药物库筛选
研究团队从FDA的"紫皮书"和2023年之前的"新药批准"列表中编译了FDA批准的化合物,共包含1960个药物分子。通过CompTox仪表板和其他公共数据库获取每个化合物的SMILES表示,并采用与训练集相同的协议进行标准化处理。
天然产物数据库筛选
研究人员还使用了COCONUT数据库,该数据库包含超过40万个天然产物及相关分子。通过eClean软件进行分子错误检测、校正和标准化处理,并应用了分子量阈值、多样性过滤器等额外标准来优化筛选结果。
结果分析与验证
FDA药物筛选结果
应用多种计算模型筛选FDA批准药物库后,研究人员发现了115种口服给药后在人体眼部具有生物活性的分子。其中,OCT转运体模型表现出色:OCT1 XGB转运模型精确度达0.36,OCT2 XGB转运模型精确度为0.38,OCT3 RF转运模型精确度最高,达到0.49。分子量≤150 Da的筛选方法发现了28种具有眼部活性的药物,精确度为0.28。BBB机器学习模型筛选出40种活性药物,精确度为0.26。而采用最严格的MPO评分(得分=6)筛选出7种FDA药物,精确度为0.19。
模型性能比较
研究显示,不同模型筛选出的活性分子重叠度较低,表明每种方法都能识别出独特的活性化合物。ARPE-19毒性模型精确度为0.26,PAMPA模型精确度为0.14,虽然精确度相对较低,但这些模型能够识别出其他方法未能发现的活性药物,证明了多模型整合策略的价值。
天然产物筛选成果
通过对COCONUT数据库的筛选,研究人员发现了396种预测具有眼部活性的天然产物,这些分子在化学结构上比FDA批准药物更加多样化。其中29种分子已有文献证据支持其生物活性,包括具有抗炎活性的mangicol A、神经营养因子mastigophorene A、抗菌剂merobatzelladine A等有潜力的先导化合物。
分子特性分析
通过t-SNE聚类分析和主惯性矩(PMI)绘图,研究人员发现口服药物在眼部具有活性的分子广泛分布在化学空间中没有明显的结构聚集性。口服给药后能到达眼部的药物通常具有较低的拓扑极性表面积(TPSA)、较低的分子量和显著减少的氢键供体数(HBD)。
大型语言模型性能
MegaEye大型语言模型在多项预测任务中表现出色:ARPE-19细胞毒性预测准确率达到1.00,OCT1预测准确率为0.82,OCT2预测准确率为0.93,OCT3预测准确率为0.90,角膜PAMPA预测准确率为0.73。该模型成功从COCONUT数据库中识别出2,047种MPO期望值评分≥4的化合物,其中222种预测具有眼部活性,114种能够通过口服给药绕过血脑屏障。
规则推导与解释
研究人员还尝试推导类似Lipinski五规则的启发式规则集,用于指导口服眼部活性药物的发现。通过快速可解释贪心树总和(FIGS)模型,生成了基于11个分子描述符的预测模型,该模型精确度达0.71,但召回率较低(0.12)。分析表明TPSA、logP、pKa和sp3碳比例是发现眼部活性化合物的关键参数。
研究结论与意义
这项研究系统地展示了如何利用多种机器学习方法预测口服化合物的眼部生物活性。通过整合传统的定量结构-性质关系(QSPR)模型与先进的大型语言模型,研究人员成功建立了综合计算平台MegaEye,能够高效筛选具有潜在眼部活性的化合物。
研究的创新之处在于首次大规模地应用计算生物学方法系统评估口服药物的眼部生物活性。传统的药物研发过程中,眼部药物的开发主要依赖于局部给药途径,口服给药方式由于血眼屏障的存在而很少被考虑。本研究通过计算预测方法,为口服药物治疗眼部疾病提供了新的思路和方向。
从方法学角度来看,研究证明了多模型整合策略在药物发现中的重要性。不同的计算模型基于不同的理论基础和数据集,能够从不同角度识别活性化合物。OCT转运体模型的优异表现提示这些转运系统在药物眼部递送中可能发挥关键作用,这为后续的机制研究提供了重要线索。
天然产物筛选结果的多样性尤其值得关注。研究发现的大量具有潜在眼部活性的天然产物,为开发植物药或天然来源的眼科药物提供了丰富的候选分子。这些分子结构多样,生物活性广泛,包括抗炎、抗菌、神经保护等多种作用机制,覆盖了多种眼部疾病的治疗需求。
大型语言模型MegaEye的成功应用展示了人工智能技术在药物发现领域的巨大潜力。通过多任务学习和迁移学习,该模型在有限的数据集上实现了优异的预测性能,这为解决生物医学数据稀缺问题提供了有效方案。
该研究的重要意义还体现在其临床转化潜力上。发现的115种FDA批准的口服药物中,许多原本不是用于眼科适应症,这为药物重定位提供了直接依据。这些药物已经通过临床安全性和药代动力学评估,大大缩短了研发周期和成本。
然而,研究也存在一些局限性。眼部特异性数据集相对较小,特别是ARPE-19细胞毒性数据仅包含60个分子,这可能影响模型的泛化能力。此外,计算预测结果仍需通过体外和体内实验进一步验证。
未来研究方向包括扩大眼部特异性数据集的规模,开发更精确的预测模型,以及通过实验验证预测结果。同时,探索其他可能的转运机制和屏障穿透策略,也将进一步推动口服眼科药物的发展。
总之,这项研究通过创新性地整合多种机器学习方法,为口服药物治疗眼部疾病提供了强大的计算预测工具,不仅显著提升了药物研发效率,也为理解药物眼部递送机制提供了新的视角,具有重要的理论意义和临床应用价值。
生物通微信公众号
知名企业招聘