MethPy:突破非CpG甲基化分析瓶颈的创新软件工具

《Scientific Reports》:MethPy: a new software for analyzing non-CpG methylation after bisulfite assay and Sanger sequencing

【字体: 时间:2025年11月27日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对传统软件无法分析非CpG甲基化的技术瓶颈,开发了首款专门用于亚硫酸氢盐测序数据中非CpG位点甲基化分析的Python软件MethPy。该工具通过自动化比对参考序列与实验序列,实现了单碱基分辨率的甲基化检测,支持多种输出格式,为神经退行性疾病等领域的表观遗传学研究提供了重要技术支撑。

  
在表观遗传学研究领域,DNA甲基化作为最重要的修饰方式之一,长期以来被认为主要发生在CpG二核苷酸位点。然而近年来越来越多的证据表明,非CpG位点(即CpH位点,包括CpA、CpC和CpT)的甲基化在哺乳动物大脑组织和细胞中广泛存在,并且具有重要的基因表达调控功能。这一发现对传统认知提出了挑战,但技术上的局限却成为深入研究的关键障碍。
尽管新一代测序(NGS)技术已经广泛应用于甲基化研究,但针对特定基因区域的亚硫酸氢盐处理结合Sanger测序仍然是获得单碱基分辨率甲基化谱的最精确方法。问题在于,现有的生物信息学工具都只能分析CpG位点的甲基化情况,完全忽视了非CpG甲基化的存在。这种技术空白使得研究人员不得不依赖耗时且容易出错的手工比对方法,严重限制了非CpG甲基化功能研究的进展。
来自意大利罗马萨皮恩扎大学实验医学系的研究团队意识到了这一方法论上的重大缺口。基于他们在阿尔茨海默病等神经退行性疾病研究中积累的非CpG甲基化研究经验,他们开发了一款名为MethPy的创新软件工具,专门用于自动化分析亚硫酸氢盐-Sanger测序数据中的非CpG甲基化。
MethPy采用模块化设计,使用Python编程语言开发,包含七个核心模块。Start模块负责初始化工作环境,创建必要的文件夹结构;Ref模块允许用户输入参考序列并自动生成反向互补序列;Tutorial模块提供示例序列帮助用户熟悉分析流程;Check模块是核心分析模块,通过交互式窗口引导用户完成实验序列与参考序列的比对,自动识别甲基化位点并处理测序错误;Table模块将分析结果整理成表格形式;Plot模块生成可视化图表;Init模块包含软件的基础函数和类。
关键技术方法包括:基于Python的序列比对算法、亚硫酸氢盐转换规律的特征识别、交互式图形用户界面(GUI)设计、多格式输出支持(文本、Word、Excel、图表等)。软件已使用实验室先前生成的PSEN1、IL-1β、IL-6等基因启动子区域的甲基化数据进行了验证测试,结果与手动分析完全一致。
Start模块
Start模块作为软件的初始化入口,负责创建完整的目录结构,包括References、Input、Output in Word、Output in txt、Tables等文件夹,为后续分析提供有序的文件管理基础。
Ref模块
Ref模块通过弹出窗口接收用户输入的参考序列,自动执行质量控制步骤,包括将小写字符转换为大写、检测非法字符,并生成正向和反向互补序列文件,分别以F和R后缀区分。
Tutorial模块
Tutorial模块设计用于用户培训,生成模拟的甲基化和非甲基化序列,这些序列故意包含测序错误和截断,模拟真实实验数据,帮助用户快速掌握软件使用流程。
Check模块
Check模块是软件的核心分析引擎,通过多步骤交互流程实现精确的序列比对。首先,用户通过下拉菜单选择参考序列和实验序列路径;接着,软件通过滑动窗口算法寻找最佳比对起始点,并以可视化方式展示65个碱基的比对区域,用"X"标记匹配或符合亚硫酸氢盐转换规律的位点。
当发现无法用甲基化状态解释的序列差异时,模块会启动错误处理机制,弹出窗口提示用户选择错误类型(缺失、插入或碱基替换)。甲基化胞嘧啶用绿色标记,转换后的胸腺嘧啶用黄色标记,各种错误类型均有对应的颜色编码,确保结果直观易懂。
Table模块
Table模块将多个序列的分析结果整合成结构化表格,支持CSV和Excel两种格式。表格中清晰标注每个胞嘧啶的位置、甲基化状态(0表示未甲基化,1表示甲基化,2表示未知),自动计算总甲基化水平和百分比,并用颜色区分CpG和非CpG位点。
Plot模块
Plot模块提供高度可定制的可视化功能,用户可自主设置图表标题、分辨率、文件格式、碱基范围、误差线和颜色方案。模块默认生成三种图表:所有胞嘧啶的甲基化百分比(CpG位点用红色突出显示)、仅CpG位点甲基化情况和仅非CpG位点甲基化情况。
研究讨论部分指出,MethPy的诞生填补了表观遗传学研究领域的重要技术空白。与传统软件相比,其最大创新在于突破了仅分析CpG甲基化的局限,首次实现了对全类型胞嘧啶甲基化的自动化检测。虽然软件目前采用自定义比对算法而非标准比对工具,且需要用户参与错误识别,但其开源特性为后续功能扩展提供了良好基础。
值得注意的是,软件专门针对Sanger测序数据设计,不适用于高通量测序数据,这一特异性设计使其在靶向甲基化研究领域具有独特优势。研究人员特别强调,在使用过程中应注意单核苷酸多态性(SNP)或C>T突变可能造成的假阳性结果,建议在分析前先对未修饰序列进行验证。
MethPy已经在多项实际研究中得到应用验证,包括阿尔茨海默病相关基因PSEN1、炎症因子IL-1β、IL-6以及microRNA-29a的甲基化分析。这些成功案例证明了软件在真实科研场景中的实用性和可靠性。
该研究的重大意义在于为非CpG甲基化功能研究提供了高效、准确的分析工具,有望推动表观遗传学、神经科学和疾病机制研究的快速发展。随着对非CpG甲基化生物学重要性认识的不断深入,MethPy将成为研究人员不可或缺的技术支撑,特别是在神经退行性疾病、精神疾病和发育生物学等研究领域。
论文发表于《Scientific Reports》期刊,软件已通过罗马萨皮恩扎大学实验医学系网站(https://dmsp.web.uniroma1.it/it/methpy)免费向科学界开放,支持Windows和iOS操作系统,为全球表观遗传学研究人员提供了强大的技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号