-
生物通官微
陪你抓住生命科技
跳动的脉搏
著名学者PNAS首次开创了解码基因表达的技术方法
【字体: 大 中 小 】 时间:2019年08月14日 来源:生物通
编辑推荐:
“Rosetta Stone”采用强大的算法,以近乎完美的准确度识别可表达的基因
生物通报道:近年来遗传学迅猛发展,许多科学家们希望能借此找到一种清晰,快速的方法进行基因组序列扫描,找出各种可以表达的基因,和不能表达的基因。基因表达是基因内编码的信息,用于产生关键产物(如蛋白质)的过程。
然而令人惊讶的是,迄今为止这还只是一个希望。不过加州大学圣地亚哥分校的生物学家开发出第一个基于机器学习确定基因表达的系统。鉴于缺乏这种方法,新方法被认为是生物学家的一种遗传学“Rosetta Stone”(Rosetta Stone是一款专业的多媒体语言教学程序,可以提供有效的语言学习方法,生物通注)。
这一研究成果公布在8月12日PNAS杂志上,由加州大学圣地亚哥分校生物科学系教授Steve Briggs领导完成,Briggs作为美国科学院院士,在分子生物学领域建树颇多,成果斐然。
对于这项研究,他表示“这篇论文提出了区分是否可以表达的基因的第一种方法,这是所有生物学的基础。无论是药物发现还是植物育种或进化,都需要生物学的基础研究。”
生物学家之前已经通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种形式化的过程来揭示这种信息,称为“可表达基因集”,即EGS(expressible gene set),它包含所有可能表达的蛋白质编码基因。
“在生物学方面,没有办法做到这一点,”Briggs说,“过去我们只有制作目录的经验方法,还没有基于其分子特征对基因进行分类的科学标准。”
这一新方法利用机器学习,通过算法和其他过程来分析数据,并基于包含特定的,详细的分子特征的近30,000个基因的数据集,对数据进行了高级算法训练,让它“学会”将基因表达分类,完成精确度高达99.4%。
其中的关键是在于将染色质生物学和确定基因表达的分子特征结合在一起,前者有助于调节细胞内的DNA包装。将这些与数学机器学习相结合,确定物种范围的转录基因组,或称为“表达组”,然后创建可表达基因的图谱。而且这种方法也可用于理解沉默某些基因的进化机制。
Briggs现在正在将这种方法应用于高粱,这是一种重要的食物和饲料谷物,他认为新方法就像一个单词解码器,“就像是Rosetta Stone”。
“基因组序列就像一本书,这些词是基因。直到现在,我们还不知道哪些DNA序列是真正的单词,哪些只是组合词语。通过删除非单词的部分,我们现在可以更准确地阅读这本书。”
(生物通:万纹)