-
生物通官微
陪你抓住生命科技
跳动的脉搏
一个我们几乎一无所知的人类基因数据库
【字体: 大 中 小 】 时间:2023年08月15日 来源:PLOS
编辑推荐:
研究人员希望,随着时间的推移,他们创建的一个新的、公开可用的数据库将会缩小,而不是扩大。这是因为它是人类基因组中由基因编码的数千种未被充分研究的蛋白质的汇编,这些蛋白质的存在是已知的,但它们的功能大多是未知的。
人类基因组的测序已经清楚地表明,它编码了数千种可能的蛋白质序列,这些蛋白质序列的身份和功能仍然未知。造成这种情况的原因有很多,包括将稀缺的研究资金集中在已知目标上的趋势,以及缺乏包括抗体在内的工具来询问细胞中这些蛋白质的功能。但是忽略这些蛋白质的风险是显著的,作者认为,因为可能有一些,也许是许多,在关键的细胞过程中发挥重要作用,并且可能为治疗干预提供见解和目标。
为了促进对这些蛋白质的更快速探索,作者创建了未知数据库(www.unknome.org),该数据库为每种蛋白质分配了一个“已知”分数,反映了科学文献中关于功能、物种间守恒、亚细胞区隔化和其他元素的信息。基于这个系统,我们对成千上万种蛋白质的认识几乎为零。模型生物的蛋白质和人类基因组的蛋白质也被包括在内。该数据库对所有人开放,并且是可定制的,允许用户为不同的元素提供自己的权重,从而生成自己的一组知识分数,以优先考虑自己的研究。
为了测试数据库的效用,作者选择了260个人类基因,这些基因在果蝇中有类似的基因,并且在两个物种中已知的分数为1或更低,表明对它们几乎一无所知。对他们中的许多人来说,完全敲除该基因与果蝇的生命是不相容的;部分敲除或组织特异性敲除导致发现,很大一部分有助于影响生育,发育,组织生长,蛋白质质量控制或抗逆性的基本功能。
结果表明,尽管经过了数十年的详细研究,仍有成千上万的果蝇基因在最基本的水平上仍有待了解,人类基因组显然也是如此。“这些未被描述的基因不值得被忽视,”Munro说。“我们的数据库提供了一个强大、多功能和高效的平台,可以识别和选择未知功能的重要基因进行分析,从而加速填补未知所代表的生物学知识空白。”
Munro补充说:“数千种人类蛋白质的作用尚不清楚,但研究往往集中在那些已经被很好地理解的蛋白质上。为了帮助解决这个问题,我们创建了一个未知数据库,根据对蛋白质的了解程度对它们进行排名,然后对这些神秘蛋白质进行功能筛选,以证明无知如何推动生物学发现。”
Functional unknomics: Systematic screening of conserved genes of unknown function. PLOS Biology, 2023; 21 (8): e3002222