科学家们早就知道,人类基因会通过我们的DNA的精确顺序传递的指令付诸行动,这些指令由四种不同类型的单个链接或“碱基”(分别编码为A,C,G和T)指导。
众所周知,将近25%的基因被类似于TATAAA的序列(称为“ TATA框”)转录。由于存在大量的DNA碱基序列,这使得四分之三的开启或提升方式仍然是个谜,这使激活信息蒙蔽了中国机械网okmao.com。
现在,借助人工智能,加利福尼亚大学圣地亚哥分校的研究人员确定了一种DNA激活码,其在人类中的使用频率至少与TATA盒相同。他们称其为下游核心启动子区域(DPR)的发现最终可用于控制生物技术和生物医学应用中的基因激活。有关详细信息,请参见9月9日的《自然》杂志。
加州大学圣地亚哥分校生物科学系的杰出教授,论文的资深作者詹姆斯·T·卡多纳加说:“ DPR的鉴定揭示了激活我们大约四分之一至三分之一基因的关键步骤。” “ DPR一直是一个谜–是否甚至在人类中都存在争议。幸运的是,我们已经能够通过使用机器学习解决这个难题。”
1996年,Kadonaga及其同事在果蝇中发现了一种新的基因激活序列,称为DPE(对应于DPR的一部分),该序列可使基因在没有TATA框的情况下被打开。然后,在1997年,他们在人类中发现了一个类似DPE的序列。但是,从那时起,对人类DPE的细节和流行程度的解读就变得扑朔迷离。
最惊人的是,在成千上万的人类基因中仅发现了两个或三个活跃的DPE样序列。为了在20多年后破获此案,Kadonaga与首席作者和博士后学者Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的计算机科学家)合作,帮助团队利用了强大的人工智能工具,以及Claudia Medrano 。
Kadonaga将这种现象称为“相当严重的计算”,这是一种生物学问题,研究人员汇集了500,000个随机版本的DNA序列,并对每个序列的DPR活性进行了评估。从那里开始,使用了200,000个版本来创建可以准确预测人类DNA中DPR活性的机器学习模型。
正如Kadonaga所描述的那样,结果“非常好”。实际上,它们是如此出色,以至于他们创建了类似的机器学习模型,作为识别TATA盒序列的新方法。他们用成千上万的测试用例评估了新模型,其中的TATA盒和DPR结果是已知的,并发现其预测能力是“令人难以置信的”。
这些结果清楚地揭示了人类基因中DPR基序的存在。此外,DPR的出现频率似乎与TATA盒的发生频率相当。此外,他们观察到了DPR和TATA之间的有趣双重性。用TATA盒序列激活的基因缺少DPR序列,反之亦然。
Kadonaga说在TATA盒序列中找到6个碱基很简单。在19个基准点上,破解DPR的代码更具挑战性。
Kadonaga说:“找不到DPR,因为它没有明显的序列模式。” “在DNA序列中存在被加密的隐藏信息,使其成为活跃的DPR元素。机器学习模型可以解密该代码,但是我们人类却不能。”
展望未来,将人工智能进一步用于分析DNA序列模式应会提高研究人员对人细胞中基因激活的理解和控制能力。Kadonaga说,这种知识可能对生物技术和生物医学领域有用。
Kadonaga说:“以机器学习使我们能够识别DPR的方式,相关的人工智能方法可能对研究其他重要的DNA序列基序很有用。” “许多无法解释的事情现在可以解释了。”
这项研究得到了美国国立卫生研究院的国立普通医学科学研究所(NIGMS)的支持。