人工智能的任何成功实施都取决于以正确的方式提出正确的问题。这就是英国AI公司 DeepMind (Alphabet的子公司)在使用其神经网络解决生物学最大的挑战之一-蛋白质折叠问题时所取得的成就 。
它的神经网络称为AlphaFold,能够根据其氨基酸序列以前所未有的准确性预测蛋白质的3D结构中国机械网okmao.com。
对于大多数蛋白质,在第14次蛋白质结构预测的关键评估 (CASP14)中, AlphaFold的预测精确到原子宽度之内 。竞争包括 盲目预测最近才通过实验确定的蛋白质结构,还有一些尚待确定。

蛋白质被称为生命的基本 组成部分,由20种不同的氨基酸组成,具有不同的组合和序列。 蛋白质的生物学功能与其3D结构有关。因此,了解最终折叠形状对于了解特定蛋白质的工作原理至关重要,例如它们如何与其他生物分子相互作用,如何被控制或修饰等等。“
能够从序列预测结构对蛋白质设计的第一个真正的一步,说:”珍妮特M.桑顿, 该主任名誉欧洲生物信息研究所。 在了解引起疾病的病原体方面,它也具有巨大的优势。例如,目前仅知道SARS-CoV-2病毒中的26种蛋白质中的大约18种。
预测蛋白质的3D结构是计算上的噩梦。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)估计, 一种蛋白质可能有10 300种可能的构象组合,用蛮力计算进行评估所需的时间要比已知宇宙的时间长。AlphaFold可以在几天内完成。
随着科学突破的发展,AlphaFold的发现就在附近,例如James Watson和Francis Crick的DNA双螺旋 模型,或者更近的是Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9 基因组编辑技术。
几年前,一支正在教授AI知识以掌握3000年历史的游戏的团队如何 训练一个答案来回答困扰生物学家长达五十年的问题?人工智能公司PureStrategy的数据科学家兼创始人Briana Brownell说,这就是人工智能 的魅力:相同的算法可以用于非常不同的事物。
她说:“只要您想用AI解决问题,就需要弄清楚如何将正确的数据输入模型中,然后找出可以转换回现实世界的正确输出类型。 。”
她说,DeepMind的成功与其说是选择正确的神经网络,还不如说是“它们如何以足够复杂的方式设置问题,以至于基于神经网络的建模实际上可以回答问题”。
当DeepMind在CASP13推出其AI的先前版本时,AlphaFold在2018年表现出了希望,在所有参与者中实现了最高的准确性。该团队已经对其进行了训练,可以从零开始对目标形状进行建模,而无需使用先前求解的蛋白质作为模板。
在2020年,他们将使用基于端到端训练的基于注意力的模型,将新的深度学习架构部署到AI中。深度学习网络中的注意力是指管理和量化输入和输出元素之间以及输入元素本身之间的相互依赖性的组件。
除了具有未知结构的蛋白质序列的数据库之外,还对大约170,000种已知实验蛋白结构的公共数据集进行了系统训练。
布朗内尔说:“如果你看一下他们两年前的入职与这一年之间的差异,那么人工智能系统的结构就不同了。” “这一次,他们已经找到了如何将现实世界转换为数据……(并)创建了可以转换回现实世界的输出。”
像任何AI系统一样,AlphaFold可能需要应对训练数据中的偏差。例如,布朗内尔说,AlphaFold正在使用有关蛋白质结构的可用信息,该信息已通过其他方式进行了测量。但是,也有许多蛋白质具有未知的3D结构。因此,她说,可以想象偏向于我们拥有更多结构数据的那些蛋白质。
桑顿说,很难预测AlphaFold的突破需要多长时间才能转化为实际应用。
她说:“我们在人体内的20,000种蛋白质中只有约10%具有实验结构,” “强大的AI模型可以揭示其他90%的结构。”
她补充说:“除了增进我们对人类生物学和健康的了解之外,这是朝着……构建具有特定功能的蛋白质迈出的第一步。从蛋白质疗法到吃塑料的生物燃料或酶,无限的可能性。”