科研人要失业还是会更受益?人工智能攻克生物界50年重大难题!

人工智能将改变结构生物学和蛋白质研究的未来。

人工智能预测的蛋白质结构(蓝色)和实验确定的蛋白质结构(绿色)几乎完全匹配。

在化学、生物等领域,不少研究生的生活可以被形容为「7-11」:一周工作 7 天,每天 11 个小时。今年7月,利物浦大学的研究者开发了一款「007」机器人,一天二十几个小时都泡在实验室里,8 天就能完成 688 个实验,还自己发现了一种高效催化剂.....

当时,网上就有不少科研人员自嘲要失业了。近日,一群蛋白质结构研究的朋友又纷纷自嘲:要失业了....

来自Science最新(11月30日)消息,人工智能(AI)已经解决了生物学的一个重大挑战:预测蛋白质如何从氨基酸线性链卷曲成3D形状,从而使它们能够执行生命任务。游戏发生了变化,人工智能(AI)成功地解决了蛋白质结构问题,在解决蛋白质结构方面取得了胜利!

11月30日,领先的结构生物学家和两年一次的蛋白质折叠比赛的组织者宣布了英国人工智能公司DeepMind的研究人员的这一成就。他们表示,DeepMind的方法将产生深远的影响,其中包括极大地加快了新药物的开发速度。

在今年CASP中,针对各种目标蛋白,DeepMind的AlphaFold的GDT平均分为92.4。在最具挑战性的蛋白质测试中,AlphaFold的中位数得分为87分,比排名第二的预测高出25分。它甚至擅长于解决楔入细胞膜中的蛋白质结构,这是许多人类疾病的核心,但众所周知,用x射线晶体学很难解决。

医学研究理事会分子生物学实验室的结构生物学家Venki Ramakrishnan称该结果“在蛋白质折叠问题上取得了惊人的进步。

欧洲生物信息学研究所(European Bioinformatics Institute)名誉主任Janet Thornton说, DeepMind团队所取得的成就非常了不起,它将改变结构生物学和蛋白质研究的未来。这是一个已有50年历史的问题。

马里兰大学Shady Grove的结构生物学家John Moult补充说,他从来没想过在其的有生之年会看到这个。

人体拥有成千上万种不同的蛋白质,每一种蛋白质都由几十到数百种氨基酸组成。这些氨基酸的顺序决定了它们之间的作用,赋予了蛋白质复杂的三维形状,进而这种三维形状又决定了蛋白质的功能。了解这些形状有助于研究人员设计出可以能在蛋白质缝隙内滞留的药物。而且,能够合成具有所想结构的蛋白质,可以加速酶的研制过程,可用于制造生物燃料并降解废弃塑料。

克里斯蒂安·安芬森(Christian Anfinsen)在1972年诺贝尔化学奖的获奖感言中,提出了一个著名的假设,即理论上,蛋白质的氨基酸序列应该完全决定其结构。正是由于这一假设,引发了50年的探索,即能够仅基于1D氨基酸序列通过计算预测蛋白质的3D结构。

几十年来,研究人员利用x射线晶体学或低温电子显微镜(cryo-EM)等实验技术来破译蛋白质的3D结构。但这种方法可能需要数月或数年时间,而且并不总是有效。目前,在生命形式中发现的2亿多种蛋白质中,只有17万种蛋白质的结构被破解。

在20世纪60年代,研究人员意识到,如果他们能计算出蛋白质序列中所有个体的相互作用,他们就能预测蛋白质的三维形状。然而,由于每个蛋白质有数百个氨基酸,并且每对氨基酸可以通过多种方式相互作用,每个序列可能的结构数量就是一个天文数字。计算机科学家们开始着手解决这个问题,但进展缓慢。

1994年,马里兰州大学的结构生物学家John Moult及其同事发起了CASP竞赛,每两年举行一次。进入者获得约100种蛋白质的氨基酸序列,其结构未知。一些小组计算每个序列的结构,而另一些小组则通过实验确定它。组织者然后比较计算预测和实验室结果,并利用全球距离测试(GDT)的方法给出分数。在0到100分的评分中,90分以上被认为与实验方法相当。

在1994年,对小而简单蛋白质的预测结构,即使也能与实验结果相匹配。但是对于更大的、具有挑战性的蛋白质,计算的GDT分数大约是20。

到2016年,在针对最困难的蛋白质,竞争小组已经达到了40分左右,大部分是通过深入了解与CASP靶点密切相关的已知蛋白质结构。

DeepMind于2018 年首次参加(第 13届 )全球蛋白质结构预测竞赛,在CASP 上,DeepMind 的最新人工智能程序 AlphaFold ,成功预测生命基本分子 —— 蛋白质的三维结构。DeepMind轻松获胜,在每个结构上以平均15%的优势击败了竞争对手,并且在最难的目标上赢得了高达60分的GDT得分。

但是,DeepMind负责AlphaFold开发的John Jumper说,这些预测仍然太粗糙而无法发挥作用。我们知道我们离生物学相关性还有多远。

为了做得更好,Jumper和他的同事将深度学习与模仿人组装拼图的方式的“注意力算法”相结合:首先将小块连接在一起(在这种情况下是氨基酸簇),然后寻找方法将团块合并成一个更大的整体。他们利用一个由128个机器学习处理器构建的计算机网络,在大约17万个已知蛋白质结构上算法训练。

今年比赛的所有团体都进步了。有了AlphaFold,游戏已经改变了。组织者甚至担心DeepMind可能一直在以某种方式作弊。因此,德国马克斯·普朗克发育生物学研究所蛋白质进化学系主任Andrei Lupas提出了一个特殊的挑战:预测一种来自古细菌群中古细菌物种的膜蛋白。

在10年的时间里,他的研究团队尝试了所有的方法,以获取蛋白质的X射线晶体结构,一直们无法解决这个问题。

但是AlphaFold没有遇到任何麻烦。它输出去了一个蛋白质的详细图像,该蛋白质由三部分组成,中间有两条长长的螺旋臂。该模型使Lupas和他的同事能够理解他们的X射线数据。在半小时内,他们的实验结果与AlphaFold的预测结构相符。Lupas表示,这几乎是完美的。他们不可能对此作弊。我不知道他们是怎么做到的。

作为进入CASP的条件,与所有小组一样,DeepMind同意向其他小组公开有关其方法的详细信息。这将给实验者带来福音,他们将能够使用准确的结构预测来理解不透明的X射线和低温EM数据。Moult说,它还可以使药物设计人员快速确定新的和危险的病原体(例如SARS-CoV-2)中每种蛋白质的结构,这是寻找分子以阻断它们的关键一步。

不过,AlphaFold并不能做好所有事情。在比赛中,它明显地在一种蛋白质上摇摆不定,这种蛋白质由52个重复的小片段组成的混合物,当它们组合在一起时,彼此扭曲了位置。Jumper说,该团队现在希望训练AlphaFold来解决这种结构,以及那些能够共同发挥细胞关键功能的蛋白质复合物的结构。

尽管一项重大挑战已经结束,其他挑战无疑也会出现。这不是事情的结局。这是许多新事物的开始。

来源:Science。

本文转自E探索医学,作者探酶。

 

      中国网是国务院新闻办公室领导,中国外文出版发行事业局管理的国家重点新闻网站。本网通过10个语种11个文版,24小时对外发布信息,是中国进行国际传播、信息交流的重要窗口。

      凡本网注明“来源:中国网”的所有作品,均为中国互联网新闻中心合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。

电话:0086-10-88828000

传真:0086-10-88828231

媒体合作:0086-10-88828175

品牌活动合作:0086-10-88828063

广告合作:0086-10-88825964