新浪科技

当ChatGPT遇上CRISPR

中国科学报

关注

本报讯 在探索CRISPR基因编辑系统的过程中,研究人员从温泉、泥炭沼泽、粪便甚至酸奶中搜寻各种微生物。现在,由于生成式人工智能的进步,他们可能只需按一下按钮就能设计出这些系统。

据《自然》报道,日前,研究人员公布了他们使用一种名为蛋白质语言模型的生成式人工智能工具,设计CRISPR基因编辑蛋白质的细节,并证明其中一些系统能够像预期那样工作。

今年2月,另一个团队曾宣布,他们已经开发出一种基于微生物基因组的模型,并用它来设计新的CRISPR系统,后者由DNA或RNA切割酶和RNA分子组成。

“这表明,用机器学习模型设计这些复杂系统是可能的。”美国生物技术公司Profluent首席执行官Ali Madani说。4月22日,Madani团队在预印本服务器bioRxiv上报告了他们“首次成功通过完全用机器学习设计的蛋白质编辑人类基因组”。

中国香港大学合成生物学家Alan Wong表示,自然产生的基因编辑系统在其可以靶向的序列以及可以做出的改变方面存在局限性。因此找到合适的CRISPR可能是一个挑战。“利用人工智能扩大编辑的范围,可能会有所帮助。”他说。

像ChatGPT这样的聊天机器人以现有文本进行训练后处理语言,而设计CRISPR的人工智能则在大量生物数据上进行训练,这些数据往往以蛋白质或基因组序列的形式存在。这一“预训练”步骤的目标是让模型深入了解自然发生的遗传序列,比如哪些氨基酸倾向于组合在一起。然后,这些信息可以应用于创建全新序列的任务。

Madani团队此前开发了蛋白质语言模型ProGen。为了设计新的CRISPR系统,该团队用数百万种不同的CRISPR系统重新训练了一个更新版本的ProGen。

由于CRISPR基因编辑系统不仅包括蛋白质,还包括指定其靶点的RNA分子,于是Madani团队开发了另一个人工智能模型来设计这些“引导RNA”。然后,团队使用神经网络设计了数百万个新的CRISPR蛋白序列,这些序列属于自然界中发现的数十个不同的蛋白质家族。

为验证人工智能设计的CRISPR是否为真正的基因编辑器,该团队合成了与CRISPR-Cas9系统中200多种蛋白质设计相对应的DNA序列。当研究人员将这些序列——Cas9蛋白和“引导RNA”插入人类细胞时,许多基因编辑器能够精确切割基因组中的预期靶点。

最有前景的Cas9蛋白—— 一种名为OpenCRISPR-1的分子,在切割靶向DNA序列方面与广泛使用的细菌CRISPR-Cas9酶一样有效,而且在错误的地方进行的切割要少得多。研究人员还使用OpenCRISPR-1设计创建了一个碱基编辑器。这是一种精确的基因编辑工具,可以改变单个DNA的“字母”。结果显示,它与其他碱基编辑系统一样高效,且不容易出错。

在bioRxiv 2月公布的研究中,由美国斯坦福大学计算生物学家Brian Hie和美国Arc研究所生物工程师Patrick Hsu领导的另一个团队,使用了一种能够生成蛋白质和RNA序列的人工智能模型。这个名为EVO的模型用细菌和古细菌以及其他微生物序列的8万个基因组——总计有3000亿个DNA碱基进行了训练。

Hie和Hsu的团队尚未在实验室测试其设计。但他们预测,该团队设计的一些CRISPR-Cas9系统的结构与天然蛋白质结构相似。

西班牙巴塞罗那分子生物学研究所计算生物学家Noelia Ferruz Capapey说:“这太神奇了。”与一些获得专利授权的基因编辑工具不同,研究人员可以无限制地使用OpenCRISPR-1分子,这令她印象深刻。

Madani说,希望人工智能设计的基因编辑工具比现有CRISPR更适合医学应用。他还希望与开发基因编辑疗法的公司合作,测试人工智能生成的CRISPR。(文乐乐)

相关论文信息:

https://doi.org/10.1101/2024.04.22.590591

https://doi.org/10.1101/2024.02.27.582234

加载中...