智化科技夏宁:AI 辅助化学合成路线设计助力提升创新药研发效率

发表日期 : 2022-05-23 返回列表

3 月 23 日,在机器之心 AI 科技年会「AI x Science 论坛」上,智化科技创始人、董事长兼 CEO 夏宁分享了主题为《AI 辅助化学合成路线设计助力提升创新药研发效率》的相关内容。

新药研发面临着成本高,时间长,成功率低的巨大痛点。智化科技专注于化学合成路线设计,其独立研发的算法基于数据学习和化学知识进行分解,解决了可解释性、化学反应数据量两大问题。除了逆合成平台外,还在化学工艺路线设计、化学反应条件、副产物预测分析、分子库生成等领域进行了研究。未来,智化科技将持续优化以提供路线的多样性和可行性,利用来自 ELN 的失败反应数据避免失败,以及进行多步策略学习。


演讲视频回顾(点击「阅读原文」也可观看):
https://www.bilibili.com/video/BV1s3411p7KB?t=2.5

以下为夏宁在「AI x Science 论坛」的演讲内容,机器之心进行了不改变原意的编辑、整理:

感谢机器之心的邀请,有机会给大家介绍一下 AI 辅助化学合成路线设计这个领域,以及我们公司智化科技和已铼生物科技。我要讲的是一个更加微观(原子和分子)的领域,怎样利用 AI 帮我们设计一些合成路线来合成一些小分子,这些分子可能是一个药物,可能是一个新材料,也可能是一个科技产品,这个领域相对来说也是一个非常有历史的领域,大家应该知道人类做化学已经做了几百年了。一直都是在用人的经验方式做路线设计,我们现在已经进入到一个新的领域。

先做一个科普,整个 AI 在制药领域已经有了非常广泛的应用。有大量的 AI 初创公司和大型的制药公司有了多方面的合作,到今天为止很多大的制药公司都开始采用 AI 技术,提高他们的新药研发效率。

具体来讲,AI 在新药研发中的应用分几个大模块。首先在分子药物设计阶段,有很多蛋白质在我们身体内发挥着各种各样的生物作用,如果我们想去促进它或者抑制它,这时候需要有一个药物分子,这个药物分子有一些大分子(比如抗体)。还有一些小分子(化合物),本身它会有一定的 3D 空间结构,它会和蛋白质以「锁和钥匙」的方式进行结合,然后可能发生一定的生物作用,起到治疗疾病的作用。AI 在这里非常重要的应用是,能够帮助我们设计出针对一些特定的蛋白质的空间结构、靶点,能够设计一些分子,这个分子可能从来不存在,可能要通过一些计算,通过一些蛋白质和分子活性作用数据做一些预测。还有一个领域,AI 可以对药物或者化学分子的性质做一些预测,比如毒性、生物活性、代谢等等,还包括它的物理化学属性,AI 也可以做一些辅助的预测。

智化科技主要专注于一个非常独特的领域,怎么样合成这些化学分子。化学分子的合成其中包括了合成路线如何设计,如果设计出路线之后,我们对每一步反应,怎么样的反应条件让产率更高,这些都是制造这个分子中需要考虑的问题。

整个化学合成在临床前药物研发中是一个非常重要的步骤。因为它是一个限速步骤,为了拿到一个上市的药物,最开始要从一万个化合物中筛选,最终又到了合成阶段可能要合成数百个化合物,最终通过临床一期、二期等等实验,最终拿到的可能只有一个分子。其中速度最慢的层面就是在化合物的合成,因为在纸面上设计很多分子有很多 AI 方法,几个小时就可以设计出很多分子,如果这些分子合成出来之后做生物活性预测也很快,可能花了几个月时间合成的分子,测活性只需几天时间,但真正慢的地方在于如何把一个个分子从实验室做出来。合成一个分子需要长达十几步的合成路线,一个化学家在实验室中一天只能做一两个化学反应,通过这种速度合成一个分子或者一个化学家做一个月的实验,可能最终合成大概 4、5 个分子。这样来看,整个药物临床前研发的周期就会卡在这个时候。如果能够解决这个问题,提高合成分子速度,对新药研发肯定有一个非常强的促进作用。

这件事一直以来被科学家所重视。早在上世纪六十年代末,有机化学合成大师 E. J. Corey 当时发明了一套逻辑做合成路线设计,称为逆合成法,1996 年获得诺贝尔化学奖。当时他的想法是,既然能够把这个方法理论化,是不是可以用一个计算机做这个事情。他当时开发了一套计算机软件,但是当时计算机的算力很低,特别是没有大量的化学数据,当时这个软件的效果并不是特别好。后来化合物合成路线设计就变成了纯人工的事情,一直到最近,基本上都是靠在化学合成领域做了超过十年的人,才有能力做这件事情,特别是有很高的知识储备的要求。直到近年来,2018 年之后才出现了一些论文,他们利用了一些 AI 深度学习的算法,设计化合物的合成路线,其中得到了不错的结果,看起来已经比较接近人类化学家的水平。

如果能够把化合物的合成路线设计领域做一个大的提速,肯定可以加速药物分子研发的循环,叫 DMTA 循环。先设计、合成,做测试,通过测试结果分析,再重新修改设计。这个循环为什么在合成最慢?化学合成实验的成功率其实并不高,合成一个未知的分子或者做一个未知的化学反应,成功率大概 50% 左右,几乎一半的实验是失败的。涉及到化合物整条合成路线失败率就更高了,每一步都有失败,如果一个路线长达十几步,很可能中间试错很多次,改变好几次路线,这对整个合成效率来说是一个非常大的瓶颈。如果能够把路线做得更准,更好,成功率更高,对于整个合成效率会有 2 倍以上的提升。

下面介绍一下智化科技以及我们的技术、算法。首先,我们公司目标是成为全球领先的 AI 赋能的化学合成平台,所以我们不只做算法方面的研究,我们也在做化学、信息学相关的软件、硬件、自动化的合成设施,我们也有自己的实验室——已铼生物科技,也可以做合成,利用到算法和自动化设备。真正的应用领域不仅限于药物,也包括化工、科技、消费等等所有有新分子合成需求的领域,都是我们公司的一个方向。

我们公司也是最早从 2008 年开始,当时我在法国有机化学博士毕业之后,当时做了很多化学信息学的研发,2015 年回国,后来开始做了最早的逆合成版本,当时放在网站上(现在仍然开放,免费),后来我们又经过了近五年的研发,现在有一些最新的产品,形成了商业化。在这个领域我们做了相当长的积累,这个领域本身也是一个非常有深度的领域。

我们选择的大的算法方向首先是我们独立研发出来的,并不是根据别人的研究修改的。核心的思想是把整个复杂的化合物合成问题做一个分解,分解成几十个小的模块,这些模块包括了各种各样的化学中的一些选择性问题、兼容性问题等等。最终再利用大量数据和机器学习解决这些小问题,再把它组合起来。为什么这样做?化学合成是一个非常复杂的问题,特别是合成一个分子需要十步的话,假设对其中一个步骤我们预测的成功率是 90%,看起来是很高的,但是如果是90% 的十次方,做一个十步的合成路线,准确率就变成了只有 0.3 几,很低的数值。也就是说,我们必须把每个步骤的判断准确度提高到 99%,甚至是100%,要做到这一点必须对整个算法进行分解,如果把所有数据扔进去让它自动学的话,达不到这么高的准确度,只有分解,让准确度达到提升,再组合回来。整体的算法一方面是基于数据学习,另一方面又基于大量的化学领域的知识把它进行任务分解。

有一些客户对我们的算法做过测评。测试了超过 20 个逆合成系统,我们得到了最高分,这是两年前的测评,现在我们的系统有了更大的进步。除了我们之外,也有一些公司在做,像 CAS、ELSEVIER、Merck 等,他们用的技术路线跟我们不同。

目前为止,智化科技的算法还是一个不断提升的过程,我们克服了两个问题:可解释性的问题和化学反应数据量的问题我们用专家的一些算法弥补了数据的不足,再加上数据保证了算法不断地提升。

我们做到了什么样子?算一个中等或者更难的化合物路线,基本上只需要几十秒到几分钟的时间,90% 以上的分子都能在 5 分钟内找到多条合成路线。同时,我们做出来的路线可行性也非常高,已经得到了文献的支持。同时我们也针对化学中的比较难的问题,比如保护基策略的问题,以及化学中手性的问题都在算法中得到了解决。我们的算法可以和化学家自己使用的电子实验记录本相结合,他们自己使用的实验记录整合到我们系统中,可以让他们过去经验的价值发挥出来,把路线设计得更加准确。

计算机辅助的合成路线设计带来很大的优势。第一,能够帮助化学家找到更短的路线。第二,找到一些新的合成策略。第三,提高成功率,我们能够预测出某些路线的问题以及失败的风险,提前做一个避免。

举一个例子,在路线设计中有一个文献给出的路线,它的步骤是比较长的。我们最终在设计这个路线的时候,算法能够找到一个市售的中间体,有了这个中间体之后可以很快地经过三步反应拿到最终的目标产物,而且有相应的文献支持。对人来说不会想到这个中间体,因为他确实不知道有这个中间体存在,这也是计算机的优势。

下面这个例子是如何找到一个新的策略,通过不同的切断方式,得到一个比文献更加短,或者更加不同的策略。同时,也可把反应中可能存在的副反应或者副产物提前预测出来,或者反应可能存在的官能团兼容性问题,通过算法进行预测。对于一些经验不足,或者没有做过这类反应的人来说。这时 AI 就可以有效地从数据中学到这个知识,弥补人的缺陷。


化学合成路线设计中也有一些挑战,整个算法分为三大部分。第一,如何做一个单步的逆合成。比如拿到目标分子 A,怎么通过一步推导到目标分子 B。第二,做完推导之后验证这一步确实在化学中可行。因为化学反应非常复杂,即使是常见的反应也可能发生我们不可想象的结果。我们必须做一个可行性评估,如果可行就往下推,如果不可行就过滤掉。第三,有效的搜索策略。如果每个单步逆合成有接近 10 种切断的可能性,一个十步的路线就是 10 的 10 次方,大概是 100 亿左右的数量级。对于这个数量级来讲,有了云计算,但还是成本问题,不可能为了算一个路线花上几天时间或者花几万块云计算的成本,我们必须用有效的搜索策略避免大量重复的节点。所以,不管任何算法都避不开这三个问题。


第一,对于单步逆合成,一个简单的做法,我们可以把分子描述成一个指纹,从分子中提取了各种结构片段特征。这个指纹放到神经网络模型中,通过不断训练,最后会告诉我这个指纹对应的是哪一种切断,我做成了一个模型,这个模型给到我一个分子,我就大概知道是用哪一种方法切断。还有一种不用模板的方法,拿到分子之后不考虑它最终选择哪一种切断,而是直接作为 SMILES 字符串,这个字符串有点像自然语言中翻译的过程。如果把我的产物分子作为一种语言,比如中文,反应物分子作为另一种语言,比如英文,是不是可以以翻译的方式,借鉴翻译的机器学习的算法做一个翻译,所以就有了这种算法,直接把产物做一个逆合成得到一个产物。


我们的具体的方法是利用模板的算法,其中结合了很多参数,包括概率问题,以及做相似度的判定,还有官能团、结构,所有切断的可能我们都会做一个穷举,最后把这些穷举做一个排序,对它做一些排重,最终得到一个单步的逆合成的结果,得到一个比较合理的排序。


第二,是化学反应的可行性判定。它有几种不同的方法,我们可以用一个「黑箱」(比如 Deep Learning)模型,可以放进去很多真实世界的反应,有成功的,有失败的,还有一些模型可以造一些假的反应,放到模型中去训练,最终得到的答案是 yes 或 no。

我们自己做的更偏向于「白箱」的模型,我们根据化学家所考虑的有确定化学意义的因素,比如它的选择性、官能团兼容性、是否会发生一些副反应,副产物、相似度打分、手性是否合理等等,做各种各样的判定,最终也是得到一个答案 yes 或 no,如果中间合理就是 yes,同时我们会给到一个参考文献,如果不合理会给它一个理由,为什么我认为这个反应被过滤掉,这就是「白箱」模型和「黑箱」模型比较大的区别。

第三,搜索策略。可以从目标分子出发,一步步地做单步的逆合成。有几种常见的算法,有深度优先算法、广度优先算法、贪心算法、A*算法、MCTS 算法等,我们最终选择的方式是混合式的搜索。通过组合算法证明最终可以达到更好的效果。

搜索过程中我们也会做很多打分,你要知道这个节点需要搜还是可以不搜,否则搜的面积就会非常大。我们会做化学反应的打分,它的打分主要是根据化学反应本身它的可行性、风险,或者选择性等等做出评判。我们对化合物也能做打分,不只是反应本身,对原料本身,我们知道原料很难买到或者很难合成,或者结构不稳定等等。我们对策略也会做一个打分,本身化合物没问题,但是合成策略不太好,或者有一条记载得很好的合成策略,这种情况我们可以通过不同的打分,最终帮助我们找到最好,成功率最高的合成路线。

相比其他几种算法,我们做了一个简单对比,在手性、保护基上,我们的算法做到了;对 ELN 的整合我们能够充分利用电子实验记录本的数据;速度上来讲,目前专家规则的算法速度会慢一些,但像我们的算法和基于数据的都会比较快;可行性来讲,我们现在做的可行性还是在不断地提升,可行性在几种算法中是最高的。

除了现在做的逆合成工作之外,我们还做了化学工艺路线设计,对化学反应条件的预测,以及对副产物的预测和分析,还有一些分子库的生成等,这些都是我们内部做的模块。

我们通过可以合成的算法做可合成性打分。当药物设计人员在设计大量分子之后,不会全部拿去合成,比如设计了一万个分子,想知道哪些分子容易合成出来就优先合成,这时候就用到可合成性打分,现在市面上打分的程序都是基于简单的算法,准确度其实不高,我们的算法可以在大量数据情况下进行快速地打分,比如一百万个分子,我们几个小时就可以把每个分子的合成路线计算出来,我们根据合成路线的难度、长短等等对分子可合成性给到一个准确地打分,帮助化学家选择哪些分子是他们优先合成的。我们现在打分的结果和化学家的打分结果做了一个匹配,发现绝大多数情况下和化学家的打分是相符的,特别是在比较难的分子上,比化学家更准。

另外一个模块,我们基于逆合成技术做了一个正向合成技术,能够从市面上购买的中间体出发,一步步正向合成,最后告诉我们能够合成怎样的分子库,它给了我们另外一种可能性,从拿到的分子中快速地找到最有可能成为药物候选分子的那个分子,能够快速地去合成它,能够从而加快药物项目研发的速度。

目前,我们还在研发的包括算法对于手性选择性合成的支持,包含手性策略,给出结果的多样性、可行性同样也在提升,每个模块都希望提升到百分之百,肯定是一个持续不断的过程。我们也在研究如何利用电子实验记录本失败的反应,帮助我们避免失败。同时,还有整条路线的合成策略的研究,我们现在做一些比较复杂的分子特别讲究合成策略,我们学习到很多策略,这也是我们下一步的方向。

我的报告就到这里,谢谢大家!

首页

首页

新闻中心

新闻中心

关于我们

关于我们

产品中心

服务中心

联系我们

联系我们