云计算·大数据 频道

为早期药物研发助力,望石智慧多模态3D分子生成大模型构建之旅

  AI与医药领域结合将碰撞出怎样的火花?针对肿瘤这种重大疾病,是否能够通过AI加速推进特效药的研发进程?以望石智慧为代表的企业,在多模态3D分子生成大模型方面的探索说明,AI药物研发正在不断打开生命科学领域的新边界。

  正如人们所见,尽管以DeepSeek为代表的通用大模型,正在加快融入我们的个人工作与生活中。但要想让大模型走进医药领域,还需要融入各方面能力,以解决垂直领域应用问题。因此,懂医药语言的专属大模型,才是行业应用的正解。以小分子药物研发为例,在临床之前,会遵循DMTA这样一个循环过程,包括设计、合成、测试、分析,过去基本都要靠药化人员的个人贡献来实现。就大模型而言,要想从最初的设计开始,缩短漫长的研发到临床的过程,传统纯文本大模型很难真正提供助力,只有训练或者学习了化学、生物语言、理解医药模态的大模型,才能真正解决医药行业的问题。

  说白了,在医药研发领域,周期长、耗成本、失败率高是传统药物研发的一个“通病”,要想尝试破解药物研发的壁垒,需要平衡技术的复杂性和研发效率问题。同时药物研发涉及计算生物学、化学、临床医学等多学科协作,尝试引入AI帮助药物研发实现变革需突破传统药企与科技公司的合作壁垒,才能实现市场竞争与业务模式创新的双重布局,进而打出差异化优势。

  医疗创新到底需要怎样的大模型应用?

  “水面之上,是研发挑战的问题,创新难度大,我们需要突破创新的过程,避免专利撞车;水面之下,医药行业作为数据密集型产业,很多药企有非常多数据,但今天这些数据沉积在很多数仓里,没有实现数据价值最大化。” 望石智慧创始人&CEO周杰龙认为,医药创新面临的挑战主要来自两个层面,即 “水面之上”和“水面之下”的问题。

  相对于其他行业,医药领域在数字化层面可能更偏落后。一方面,围绕业务在每个环节的数据记录可能未必规范,导致很多数据没有打通,或由于保密性原因不能共享,导致部分数据和知识无法沉淀,无法转化为生产力;另一方面,针对工具层,虽然目前市场上已经有非常多的工具,但这些工具就好像散布在系统里面的一个个点,没有从设计目标出发,形成一条系统化的工具链。

  为了从根本上解决AI药物研发挑战,望石智慧提出了“Model+X”的专业模型构建方式。通过Model+X,药企可以把沉积的数据和认知充分使用起来。基于多模态3D分子生成大模型可以为药物设计人员提供更多思路与参考。同时,通过检索增强、微调方式对这个模型进行再次训练可以将企业历史的项目数据输入给模型进行调优。最终,通过三层合理性的评估,给出符合药化人员预期的分子,并且这些交互产生的认知和信息,可以再次回到新的模型上,形成一个相对完整同时可以持续迭代的循环过程。

  在医药大模型构建过程中,望石智慧携手亚马逊云科技进行了数据治理方面的探索。具体包括:数据结构化治理、模型输入/输出安全控制策略、基础设施和各种高性能计算平台的支持等,希望结合亚马逊云科技的领先技术与丰富经验,能够帮助更多企业充分挖掘数据价值,释放人工智能商业潜力。

  未来已来,如何向Agentic AI演进?

  “基于亚马逊云科技的数据存储与算力支持,望石智慧搭建了能够精准的生成与靶点口袋结构契合的分子/分子骨架的核心平台——多模态3D分子生成大模型。” 周杰龙介绍道,公司推出的多模态3D分子生成大模型,在技术创新上实现了新的突破。该模型以 GPT/Transformer 框架为基础,融合了几何深度学习等算法。依托这一模型,多个医药项目已收获显著成果,其中部分项目更是进入了临床阶段。同时,合作伙伴也可以基于此模型进行创新,通过整合自身数据、认知以及模型等要素,进行定制化迭代。

  在模型应用和构建过程中,望石智慧使用了亚马逊云科技的分析、数据库等诸多产品与服务。比如:通过Amazon Athena,使用标准SQL语言分析Amazon Simple Storage Service (Amazon S3)中的数据,使得望石智慧无需准备运行环境和移动数据,即可在数秒内获取分析结果;无服务器数据集成服务Amazon Glue,能够帮助望石智慧发现、准备和集成所有任意规模的数据,实现数据治理的关键一步;通过使用易于管理的关系数据库服务Amazon Relational Database Service (Amazon RDS),能够在几分钟内创建新数据库,并灵活地自定义数据库以满足自身业务需求;借助Amazon DynamoDB,可以开发任何规模的现代应用程序,且在任何规模下均具有个位数毫秒级的性能;通过无服务器的NoSQL 数据库服务Amazon DynamoDB,望石智慧实现了99.999% 的可用性SLA和更高的弹性,且仅需按数据库的使用量进行付费,有效降低了成本支出。

  另外,望石智慧还将内部体系化研发平台和StoneMIND®分子设计平台等多个核心业务部署至亚马逊云科技,在降低开发成本的同时,提升了用户使用的便捷性。比如:在获得更灵活的算力支撑方面,结合Amazon Elastic Compute Cloud(Amazon EC2)预留、按需和Spot实例,可充分支持望石智慧在药物筛选与新药研发过程中的密集的计算需求,并在最高可节省成本达90%的同时获得海量算力。当前望石智慧可在20-30分钟内,提供数万核CPU和数十块GPU算力,来支撑数千任务的投递和计算,并在几小时—几天内完成计算任务。此外,望石智慧也通过云端弹性算力的能力,满足高性能(HPC)计算过程中弹性伸缩的需求。

  再比如,为了优化数据处理与分析能力,助力提升研发效率,望石智慧用亚马逊云科技的诸多服务搭建了庞大的医药数据库来支撑 AI 分子设计软件,支撑着在工业端和学术界大量活跃用户及多家头部药企的使用。其背后涉及的核心应用包括:Amazon S3 Intelligent-Tiering智能分层服务、Amazon Athena智能交互SQL查询服务、Amazon Glue数据抽取服务以及RDS数据库托管服务、Amazon Redshift数据仓库等。

  值得一提的是,安全合规是AI药物研发企业的重中之重。为了确保应用和数据安全,望石智慧采用了包括Amazon WAF在内的一系列安全服务,并与亚马逊云科技合作伙伴安恒、光环有云一起构建了VPN、堡垒机、主机防护、数据库审计等多方位的安全防护机制,实现了全球业务发展的合规要求。在合规性方面,亚马逊云科技拥有国内外很多合规认证与法规声明,并能提供可部署的白皮书、最 佳 实践指导等。望石智慧基于亚马逊云科技的服务与实践经验,已获得了ISO27001信息安全管理体系认证,并完成了网络等级安全保护三级测评。

  展望未来,医药大模型创新正在向Agentic AI方向演进,而望石智慧的发展目标是,加强与亚马逊云科技的合作,在AI多智能体协作与多源知识增强层面展开探索,实现更高效的人机协同,从而降低药物研发早期试错成本,加快推动候选药向临床药的转化。

0
相关文章