界面新闻记者 |
界面新闻编辑 | 宋佳楠
“当前,AI4S行业正逐渐摆脱单纯追求模型能力的阶段,转向解决深层次问题的深耕期。”
近日,在界面新闻财经年会上,深势科技药物发现部联席总裁王冬冬接受了界面新闻的采访,就AI for Science(科学智能,下称AI4S)行业的技术发展,商业化落地等问题交流。
这家来自中国的公司正在与美国硅谷的谷歌SandboxAQ等大公司竞争。2023年11月,深势科技基于自主研发的有机分子大模型Uni-Mol,发布了Uni-MolDockingv2,其性能超越了DeepMind。
深势科技的Uni-Fold也是国内首个复现AlphaFold2,在推理速度、单体蛋白结构预测精度、蛋白多聚体结构预测精度等指标超越AlphaFold2的模型。在相同的测试条件下,Uni-Fold的预测精度超越了华盛顿大学DavidBaker教授课题组研发的RoseTTAFold,与DeepMind官方发布的AlphaFold2模型接近,且支持的最大蛋白序列长度增至2倍,有更强的通用性。
2024年诺贝尔化学奖颁给了大卫·贝克(DavidBaker)、德米斯·哈萨比斯(DemisHassabis)和约翰·M·詹珀(JohnM.Jumper)等人,这也是AI for Science全新科研范式得到最高的认可,为行业再添了一把火。
“当前,行业正在从基础能力的快速提升期逐步进入‘挖深矿’的深耕阶段。”王东东判断,AI4S将进一步优化预测设计的精度和复杂度;在大数据驱动和知识图谱辅助方面,解决现有数据不足和知识迁移问题,以及产业化与规模化所面临的成本、算力、模型可解释性等挑战,
在他看来,科学智能的“GPT-3.5时刻”更多是指AI4S技术在规模、精度、应用范围的全面跃升,具备大规模实际应用能力的时间点。而要达到“GPT-3.5时刻”有三大技术前提:
一是大模型架构的进化:在更高维度的数据和算力支持下,能够精准解决更复杂的科学问题。二是多模态AI的突破,也会带来结合语言、视觉和其他感知能力,提升科学研究中的协同能力。三是科学实验闭环支持,实现从模型预测到实验验证的高效闭环。
王东东预测,未来几年,随着技术能力的持续迭代、跨领域应用的深化以及产业化的推进,AI4S的“GPT-3.5”甚至N.0时刻将随时到来,届时将推动科学研究与产业的深度融合,实现质的飞跃。
面对大模型行业普遍面临的商业化落地难题,深势科技提出“一横一纵”技术布局策略,具体来看,在横向上通过通用化的AI模型和算法工具搭建技术平台完善AI基础设施,在纵向上深耕特定的科学领域,如分子模拟、材料设计、蛋白质预测等。
此外,在AI+基础设施部分,深势科技还研发面向AI和科学计算场景的异构云原生算力调度平台勒贝格,实现算力资源的高效管理与精准调度。
纵向布局上,深势科技目前深耕在教学科研、生命科学、物质科学。目前已经打造出专为科研人群打造的计算平台,例如拥有海量的CPU/GPU算力资源和集群化弹性调度的能力Bohrium®玻尔®空间站,利用AI4S加持的CADD工具加速理性药物研发的Hermite®药物计算平台、RiDYMO®基于AI for Science的高质量Hit发现平台、Piloteye®能源电池研发解决方案和玄铸人工智能与物理建模驱动的材料设计平台。
“AI4S的应用正在改变游戏规则。”王东东告诉界面新闻,AI4S在药物研发和新能源材料开发中都在产生颠覆性变化。
过去,药物研发传统上是一个高成本、高时间投入且高风险的过程,AI4S应用能够提升了科学家在蛋白质分子设计与优化、早期靶点发现与验证、虚拟筛选的精准化和个性化治疗等研究方面的效率。
据其介绍,在新药研发领域,常常被提到“研发周期10年、研发费用10亿美元”的双十定律,深势科技的“Hermite”药物计算设计平台能够通过精准的计算模拟大幅缩减实验次数,加倍提升药物研发各环节效率。
而在新能源材料领域,AI4S帮助科学家快速且精确地预测材料性能,比如通过AI与量子化学计算相结合,能够预测新材料的热稳定性、电导率、比容量等关键性能,大幅降低实验筛选的不确定性。
目前,深势科技已经与业内超过50家生物医药、新能源和新材料企业进行合作。尽管市场空间足够大,但王东东也指出,当前的AI4S领域仍旧面临挑战,在很多场景中,需要部分成本则是在于教育用户,例如,深势科技需要跟药物客户都是建立长期合作关系,要陪客户走完一整个验证周期。
此外,数据稀缺性也是AI模型训练的主要障碍之一。在王东东看来,相比数据量,其实对结果影响更大的是数据的质量。一是语言这种相对主观的数据,二是化学、生物有评判标准的数据。目前,深势科技通过训练AI获得数据,解决实体工业数据不足的情况。
“科研和市场化之间的平衡不是一个‘选择’问题,而是如何更好地融合且共赢的问题。”王东东告诉界面新闻。