人工智能赋能科学研究(AI for Science)近年来在全球迎来蓬勃发展,社会各界日益关注其重塑科技创新可能带来的巨大潜力。在3月29日举办的中关村论坛AI for Science青年论坛上,由中国科学技术信息研究所编写的《AI for Science创新图谱》(以下简称《报告》)正式发布。
中国科学技术信息研究所党委书记赵志耘在发布演讲中介绍,AI for Science正在成为新的科学潮流,在蛋白质结构预测、重大疾病诊断、化学材料合成等方面实现了密集突破,正在推动实验科学、理论科学和计算科学等传统科学研究范式变革,加速提升科学生产力。《报告》以图谱可视化形式,从全球视角对AI for Science国内外技术态势、创新网络、热点方向、重点场景等进行分析,展示当前AI for Science的发展趋势和要素特征,为社会各界提供AI for Science阶段性发展形势的深度观察和直观展示。
《报告》梳理了当前全球AI for Science模型的学科分布和发展脉络。从领域分布上看,生命科学领域近年来持续活跃,2018年DeepMind的AlphaFold推出,成为AI for Science发展的重要里程碑。化学领域发展同样起步较早,陆续出现了分子动力学模拟、机器化学家等代表性成果。自2023年之后,AI for Science发展进入加速期,地球科学领域各类中短期天气预报模型发展活跃,海洋环流、环境预测等成果也不断涌现。在工程学领域,AI for Science开始在材料创制、电网计算、航天飞行器设计等场景释放潜力。
《报告》基于论文数据,对全球AI for Science领域的科技创新活动进行了定量分析,发现2019—2023年间,AI for Science各学科领域论文发表均呈现逐年递增趋势,其中生命科学、物理学和化学等领域发表的人工智能应用论文数量最多。从国别来看,中美两国是当前AI for Science研究大国,近五年间,中国论文发表超过10万篇,是美国近两倍,但美国论文篇均被引量更高。
《报告》分析了AI for Science领域全球各国论文合作数据,显示AI for Science是国际合作重点领域,中美是全球AI for Science合作网络关键节点,合作论文数量居全球最高。生命科学、地球科学和材料科学是全球科研合作热度较高的研究领域;美国的哥伦比亚大学、哈佛大学、斯坦福大学等,中国的清华大学、中国科学院、上海交通大学等,以及英国的剑桥大学等学术机构国际合作交流活跃。
《报告》对AI for Science在各重点领域的技术创新活动进行了观察分析,追踪识别当前该领域的研发重点方向。以生命科学领域为例,技术创新图谱显示,目前AI for Science应用更多集中于蛋白质设计、基因组分析、脑机接口、重大疾病诊断等领域。在人工智能方法方面,机器学习、特征提取、生成对抗网络、迁移学习、卷积神经网络等人工智能技术被广泛采用,也发展起情感识别、医学图像分割等一批针对科学领域的专用技术。
《报告》分析了100多个AI for Science代表性案例的场景分布,发现AI for Science在生命科学领域的场景最为丰富。物理领域重点场景包括量子力学仿真计算、物理场模拟、光学计算及核物理等。在化学领域,分子动力学计算、分子生成、催化剂设计等场景目前关注较高。
《报告》认为,模型算法是AI for Science的关键要素,并具备嵌入科学机理的独特特征。在问题导向的领域模型方面,呈现出从单一场景模型向领域基础模型发展的趋势。在能力导向的知识模型方面,学科专业化与跨学科通用化并行优势互补的特征明显。从算法类型的角度看,当前最广泛应用的算法是Transformer及其变种,概率生成式模型、图神经网络、神经算子等算法也在AI for Science领域模型中发挥各自独特价值。
《报告》对AI for Science领域当前典型的基础软件进行了梳理,发现生命科学、化学、地球科学领域的领域套件较多,且软件开源影响力较高,当前大部分AI for Science领域套件基于PyTorch框架开发,中国的开源框架/领域套件也在持续发力,行业影响力逐步提升。
赵志耘书记指出,展望AI for Science未来发展,人工智能与科学深度融合将催生更多创新与突破,比如多模态信息处理等将推动复杂学科科学发现,模型算法从针对单一问题的点式场景逐渐朝着更通用的方向发展,智能体和具身智能等技术将加快重构人机协同科研模式等。随着模型算法、数据、算力、基础软件等创新要素进一步开放共享,开源开放的普惠化AI for Science生态将走向成熟,人工智能赋能科学研究的研究门槛将持续降低,场景的广度、深度不断拓展,为人类探索世界和加速创新开辟更广阔的空间。