研究发现多模态大模型涌现类人物体概念表征

来源: | 作者:proac3c72 | 发布时间 :2025-06-18 | 157 次浏览: | 分享到:

人类能够对自然界中的物体进行概念化，不仅能识别物体的物理特征（尺寸、颜色、形状等），还能理解其功能、情感价值和文化意义——这种多维度的概念表征构成了人类认知的基石。

随着大语言模型的爆发式发展，一个问题浮出水面：这些大模型能否从语言和多模态数据中发展出类似人类的物体概念表征？

中国科学院自动化研究所与中国科学院脑科学与智能技术卓越创新中心的联合团队，结合行为实验与神经影像分析，首次证实多模态大语言模型（MLLMs）能够自发形成与人类高度相似的物体概念表征系统。

该研究不仅为人工智能认知科学开辟了新路径，更为构建类人认知结构的人工智能系统提供了理论框架。

01 从“机器识别”到“机器理解”

传统人工智能研究聚焦于物体识别准确率，鲜少探讨模型是否真正“理解”物体含义。研究团队指出：“当前AI能区分猫狗图片，但这种‘识别’与人类‘理解’猫狗的本质区别仍有待揭示。”

团队从认知神经科学经典理论出发，设计了一套融合计算建模、行为实验与脑科学的创新范式。

采用认知心理学经典的“三选一异类识别任务”（triplet odd-one-out），要求大模型与人类从物体概念三元组（来自1854种日常概念的任意组合）中选出最不相似的选项。团队通过分析470万次行为判断数据，首次构建了AI大模型的“概念地图”。

▲实验范式示意图。a，物体概念集及带有语言描述的图像示例。b-d，分别针对LLM、MLLM和人类的行为实验范式和概念嵌入空间。

02 AI与人类殊途同归

研究人员从海量大模型行为数据中提取出66个“心智维度”，并为这些维度赋予了语义标签。

研究发现，这些维度是高度可解释的，且与大脑类别选择区域（如处理面孔的FFA、处理场景的PPA、处理躯体的EBA）的神经活动模式显著相关。

研究还对比了多个模型在行为选择模式上与人类的一致性（Human consistency）。结果显示，多模态大模型在一致性方面表现更优。

此外，研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断，而大模型则倾向于依赖语义标签和抽象概念。

该研究表明大语言模型并非“随机鹦鹉”（AI说得很多，但它不知道自己在说什么），其内部存在着类似人类对现实世界概念的理解。

论文链接：https://www.nature.com/articles/s42256-025-01049-z

扫描下方二维码，关注浅说艺术

关注公众号

即时获知最新推送

休闲时刻

陶冶艺术情操

友情链接： 国家数据局中国科学院国家自然科学基金委员会中国工程院中国科学技术协会　中国社会科学院国家科学技术部国家工业和信息化部　国家发展改革委员会　国家农业部　国家教育部国家卫生健康委员会　中国农业科学院　国家知识产权局国家市场监度管理总局国家能源局国家科技管理信息系统公共服务平台国际欧亚科学院中国科学中心国际机器人联合会

地址：北京市海淀区翠微中里14号楼

京公网安备11010802045648号 ICP备案号：京ICP备15022117号

电子邮箱

密码