大型数据集可纠正AI在视觉任务中的偏见

来源:科技日报 | 作者:proac3c72 | 发布时间 :2025-11-09 | 272 次浏览: | 分享到:

据最新一期《自然》发表的研究，科学家建立了超过一万张人类图像的数据库，以评估并纠正人工智能（AI）模型在视觉领域存在的偏见。这一“公平的以人类为中心的图像基准”（FHIBE）由索尼AI开发，采用符合伦理手段获取、基于用户同意的数据集，可精确评估以人为中心的计算机视觉任务，从而识别、纠正偏见和刻板印象。团队认为，这是迈向更可信AI的重要一步。

计算机视觉广泛应用于自动驾驶车辆、面部识别等技术领域。许多计算机视觉使用的AI模型，其训练数据存在缺陷，可能未经同意收集，经常来自网络大规模图像抓取。人们也发现，AI模型可能会反映出延续性别歧视、种族歧视或其他刻板印象的偏见。

此次，研究团队构建了一个图像数据集，在同意机制、多样性和隐私等多方面采取了最佳实践。FHIBE包含81个国家和地区中1981名个体的10318张图像。该数据库包括了人口统计和生理特征的全面标注，包括年龄、代词类别、祖先血统、发色与肤色等。参与者获得了关于项目和潜在风险的详细信息，帮助他们做出知情同意，过程符合全面数据保护法规。这些特征使该数据库成为评估AI偏见的可靠资源。

团队将FHIBE和27个现有以人类为中心的计算机视觉应用数据集做了比较，发现FHIBE数据集在多样性与AI评估的可靠同意方面标准更高。它还有效减少了偏见，包含的参与者自我申报标注信息超过其他数据集，还包括了相当比例通常代表性不足的人群。该数据集可用于评估现有的AI模型在计算机视觉任务中的表现，能揭示更多此前无法了解的偏见。

不过，团队也承认，目前创建数据集的过程充满挑战且成本十分高昂。

【总编辑圈点】

本报近期推出了多篇关于AI易出现偏差与其尚不可靠的相关报道。本文的这项研究，则是一次对AI伦理建设具有标杆意义的实践。它最核心的价值在于，将“公平”这一抽象原则，转化为一套可操作、可验证的技术标准与工作流程。AI的偏见已经是行业顽疾，但现在可能有了一把标准量尺，使得量化评估与比较不同模型的公平性成为可能，这将直接推动算法的研发与优化。尽管其高昂成本提示了推广的难度，但这一探索本身，正是推动AI从单纯追求性能强大，转向值得人类托付之伙伴的关键点。（记者张梦然）

上一篇：丘成桐：创新，北京要......

下一篇：医疗AI有了“评审员......

扫描下方二维码，关注浅说艺术

关注公众号

即时获知最新推送

休闲时刻

陶冶艺术情操

友情链接： 国家数据局中国科学院国家自然科学基金委员会中国工程院中国科学技术协会　中国社会科学院国家科学技术部国家工业和信息化部　国家发展改革委员会　国家农业部　国家教育部国家卫生健康委员会　中国农业科学院　国家知识产权局国家市场监度管理总局国家能源局国家科技管理信息系统公共服务平台国际欧亚科学院中国科学中心国际机器人联合会

地址：北京市海淀区翠微中里14号楼

京公网安备11010802045648号 ICP备案号：京ICP备15022117号

电子邮箱

密码