在开放科学生态建设中,科研成果和数据的可发现性、可复用性,越来越依赖高质量的元数据(Metadata)支撑。然而,当前全球范围内,许多科研机构和数据平台仍对商业数据库存在高度依赖,开放数据库如 OpenAlex 等虽已发展迅速,但仍存在准确性不足、人工整理成本高等瓶颈。
近日,来自法国高等教育与研究部(MESR)数据科学与工程团队的 Eric Jeangirard 发表论文“Works-magnet: Accelerating Metadata Curation for Open Science”,系统介绍了团队开发的 Works-magnet 开源工具,探索“人机协同”的新机制,提升开放科学元数据质量。
论文指出,法国自 2018 年发布《国家开放科学计划》以来,建立了包括“法国开放科学监测仪”在内的全国性监测体系,并自 2019 年起向高校和科研机构推广。但在实践中,机构层面普遍依赖如 Web of Science 等商业数据库,难以实现自主可控的开放监测,开放数据平台如 OpenAlex 也存在机构归属信息错误频发、人工干预成本高的问题。
例如,法国某些研究机构在 OpenAlex 中可能出现五种以上不同的归属记录,严重影响学术评价和开放科学政策制定的准确性。
Works-magnet:开放环境下的创新解决方案
Works-magnet 项目专门设计用于加速科学研究数据的质量提升,它代表了一个根本性的范式转变:从专有环境走向开放环境。
人机协作:让 AI 计算变得可见可纠正
Works-magnet 的创新之处在于将人类重新置于 AI 处理循环中。尽管各种第三方工具(包括机器学习和人工智能)在将机构名称匹配到研究机构注册表 ID 方面准确率达到 85%~95%,但这仍然不够完美。该平台通过以下方式解决这一问题:
(1)透明化 AI 处理过程:让自动化计算结果可见。
(2)简化人工纠正流程:使专家能够轻松发现和修正错误。
(3)开放成果共享:所有纠正后的数据都成为开放资源。
实际成果与挑战
截至目前,Works-magnet 已经处理了 71283 个纠正请求,其中很大一部分已经完成处理。这些纠正数据通过 GitHub 问题跟踪系统和开放数据集公开可用。尽管成果显著,Works-magnet 仍面临一些限制:
(1)技术挑战:依赖 GitHub API,OpenAlex 验证延迟可能导致错误积压。
(2)资源限制:项目几乎没有财政资助,人力资源不足 0.25 个全职当量。
(3)数据复杂性:原始署名数据不一致,需要多样化的策略处理。
未来展望:构建可持续的开放元数据生态
(1)互操作性增强:确保整理成果不仅开放,还具有互操作性,便于在不同环境中重复使用。
(2)AI 模型训练:不断增长和完善的数据集有潜力成为新 AI 模型的宝贵训练基础,可能减少对大量人工干预的依赖。
(3)集中化讨论:正在讨论将各种整理计划的成果集中化,创建权威的高质量开放研究元数据源。
意义与影响
Works-magnet 不仅仅是一个技术工具,更代表了一种新的协作模式:利用公共部门的专业知识、将个体努力转化为集体收益、推动整个科学界数据质量的提升。这个项目展示了如何通过开放、透明和协作的方式,有效解决开放科学时代的数据质量挑战,为全球科研数据管理提供了宝贵的借鉴经验。






