法国高等教育与研究部团队发布 Works-magnet：加速开放科学元数据整理的开源工具

学术资讯

2025-06-29 来源：GoOA 头条公众号

在开放科学生态建设中，科研成果和数据的可发现性、可复用性，越来越依赖高质量的元数据（Metadata）支撑。然而，当前全球范围内，许多科研机构和数据平台仍对商业数据库存在高度依赖，开放数据库如 OpenAlex 等虽已发展迅速，但仍存在准确性不足、人工整理成本高等瓶颈。

近日，来自法国高等教育与研究部（MESR）数据科学与工程团队的 Eric Jeangirard 发表论文“Works-magnet: Accelerating Metadata Curation for Open Science”，系统介绍了团队开发的 Works-magnet 开源工具，探索“人机协同”的新机制，提升开放科学元数据质量。

论文指出，法国自 2018 年发布《国家开放科学计划》以来，建立了包括“法国开放科学监测仪”在内的全国性监测体系，并自 2019 年起向高校和科研机构推广。但在实践中，机构层面普遍依赖如 Web of Science 等商业数据库，难以实现自主可控的开放监测，开放数据平台如 OpenAlex 也存在机构归属信息错误频发、人工干预成本高的问题。

例如，法国某些研究机构在 OpenAlex 中可能出现五种以上不同的归属记录，严重影响学术评价和开放科学政策制定的准确性。

Works-magnet：开放环境下的创新解决方案

Works-magnet 项目专门设计用于加速科学研究数据的质量提升，它代表了一个根本性的范式转变：从专有环境走向开放环境。

人机协作：让 AI 计算变得可见可纠正

Works-magnet 的创新之处在于将人类重新置于 AI 处理循环中。尽管各种第三方工具（包括机器学习和人工智能）在将机构名称匹配到研究机构注册表 ID 方面准确率达到 85%~95%，但这仍然不够完美。该平台通过以下方式解决这一问题：

（1）透明化 AI 处理过程：让自动化计算结果可见。

（2）简化人工纠正流程：使专家能够轻松发现和修正错误。

（3）开放成果共享：所有纠正后的数据都成为开放资源。

实际成果与挑战

截至目前，Works-magnet 已经处理了 71283 个纠正请求，其中很大一部分已经完成处理。这些纠正数据通过 GitHub 问题跟踪系统和开放数据集公开可用。尽管成果显著，Works-magnet 仍面临一些限制：

（1）技术挑战：依赖 GitHub API，OpenAlex 验证延迟可能导致错误积压。

（2）资源限制：项目几乎没有财政资助，人力资源不足 0.25 个全职当量。

（3）数据复杂性：原始署名数据不一致，需要多样化的策略处理。

未来展望：构建可持续的开放元数据生态

（1）互操作性增强：确保整理成果不仅开放，还具有互操作性，便于在不同环境中重复使用。

（2）AI 模型训练：不断增长和完善的数据集有潜力成为新 AI 模型的宝贵训练基础，可能减少对大量人工干预的依赖。

（3）集中化讨论：正在讨论将各种整理计划的成果集中化，创建权威的高质量开放研究元数据源。

意义与影响

Works-magnet 不仅仅是一个技术工具，更代表了一种新的协作模式：利用公共部门的专业知识、将个体努力转化为集体收益、推动整个科学界数据质量的提升。这个项目展示了如何通过开放、透明和协作的方式，有效解决开放科学时代的数据质量挑战，为全球科研数据管理提供了宝贵的借鉴经验。

发布人

文献数

资讯数