用例:科学数据集的参引

From Semantic Web Standards

【原文链接】:

http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Citation_of_Scientific_Datasets

【点评】本用例试图利用关联数据技术将期刊文章中的参引数据无限关联,实现作者、文章、单位及合作者之间关系关联,帮助发现更多潜在信息。可以说应用前景是非常好的,目前的应用还存在一些困难,涉及到不同社团之间的合作,标识符的使用(不少文章还是通过传统的获取代码标识),术语的统一等问题,此外还有数据的版权问题,可以说实现数据的关联,技术上不是问题,但是数据开放的法律问题值得关注。

一、用例名称:科学数据集参引用例

二、用例拥有者:Monica Duke


三、背景及目前状况:

在某些学科领域存在一种趋势,这种趋势就是提供期刊出版物的研究数据,这些数据可以按照期刊类别存储和整合,或者存储在其本来存在的特定学科数据库里。但目前还没有可用的参引这些现存数据的方法,例如,在某些学科(如生物信息学)社团仍是通过获取代码作为标识符从众所周知的数据库中获取数据。此外,由于目前没有广泛认同的关联数据的方法,这些关联数据可以是关联其参引的出版物的,可以是关联数据贡献者的,但是还有一种情况,若是出版物是多个作者合作完成研究的,而个人作用没有明确说明的。

在使得参引数据更加明确后,数据的获取会更加容易,支持重用,或者易于核实;其次加强了贡献者和数据之间(或者其他研究者)的关联,目的是分配彼此之间应有的功能角色。

SageCite项目特别之处是和Sage Bionetworks共同协作,与两个出版者(Nature Genetics and PloS)合作,引用预测疾病的模型。图书馆慢慢地也被认为是潜在数据整合者[Borgman]。


四、目标

  1. 出版物中参引的数据可以被标识、描述、获取、同贡献者关联。
  2. 关联数据技术,可以提供关于如何指定标识符,如果通过词汇关联数据、描述、出版物及贡献者。


五、目标用户

  • 出版者
  • 数据存储库
  • 图书馆
  • 研究者
  • 慈善基金社团
  • 服务提供者(如标识符服务、名誉系统(reputation systems))

六、用例情景描述

1人类用户

研究者想检查基因表达和蛋白质-蛋白质相互作用的数据,这些数据是预测模型用来预测复杂生物系统行为的。研究者可以获取数据使用情况的描述,如试验数据的来源(协议和品牌)、贡献者、日期以及可重用数据或者可重新运作的程序。研究者希望发现同一贡献者提供的其他同类型的数据,同时也希望发现基于该数据贡献者参与合作的文章及其他使用该数据的报道试验的文章。

2信誉系统

一所大学想建立信誉系统,展示其涉及的研究者共享数据的程度。系统将会追踪其成员开放的数据,文章展示的信息。该文章可能是基于某些数据(或者由试验而得)发布的,这些数据是数据贡献者或者其他人提供的,并且为每个研究者展示了数据重用等级评估,提供其他人给予数据的评价,或者其他外部系统给予贡献者的评估(如学科存储库或者期刊系统)。


七、用例中关联数据应用

关联数据为创建URLs标识数据、贡献者、出版者或者其他系统及描述他们之间的关系提供技术指导。可以实现分布式方法跨系统管理,实现数据创建或者存储的推理(如期刊系统、大学系统包括大学图书馆、学科存储库)。自动系统应该可以抽取数据计credit,特别是为关于同一人的主题建立关联关系。人类用户应该能够通过出版物导航浏览描述的数据,并且获取数据。


八、现有工作(可选)

  • The W3C HCLSIG
  • ORCID意在为每个研究者指定唯一的标识符
  • DOIs出版者使用的标识符系统,提升数据的标识,以DataCite为例。
  • EZID 不可知论系统(agnostic system)的标识
  • GBIF 开始致力于数据引用研究


九、相关词汇(可选)

  • OPM
  • BIBO
  • CITO


十、问题及限制

目前这种应用存在一些挑战。首先它跨多个社团,因此强调同其他团体和标准制定者之间加强沟通。需要了解其他团体开发选择应用所需的词汇数量,以及哪些可以彼此关联,以及如何关联。例如(这一挑战和图书馆社团密切相关)跨界的人物标识问题,一个人可能有不同的角色,可以是作者、单位雇佣的研究者、数据贡献者。ORCID活动致力于研究者标识,如应用情景描述所述,标识符被重用或者与其他系统关联,如被期刊利用,FOAF实例、机构系统、数据存储库。作者或者贡献者可以使用跨词汇集的不同术语标识如: dc:author 或者 dc:contributor.。然而目前还没广泛接受的一致认同的词汇描述贡献者(data producer, reviewer, author). 另外一个挑战是,一些使用的标识符被批评为不是网络实体('of the web')。其他一些标识符(如数据的获取代码)试图和数据库一起协作,尽管他们利用API (有时使用RESTFUL 方式) 实现数据关联,但是这并不完全遵守标识符的原则。


十一、相关用例及不可预期的使用(可选)

十二、图书馆关联数据维度/主题

用户需求

  • 浏览 / 利用 / 选择
  • 检索 / 发现
  • 标识
  • 访问 / 获取
  • 整合 / 基本文本背景的研究
  • 附加信息 / 注释 / 评价
  • 出版参引,如RDF三元组中参引最佳实践,关联数据中标识符的使用。

传统标识符的重用及URL化 域名政策 标识符的使用

HTTP URIs, DOIs, handles, ARKs, shorteners, hash, slash, 303 redirects, PURLs 社团建设、教育及推广

向其他社团推广(档案、博物馆、出版社、the Web) 作为使用请求的参引

有些人试图应用数据的版权证书(如共享协议 (Creative Commons)这意味着参引不光是一个好的理念,更是一个法律请求。(not clear this will stick since data is usually interpreted as not protectable by copyright law.)

开放获取数据应用协议( Protocol for Implementing Open Access Data )视参引为正常,但是不太合法的使用请求 十三、参考文献 (可选)

[Borgman] Borgman, Christine Research Data: Who Will Share What, with Whom, When, and Why?" http://works.bepress.com/borgman/238/

参见

Current citation tracking tools don't generally work for dataset citations.


回到: 图书馆关联数据用例解读目录 LLD Use Cases Chinese Shepherd http://www.w3.org/2001/sw/wiki/LLD_Use_Cases_Chinese_Shepherd