LLD Final Report Chinese Translation

From Semantic Web Standards

图书馆关联数据孵化小组最终报告

译者:娄秀明 同济大学图书馆

感谢范炜\邹庆\曾蕾对译文提出的修订建议。


原文名:Library Linked Data Incubator Group Final Report

W3C Incubator Group Report 25 October 2011

当前版本:http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

最新版本:http://www.w3.org/2005/Incubator/lld/XGR-lld/

作者:

  • Thomas Baker, 都柏林核心元数据先导 , 美国 (W3C 特邀专家)
  • Emmanuelle Bermès, 蓬皮杜中心, 法国 (W3C 特邀专家)
  • Karen Coyle, 美国图书馆协会, US (W3C 特邀专家)
  • Gordon Dunsire, 美国图书馆协会, UK (W3C特邀专家)
  • Antoine Isaac, 欧盟和阿姆斯特丹自由大学, 荷兰
  • Peter Murray, LYRASIS, 美国 (W3C 特邀专家)
  • Michael Panzer, OCLC, 美国
  • Jodi Schneider,爱尔兰高威国立大学,爱尔兰,高威
  • Ross Singer, Talis 公司, 英国
  • Ed Summers, 美国国会图书馆, 美国
  • William Waites, 爱丁堡大学 (信息学院), 英国
  • Jeff Young, OCLC,美国
  • Marcia Zeng, 肯特州立大学, 美国 (W3C 特邀专家)


摘要

2010年5月至2011年8月W3C图书馆关联数据孵化小组(W3C Library Linked Data Incubator Group)获得认可期间,定义自己的使命是“通过带动更多的人参与语义网活动--特别是关注图书馆及相关领域关联数据活动,应用现有的先导活动,确定未来合作发展的轨迹,以此促进图书馆数据在万维网上的互操作”。在关联数据LINKEDDATA中,数据的表达采用统一标准,包括用于描述事物之间的关系的资源描述框架(RDF)和统一资源标识符(URIs, 或者"网址")等标准。图书馆关联数据孵化小组的最终报告考察如何应用语义网标准及关联数据原则来让图书馆所生产和管理的有价值的数据财产(如书目数据、规范文档、概念词表等)在互联网中更加瞩目并能被外界所重用。

图书馆关联数据孵化小组的最终报告,以从事的关联数据的相关活动报告为出发点,这些活动有小型独立项目及国家图书馆先导计划组成(见独立报告,图书馆关联数据孵化小组: 用例集),这些用例为报告的总结提供了很好的出发点,如报告中关于图书馆关联数据的优点;关于传统图书馆数据的讨论;关于图书馆关联数据现状;关于图书馆数据的版权问题;关于建议等部分都是建立在用例的分析基础上。报告还总结了当前关联数据技术调研结果以及目前可用的图书馆关联数据资源。(参加详细报告,图书馆关联数据孵化小组: 数据集、属性值词汇和元数据元素集)。

报告的主要建议:

  • 图书馆领导,要尽可能早的确定图书馆可用开发利用的关联数据,要促进关于开放数据和版权的讨论;
  • 制定图书馆标准的机构,要积极参与制定语义网中关于图书馆领域的标准,制定出使图书馆数据符合关联数据的标准,宣传推广符合图书馆关联数据的最佳实践设计模型;
  • 数据和系统设计者,要在关联数据基础上提升用户服务,为图书馆的款目创建URIs,制定管理RDF词汇和URIs的策略,通过重用和对已有关联数据词汇的映射,描述本图书馆的数据;
  • 图书馆馆及档案管理员等专业人士,要保存和管理好图书馆关联数据元素和属性值词汇,吸收应用图书馆在长期保存和维护关联数据数据集方面的经验。

文档概况

此部分介绍了该文档发布时的情况,该文档也可能会被其他文档取代。LLD最终列表的获取,详见W3C技术报告索引(http://www.w3.org/TR/)。该文档由图书馆关联数据孵化小组(Library Linked Data Incubator Group)制定。

该报告作为W3C孵化活动成果的一部分而由W3C发布并不等于该文档由W3C认可,也不等于说W3C将投入资源以解决由该文档所提出的问题。参与孵化小组及发布孵化小组报告对W3C的成员都是有益的。

孵化小组的目的是生产能在免税基础上被应用的产品,这正如W3C专利政策(W3C Patent Policy)所定义的。孵化小组的参与者均同意根据W3C专利政策许可协议而提供许可,即允许W3C今后在某W3C推荐文件(W3C Recommendation)中采用孵化小组报告的部分内容。

欢迎通过公开邮件列表(public-lld@w3.org)archive对本文档提出评论。

本报告的范围

图书馆关联数据,可做如下理解:

图书馆:广泛的定义包括图书馆、博物馆、档案馆等文化机构。图书馆这一术语包含3个不同但又相关的概念:馆藏文献(包括数字文献,可以是任何类型的资源)、场所(文献的所在地)、管理者(负责文献和场所的管理)。

图书馆数据:指图书馆中为描述及检索信息资源所产的数字化信息,受图书馆隐私政策保护的信息一般不在范围内。本报告根据数据的使用性能将其分为三类:数据集、元素集和属性值词汇(参见附录A)。

关联数据:根据关联数据的原则,提供一种数据发布的技术。关联数据技术的应用是为了方便实现数据集、元素集及词汇集之间的关联LINKEDDATA。关联数据使用URI作为唯一标识符标识任何类型的资源,类似于传统图书馆领域如何用于规范控制的标识符。在关联数据中,URIs可能是国际化的资源标识符Internationalized Resource Identifiers (IRIs),也就是说,网址(Web addresses)使用受Unicode支持的可扩展的自然语言脚本。关联数据技术使用统一标准描述数据RDF,可以明确各实体之间的关系;各实体之间的关系可以用于跨数据来源的资源导航和集成。

开放数据:关联数据指的是实现技术上的数据互操作。开放数据关注的是法律层面的互操作。根据开放的书目数据(Open Bibliographic Data)的定义,开放数据其本质是可自由使用、重用、传播—–最起码可以根据需要进行资源重组和共享。值得注意的是关联数据技术本身并不要求将数据开放,但是该技术的魅力是最大程度的意识到何时该将数据发布为关联的开放的数据。

图书馆关联数据:图书馆馆中任何用关联数据技术描述的图书馆数据。

关联数据方法优势所在

在创建数据和传递数据方面关联数据技术比现行的技术具有很大优势,关联数据技术扩展了图书馆以前使用的共享模型。关联数据特别是关联的、开放的数据是可共享的可扩展和容易重用的。在数据和用户服务方面,关联数据具有支持多语言功能,概念的多语言标签通过语言无关的URIs标识,以上这些特性是关联数据与生俱来的,并且也是受到数据和概念标识符所支持的。利用关联数据技术各个机构可以合作对资源进行描述,也可以参引其他机构或者个人对资源进行描述的数据。这与当前的文档互连相似,关联数据技术允许任何人或者机构贡献自己专业数据资源,并且允许其他专业机构重用和资源重组。标识符的使用达到不同的描述同时指同一实体的效果,与可信资源的富链接,使得图书馆的数据价值远远大于其原来本身的数据价值。

用统一资源标识符标识作品、地点、人物、事件、主题或者相关概念,利用标识符图书馆的资源可以跨领域的得到广泛的参引,图书馆描述性元数据可以被广泛获取。互联网的域名系统将标识符置于所属关系明确规范,得到良好维护的环境中,这保证了资源标识符的稳定性、可信性和可持续性,这和图书馆的长期保存文化资源的使命是一致的。图书馆和档案馆在为文化事业长期保存可信的元数据中起着独一无二的作用,如同数据在Web中的重要性。

重用标识符另一大优势是数据发布者可以将发布的数据信息的部分信息作为“声明”信息。在当前的文档系统中,数据的交换总是以整条记录的形式进行的,每条记录都视为是一个完整的描述,而在图示化的系统里(译者理解:RDF三元组图示),每个机构都可以为资源提供单个”声明”信息,所有关于某一特定标识资源的”声明”都可以整合到一张图示中(译者理解:整合到RDF中),例如,某图书馆为某资源提供了国家书目控制号,而其他机构可能提供了翻译题名,关于该资源描述就可以进行整合。图书馆服务从外部资源获取以上这些“声明”信息,就向图书馆从书的封面题名中获取信息一样。

在关联数据系统,不因善小而不为,一个小小的属性可能都是一个发现一个潜在资源的重要关联。关键实体通过关联数据实现共享,通过对关键实体的明确标识,关于主题和名称的图书馆规范数据,可以减少馆藏元数据描述的冗余。

对研究者、学生、用户的益处

当关联数据被应用时,图书馆和文化服务机构的用户可能还没有注意到,因为这些变化在潜移默化中。但当潜在的结构化数据变成富链接时,用户才可能意识到发现和使用潜在信息资源的能力提高了,跨图书馆及非图书馆资源的导航变的更加成熟完善。利用索引扩展产生的关联可以提高跨库检索水平,为用户可供了更为丰富的浏览途径。

关联数据建立在Web定义的特性之上:从无缝的信息空间抓取浏览链接(URIs),所有的网页和网站就像是一个整体呈现给用户或者应用程序,所有使用URIs和RDF描述的数据集就像一个无限关联的RDF图,用户和应用程序通过解析URI链接实现无缝浏览。关联数据对图书馆用户的价值源于这种基本的导航原则。图书馆和非图书馆(如Wikipedia, GeoNames, MusicBrainz, the BBC, 和 The New York Times)之间关联服务可以将本地资源集整合到更大的信息空间中。

关联数据不是创建一个不同的Web,而是通过结构化数据的增加提高Web的性能。这些结构化的数据,可以通过RDFa和微数据(Microdata)描述,这在搜索引擎和社会化网络中的爬行算法及相关度逻辑算法中起着重要作用,通过搜索引擎优化(Search Engine Optimization,SEO)为图书馆提高搜索引擎中的排名提供了一种方法。把结构化的数据嵌入到HTML网页中方便信息搜索者重用图书馆数据,在管理“参引”数据时就如剪切和复制URIs一样简单。网络资源和图书馆资源之间创建数据的关联,实现关联数据之间的索引检索的自动化,这意味着图书馆的数据完全整合到了研究性文档或者书目数据中。再者,利用关联数据技术建立了多个专业领域之间关联,丰富了知识信息利用跨学科研究。

将已存在的图书馆数据转换成关联数据只是第一步,论文中介绍的实验使用的数据集及作者处理数据使用的模型也可以发布成关联数据。论文、数据集及模型的阐述使用合适的词汇及形式化表达,可以很容易的被其他应用不同模型具有不同目的的研究者复制和重用。如果被采用,该实践可以提高研究的严谨性,使得研究报告的整体评价更容易得到同行的认可。

参见,Use Case: Enhanced Publication

对机构的益处

通过这种自下而上发布数据的方法,关联数据技术为文化机构(包括图书馆)提供了改善描述资源的机会,提高了价值地位。过去采用自上而下的方式描述图书馆数据—例如图书馆的书目记录作为一个独立的整体,因为先前的限制,图书馆的资源不能产生高粒度的信息。有了关联数据技术,同一资源可以以分散的方式有不同的责任者提供不同类型的描述数据,而这些数据可以整合在一起。

关联数据技术可以帮助机构提高内部数据的整合过程,更好的维护数字对象及其描述记录之间的关联。即使机构内部的数据没有完全开放,关联数据技术也可以提高机构内部数据的发布过程。目前的图书馆技术一般专指图书馆的数据格式,一般由图书馆集成系统商提供给图书馆,图书馆一般还是使用主流方法管理关联数据。若是图书馆采用主流的关联数据技术将给图书馆更多的选择供应商的机会,采用关联数据格式图书馆将会获取更多与开发者交流的机会。关联数据的第一步是走向基于云的方式管理文化信息,这可能比之前封闭系统节省很多成本,将会让各个机构看到降低了基础设施成本的利好现象。

在开放的数据环境中,图书馆提高了在网络中的知名度,被更多的信息检索者所发现。对标识符的关注,使得描述可以被一些机构(如为博物馆、档案馆、美术馆以及视听档案馆)追踪,可以说开放数据提供更多的是机会而不是威胁。在开放许可条件明确的情况下,描述性元数据更易于重用,更易于提高机构的知名度。

对图书馆管理者、档案管理者、博物馆管理者的益处

对用户和机构的影响将也直接影响着图书馆和博物馆的专业人员。利用关联数据技术,图书馆创建了开放的、全局性的可共享的数据,这些数据可被重用描述资源,这减轻了当前的编目流程。

标识符的使用,使得更新的资源立即可以获取,这样编目员就可以重用这些资源。标识符的使用,编目员跨越本地库从其他文献数据库甚至从网络上将关于某一资源的信息整合一起,这样他们就可以将更多的精力投入到他们自己的专业领域,而不用重复创建已在其他机构库里的资源描述了。

历史证明所有的技术都是过渡性的,每一阶段性的信息技术表明了某一专门的数据格式都是有寿命的。关联数据描述的数据(包含语义),不受限于数据格式(语法或者格式),因为这点保证了关联数据不会被格式的变化所淘汰。从某种意义上说,关联数据比元数据格式更长寿更强大,因为元数据格式依赖于特定的数据结构。

对开发者和供应商的益处

图书馆开发者和供应商将直接从不在受限于图书馆特定数据格式中获益。关联数据使用众所周知的Web协议标准(如HTTP协议),替代图书馆核心协议(如Z39.50信息检索协议),为数据提供者提供了一致方法,支持数据的检索和混搭。

开发者不用再去管数据的格式是ISO2709还是MARC(这些通常都有相对的软件工具和应用程序),而关联数据以机器可理解的方式发布数据。在非图书馆的供应商还在用常用的产品满足图书馆特殊需求时,图书馆供应商可能已经利用关联数据技术将会为自己的产品开拓更广的市场。利用RDF和HTTP,图书馆开发者摆脱了针对特殊数据格式开发特殊应用程序的苦恼,通过一般开源软件就可以满足开发需要,开发者发现利用顶层的数据更易于建立新的服务,此外,关联数据技术为图书馆开发人员提供了一个更大的活动空间,加强开发者之间的交流。 在RDF的海洋中,没用一个开发者处于孤岛上。

当前形势

传统图书馆数据存在的问题

图书馆数据没有和网络资源整合在一起

目前图书馆的数据存储在数据库中,虽然有检索界面,但是没有与网络上其他数据资源整合。其实有相当多的书目数据和网络上其他类型的资源,可以在日期、地理信息、人物、机构等方面建立共享数据的节点。在未来的关联数据环境中,这些相关节点是可以互连的。

图书馆的标准只为图书馆行业制定的

很多标准如MARC或者信息检索协议Z39.50,都是针对图书馆领域开发的。图书馆领域的标准都是关注图书馆领域的主体执行制定的,如国际图联IFLA(International Federation of Library Associations and Institutions)或者JSC(RDA发展联合指导委员会Joint Steering Committee for Development of RDA)。通过扩大其标准化范围,加强同关联数据标准活动的联系,这些主体可以扩大其标准的相关性和应用性,这些标准一般用于数据创建和使用。

图书馆的数据主要采用自然语言文本所表述

图书馆数据中的大多信息都是用面向显示的自然语言文本编码的。MARC记录中的一些字段用代码值,如定长字符中描述语言的,但是没有明确的所有字段包括代码值的动机,因此图书馆系统中大多没有使用代码字段。MARC记录携带的标识符,如ISBNs原则上是可以用来作为关联节点的,前提是将他们从被嵌入的文本字段中提取进行规范化处理。

在独立的文档中一些数据字段(如主题控制和名称规范)是有关联记录,这些记录的标识符可以用来描述图书馆元数据中的实体的。但是图书馆目前的数据格式不支持记录中包括这些标识符,因此大多数图书馆系统目前不支持他们的应用。再者,那些标识符目前倾向于本地而不是全局的,因此其不能像URIs那样在网络上进行关联。图书馆系统在关联方面的不足和缺失是一个重要的问题。规范显示变化要求所有相关记录能被检索到,为此应该改变文本字符串,但这是一个颠覆性和花费昂贵的过程,图书馆往往不能及时实施更新。

图书馆界和语义网界对相似的元数据概念往往有不同的术语

图书馆关联数据活动的开展还可能因为图书馆和语义网社团在概念和术语方面的差异而受阻。图书馆馆员不熟悉"RDF陈述(statement)",而语义网领域对于"标目"和"规范控制"也缺乏明确对应的概念。每个社团都有自己的专业术语,这反映了观点差异。在数据网的建设中所有的社团对重要的专业知识应该相互理解。

图书馆技术的改变依赖于系统供应商的开发

图书馆的专业技术集中体现在少数的图书馆系统和软件供应商,供应商提供的软件和系统支撑图书馆的管理,如:采访、用户数据和流通及用户检索服务等。这意味着图书馆若是想大规模的应用关联数据技术,往往依赖于图书馆系统供应商的技术发展规划,而不是靠自身。

图书馆关联数据目前的可用情况

图书馆关联数据技术的成功与否依赖于参与者在标识、重用或者与可用关联数据源的关联的能力。然而,到目前为止,对可作为关联数据的图书馆数据集和词汇还很难有个全局性的概括。关联数据孵化小组列出一个可作为图书馆关联数据的资源目录(见附录A),总的来说,有以下几点情况。

与属性值词汇和元数据集相比,书目数据集作为关联数据发布的很少

在过去的几年中,有很多元数据元素集合属性值词汇作为关联数据发布出来,其中有标杆影响的是美国国会主题词表(Library of Congress Subject Headings)和杜威十进制分类法(Dewey Decimal Classification)。重要元素集如都柏林核心元数据(DCMI Metadata Terms)、FRBR(书目记录功能需求,Functional Requirements for Bibliographic Records)已以关联数据或者与关联数据兼容的形式发布。

相比较,目前书目数据以关联数据形式发布的很少,期刊文章的元数据、引用或者流通数据,可以无缝整合和有效利用的元数据较少。先导计划如英国国会书目展示的发布(the release of the British National Bibliography)揭示了目前努力存在的挑战(如授权、数据模型、遗留数据处理与多用户社区协作),然而,其也展示了书目数据作为关联数据的可观效益。随着社团相关经验的增加,作为关联数据发布的数据集会越来越多。

可用数据的质量和支持各异

现有资源的稳定性及质量良莠不齐。现有的资源多是现行项目的成果,都是描述自己项目的原型,都不是成熟的产品。的确,大量这样的努力是标明图书馆围绕关联数据的各种活动以及对关联数据的关注,彰显了关联数据所支持的快速模型和敏捷开发的过程。与此同时,对这种创造性、动态性的不断演进的努力的需求是与对长期稳定和可用的图书馆关联数据资源的需求相平衡的。

越来越多的机构(如:瑞典国家图书馆、匈牙利国家图书馆、德国国家图书馆、法国国家图书馆、美国国会图书馆、大英图书馆、世界粮农组织、OCLC等)致力于关联数据项目研究令人鼓舞,这些机构为图书馆关联数据的发展提供了稳定的基础。

跨数据集的关联已经开始,但是还需要进一步的合作和努力

跨数据集的链接彰显了关联数据的优势所在,同时也是关联数据技术成功的关键。根据清单(见附录A),显示已发布取值词汇之间可以创建多个语义链接,也可以解决图书馆各种规范资源之间的冗余问题,为此需要更多数据集之间和元数据元素之间建立关联,用于描述结构化的关联数据,但目前关键的瓶颈是确定对词汇的长期支持维护,词汇开发者之间缺乏沟通、缺乏降低开发大量所需语义链接成本的成熟工具。为了方便参与者共享知识,因在创建和产生相关关联方面做出更多努力(见附录C)。

权限问题

权限拥有关系比较复杂

图书馆数据的使用严格按照当地政策、合同和相关条例。数据若是存在不明确和未经验证的版权问题,就会阻碍数据的开放。权利问题各国都有差异,这使得在开放数据合作发布上存在困难。

在过去的五十年图书馆书目记录的共享的版权问题就很复杂。记录经常被复制,复制到本地后又进行修改。这些记录又可能重新聚合成地区、国家或者国际联合目录。在各个代理及机构之间分配合法知识产权是困难的,缺乏确定性阻碍了社团数据的共享,这些社团需要在法律方面比如审查制度、数据保密、和保护方面谨慎思考。

数据版权可视为商业财富

若是图书馆数据从来没有与其他机构共享过,其版权仅为代理机构所有,在他们的商业计划中可能将他们的记录视为财富,不情愿将他们的数据发布成关联开放的数据。 【缺】

建议

图书馆应该融入到互联网中,将自己的数据以关联数据的形式发布到网上供大家使用(走出去),同时也可以将网络上的信息拿来用(拿来主义)。理想的情况,是将图书馆的数据同网上其它资源进行整合,提高图书馆的知名度,同时也将图书馆的服务提供给信息检索者。从事关联数据活动,图书馆应该利用图书馆在传统价值(管理、描述资源、满足用户需求的基础作用)上发挥领导作用。

对图书馆的领导

尽早确定哪些数据集可以作为关联数据形式发布

应该尽早确定高优先级、低成本的关联数据项目。就其性质而言,关联数据以一种渐进的方式将数据网络化。图书馆的数据环境比较复杂,试图将这种复杂的数据一次性实现关联数据成功性是有限的,然而,也有一些图书馆在没有破坏现有系统和服务的情况下,将自己的数据资源(如规范文档和术语列表)发布为关联数据。这种低门槛的的标识使得图书馆在不改变工作流程的前提下,扩大图书馆在关联数据云中的出现频率。

促成在开放数据和版权方面的讨论

数据版权的定义,版权所有者必须要考虑到限制使用的影响,复杂的限制会制约数据在关联数据环境中的重用。从某种意义上讲,图书馆领导要在图书馆联盟、国家或者国际范围内与作者协商版权和许可协议(参见英国高等教育图书馆开放书目数据指南(Open Bibliographic Data Guide)中的版权与许可协议(Rights and Licensing)章节)。

对标准制定者及参与者的建议

增加图书馆对语义网标准化的参与

如果语义网标准不支持图书馆数据具有丰富语义的转换,标准就应该扩展,如,SKOS(将知识组织系统发布为关联数据的一种标准)不包含先组式主题的描述机制,执行者应该考虑解决方案,扩展其基本元素,使用OWL网络本体语言。为了确保关联数据的消费者能够理解这种新的结构,执行者应该与语义网社团协作确保这种解决方案和目前的最佳实践兼容,并且可以在图书馆以外的环境中得到最大化的应用。通过参加技术工作组或者参加公开审查活动,图书馆界的成员应该致力于与图书馆相关的标准活动中,如W3C致力于RDF的扩展满足“provenance”(溯源)的要求。W3C各个社团在标准活动中起着重要作用。

开发与关联数据兼容的图书馆数据标准

从根本上讲,语义网技术下数据的概念化与二十世纪数据格式形式下得概念化不同。关联数据主要特征是包含语义,实体之间的关系含有语义,而传统图书馆的数据格式,数据的语义和结构化的代码集成在一个数据包中,这导致了数据格式和数据语义不可分割,缺乏灵活性。自从20世纪60年代引进MARC格式,图书馆的数字化数据主要以“记录”为单元进行管理,数据捆绑在一起。关联数据,与之相反,结构化的数据好似图表,其结构原则上是非捆绑式的。两种不同的方式意味着图书馆数据集转换成关联数据是不同的,必须按照与数据设计新原则的相关知识执行。今后,在图书馆数据利用本体和结构化词汇的活动中,需要参考最佳实践文档和指导参与者的秘籍。

为图书馆的关联数据量身定做和宣传最佳实践模式

设计模式可以建立在前人的经验上。传统的编目实践就是建立了前人的模式和最佳案例基础上,最佳实践在关联数据领域同样适用,例如, 《关联数据:Web演化成全球数据空间》《关联数据模式》为社团实践提供了共享模式方法及使用词汇描述特定资源时的限制条件。应用纲要为社团实践提供了共享模式方法及使用词汇描述特定资源时的限制条件。需要怎样的设计模式需要根据图书馆关联数据的需求。这种设计模式能够满足开发者的需求,这些开发者对贯穿模式和实例技术都很了解的,与此同时,也增加了图书馆关联数据整体的一致性。

对数据和系统设计者的建议

基于关联数据的性能设计和测试用户服务

关联数据最终可能导致新的及更好的用户服务,同时可能让实施者利用图书馆数据在图书馆之外开发新的应用和服务。可能太早而不能预测什么类型的服务会为信息发现和使用而开发。为了探讨潜在的用例和发现未来信息服务的方向,利用图书馆关联数据实验性的开发服务应该执行。

为图书馆数据集中的款目创建URIs

图书馆中的资源和标准概念若是没有用URIs标识,是不能在关联数据环境下使用的。资源和标准概念的所属者应该尽早的为其分配URIs,因为应用开发者和其他用户不会推迟自己的活动,他们可能会自己制定URIs,而不使所属者的。为了避免同一实体有多个URIs,及鼓励已分配的URIs被重用,当所属者没有及时分配URIs时,其应该寻求合作者或者转让或者委托他人维护URIs。一些机构(如国家书目)对编目记录和其他元数据的创建负有责任,应该在资源描述创建URIs方面其主导作用。

制定管理关联数据词汇及其URIs的策略

机构或个人为资源和标准概念创建和维护URIs,倘若能制定域名策略,他们将会从中获益。域名策略保证了URIs得一致性、稳定性,提高了效率和效果。策略如下:

  • 使用URIs定制模式,最好是基本最佳实践指导
  • 保证URIs的持久性
  • 词汇和款目的版本控制
  • 使用HTTP URIs超文本传输协议,任何Web浏览器都支持,而且任何网页或者机器可读的陈述都能解决
  • 其他机构的词汇可以扩展
  • 可以将标签或者注释转换成其他语言

通过重用词汇及建立与已有关联数据词汇的映射描述图书馆的数据

为了最大限度的与其他数据集关联,图书馆数据集必须使用关联数据术语(属性、类、实例)描述,这样的话在广阔的关联数据空间中可以具有良好定义的语义关系,这主要通过两种方式实现:一,基于已有的标准使用关联数据词汇;二,在图书馆领域的关联数据术语和其他社团的术语之间定义明确的关系(语义)(详见附录C)。

对图书馆员和档案管理员的建议

保存关联数据元素和属性值词汇

许多关联数据词汇对文化参考文献非常重要,提供了在地区、国际或者国际背景下关于人物、地点、事件、概念的规范信息,因此,在文化机构活动中保存关联数据词汇是自然和重要的。只要URIs不变更并且可以解决语义问题,关联数据可能会持续可用二十年。无论是现在还是将来,元素集和属性词汇同项目保存同等重要,这揭示了图书馆在关联数据生态系统内保存和管理元素集合属性值词汇的重要性。

吸收应用图书馆在长期保存和维护关联数据数据集方面的经验

目前大部分关联数据中的内容是可用数据集点对点一次性转换成RDF的结果,但是缺乏定期检查和更新。在质量控制和承诺长期维护的影响下,图书馆在重要的关联数据功能扩展上有着重要机会。将资源描述成在数据集内部关联对象,图书馆将会从其他社团开放数据中获益,为资源添加附加的属性信息,以系谱或者传记资料添加关联为例,可以为资源添加丰富的描述,这些信息是图书馆没有的,并可以提高图书馆文献资料的查找和导航功能。

参考文献

致谢

除了编辑,图书馆关联数据小组还包括其他成员,没有他们的努力报告也不会完成,成员有:Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

社团评论帮助我们修订了报告,特别感谢Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

附录A 已存在的图书馆关联数据资源目录

可用词汇的复杂性、多变性、交叉关系、从属关系、和语义关系,导致了重用的不确定性,这对图书馆关联数据的成功是至关重要的。很多人特别是图书馆的专业人员不熟悉可以用在图书馆领域的关联数据集和词汇,因为这些词汇是在语义网研究社区中开发的。当前众览全局的观点对初学者了解图书馆关联数据概况及专家迅速查找或者温习图书馆关联数据项目都有帮助。

因此,关联数据孵化小组列出了一个图书馆领域可用于创建或消费关联数据的有用资源VOCABDATASET。这个清单可在separate document获取。该清单(作为一个单独文件)表明了诸多领域最先应用语义网技术、关联数据原则及技术开发成熟的数据集和词汇。清单还指出了图书馆及相关机构可以做出重要成果的地方。最后,文档试图为关联数据社团提供理解可用于图书馆的具体观点、资源、数据机会,帮助图书馆和信息科学专业人士根据自己的传统情况把握关联数据的概念。

关联数据技术有别于传统的图书馆数据概念,本报告将可用的资源分为非互相排斥,并反映图书馆实践的三类:

  • 数据集:描述图书馆相关资源,如,英国国家书目、匈牙利国家图书馆目录开放图书馆、CrossRef、Europeana;
  • 属性值词汇:如,美国国会主题词表、AGROVOC、虚拟国际规范挡(VIAF)、杜威十进制分类法(Dewey Decimal Classification)、GeoNames;
  • 元数据元素集:如,都柏林核心元数据术语(Dublin Core Metadata Terms)、RDA(资源描述与检索,Resource Description and Access)元素、简单知识组织系统(Simple Knowledge Organization System,SKOS)、关于朋友的朋友词汇(the Friend of a Friend vocabulary,FOAF)。

从各个属性值词汇中重用的数据集元素,其结构化根据元数据元素集的需要设定。例如:英国国家书目数据集重用了美国国会图书馆主题词汇和都柏林核心元素集。这些实例都有一个简要的描述,并且附有网上链接,并且和本孵化组收集的用例也有链接。

我们的成果是为了提供一个可供广泛使用的数据集,然而,我们的报告目前还没有完全获取当前的数据集,特别是考虑到关联数据的动态性,不断有新的可用资源添加进来,而且已经存在资源可能还会有定期更新。为了获取一个整体的情况,我们从可以获取的使用案例上着手,将来不断增加的资源由参加孵化小组的专家提供,这样确保新增的关键资源及时提供给大家参考而不被忽视。

为了保证报告具有长远意义,即使在孵化小组工作结束后,我们提供了大量可用工具和不断更新信息的网站的链接给大家使用。特别是我们成立了一个图书馆关联数据小组(Library Linked Data group),来收集图书馆相关关联数据集的信息,站点是http://ckan.net/group/lld,由 Comprehensive Knowledge Archive Network (CKAN)维护,该站点是一个数据中枢Data Hub,收集了大量开放数据的数据包。我们希望在孵化小组结束后,有图书馆关联数据社团来维护该CKAN站点。

附录B 相关技术

关联数据技术是一种新出现的技术,因此很多工具都在开发中。关联数据原则(principles of Linked Data)没有和任何工具绑定,而是直接和网络标准一致。大多情况下,产生和消费关联数据不需要另外开发,而是在已有应用的基础上进行的。列表包括的技术和工具并不详细,但大概描述了几类情况。从非技术的角度看,这些技术是相关的,他们都鼓励创造和发现可重用的词汇,或者提供一种重用(语义)声明的方法。

B.1 使用URIs标识实体,而不仅仅起到Web定位作用

在网络发展初期,并没有明确HTTP URIS是否应该用来标识实体。而是关注定义新的URI体系,如,URNs"info" URIs。那些不确定性最终由W3C统一资源标识符兴趣小组的报告(RFC3305)和W3C技术咨询小组关于"HTTPRange-14"问题讨论得以解决。在关联数据范例中,HTTP URI是用来标识现实世界实体,然而很多应用程序是建立在其他标识体系之上的。使用owl:sameAs属性是个不错的选择,可以解决非解析的URI模式映射成等同的HTTP URI。即使不这样做,非解析的URIS在RDF和SPARQL中仍然是有用的。

B.2 离散和批量获取信息

关联数据的原则是2006年提出的,促成了2008年"Cool URIs"概念的产生。关联数据标识符的特别之处,在于人和机器可理解和处理的,并且可以获取其他用例的链接信息;DBpedia关于Jane Austen就是一个很好的例子。解析URIs对自由使用、诊断数据、发现潜在资源意义重大,但是离散的HTTP GET请求对有大量数据集来说是不切实际的,幸运的是关联的数据集以RDF dumps形式发布,并且使用VoID词汇(Vocabulary of Interlinked Datasets)描述。

B.3 在前端将已存在的数据库映射成关联数据和RDF

相关用例:Vocabulary Alignment

不像传统的XML文档呈现方式,作为关联数据发布的资源摆脱了限制,用例特定层级(use-case-specific hierarchies)可以自由重用。这不仅使得信息容易使用Mashup,而且工具和服务也容易进行Mashup,这对关联数据的生产者及消费者都是有用的,例如,已存在的关系型数据库可以转换成关联数据及使用D2R Server服务器的SPARQLW3C RDB2RDF工作组(W3C RDB2RDF Working Group)目前致力于此类映射标准研究。类似的是,SRU数据库(SRU databases)也可以通过重写规则(rewrite rules)转换成关联数据。如果资源在SPARQL Endpoint已经描述,那么关联数据前端,如,Pubby可以自动分析Cool URI内容协商。可扩展样式表XSLT (Extensible Stylesheet Language Transformations) 可以将XML转换成RDF/XML。

B.4 数据设计者的工具

相关用例: Vocabulary Alignment

应用纲要(Application Profiles)定义了社团实践如何定义域名模型和在描述某类资源重用词汇所需的模型。OWL web本体语言(OWL Web Ontology Language)提供跨词汇匹配的描述,允许专家用该领域的术语描述,而又能与相关术语实现互操作(本体映射)。与OWL相关的工具可以在RDF wikiOWL wiki网站找到。UML(统一模型语言,Unified Modeling Language)帮助设计人员描述和以可视化方式操作领域模型。 ODM(本体定义元模型,Ontology Definition Metamodel)可以弥补UML和OWL之间的鸿沟。

B.5 SKOS及相关工具

相关用例:Vocabulary Alignment

另一关键的技术是SKOS(简单知识组织系统,Simple Knowledge Organization System),本身被定义为一个OWL本体,用来表达概念体系、叙词表等各类型的知识组织工具。SKOS支持上下位类关系,叙词与非叙词标签揭示。SKOS相关的工具可以在SKOS community wiki找到。

B.6 微格式、微数据和RDFa

相关用例:Social and New uses

微格式微数据RDFa(Microformats, Microdata, 和 RDFa)提供了一种将格式化数据嵌入到网页中的方法。过去在网上发布信息就意味着在网页上发布信息,微格式、微数据等技术提升本来就有的内容,而不需要开发额外的设施。RDFa提供了将RDF数据直接嵌入到网页中,能够直接与其他关联数据设施实现互操作。

微数据在HTML5定义(HTML5技术规范)下发展。随着Google、Microsoft、Yahoo宣布Schema.org,突出微数据在优化搜索引擎方面的作用。这种特殊的微数据还没有用于复杂数据的描述,一些发布的词汇主要用于商业或者旅游。原则上微数据是可以扩展的,鉴于目前大多数所需词汇是缺乏的,所以为了描述图书馆信息,微数据模式需要大力扩展。由于Schema.RDFS.org的努力,已达到一定的关联数据互操作水平,但是还存在一些困难,不过使用这种方法实现图书馆和其他数据集更高层次的互操作,这是有可能的。

Schema.org支持RDFa的数据收割,并且会继续这样做,因此,出现用RDFa标记的HTML页面被微数据忽略的机会不会出现。使用微数据在搜索引擎的解析中将不会出现错误,在同一网页中使用所有的元数据技术是可能的。最终的结果是结构化的数据远远胜于非结构化数据。

B.7 网络应用框架

相关用例 Archives and Heterogeneous Data

正如网络发展迅速,软件开发者也开发了各种各样的图书馆软件,为了更容易创建维护和重用网络应用。图书馆也会经常参考网络应用框架(Web application frameworks),特别是应用了时下流行的“模型-视图-控制”(Model-View-Controller MVC)模式。除此之外,还会参考当下流行的Representational State TransferREST架构风格和面向资源的架构(Resource Oriented Architecture)。

网络应用框架的共同组成部分是URI路径机制,允许软件开发者定义HTTP URI模式并映射到控制器,反过来,还会生成一个视图和模型的HTTP响应,这催生了Cool URIs和开发者对资源网络化的思考。关联数据关注URI标识资源和实现资源的网络传播(HTML人可理解,RDF机器可读),这正适合网络应用框架的需求,使得不同编码语、不同操作系统、不同文化环境下的网络应用框架实现互操作

但是,网络开发者不愿意用语义网技术(关联数据),因这会让他们放弃现有的应用,用三元组存储器替换数据库,用SPARQL替换数据库查询语言。可以利用Web应用框架,方便生成RDF格式的数据,并不比生成HTML、XML和JSON复杂。关联数据正是用HTTP URI来命名资源,对人和机器分别使用不同的显示方式,例如,对人输出HTML格式,对机器输出RDF格式,这一点与Web应用框架的特点不谋而合。

B.8 内容管理系统

相关用例:Social and new usesDigital objectsArchives and heterogeneous data

网络应用框架涉及到网络的演变,而内容管理系统是网络应用框架的一个类别。内容管理系统应用网络应用框架搭建,提供的是内容(文本、图片、视频等)创建、编辑、描述的功能模块和内容管理流程。内容管理系统是利用网络应用框架搭建的,自然要遵循HTTP URI命名规则。内容管理系统的广泛可用性使得他们在文化部门得到广泛使用。一些内容管理系统如Drupal开始在HTML中嵌入RDFa,实现数据的结构化表达。数据的消费者如:Google Scholar、Google Maps、Facebook开始在服务中利用这些结构化数据。Drupal也开始提供模块(如VARQLSPARQL Views)消费RDF。

B.9 针对图书馆关联数据的网络服务

相关用例:Bibliographic dataAuthority data

从理论上说,大多数特定领域的Web Service API功能是可以重构为关联数据URIs、OWL、SPARQL,以及SPARQL/Update。在原有数据库的前端植入关联数据URI,使后台数据库支持SPARQL检索也绝非易事,安全、性能和健壮性方面的考虑也是一种阻碍。SPARQL Endpoint和RDF批量下载,有助于已发布关联数据的发现和重用。对许多开发人员来说还比较困难,另外从应用上看也是过重的负担。

为了最大程度的共享Web Services应该提供多种方式,然而大多Web services APIs倾向于针对特定域名的(domain-specific),要求是自定义代理的(custom-coded agents),这就意味着要很好地进行描述。Web Services最常用的接口包括:OpenSearch、关联数据API和RDF网络工作小组关于RDF和RDFa APIs。关联数据集将通过聚合访问(Syndicated Access)获利,这种整聚合访问使用ATOM或RSS。

关联数据的应用就是致力于应用Web Service提高发现和使用资源的能力,其主要通过提供API实现,如AGROVOC和STW(经济学词表)就是通过数据间的关系发现资源,VIAF、国会图书馆的ID.LOC.GOV服务、STW提供资源的自动建议服务,针对AJAX浏览器消费数据提供JSON响应方式(原则上JSON根据内容协议,根据关联数据的URI解析,决定响应形式是HTML和RDF)。AGROVOC和 STITCH/CATCH支持RDF响应格式。一些服务提供完全SOAP APIs,另一些支持RESTful方式。

通过关注请求参数及响应格式提高资源发现能力,有了关联数据 Web Services,数据就不一定非得存储在特殊的三元组数据库中或者通过SAPRQL检索了,至少在某种程度上减少了这方面的需求。因为Web Service APIs是通用的,Web service可以降低采用关联数据的门槛。

附录C 语义匹配

"Alignments"匹配是指跨不同属性值词汇、元数据元素集、数据集的语义等价、相似以及相关等实体之间的关联关系。跨属性值词汇的语义链接已经存在,但大多数是通过人工完成的,如MACS或者CRISSCROSS项目。很多属性值词汇的发布者努力建立和维护语义资源同自己的链接,如VIAF整合国家和地区的规范记录;AGROVOC发布了同6个其他叙词表或主题词表的链接。虽然定量评价不是我们的任务,但是我们猜测诸如此类的链接会越来越多。在图书馆数据云中,增加属性值词汇的语义匹配工作还有许多要做。

语义关系同样存在于元数据元素集中。正如已经出现的开放关联的词汇(Linked Open Vocabularies)目录,从业人员普遍遵循重用元素集的最佳案例或者建立从其他数据集重用元素的应用纲要。词汇集映射框架项目(Vocabulary Mapping Framework)致力于匹配关系的建立。

元素集若是没有机构的支持维护,这将会威胁共享的长期持久性,此外,一些参考模型,特别是FRBR已经使用多种本体进行描述,但这些不同的描述没有明确的匹配关系,这限制了数据集的语义互操作。在创建新的数据集时,图书馆关联数据社团应该在重用和扩展已存在的元素集方面合作。当元数据关系交叉时,匹配关系同样存在于元素集之中,通常使用RDF词汇描述语言(RDF Vocabulary Description Language (RDF Schema))和OWL本体语言(OWL Web Ontology Language)描述语义关系,这应该受到鼓励。我们希望资源的创建者及维护者保持良好沟通,正如LOD-LAM先导计划(LOD-LAM initiative)、都柏林核心元数据先导和FOAF项目(Dublin Core Metadata Initiative and FOAF Project)及我们孵化小组的倡议,这将促进元素集之间的概念联系更加明确。

数据集也存在语义匹配关系,如开放图书馆重视OCLC成员的书目项目。联合编目已经意识到整合书目级(book-level)数据的重要性。在图书馆领域关联数据技术就意在将图书馆相关数据集开放,而不是继续存在于自己的孤岛中,在过去的实践中,社区已经意识到挑战,如,“删除重复数据”。

我们意识到到关联是建立在图书馆资源及其他领域资源之间的,如VIAF从高各个图书馆机构整合规范记录,标识涉及到的主要实体,若有可能将他们与DBpedia关联,并且尽可能从Wikipedia抽取关联数据。将VIAF、WikipediaDBpedia里关于Jane Austen的进行语义匹配,就是利用关联数据技术优势所在。通过这种方式图书馆领域将通过重用其他领域数据而获利,图书馆数据可以促成其他图书馆领域没有的活动。

语义匹配的建立要利用已有的实现关联的工具,如,利用计算机科学研究领域的本体匹配(已经做了很多努力,致力于字符串匹配和统计)。现在最常用的实现关联的工具有:Silk链接发现框架Google RefineGoogle Refine Reconciliation Service API。尽管如此,今后社团仍然需要获取使用经验,寻找更加适合图书馆关联数据的工具。

忠告:数据的消费者要记住,不同于传统的封闭的IT系统,关联数据遵循开放世界假设(Open-World Assumption):数据消费后不能假定为已完成,实际上,会有越来越多的数据提供给给定的实体。将来我们希望有越来越多的关联数据会出现在图书馆领域。


转向:图书馆关联数据用例的中文研究