用例:LOCAH

From Semantic Web Standards

LOCAH 用例 (牧羊人:邹庆)

背景

Archives Hub是英国的一个提供档案相关信息的横跨全国的服务。 LOCAH项目研究链接Archives Hub和其它数据源包括DBPedia, BBC, OCLC的Name authorities,国会图书馆的subject headings。此项目的目标是在内容多样的源之间建立新的链接, 使能够自由和灵活的数据利用,使研究者能在主题,人物,组织和地点间建立新联系以更多的揭示历史和社会。


档案数据本质上是不完全的,而且经常来源是隐藏的或者不太为人所知的。用户研究和访问记录分析表明Archives Hub的用户常常通过描述关联检索,这提供了一种偶然发现的方式。关联数据是一种极大扩展关联检索优点的方式,帮助用户发现上下文相关资源。建立档案和其它资源间的联系是非常重要,因为与同一个人物,组织,地点和主题相关的档案通常是广泛散布。通过把这些整合在一起,关于个人的生活和工作,重要历史事件的新的发现成为可能。


目标

(1)研究者对Winston Churchill相关的档案和其它资源感兴趣,基于数据可视化将在地图上标出所有这些资源收藏地。

(2)关联数据允许多个档案资源聚合,丰富数据通过连接到档案外的资源。


用例情景

研究者Ella对创建二战档案的人物以及在二战档案中显著提及的人物感兴趣,但是发现很困难将她的研究资料到一起,因为相关的档案广泛散布在各处。她对Winston Churchill相关的档案和其它资源感兴趣,想要找到他所创建的,被显著提及的档案。当Ella在Archives Hub中浏览“Winston Churchill”,她发现相当多的Churchill作为名字项散布在Archives Hub中,明显是同一个人, 但是对她而言非常困难能全面了解哪些是在英国国内收藏的。 Ella想如果她能迅速的看到和Churchill相关的所有档案在哪里收藏以帮助她计划她的研究旅行。 Ella还想如果描述包括图片以及关于Churchill其它信息(她知道在Wikipedia上有)。


此用例的关联数据应用

通过用关联数据来聚合和合并Archives Hub的数据源。关联数据也同时可丰富数据通过链接到其它数据源如dbpedia。 Archives Hub关联数据,所有Churchill的instances将概念化(有自己的URI),并链接到一个Churchill的URI。 这允许所有的关于Churchill的描述集中到一起。 这样有三个层次的意义: (1)创建者(2)人物为索引(显著的主题)(3)人物在文中被提及


日期是很直接的方式来集中检索,因为所有描述中日期已经正规化。


已有工作(选项)

LOCAH项目目前在将JISC资助的Archives Hub,Copac中的记录关联数据化。目标是为数据中的关键实体提供持久URI,并链接到描述这些实体的档案。信息将以含RDFa的XHTML网页以及关联数据RDF/XML来提供。SPARQL endpoints也将提供。


相关词表(选项)

LOCAH项目将提供本体来描述ISAD(G)标准中的finding aids和描述书目资源的MODS记录。

DC Terms

Bibliontolog(BIBO)

FOAF

SKOS

RDFS

FRBR


问题和局限(选项)

档案以层次方式来描述。这给关联数据带来挑战。 加上,描述是结构和半结构数据的结合。在UK没有关于档案描述的内容标准,这不利于创建一致性的描述。


Archives Hub中的“extent”数据不太好直接使用,因为这些信息是自由文本,并且测量信息包括箱子的数量,item的数量,线性的米,等。 并且就档案的类型而言仅仅可能在其描述中包含这些信息。


关于数据的内容也很具有挑战性。Archives Hub有很多不一致的例子, 如创建者为“Joe Bloggs和其它”而不是仅仅一个名字,access points没有规范或者没有源与其相关。在EAD中,access points,或检索词和描述相关。最常见的是主题,名字和地点。 仅仅可能用非常一般化的关系“相关”来联系档案和检索词(如果一个人名被索引,我们根本就不知道此人的角色,也许是作者,或者是与档案有某种关联)。


一些附加的问题描述在项目blog中有详细描述: http://blogs.ukoln.ac.uk/locah/2010/09/22/creating-linked-data-more-reflections-from-the-coal-face/

包括:

在我们特定的论域中缺乏例子

关于如何建立数据模型缺乏有用信息

在我们模型中在“things"间是什么样的关系

用于数据建模和输出RDF,有一定程度的专业知识是很重要


参考(选项)

关于LOCAH项目的更多信息在http://blogs.ukoln.ac.uk/locah. 我们要提供的关联数据还未发布(到2010年10月3号前), 但应该很快了。 项目组已经在测试基于Archives Hub数据的SPARQL endpoint.


[来源] http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_LOCAH

牧羊人的简单说明:

上面的用例基本是从其英文直译而来。有的专业词汇不知道中文怎么翻,就直接使用英文了。国外的档案这一块可能和国内的不太一样(对国内不了解)。在这里简单介绍一下。档案方面有几个基本原则:

Provenance - 起源;

Original order - 原始顺序

Context - 上下文

一般是根据档案的起源,原始顺序来归档。对于档案的描述需要提供尽量详细准确的上下文相关信息。与Bibliographic control不同,档案描述的是一个文档,图片等的聚集。一般说来,档案分层次来描述。遵从一般到特定的描述规则,上层描述过的下一层不再重复(ISAD(G)). 层次一般分为: fonds, sub-fonds,series,sub-series, files, items. Encoded Archival Description(EAD) 是档案描述的一个元数据标准 (一个结构标准), 是基于XML的,国会图书馆维护。我把它看做是档案领域的MARC。EAD的一个例子(源自http://www.lib.virginia.edu/digital/metadata/examples.html#ead)。虽然使用了XML,很多free text,当然这和档案领域的特性相关(不太容易标准化)。Encoded Archival Context (EAC)是一个还在Beta版的标准,目标是解决EAD中context信息部分的标准化(具体就是关于creator部分)。不过还是沿用XML标准 (也许EAC会发布,不过会有多少机构会用就未可知了)。而且如何利用图书馆的资源如LCAF以及更多的网络资源(包括关联数据)还是个问题,LOCAH项目是和这个相关的尝试。


再补充一些:

关于content standard目前提的比较多有两个,如远洋老师提到的DACS是美国的标准。(Rules for Archival Description) RAD 是加拿大的标准。RAD的更新版和DACS基本原则是一致的(美国和加拿大一个共同工作组项目的结果)。澳洲和新西兰在档案方面和北美,欧洲的很有些区别,但是在具体描述上差别不大。澳洲不太区分Records和Archives,认为是同一Continuum。而北美这边,Records和Archives区分比较清楚。描述方面,澳洲以series为中心,北美等以fonds为中心。