用例：LOCAH

LOCAH 用例（牧羊人：邹庆）

背景

Archives Hub是英国的一个提供档案相关信息的横跨全国的服务。 LOCAH项目研究链接Archives Hub和其它数据源包括DBPedia， BBC， OCLC的Name authorities，国会图书馆的subject headings。此项目的目标是在内容多样的源之间建立新的链接，使能够自由和灵活的数据利用，使研究者能在主题，人物，组织和地点间建立新联系以更多的揭示历史和社会。

档案数据本质上是不完全的，而且经常来源是隐藏的或者不太为人所知的。用户研究和访问记录分析表明Archives Hub的用户常常通过描述关联检索，这提供了一种偶然发现的方式。关联数据是一种极大扩展关联检索优点的方式，帮助用户发现上下文相关资源。建立档案和其它资源间的联系是非常重要，因为与同一个人物，组织，地点和主题相关的档案通常是广泛散布。通过把这些整合在一起，关于个人的生活和工作，重要历史事件的新的发现成为可能。

目标

（1）研究者对Winston Churchill相关的档案和其它资源感兴趣，基于数据可视化将在地图上标出所有这些资源收藏地。

（2）关联数据允许多个档案资源聚合，丰富数据通过连接到档案外的资源。

用例情景

研究者Ella对创建二战档案的人物以及在二战档案中显著提及的人物感兴趣，但是发现很困难将她的研究资料到一起，因为相关的档案广泛散布在各处。她对Winston Churchill相关的档案和其它资源感兴趣，想要找到他所创建的，被显著提及的档案。当Ella在Archives Hub中浏览“Winston Churchill”，她发现相当多的Churchill作为名字项散布在Archives Hub中,明显是同一个人，但是对她而言非常困难能全面了解哪些是在英国国内收藏的。 Ella想如果她能迅速的看到和Churchill相关的所有档案在哪里收藏以帮助她计划她的研究旅行。 Ella还想如果描述包括图片以及关于Churchill其它信息(她知道在Wikipedia上有）。

此用例的关联数据应用

通过用关联数据来聚合和合并Archives Hub的数据源。关联数据也同时可丰富数据通过链接到其它数据源如dbpedia。 Archives Hub关联数据，所有Churchill的instances将概念化（有自己的URI），并链接到一个Churchill的URI。这允许所有的关于Churchill的描述集中到一起。这样有三个层次的意义：（1）创建者（2）人物为索引（显著的主题）（3）人物在文中被提及

日期是很直接的方式来集中检索，因为所有描述中日期已经正规化。

已有工作（选项）

LOCAH项目目前在将JISC资助的Archives Hub，Copac中的记录关联数据化。目标是为数据中的关键实体提供持久URI，并链接到描述这些实体的档案。信息将以含RDFa的XHTML网页以及关联数据RDF/XML来提供。SPARQL endpoints也将提供。

相关词表（选项）

LOCAH项目将提供本体来描述ISAD（G）标准中的finding aids和描述书目资源的MODS记录。

DC Terms

Bibliontolog（BIBO）

FOAF

SKOS

RDFS

FRBR

问题和局限（选项）

档案以层次方式来描述。这给关联数据带来挑战。加上，描述是结构和半结构数据的结合。在UK没有关于档案描述的内容标准，这不利于创建一致性的描述。

Archives Hub中的“extent”数据不太好直接使用，因为这些信息是自由文本，并且测量信息包括箱子的数量，item的数量，线性的米，等。并且就档案的类型而言仅仅可能在其描述中包含这些信息。

关于数据的内容也很具有挑战性。Archives Hub有很多不一致的例子，如创建者为“Joe Bloggs和其它”而不是仅仅一个名字，access points没有规范或者没有源与其相关。在EAD中，access points，或检索词和描述相关。最常见的是主题，名字和地点。仅仅可能用非常一般化的关系“相关”来联系档案和检索词（如果一个人名被索引，我们根本就不知道此人的角色，也许是作者，或者是与档案有某种关联）。

一些附加的问题描述在项目blog中有详细描述： http://blogs.ukoln.ac.uk/locah/2010/09/22/creating-linked-data-more-reflections-from-the-coal-face/

包括：

在我们特定的论域中缺乏例子

关于如何建立数据模型缺乏有用信息

在我们模型中在“things"间是什么样的关系

用于数据建模和输出RDF，有一定程度的专业知识是很重要

参考（选项）

关于LOCAH项目的更多信息在http://blogs.ukoln.ac.uk/locah. 我们要提供的关联数据还未发布（到2010年10月3号前), 但应该很快了。项目组已经在测试基于Archives Hub数据的SPARQL endpoint.

[来源] http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_LOCAH

牧羊人的简单说明：

上面的用例基本是从其英文直译而来。有的专业词汇不知道中文怎么翻，就直接使用英文了。国外的档案这一块可能和国内的不太一样（对国内不了解）。在这里简单介绍一下。档案方面有几个基本原则：

Provenance - 起源；

Original order - 原始顺序

Context - 上下文

一般是根据档案的起源，原始顺序来归档。对于档案的描述需要提供尽量详细准确的上下文相关信息。与Bibliographic control不同，档案描述的是一个文档，图片等的聚集。一般说来，档案分层次来描述。遵从一般到特定的描述规则，上层描述过的下一层不再重复（ISAD（G）). 层次一般分为： fonds， sub-fonds，series，sub-series, files, items. Encoded Archival Description(EAD) 是档案描述的一个元数据标准（一个结构标准），是基于XML的，国会图书馆维护。我把它看做是档案领域的MARC。EAD的一个例子（源自http://www.lib.virginia.edu/digital/metadata/examples.html#ead）。虽然使用了XML，很多free text，当然这和档案领域的特性相关（不太容易标准化）。Encoded Archival Context （EAC）是一个还在Beta版的标准，目标是解决EAD中context信息部分的标准化（具体就是关于creator部分）。不过还是沿用XML标准（也许EAC会发布，不过会有多少机构会用就未可知了）。而且如何利用图书馆的资源如LCAF以及更多的网络资源（包括关联数据）还是个问题，LOCAH项目是和这个相关的尝试。

再补充一些：

关于content standard目前提的比较多有两个，如远洋老师提到的DACS是美国的标准。(Rules for Archival Description) RAD 是加拿大的标准。RAD的更新版和DACS基本原则是一致的（美国和加拿大一个共同工作组项目的结果）。澳洲和新西兰在档案方面和北美，欧洲的很有些区别，但是在具体描述上差别不大。澳洲不太区分Records和Archives，认为是同一Continuum。而北美这边，Records和Archives区分比较清楚。描述方面，澳洲以series为中心，北美等以fonds为中心。