用例:主题搜索

From Semantic Web Standards

用例大纲

主题搜索 Subject Search(牧羊人:范炜)

出处 http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Subject_Search

所有者

Jeff Young

背景

标题词系统是规范化事物名称(特别是概念)的一种方式。文献保障原则

图书馆传统做法是将主题词存储在书目记录中,在Web上用HTML表征这些记录,可以被搜索引擎索引到。

Worldcat举例 http://www.worldcat.org/oclc/8429900

页面右侧"更多类似这样的"罗列了3个主题词 Outer space -- Exploration -- Fiction Jupiter( Planet) -- Fiction Life on other planets -- Fiction 从图书馆观点看,使用Google搜索这些被命名的概念会得到令人失望的结果,尽管一些书目偶然地被显示出来。

目标

1. 将标题词系统更有效地用于Web发现与重用

2. 使用HTTP URI和OWL去识别和提供更好的模型化资源,从而让人、机器和语义代理更好地利用。

受众

学者、公众、服务提供者、档案管理员、计算机程序等

用例场景

科幻小说迷通过Google搜索一些新的读物 输入了3个关键词:outer+space+fiction

当前现实中,下面是Google点击最高、PR等级2/10的网址

科幻迷在这个页面点击排名第一的图书 2010: odyssey two, by Arthur C Clark http://x-described.org/book/1234567

这个Web文档的URI里包含了零散但有用的信息组合,赋予"Outer space--Fiction"概念一个聚焦的和有意义的识别,同样在Google里排序。

相比之下,类似于OCLC Research作品页原型的HTML表征应该更加合理有效

假设这一页是"2010: Odyssey two",而不是"我是传奇"

http://frbr.oclc.org/research/pages/000579172.html

这个用例假设用户在x-described.org域名下得到许可或授权,作品页包含一个MP3表示

下载这本有声读物(English 1994)的MP3格式 http://x-described.org/book/1234567/content.mp3

这个链接扮演了代理角色,许可或授权用户通过配置好的OpenURL解析器下载这本有声读物拷贝

搜索结果顶端部分看到一个REST URI 浏览主题:Outer space--Exploration--Fiction <http://x-described.org/concept/Outer+space--Exploration--Fiction/>


用例的关联数据应用

URI模式序言

x-authority.org和x-described.org的URI基于自然的1对1对多的等级体系 参考"303 URIs forwarding to One Generic Document"

1. 现实世界对象

http://{domianName}/{className}/{instanceName}

http://example.org/person/alice

2. 通用文档

http://{domianName}/{className}/{instanceName}/

http://example.org/person/alice/

注意最后的/

3. Web文档

http://{domianName}/{className}/{instanceName}/{operationName}

http://example.org/person/alice/default.html

http://example.org/person/alice/about.rdf

标题词领域POV

使用了国会标题词LCSH,在设想的x-authority.org域名下转换了URIs,使其更加透明和具有一般意义

应用了两条关联数据原则

1. 使用URIs作为事物的标识名称

2. 使用HTTP URIs让任何人可以查找这些标识名称

关联数据的能力来自于稳定的、明确的、全球的解引用(derefencable)、内容协商,最后但非最不重要的是用户可以直观了解事物的标识名称。

原则上,标题词系统事物作为切合实际的标识名称的潜力远远超出图书馆用例范围。

为透明起见,这个用例假设这些标识名称是URL编码的,用"/"或"#"跟在HTTP URI的末尾,就像OWL的通常作法。

由于潜在标题词的大多数主要用来识别概念,因此使用"/"是更好的选择

URI令牌(Token)替换

{domainName} = "x-authority.org" {className} = "concept" {instanceName} = "Outer space -- Exploration" {operationName} = "about.html" or "about.rdf"

标题词资源示例

标题词系统建模其他方法是使用不透明(opaque)的URI和skosxl:Labels。本用例中假设outer space exploration作为概念比优选文字更加有用和稳定。

描述领域POV

信息是关于事物的,信息资源也一样。 例如"2010: odyssey two"这本书是关于虚构的外太空探险的一件信息资源。所有信息资源都是主观的此类"is about"分析,无论它是否位于Web(一个Web文档)或Web之外(一本书)。

在本用例中,x-described.org负责帮助用户寻找他们感兴趣的信息资源,并与关于这些资源的事物建立联系。x-described.org可以是个体或集体组织,在关联中的"关于"方面使用x-authority.org的概念名称。

这个用例的目标是联结基于用户的标题词搜索与可检索的内容,更加有效地运用关联数据聚焦于用户与Google交互。


URI令牌(Token)替换

{domainName} = "x-describer.org" {className} = "concept" {instanceName} = "Outer space -- Exploration" {operationName} = "default.html" or "about.rdf"

关联数据示例

注解

有些人可能会困惑,我在x-describer.org下为x-authority.org概念创建了一个URI别名。实际上这些是相同的skos:Concept(owl:sameAs证明)。

http://x-authority.org/concept/Outer+space--Exploration http://x-describer.org/concept/Outer+space--Exploration

不同域名下关联这个概念的Web文档角色差别

http://x-authority.org/concept/Outer+space--Exploration/ http://x-describer.org/concept/Outer+space--Exploration/

在x-authority.org下Web文档被设计用于x-describer.org类型的用户。在x-describer.org下,这些概念作为发现该概念相关主题的焦点。

如果你担心这种关联Web文档的差异会造成owl:sameAs,我会认为你误解了关联数据对"现实世界对象"的应用潜力。