用例:AGRIS的索引和搜索服务

From Semantic Web Standards

用例原文:http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_AGRIS (牧羊人:Keven Liu 刘炜)

名称: AGRIS 的索引和搜索服务

AGRIS :国际农业科技信息系统( International Information System for the Agricultural Sciences and Technology ),网址: http://agris.fao.org/ 。 所有者: Food and Agriculture Organization of the United Nations ,即该数据库网站属于联合国粮农组织( FAO )。联系人: Johannes Keizerjohannes.keizer@fao.org 。

背景:

AGRIS 是一个 1975 年就开始提供服务的农业科技文献数据库,由联合国粮农组织开发,包括论文、研究报告和学位论文等,标注的元数据有会议名、研究者、出版商、机构名、主题等等,超过 100 个国家的 150 多个机构参与该库的内容建设,主题覆盖农业及其相关领域,包括林业、牧业、渔业及水产养殖、人类营养等等。难能可贵的是其收录许多灰色文献,例如未发表的科技报告、学位论文、会议资料、政府出版物等。它是世界上最大的免费农业资源,尤其对于发展中国家的学生、研究人员和图书馆员来说非常有用。

AGRIS 目前包含 260 万条记录,都是高度结构化的资源,记录之间甚至与 Web 上的相关资源都标注有丰富语义关联信息,但是目前这些联接信息尚未被 AGRIS 数据库自身和任何 Web 应用所利用,也就是说目前每一条 AGRIS 数据只是一组孤立的书目信息而已,不能自动地链接至其它记录或 Web 上的相关知识。作为参考信息它只是静态的、经常对于用户的信息需求来说是非常不充分的。研究显示,大多数最终用户看了 AGRIS 检索结果之后,并不查阅全文,甚至不再进行第二次检索,而是使用其它搜索服务,利用其它在线资源。但是,如果结果中有文章摘要和其它元数据标签,常常能够帮助用户决定是否需要进一步获取原文。目前只有一些“无关紧要的链接”在 AGRIS 和 Google 搜索引擎之间对于某些特定的术语建立起了链接。这已经显示出利用 AGRIS 元数据为缺乏语义的 Web 提供链接信息的巨大潜力。

目标:

一: 在全世界范围内联合各类农业图书馆和信息中心发布 AGRIS 数据库的书目数据记录;

对于数据库字段利用规范控制消除歧义;

利用人工或自动进行关键词抽取,依据农业叙词表增删关键词;

用户可以利用或不利用字段搜索数据;

关键词可供搜索引擎进行字串搜索(即全文检索);

通过关键词产生相关搜索;

用户可以通过主题树、相关主题、作者、期刊名等导航浏览记录。

二:

AGRIS 发布成关联数据有两个目标:

a. 使 AGRIS 成为一个关联数据的发布机构,将富含语义 AGRIS 数据发布成开放的 RDF 数据集,以便其它 Web 服务能够利用和链接 AGRIS 数据中丰富的农业资源。

b. 使 AGRIS 成为一个关联数据的利用机构,在 AGRIS 中链接其它开放的关联数据,共享各类词表 URI ,尤其包括主题词表、规范控制描述模式和其它关联的书目数据。


目标用户:

个人用户:学生、出版人、图书馆员、研究人员。

信息系统:机构文献库、图书馆目录。

信息服务提供商:如NISC , Wolters Kluwer和 NTIS等,周期性地采集AGRIS的数据集整合到他们的产品中去。


用例情景描述:

AGRIS的信息处理:

a. 位于肯尼亚的AGRIS中心向AGRIS传输了一批书目数据,AGRIS将其中包含的数据元素与标准词表(如AGROVOC,NAL和UNBIS)进行比较,使其语义统一于AGRIS的标准元素集,并对照FAO规范描述概念模式 Authority Description Concept Scheme(期刊、作者和会议)比较并消歧了元素的内容。


b. AGRIS标引员根据新记录检索网络上的索引(如YaCy),看看有没有相关资源。可使用该记录中的标题元素、作者与主题元素的结合,以及会议和刊名元素来检索。Agro Tagger用来进行相关结果的关键词抽取,已取得一系列相关主题词,这些主题词也是经过标准词表和规范描述控制的。


目标用户的使用(这一部分听起来很像CNKI,但是实现技术不同):

a. 约翰是 Makarere大学的研究生,需要寻找关于“有机草莓种植”的资料。

b. 他在AGRIS网站上搜索了“有机草莓种植”,获得65个命中记录。

c. 在命中结果显示的边栏他得到了许多与该检索式相关的信息,如其它书目数据库中包含的命中结果,该领域的知名专家列表,一个专门讨论草莓种植中病虫害控制的博客链接等等。

d. 约翰对于采用普通种植与有机种植两种不同方法的草莓的营养成分比较非常感兴趣。他点击了记录集中发现的概念词“nutrients”,结果缩小到3篇文章,其中有一篇关于有机草莓的营养比较的文章正是他需要的。

e. 他点击标题以获得完整描述,描述中说明该文的作者是T. Miller,发表于第三届有机草莓种植大会的会议录中。从该条记录中约翰还得到许多有用的信息:到全文的链接,引用了该文的文章列表,该作者的所有其它文章列表,到同一个会议的会议录和会议组织者的链接等等。

f. 约翰将所需的信息复制到笔记本中,然后点击了关键词“土壤属性”(是一个AGROVOC术语)以获得另外的、与有机草莓种植相关的记录集。


用例中的关联数据应用:

用RDF表达书目记录(Express bibliographic records in RDF).

把书目记录发布成HTTP URI和RDF记录(Publish HTTP URIs and RDF records from bibliographic records).

提供标准的发现服务,即:提供SPAQRL端点(Provide standard discovery services, e.g. a SPAQRL endpoint).

在主题词表中采用开放关联数据记录(Use LOD records from subject vocabularies).

采用开放关联数据的规范描述以消岐(Use LOD authority descriptions for disambiguation).

在记录层链接作为开放关联数据的书目数据库(Link LOD bibliographic databases at record level).


当前工作:

AGRIS的元数据元素目前还只是简单地映射为现有的相关RDF词表术语,这样AGRIS的XML数据中的一部分被转换为RDF,生成的数据存储于Sesame中,采用一个开源架构,实现了通过一个SPARQL端点对RDF数据进行存储、浏览和分析。这样我们就能够从已有的信息中发现有用的信息,例如数据的不一致性问题,以及实体间的关系等等。

相关词表:

最后为了保证一定的互操作性,在试验阶段,我们采用了以下词表:

SKOS [1]

BIBO [2]

FOAF [3]

DC and DCTerms [4]

问题与局限性:

Tim Berners-Lee [5]提出的在Web上发布关联数据的“四项基本原则”中的第一条就规定,万事万物都应该以URI进行标识。对于AGRIS来说这正是最大的挑战,因为AGRIS的数据来自于异构的来源,其语义并非总是明确定义的。对于作者、刊名、会议等被描述实体的消岐是一个不堪承受的重负。

相关用例:

本用例与另外两个用例(Use Case AGROVOC Thesaurus【即用例3.1,参见:中文翻译】和Use Case FAO Authority Description Concept Scheme【即用例2.3,参见:中文翻译】)的关系如下:


参考文献:

[1] SKOS Simple Knowledge Organization System http://www.w3.org/2004/02/skos/

[2] Bibliographic Ontology Website http://bibliontology.com/

[3] The Friend of a Friend (FOAF) projecthttp://www.foaf-project.org/

[4] Dublin Core Metadata Initiative http://dublincore.org/

[5] http://www.w3.org/DesignIssues/LinkedData.html

回到: 图书馆关联数据用例解读目录 LLD Use Cases Chinese Shepherd http://www.w3.org/2001/sw/wiki/LLD_Use_Cases_Chinese_Shepherd