用例:学术社团信息服务

From Semantic Web Standards

学术社团信息服务

原文:Use Case Community Information Service (牧羊人 林海青 Haiqing Lin)


背景和当前的实践 :


大小不等的学术组织(研究组,大学部门,大学,大学集团,诸如学术团体和专业兴趣团体的特定专业圈子等)对维护其相关领域信息的可发现性和信息质量有强烈的兴趣,同时也非常感兴趣将这些信息公开发布到更广泛的学术界和一般公众。这些信息的重要组成部分是那些在图书馆可以看到的书目元数据,尤其那些关于发表在特定领域和相关机构的专业书籍和论文的信息。

当前学术信息交流方式的差异很大。许多出版商和学术团体提供基于图书馆付费订购的A&I(文摘和信息)服务模式。这种服务提供给个人使用时受到专门的许可协议限制。这就限制了对某个领域感兴趣的个人和团体创造性地选择、重组和再发表目录数据。另一种相同的服务是Google Scholar, 但这项服务同样在使用条件中限制选择性收割和重用所提供的数据。

大部分的大学院系无法从他们的图书馆目录中直接抽取他们自己教师的出版物目录,即便可以这么做,但如果没有特别协议许可,他们也不能将这些目录公诸于世。一个特定的专业兴趣团体可能可以从各种数据来源中抽取相关专业的目录元数据,但是如果他们不能获得非常明确的将这些元数据再次发表或重组的授权同样受到严格的限制。基本上说,一个团体必须事先得到合法认可,能够和数据提供商达成某种许可协议,才能合法地做这件事,然后,学术团体还必须找到一种商业模式能够支持雇佣一些专门人员来管理这些协议。这些机构性的开销在一些采用关联数据的大学却是不必要的。

目标:

使得图书馆目录和其他出版机构的目录元数据得以对学术社团里的数据管理者免费开放,使得这些目录数据可以方便地用作者/机构/主题过来过滤,允许大量的小规模的学术机构能够方便地以最小的技术和法律代价从这些数据中提取自己所需的数据,并以他们认为对他们有利的方式经这些数据重新发布出来。比如可以通过选择、分级、分类这些数据,并提供简单的查找、在目录数据上附加学术团体感兴趣的事实性说明等。

如何用关联数据技术来实现这个目标: 提供的数据应该附加一个开放性协议使得这些数据可以基于学术目的重用,并提供 API, 数据标准和客户软件来降低参与信息管理和共享的门槛。

目标受众:

学者,这些学者作为基于将学术信息更开开放给更广泛用户为目的的信息服务提供者,承担着学术信息的编辑、管理和组织工作。间接用户是一般公众,他们可以找到那些有学者管理的某些专业资源其信息量要远远大于通过普通搜索服务或Wikipedia所得到的。计算机程序,因为他们可能需要完成诸如过滤,重复数据删除,选择等任务…节省信息管理专家的时间。

用例场景:

学术团体信息管理者选择来源数据,以确定近其出版的哪些书籍,文章,照片,视频,....会被用户感兴趣。信息管理者以他们能够方便地控制何种信息可以进入其自己的信息服务管道的方式输入所选择的数据。

关联数据在用例中的应用:

便于数据提供者(出版商、图书馆、以及其它数据集成者)为圈内数据管理者提供关联数据及其适配的API和客户端软件,数据管理者可以期许那些数据具备辨别实体的所有明确信息(包括版本、人物、主题、刊物、出版者等),这些信息可以很容易地被转入到学术社团子内的内容管理系统中去,并允许进一步综合评级、选择等信息。

现有的工作(可选):

大部分的文摘和索引服务保持了一些针对这些目的的数据获取系统,但他们通常是专用的,而那些有志于管理目录数据的那些小型机构并不易于使用这些系统。这些系统大部分是通过将原始数据转换为专用的目录格式以便机构内部使用,或者许可图书馆以简化的格式提供给需要这些数据的学者。这些服务通常并不对通常的关联数据提供增值服务,而相反是和关联数据相冲突的。有些软件系统,如 BibSonomy, BibServer, BibApp , Open Scholar, 是针对一些团体书目数据管理者用来开放展示其数据的,如果图书馆或者出版者通过 API提供完整的关联性数据,这些系统都能够从中得益. 一个典型的利用关联数据来整合数据的学科网站是Probability Web, 尤见其书籍,人名列表,以及概率学文摘服务,所有这些都可以重建改造成关联数据的的方式来导入和导出数据。在其他领域还有更高级的服务,特别是RePEc(值得称赞地开放,但有大量许可状态不确定的数据)和SSRN(免费的,但数据不可重用)。如此大规模的学科数据服务是构建在一个难以推广的架构上。我们需要建立一个简单、易于推广的架构,以便规模大小不一的学科社区目录数据管理服务得以建立并相互互操作起来。BKNpeople and VIVO在揭示人名及起研究兴趣方面开始向这个方向努力,将这些系统和ORCID启动项目整合起来是十分重要的。可以参见BKN项目。

相关词汇:

BIBO, CiTO, ...

存在的问题和限制:

社会/经济/法律 ---- 文摘和索引服务商的既得利益 ---- 缺乏一个稳定的获得许可的元数据库 -- 商业出版商、大学和保守的学者们拒绝以开放许可的方式公布他们的元数据。

技术障碍:在建立一个简单的被广泛采纳的适合学科信息服务的目录元数据交换标准方面缺乏共识。所需的数据项比传统的Bibtex数据项要多一些,并要加上一些在处理实体及其指针方面的共同约定。BibJSON 是一种建立充分的轻量级的数据交换标准的尝试,这个标准兼容关联数据原则,并受到BibTeX 和RePEc学术元数据格式成功的影响。这个标准易于被典型的学科数据服务管理者管理和理解,即使他们缺乏高级的软件工具。为非技术的数据管理者提供和管理/调整/维持一个良好的用户界面来管理BibJSON或类似的记录结构是最大的技术挑战。此外,支持一些必要的可以提供这些界面的CMS系统。. Needlebase 看上去想提供一个合适的构建在图形数据集上的用户界面,这是一个专用的软件,但是可以设置成导入和导出关联数据。这样的用来管理基于关联数据的简单的编辑工作流程的系统是很必要的。


相关用例与未预期用途:

如果建立起简单和容易负担得起的管理文献资料收集的编辑系统,那么这将很难预料会出现哪些机构,这些机构会在各种规模上提供最佳的数据服务,学术团体的信息服务会互相编织并互相重叠起来,他们会争夺其成员注意。如果学术团体以关联数据的形式导出他们的增值信息,那么这些数据可能再次被较大的集成商采用,特别是谷歌和其他业界大鳄。这将大大提升当前的搜索和发现学术信息的工具的性能。

References 见英文原文