互联数据中的地理覆盖与对地观测(CEO-LD)启动会报告

Coverages and Earth Observation in Linked Data (CEO-LD) Kickoff Meeting (London) Report

背景为黑色的天空繁星点点,有一道光划过,表示一个卫星的运动轨迹

会议时间:2015年9月29-30日

参会人员:

英国方面
Geoffrey Boulton, Simon Hodson (国际科学协会理事会数据理事会/CODATA)
Phil Archer (万维网联盟/W3C)
Denise Mckenzie (开放地理联盟/OGC)
Jeremy Tandy (英国气象局/UK Met Office)
Maik Riechert (英国里丁大学/University of Reading)
Yang Gao, Adina Gillespie, (萨里卫星技术公司/Surrey Satellite Technology)
Payam Baraghi, (英国萨里大学/University of Surrey)
Simon Agass, (卫星应用弹射/Satellite Applications Catapult)
China
黎建辉/Li Jianhui, (中科院计算机网络信息中心/CNIC/CAS)
胡春明/Chunming Hu, (北京航空航天大学,万维网联盟/Beihang University/W3C)
杨吉涛Jitao Yang, (中科院遥感所/Institute of Remote Sensing/CAS)

会议纪要:第一天(9月29日), 第二天(9月30日). 更多讨论内容请参阅项目 Wiki页.


会议概况

CEO-LD项目的启动会于2015年9月29-30日在英国伦敦市中心的皇家科学院(Royal Society)举行。与会者报告了来自卫星数据产业、学术界等对卫星数据等空间覆盖数据在Web上分享的共同兴趣和巨大需求。其中,Maik Riechert 在启动会的自我介绍环境,特别强调:我来自Web开发者社区, 我需要一种更便捷的方式,能够帮助使用这些覆盖数据.

数据规模问题是这两天会议中被反复提及的问题。地球观测产生的海量的数据,研究者和其他用户希望通过Web以自动化、标准化的方式使用这类大数据。本项目组关注的重要任务就是:使这些具有地理覆盖特征的海量数据有效的在Web上共享(making the data available)。我们关注数据的共享访问,而数据如何从卫星下载到地面、如何加解密、如何扩展和处理并不是本项目关注的范围。

Simon Agass 强调了情境化(contextualised)卫星数据的价值。历史上,尽管或许有些元数据通过Web发布,但卫星数据并不是通过Web来共享的。将数据连接起来,相互交叉引用和混合使用,为数据添加更多的上下文(情境,如数据如何采集到),可以帮助这些数据被更加有效的利用。这同时也引导我们思考:在本项目中,需要回答哪些问题。相对来说,我们比较容易回答这类问题——“这个位置(location)有哪些相关的属性?”,但如果反过来,我们问“具有这些属性的所有地点有哪些”时,这个问题就比较难回答。特别是,在不同的应用上下文场景中,属性的表达并不一致,回答这个问题就变得更加困难。例如:在对地观测中,某个地点的属性为“针叶林'coniferous forest'”,而在另外的场景中,它也可能被标记为“森林”。因此,在概念和概念之间建立关联和映射就变得非常重要,特别是在多个国家之间共享数据时,这种语义关联的需求就非常必要。类似的,不同的应用系统也可能为相同的事物给出不同的标识符,从外界看来,这可能是两个事物。

理解用户的需求是本次研讨会的一个重点任务。黎建辉介绍了中科院网络中心研发的服务于科学家的数据平台,并介绍了他们理解的用户需求。卫星应用弹射(The Satellite Applications Catapult)于终端用户直接交换并提供了一组用例。在讨论中,也提到了一些较为复杂的应用场景,如:定义和描述一个四维时空空间(空间三维+时间维)的数据分片(slice),这是一个可以通过不同方法解决的问题。为了让数据能够更容易的在Web上共享,我们需要定义“覆盖数据”共享的方式,并从技术上给出解决方案。

会议识别了一组用户需求,并通过这些对用户进行大致分类:

  1. 第一类用户:关注数据的观测(observation)和度量(measurement);
  2. 第二类用户:关注(i)中的数据如何和Web上的其他数据资产建立联系(linked to other assets on the Web)
  3. 第三类用户:关注(i)和(ii)的同时,还需要提供数据的溯源能力(provenance data),以及对数据处理的流程(processes applied to the data)。

不同的用户具有的技术技能不同:许多中国科学院的数据科学家对数据本身有深入的理解,但并不熟悉Web技术,Web开发者可能恰恰相反。因此,不论使用何种方法,我们都需要具有更多技能的专家,但如何表达数据的语义,并将相互关联的数据链接起来,可能是一个解决问题的共同基础。

上述讨论,为后续关于项目最终技术报告的框架和内容提供了基础和素材。

在Web上共享覆盖数据的技术报告框架

该项目最后形成的技术报告,应当包括下面三个内容:

  1. 目标(对Web上共享覆盖数据的范围有一个清楚的界定)
  2. 功能原则(Functional principles):达到上述目标所采用的基本原则
  3. 支撑数据的访问于传递(Enabling Access and Delivery):这部分提供实现目标的技术细节

在研讨会上,我们明确了功能性原则(functional principles)。

在如何支持覆盖数据(coverage data)的访问和发现的讨论中,我们提出了一系列的问题。

一个共识是,我们需要为数据集提供标识符(identifiers),并支持对数据的不同发布版。例如,在数据类别词汇表(Data Cataglogue Vocabulary)DCAT中,在Web上发布的数据集可能以不同的数据格式存在,每种格式的数据集都是同一个数据集的不同的发布版(distributions)。数据集需要首先被“发现”才能被使用,因此我们需要讨论如何提供这些数据的元数据。欧盟的GeoDCAT应用描述(GeoDCAT Application Profile)将 DCAT 与ISO19115中的术语很好的结合起来,可能为这一问题的解决提供可能的候选技术方案。

在处理GB或TB级的海量卫星数据中,一个有趣的需求是提供对数据分片(slice)及数据子集(subset)的标识方法。RDF数据立方(RDF Data Cube)提供了一种机制,但 RDF 在表达数据时相对冗长不够有效,因而可能不适用于存储卫星数据本身。在实践中,GeoTIFF、HDF5、JSON、NetCDF等格式得到非常广泛的应用,W3C的Web CSV工作组提供了很好的工作基础,可以表达元数据,并能够将表格数据在 RDF、JSON等其他数据格式之间进行转换。因此,一个可能的方案是在查询和共享时将数据临时转换成RDF。

为一个数据集的数据片段定义标识符的可能方法是采用 OGC 的 开放搜索的地理和时间扩展(OpenSearch Geo and Time Extensions) (PDF版)。该文档定义了一个技术中立的标识符,可用于在大数据集(如搜索引擎的索引)上对查询进行编码。

讨论还涉及了需要提供何种 API 来访问卫星数据,如通过地理位置、时间、所观测的属性等来访问数据。同时,也提出了是否需要为专家和非专家用户提供不同的API等问题。这些问题的解答需要后续持续深入的讨论。

讨论中也涉及到很多相对通用的数据发布问题,如有关数据质量和数据夙愿的标注(annotations)等。

后续工作

与会者的一项共识是确保所提出解决方案实际可行。为确保这一目标,CEO-LD项目将于 MELODIES 项目密切合作。该项目由英国里丁大学(University of Reading)领导。这两个项目的交叉融合,可以确保 Maik Riechert 参与到本项目中,开发一个在Web上共享覆盖数据的数据存储(data store),在一个广泛使用的开源数据分类平台CKAN上,验证本项目提出技术方案的可行性。

CEO-LD项目组计划于2016年5月发布最终报告,后续将通过邮件、电话会议及面对面会议继续我们的讨论。下一次面对面的技术研讨会将于2016年2月28-29日在北京航空航天大学举行,并由W3C/北航承办。下次面对面会议也于在日本举行的科研数据联盟大会(Research Data Alliance plenary)相衔接。