CEO-LD项目第二次会议报告

A starry night sky with a prominent streak showing the movement of a satellite

2016年2月28日

参会人员:

英国:
Geoffrey Boulton (CODATA)
Phil Archer (W3C)
Denise Mckenzie (OGC)
Jeremy Tandy (UK Met Office)
Maik Riechert (University of Reading)
Bill Roberts, SWIRRL
中国:
黎建辉(Jianhui Li),中科院计算机网络信息中心 CNIC/CAS
李国庆(Guoqing Li),中科院遥感所,Institute of Remote Sensing and Digital Earth, CAS
胡春明(Chunming Hu),北京航空航天大学/W3C Beihang University/W3C
杨吉涛(Jitao Yang),北京语言大学 Beijing Language and Culture University/RADI
薛吉波(Jibo Xie),中科院遥感所 Institute of Remote Sensing and Digital Earth, CAS
王学志(Xuezhi Wang),中科院计算机网络信息中心 CNIC, CAS
沃天宇(Tianyu Wo), 北京航空航天大学/W3C Beihang University/W3C
李安琪(Angel Li), 北京航空航天大学/W3C Beihang University/W3C
贾学远(Xueyuan Jia),北京航空航天大学/W3C Beihang University/W3C
赵菁华(Jinghua Zhao),中国电子信息技术标准化研究院 CESI
张群(Qun Zhang), CESI
Xianqian Chai,中国移动(China Mobile)
Xiaohai Li,中国移动(China Mobile)
Jinwei Wang, 中国移动(China Mobile)

会议纪要(Raw minutes)


1. 概述

CEO-LD项目的第二次会议于2016年2月28日在北京航空航天大学唯实酒店(Vision Hotel)举行。会议的前半部分,与会者聆听了来自不同应用领域应用场景的短报告,在下午的讨论中,重点讨论如何在这些场景中,哪些技术工作对于推进在对地观测领域使用互连数据技术(Linked data in EO)有帮助,并形成一系列具体的合作任务。

在上午的讨论中,项目的各个参与方也对中国移动、中国电子技术标准化研究院的技术专家的到来表示欢迎。

2. CRSNet项目

来自中科院遥感与数字地球所的李国庆研究员介绍了他的研究组在中国遥感网络(China Remote Sensing Network,CRSNet)项目的进展。该项目启动与2011年,并将于近期完成。在这个项目的重点并不是地理覆盖数据的共享,但该项目所面对的挑战与CEO-LD项目要解决的问题非常相关。

该项目分为两个阶段:建设资源,并建立集成平台;通过使用各类传感数据在全球范围内解决问题。该项目提供了超过 40种“公共服务(Common Products)”来提供应用服务,覆盖辐射监测(radiation budgets), 农作物监测(vegetation structures), 全球冰川变化(global ice change),这些应用使用了分布在不同时间和空间尺度上的观测数据。李国庆认为,当处理类似这些应用所需的多维数据时,因为数据量大、处理逻辑复杂,我们不能完全依靠在线处理(online-processing),很多处理需要离线进行(offline),并将离线处理的结果作为一类“产品”提供给Web应用,支持跨越多维数据的分析。

对于这些数据产品来说,仅支持地理空间和时间维度并不足够,还需要支持其他领域相关的覆盖数据类型,如波段(wavebands),,及其底层的语义。这是互联数据(Linked Data)相关工作擅长的,能够帮助更多数据集细节信息的不同领域专家参与进来。

在创建某个预先确定的通用产品(pre-determined Common Products)时,可能需要3个层次的粒度(精度,如10m, 100m 及 1km)。如果应用需要30m的数据精度(granularity),就需要将数据归一化到10m。在时间维度上,数据集提供每天两次的更新,但基于数据构造的工具可能需要每8天更新以此,这样,数据代理(broker)需要处理这种可能的错误。同时,还需要注意到,尽管本项目关注卫星对地观测数据,CRSNet不仅使用基于卫星的观测数据,还使用了机载的遥感数据,而后者可能使数据的处理更加复杂。

基于这些考虑,在CRSNet中使用了复杂的工作流机制,CEO-LD项目可以通过帮助Web应用更好的使用数据,来使非专家用户更容易理解和应用基于卫星及航空平台的遥感及对地观测数据。

李国庆报告后的讨论,也涉及到这些中国对地观测项目数据(或世界上其他机构投资的类似项目数据)能否公开获得的讨论。CRSNet的数据可以提供给中国研究机构开展各类相关研究,但是否能够支持商业应用仍有待进一步讨论(is not sufficiently liberal for operational uses)。

3. 地理数据云(Geospatial Data Cloud)

王学志研究员报告了中国科学院计算机网络信息中心(CNIC, CAS)所研发的一站式空间数据服务——地理数据云(GIS Cloud)。该服务基于2008年开放的 USGS 数据,目前包含了来自 LANDSAT、MODIS等超过350TB、超过700万数据记录。对这些数据的传统用法是将数据下载到本地,采用ArcGIS等软件在本地使用数据。与传统方式不同,CNIC的服务允许用户向一个基于虚拟机的云平台提交数据处理任务,云平台对完成对数据的处理后,用户可以将计算结果下载下来,或直接在网站上实现可视化。

地理信息云是一个强大的工具,允许用户按照地址、地理位置、管理单位等对数据集进行搜索,同时可以在Web页面上,将多波段数据整合并以不同颜色进行绘制,提供不同的图层展示信息,并在Web页面上提供编辑能力。平台所提供的可视化工具采用基于HTML5的地图服务客户端,并支持动态缓存(dynamic cache)、地图样式编辑(map style editing)等功能。但其中,对数据的加工和处理过程都是在服务器端(而不非在浏览器中)完成的。 CNIC有兴趣将其中的部分计算处理从服务器端移动到浏览器中,从而进一步降低后台处理所造成的网络延迟。

在会议讨论中与会人员形成的一项共识是,地理数据云所描述的场景为CEO-LD项目所关注的地理覆盖数据共享问题提供了一个应用场景证据。这一场景强调了识别并使用数据子集(subsets of data)的能力,并且要求数据本身能够同时包含其上下文信息。在地理数据云的场景中,平台隐含的为每一数据子集提供了所有的上下文信息,但如果客户端需要直接操作这些数据集,就需要一种显式方法来以字包含的方式为数据集提供上下文信息。

需要指出的是,USGS 开放其数据直接带动了许多国际合作关系和合作伙伴。任何数据的第一个用户是数据的产生者(producer),但数据需要被第二个、第三个用户共享和重用,才能不断为数据增加新的价值。CNIC的元数据服务是基于开放地理联盟(OGC)的 CSW 标准

4. 车联网数据应用(U-Car)

北京航空航天大学的沃天宇博士介绍了他们与神州租车合作的'U-Car'智能专车应用服务。这一应用领域乍一看与地理覆盖数据关联不大,但该应用需要基于位置的大量数据提供一些重要服务(如用户等待时间、某一路径的油耗评价等)。目前这一服务平台每天获得 1.2亿消息(每辆联网汽车会以大约10s的间隔汇报位置及在线诊断数据/OBD),并且这一趋势仍在快速增长中。大量的数据处理任务无法完全由浏览器处理,因此在平台中需要通过后台服务器做数据预处理。但在浏览器中处理数据仍有重要应用场景,如当车辆驶入隧道等情况无法保持网络连接,则需要浏览器中的本地处理帮助持续记录和识别车辆事件。基于HTML5,可以使前端应用获得更好的网络在线-离线切换能力。非地理数据(如车辆驾驶的行为事件、天气对用车需求的影响等)可与给定的位置关联起来,帮助更好的预测需求并提供服务。

5. MELODIES项目

英国里丁大学(University of Reading)的Maik Riechert 在会上给出了关于MELODIES 项目 演示 ,自2015年9月在伦敦举行CEO-LD项目的第一次研讨会以来,该项目取得了巨大进展。如沃天宇所说,很多处理和计算仍需要在服务器端完成,但如果能够将某些数据移动到浏览器,我们就有可能通过多样的Web应用让这些数据更易于访问和理解,让更多并不具有地理和卫星数据专业知识的用户能够使用这些数据和应用。对于一个外部(非专业)用户,MELODIES的演示提供了一组能够从浏览器访问并操作的、基于地理信息数据可视化的图片,以及在图片上叠加的标注和绘制操作,其中,浏览器可以快速的操作一个 3000 x 2000 像素的地理覆盖数据集,但这一过程需要非常小心。基于 JSON 格式的覆盖数据在从服务器传递给浏览器之前经过了压缩,因为不压缩的数据可能让浏览器处理大数据集变得更加挑战。

与在服务器端进行数据处理相比,在浏览器中操作数据能够提供更丰富的灵活性。例如,英国环境和乡村事务部(UK's Department of the Environment and Rural Affairs)只关心陆地区域而不关心海洋区域。Maik展示了如何操作一个覆盖了陆地区域和海洋区域的地理覆盖数据,将海洋数据从其中剔除出去,从而形成一个较小的数据集的过程。需要指出的是,这里的整个处理过程都是基于数据集,而不是处理图像。

与会中方专家高度评价了 MOELODIES 项目在本地处理数据的优势和潜力,并对浏览器能够处理的数据集大小上限进行了讨论。不久以前,40MB对于浏览器处理来讲是一个挑战,但现在这已经不是问题。讨论认为,在服务器和浏览器之间通过 HTTP link头进行内容协商(content negotiation),从而确定浏览器能够支持的最大数据量是一个可能的方法;同时,基于HTTP的头部携带信息,为不同浏览器提供不同解析度的数据则是另一个解决此类问题的替代性方法;另一个可能的方法是服务器先向浏览器传送一定数量的数据子集(如10MB),然后允许浏览器表达是否超出了其能够处理的范围。在Maik的演示中,Web应用先向服务器请求一部分数据,当用户点击用户界面或执行控制操作(如选择特定的时间步长),再根据数据量和用户能够容忍的延迟范围向服务器请求其他数据集。其中很重要的一件事情是,浏览器必须在加载新的数据集之前将内从的数据清空,从而避免使Web应用消耗太多的内存空间。浏览器缓存可以隐式地帮助Web应用缓存其他Web资源,从而避免重复加载一些相同的资源或数据,但手动清空内存可能让这一这些缓存数据也被清空。

6. 中英合作(UK-China Collaboration)

参与方重点讨论了如何开展后续合作。OGC的 Denise McKenzie 建议双方关注在中英两国都重点关心的应用场景——如农业、灾害管理、水污染、森林消防等特定应用场景。参与讨论的专家们关心数据如何管理,但需要从终端用户的角度思考问题。Geoffrey Boulton指出在他参与的关于冰盖(ice caps)相关的研究中,他不得不直接对卫星数据进行操作;他希望和Maik一起合作,为研究者提供可以操作的数据及操作方法。

黎建辉研究员指出 CNIC 致力于为科学家提供服务,这些科学家往往对领域知识有充分理解,但并不是熟练的Web应用开发者。李国庆建议选择一些新的“公共数据服务”作为技术验证,如国家植被指数(national vegetation index),这些公共数据服务旨在为 Web应用提供可操作的数据,而不是提供一个包含了后台数据处理的完整数据服务,这可能引入一个新的处理流程。与会专家还讨论了这些地理覆盖数据共享技术对未来项目合作的支撑,讨论和后续的项目合作及协作方式。

讨论识别了一系列未来合作可能,在本项目中,各个参与方都承诺提供有限的时间投入,确保该项目的产出能够成为后续合作的基础。经过认真讨论,形成以下一致意见:

中科院遥感所(RADI)
将开发两个新的通用产品(Common Products),归一化植被指数(Normalised Difference Vegetation Index)及 叶面积指数(Leaf Area Index),这两个服务提供RESTful API,并支持WGS84坐标参考系统(WGS84 coordinate reference system)。这两个通用产品支持HDF5及GeoTIFF数据格式。
中科院计算机网络信息中心(CNIC)
将编写一个库,支持HDF5格式及 GeoTIFF格式到CoverageJSON格式的转换。CoverageJSON是英国里丁大学开发的一组数据访问API。由于所处理的数据往往超出浏览器所能处理的数据集大小上限,因此这个函数库需要提供一种机制,支持对数据子集(subset of data)的分发。这一数据服务将基于 CNIC 的地理空间数据云基础设施对外提供。
英国里丁大学(University of Reading)
将支持 CNIC开发其服务,根据实现中的反馈修订和维护 CoverageJSON 标准。里丁大学同时也需要开发一个客户端应用,支持网格比较(grid comparison)。
北京航空航天大学
将尝试基于 RADI 和 CNIC的API,结合其他数据源提供独立应用案例。

这些工作的产出将于 2016年6月22日在上午9:00(都柏林时间)、北京时间下午15:00在爱尔兰都柏林举行的 开放地理联盟(OGC)技术委员会会议上进行演示。OGC将配合处理邀请及注册事宜。

W3C 将报告项目的进展,并持续确保 CEO-LD项目与 OGC/W3C Web空间数据工作组(OGC/W3C Spatial Data on the Web Working Group)的联系。与北京研讨会同时,SWIRRL 的 Bill Roberts 也组织SDW工作组中对覆盖数据感兴趣的专家举行了另一个系列讨论(Bill Roberts和 Maik Riechert 、RADI的Jitao Yang是互联数据中的地理覆盖(Coverages in Linked Data)规范草案的编辑)。与 CEO-LD项目同步,澳大利亚国立大学 Canberra分校(Australian National University in Canberra)的研究团队也开展了 CoverageJSON的试验,并寻找其他的替代方案,提供关于地理覆盖数据的另一个独立视角。

SDW工作组具有开发国际标准的经验,能够确保研发的技术标准具有可持续发展能力。这对于研发将卫星图片转换为 Web开发者可以使用的技术标准来说至关重要,特别是广大的Web开发者并不具有(或只有非常有限的)关于对地观测技术的领域知识。W3C与来自英国及中国研究机构的合作,可以确保研发的技术标准通过充分的沟通讨论跨越地理界限、跨越文化,并为未来合作打下基础。