W3C

Web 中文兴趣组会议

2022年9月6日

题目:从语义网到知识图谱:Web 知识技术体系的变迁

讲者:鲍捷(文因互联)[演示文稿]

现场纪要

鲍捷:

非常高兴时隔三年,再次见到W3C的同学。十几年前,我们刚刚开始和W3C工作的时候,没有什么中国人。我们记得第一次遇到安琪(李安琪,W3C时任中国区总经理),那时候中国区的人很少,现在很高兴有这么多中国区的同事们在这里。以前我们经常开玩笑说W3C的C是China,这一天会到来的!

我了解到W3C是在2001年,是语义网刚开始的时候。我参加W3C标准化工作,从2007年到现在已经十五年时间了,这个期间我们见证了很多东西。今天想和大家回顾一下我们在这个过程中取得的成绩,犯过的错误,以及我们如何克服了这些错误。

首先正一下名。最近Web 3.0这个词非常火,实际上Web 3.0最早是Tim提出来的。Tim在2006年的文章《更加革命的Web》当中,提出了Web 3.0的这个词。虽然这个词的外延有了很大的变迁,但内涵没有变化。

我们要理解Web 3.0就要知道Web 1.0、2.0,其实07~09年W3C的社区里有很多同事们已经用这个词了:这是当时W3C的CEO 史帝芬的演讲,这是我翻到Jim有封邮件里提到的Web 3.0,还有Project10X,还有2009年IEEE杂志Jim Hendler组织的专题,还有2009年春天我们组织的Web 2.0+Web 3.0的研讨会。可见这不是全新的词了!

但是14年Gavin Wood重新定义了Web 3.0,也就是从传统语义网的Web 3.0,衍生到今天以区块链为基础的Web 3.0。但是他们所要想解决的问题,就是我今天讲这个PPT想去陈述的,两个版本的Web 3.0,本质上是一件事,都是要解决Web的信任问题、确权问题以及分布式应用问题。所有都是为了实现Tim的最终愿景:This is for everyone。

回到过去,Web是关于内容,更多是关于信任。有一次我问Jim,他说在Web上可以发现更多没有发现的东西,这就是Serendipity。Web就提供了这样一个尽可能的把麻烦交给我们——我们是指W3C——然后把自由交给整个世界上的其他的人民的这样一种设计。

在“Weaving The Web”书中,Tim就提出了一个很宏伟的计划,不仅要把全世界的内容联系在一起,还要把全世界的知识联系在一起。大家经常说的Web,其实原始的设计里就已经有这部分内容。后来Web的很多东西,在Web诞生的第一天就已经在规划里。

这是一个很宏大的规划,第一个阶段是文档的Web,第二个阶段把Web加上了元数据,就变成了Semantic Web,这个阶段称之为“知识的互联”。再后来我们遇到了很多挫折,有一段时间大家认为语义网的技术已经过时了。但是,我们发现它又从另一个角度衍生出来了,后来以知识图谱、还有图数据库的面貌重新出现。这几年又出现新的Web 3.0,我们发现以前我们犯了很多错误,但是我们原来想达到的目标用不同的途径,最后反而实现了。

Web 1.0是文档的互联,这个很容易理解,不多说了。

到2000年之后,出现了Facebook等一系列社交媒体,就是Social Web出现,我们称之为Web 2.0时代。Web 2.0被称为Social Web,我认为不应该是社交网络,应该是社会网络,它的本质是人与人之间的关系,它是把线下的各种关系搬上来。

它的另一个本质就是把线下的实体搬到线上来,线下的各种人、公司以及各种商务关系,以及今天订餐时候所需要的每一道菜、每一个餐馆、打车时候的每一个建筑物都是一个个实体,我们把线下的实体搬到线上来,构成了线上的生活。今天大家用饿了么、滴滴、美团的时候,都要意识到背后是很大的实体网络,我们把这个实体网络称之为知识图谱。它映射了实体的关系,这些实体关系就是知识,所以当年语义网已经实现了。

我记得08年统计全世界的Web页面有30%用元数据,相信今天统计会远大于这个比例,所以语义网已经实现了。

07~08年的阶段,出现了一个新的问题,那时候Tim大声疾呼希望这些大型社交网络可以开放数据。这些大型的社交网络不愿意开放数据,构成了walled garden,相互之间成为了有墙的花园,所以07年之后W3C的领袖们大声疾呼open data,开放数据。

这是一系列先驱们提出语义网很重要的背景。只是在当时大家想的得比较学术化,大家想如果要让机器理解网页到底在说什么,就需要有元数据,所以那时候大家想要有语义、要有知识。提到这一系列就会想到应该把人工智能的分支——知识表现——引入进来,既然是知识表现就应该有各种逻辑的表现力。沿着这个方向我们走了十年,后来发现走偏了。如果深度探讨,今天的时间就不够用了。

语义网到底是什么?今天是在W3C的会场上,出于政治正确,我们应该说W3C就是用语义网一系列技术栈的应用。但是我们要反问更深刻的问题,如果抛开“用什么”的话,那么我们真正想达到的核心目标应该是什么呢?

在我看来有三件事:第一,动态的数据建模;第二,能够让数据流动起来,而不是分布在一个个网站里;第三,支持更多任务的自动化。在此基础上,我们衍生了更多新的东西,比如Web 3.0时代的各种确权。但底层的诉求是上面的三点,更敏捷、更分布式、更灵活的Web。为了达到这一点需要各种各样的元数据。

如果把这三点再总结,在应用层面上,对于客户而言,对用户而言,他并不关心底层数据如何实现,他希望有更聪明、更自动化的机器。Tim等2001年在“科学美国人”上的奠基文章里举的例子,就是如何做一个和医生预约的机器人。对于广大的Web用户而言,他们不关心用什么技术标准,只关心是否已经实现了,今天是否已经实现了?其实已经实现了,现在有很多在线预约医生的网站和APP,它可以帮助我们做事情,有可以帮助我们规划路线等方面的机器人,它是不是用了之前提到的技术呢?没有,但我们的目的实现了,我们应该拥抱的这些发展。

这是一个semantic WEB和SEMANTIC web这两种不同的技术路线之间的冲突。这个比喻是Jim Hendler在2005年前后提出来的。他说Web上所谓的语义网,最关键的东西不是semantics,而是Web。真正给它带来价值的是我们把它放到网上来了,所以是我们的开放,让数据更加有流通性。这就是以人为核心的思想。后来工业界继续把这条路向前推进,把Semantic全部去掉了,就有了后来的Knowledge Graph。

再回顾一下语义网,如果我们抛开它到底“用”的是什么的话,它到底能给我们“带来”什么?我认为最核心一点就是Web的任务自动化,这一点其实目前已经实现了,虽然没有用OWL。

语义网是上一代的分布式应用。从07年~14年我花了很长时间研究Semantic Wiki,发现可以把各种各样的规则也写成模板。这些模板天然的就是一种数据,如果一段代码是数据,就可以被查询,就可以被使用,就可以被集成。

后来在Tim团队一起研究AIR(一种可追责语言)的时候,本质上就是我们把这些代码放在可以查询的平台上,就是RDF。今天这种平台成为了以太坊平台、区块链平台,我们管这个东西叫“智能合约”,代码变成了数据的一部分,这就是一个分布式的应用。今天我们可以理解很多年前无法理解的,语网的本质就是这两个,一个是任务的自动化,一个分布式应用。

之前从框架网络到专家系统,有很长的发展阶段。在2000年前后,语义网诞生,2007~2008年,关联数据是这个领域的最高峰,但是2008年金融危机之后进入了低谷,12年Google提出了知识图谱,之后中国开始有这样的概念,慢慢开始发展起来了。很多技术的演进过程就不逐一说了。

OWL 这个语言,大概 04 年第一个版本,09年是第二个版本,是基于描述逻辑的。它给了语义网以语义,就是Semantics。但是从某种程度上来说,这种很强的语义也导致了后来这种语言比较难以理解,所以它在工业界的应用就不够,最终在工业中真正应用起来的并不是语义非常丰富 OWL,而是RDF 以及 RDF 各种简化的版本。比如其中有一个版本叫 RDFa,然后我们再进一步简化、其中一部分思想把它融合到了 HTML 5 的 semantics 里面。前端工程师现在都在用这些东西,大家可能并没有意识到这背后有一个很长的技术发展的路径,有 semantics 也不知道为什么有这种东西,也不知道这个技术是怎么来的,但是这个挺好用。

后来就衍生出非常巨大的链接数据以及各种各样的开放数据,07年前后有Linked Data,以及Schema.org,以及到2012年Google 知识图谱。

总结下来,十几年的时间,我们从无到有地把 semantic Web 整个领域创建起来以后,发现没人用,因为太过复杂就不停地简化它,简化它到 12 年之后,开始来把它简化成知识图谱。

我们来回顾一下06年版本的W3C语义网底层技术栈,从URI到XML、RDF、RDFS等等,上面还有Proof、Trust,当时这些工作还没有做,后来这些领域的兴趣就减弱了,就被其他的领域继承了。

到底怎么被继承呢?12年之后,最底层的是图谱技术,我们现在把它称为叫知识图谱,这个领域是比较成功的。第二块是知识技术,有SPARQL、OWL、RIF等等,直到最近两三年又重新兴起。第三部分是这个互信技术,后来变成了区块链的技术。

知识图谱顾名思义就是知识+图谱,知识就是schema,图谱就是 instance 。我们把知识图谱拆成七层,从底层的文本一直到上层的规则,更加贴近非结构化数据的格式。这个金字塔更贴近目前工业界用的知识图谱,和技术栈之间是有对应关系的,这个知识部分相对于知识技术部分就是SPARQL OWL RIF这一部分,图谱部分也是数据部分,相当于 RDF XML 的这一部分。

这两年数字化转型非常火爆,尤其是各种中台技术、流程机器人技术。虽然大家在不同的时间提出了这样的技术,但是在数字化转型的几个核心的阶段,比如流程的自动化、服务的开放化等,恰好可以对应到语义蛋糕的不同层次上。技术总是有这样的特点,一开始我们想是这样,发现原来的路走不通,这个过程中诞生了各种副产品反而走成功。

知识图谱和大数据也很有关系,从传统的数据仓库,内部的结构化数据到后来的数据湖,多个来源的这种类型化的数据,是我们有了融合了 NLP 的能力之后,再有了知识提取之后,就有了智能中台的能力;再有了跨平台的信任能力,比如智能合约,区块链的开放平台的能力。整个技术栈和目前在企业界的应用有很大的关系。05~06年时候看得不是很清楚,那时候想到企业级的应用都是医药、政府的应用,Web当时用得不是很多。12~15年,我们开始尝试,亚马逊、Google等做成了推荐、搜索、智能音箱等应用,都是已知的应用。未知的应用是什么呢?后来发现在ToB企业数字化转型当中有大量的应用。这是15年认识到的。

刚才讲的是我们犯的错误以及无意中取得的成绩,再往后,从语义网到知识图谱这个版本,它和另外一个版本的 Web 3.0 融合在一起,就是区块链相关的这种尝试。新一代的Web 3.0的几个核心特点,一是价值,或是货币,将成为互联网固有特征,其次是去中心化应用为用户提供新的功能,第三是数字身份和数字资产权利。这三点并不是新的,10年左右Tim已经开始为之努力。我认为Web 3.0价值主要是催生一种数字资产经济,数据资产权利将催生新的产业。

可能我比较偏颇,但是我认为这件事才是当前世界上最重要的事情。现在世界上发生贸易战、国家冲突等,但十年之后、二十年之后或没有人再会记得这些。但是大家的生活将被改变,有一群Web的人、有一群技术的人创造了数字资产产业,创造了数字资产市场经济,为未来一代人带来了最大的经济增长点。这是地球上现在最重要的事情。

这个观念已经不新了,09年David Siegel已经在《Web 3.0》这本书里展望了。一说Web 3.0,一定会提到区块链,它一定是去中心化的系统吗?不一定。这里我提出一个不可能三角,安全性、去中心化和可扩展性,不可能同时满足,所以在Web上做需要牺牲,我相信被牺牲的是去中心,因为安全性和可扩展性不可能被牺牲。

去中心化又往往表现为强中心化,今天就不展开讨论了。

08年同时提出了区块链和互信技术。Tim 提出了AIR就是基于 RDF 的可追责语言,他的观点是Web是开放的组织,不能事先禁止大家做一些事情,但要进行事后追责。所以分布式信任技术并不仅仅是区块链,它是一个庞大的技术体系。

链式追责也不是新的概念了,Git就是这样的系统。区块链也是类似的系统。

Web 3.0是否必然建立在区块链之上?Tim最近说不一定,完全抛开区块链做一套去中心化的工作系统很难做到,但区块链未必是这件事唯一的实现路径,也不是最核心的本质,因为它的核心本质仍然是可追责性,不是区块链的分布式账本。

现在领域发展早期,更多强调的是革命,甩开原来的那一套闹革命,但是,我们面对利维坦,不可能革命,最多就是改良。

AIR是Accounability。Solid是Tim最近做的身份认证系统,现在在做一个新的公司Inrupt在实现这个想法。

总结来说,从Web发展来讲,我认为未来Web 3.0往前走,依然会是很庞大的体系,我把它分为七层,上面的合约层、逻辑层,恰恰是当年做语义网时候最终没有实现的那部分愿景,也就是我们的Proof、Trust等等,我们希望在新的平台上重现大家的理想。

Web过去已经有三十年时间,我相信未来还有很长的时间要走,如果把第一代Web称之为Doc Web,第二代是Social Web,过去十年是Data Web,未来20年可能还要实现Token Web和Value Web,就是万物可通证,通证之后,所有数字资产都要可分发、可清算,相信2040年之后一定会有Value Web,这个过程中将建立新的市场经济形态。相信在W3C同仁的努力下,一定会实现!谢谢大家!

提问:最后几页PPT里提到了通证、确权、清算等等,这些词都是动词,谁来做呢?

鲍捷:我觉得在不同的国家会有不同的路径,如果在中国,可能会有一些体制内的方式来推进,如果在海外,更多的是由分布式推。

提问:给我的感觉将来是有大而无形的企业或者是实体,很难成为真正的去中心化的状态?

鲍捷:这个问题我也在思考,Tim等领袖发明了这个词“社会机器”,我42岁之前很拥护这个东西。但是,在此之后我改变了想法。最近我看了一本刘慈欣的科幻小说《2185》,非常推荐大家去看看。


返回[会议总结页面]获取其他话题的会议纪要。

若您对上述内容有任何疑问或需进一步协助,请联系:会议主办方 W3C 北航总部 <team-beihang-events@w3.org>。