Web 中文兴趣组会议

现场纪要

鲍捷:

非常高兴时隔三年，再次见到W3C的同学。十几年前，我们刚刚开始和W3C工作的时候，没有什么中国人。我们记得第一次遇到安琪（李安琪，W3C时任中国区总经理），那时候中国区的人很少，现在很高兴有这么多中国区的同事们在这里。以前我们经常开玩笑说W3C的C是China，这一天会到来的！

我了解到W3C是在2001年，是语义网刚开始的时候。我参加W3C标准化工作，从2007年到现在已经十五年时间了，这个期间我们见证了很多东西。今天想和大家回顾一下我们在这个过程中取得的成绩，犯过的错误，以及我们如何克服了这些错误。

首先正一下名。最近Web 3.0这个词非常火，实际上Web 3.0最早是Tim提出来的。Tim在2006年的文章《更加革命的Web》当中，提出了Web 3.0的这个词。虽然这个词的外延有了很大的变迁，但内涵没有变化。

我们要理解Web 3.0就要知道Web 1.0、2.0，其实07~09年W3C的社区里有很多同事们已经用这个词了：这是当时W3C的CEO 史帝芬的演讲，这是我翻到Jim有封邮件里提到的Web 3.0，还有Project10X，还有2009年IEEE杂志Jim Hendler组织的专题，还有2009年春天我们组织的Web 2.0+Web 3.0的研讨会。可见这不是全新的词了！

但是14年Gavin Wood重新定义了Web 3.0，也就是从传统语义网的Web 3.0，衍生到今天以区块链为基础的Web 3.0。但是他们所要想解决的问题，就是我今天讲这个PPT想去陈述的，两个版本的Web 3.0，本质上是一件事，都是要解决Web的信任问题、确权问题以及分布式应用问题。所有都是为了实现Tim的最终愿景：This is for everyone。

回到过去，Web是关于内容，更多是关于信任。有一次我问Jim，他说在Web上可以发现更多没有发现的东西，这就是Serendipity。Web就提供了这样一个尽可能的把麻烦交给我们——我们是指W3C——然后把自由交给整个世界上的其他的人民的这样一种设计。

在“Weaving The Web”书中，Tim就提出了一个很宏伟的计划，不仅要把全世界的内容联系在一起，还要把全世界的知识联系在一起。大家经常说的Web，其实原始的设计里就已经有这部分内容。后来Web的很多东西，在Web诞生的第一天就已经在规划里。

这是一个很宏大的规划，第一个阶段是文档的Web，第二个阶段把Web加上了元数据，就变成了Semantic Web，这个阶段称之为“知识的互联”。再后来我们遇到了很多挫折，有一段时间大家认为语义网的技术已经过时了。但是，我们发现它又从另一个角度衍生出来了，后来以知识图谱、还有图数据库的面貌重新出现。这几年又出现新的Web 3.0，我们发现以前我们犯了很多错误，但是我们原来想达到的目标用不同的途径，最后反而实现了。

Web 1.0是文档的互联，这个很容易理解，不多说了。

到2000年之后，出现了Facebook等一系列社交媒体，就是Social Web出现，我们称之为Web 2.0时代。Web 2.0被称为Social Web，我认为不应该是社交网络，应该是社会网络，它的本质是人与人之间的关系，它是把线下的各种关系搬上来。

它的另一个本质就是把线下的实体搬到线上来，线下的各种人、公司以及各种商务关系，以及今天订餐时候所需要的每一道菜、每一个餐馆、打车时候的每一个建筑物都是一个个实体，我们把线下的实体搬到线上来，构成了线上的生活。今天大家用饿了么、滴滴、美团的时候，都要意识到背后是很大的实体网络，我们把这个实体网络称之为知识图谱。它映射了实体的关系，这些实体关系就是知识，所以当年语义网已经实现了。

我记得08年统计全世界的Web页面有30%用元数据，相信今天统计会远大于这个比例，所以语义网已经实现了。

07~08年的阶段，出现了一个新的问题，那时候Tim大声疾呼希望这些大型社交网络可以开放数据。这些大型的社交网络不愿意开放数据，构成了walled garden，相互之间成为了有墙的花园，所以07年之后W3C的领袖们大声疾呼open data，开放数据。

这是一系列先驱们提出语义网很重要的背景。只是在当时大家想的得比较学术化，大家想如果要让机器理解网页到底在说什么，就需要有元数据，所以那时候大家想要有语义、要有知识。提到这一系列就会想到应该把人工智能的分支——知识表现——引入进来，既然是知识表现就应该有各种逻辑的表现力。沿着这个方向我们走了十年，后来发现走偏了。如果深度探讨，今天的时间就不够用了。

语义网到底是什么？今天是在W3C的会场上，出于政治正确，我们应该说W3C就是用语义网一系列技术栈的应用。但是我们要反问更深刻的问题，如果抛开“用什么”的话，那么我们真正想达到的核心目标应该是什么呢？

在我看来有三件事：第一，动态的数据建模；第二，能够让数据流动起来，而不是分布在一个个网站里；第三，支持更多任务的自动化。在此基础上，我们衍生了更多新的东西，比如Web 3.0时代的各种确权。但底层的诉求是上面的三点，更敏捷、更分布式、更灵活的Web。为了达到这一点需要各种各样的元数据。

如果把这三点再总结，在应用层面上，对于客户而言，对用户而言，他并不关心底层数据如何实现，他希望有更聪明、更自动化的机器。Tim等2001年在“科学美国人”上的奠基文章里举的例子，就是如何做一个和医生预约的机器人。对于广大的Web用户而言，他们不关心用什么技术标准，只关心是否已经实现了，今天是否已经实现了？其实已经实现了，现在有很多在线预约医生的网站和APP，它可以帮助我们做事情，有可以帮助我们规划路线等方面的机器人，它是不是用了之前提到的技术呢？没有，但我们的目的实现了,我们应该拥抱的这些发展。

这是一个semantic WEB和SEMANTIC web这两种不同的技术路线之间的冲突。这个比喻是Jim Hendler在2005年前后提出来的。他说Web上所谓的语义网，最关键的东西不是semantics，而是Web。真正给它带来价值的是我们把它放到网上来了，所以是我们的开放，让数据更加有流通性。这就是以人为核心的思想。后来工业界继续把这条路向前推进，把Semantic全部去掉了，就有了后来的Knowledge Graph。

再回顾一下语义网，如果我们抛开它到底“用”的是什么的话，它到底能给我们“带来”什么？我认为最核心一点就是Web的任务自动化，这一点其实目前已经实现了，虽然没有用OWL。

语义网是上一代的分布式应用。从07年~14年我花了很长时间研究Semantic Wiki，发现可以把各种各样的规则也写成模板。这些模板天然的就是一种数据，如果一段代码是数据，就可以被查询，就可以被使用，就可以被集成。

后来在Tim团队一起研究AIR（一种可追责语言）的时候，本质上就是我们把这些代码放在可以查询的平台上，就是RDF。今天这种平台成为了以太坊平台、区块链平台，我们管这个东西叫“智能合约”，代码变成了数据的一部分，这就是一个分布式的应用。今天我们可以理解很多年前无法理解的，语网的本质就是这两个，一个是任务的自动化，一个分布式应用。

之前从框架网络到专家系统，有很长的发展阶段。在2000年前后，语义网诞生，2007~2008年，关联数据是这个领域的最高峰，但是2008年金融危机之后进入了低谷，12年Google提出了知识图谱，之后中国开始有这样的概念，慢慢开始发展起来了。很多技术的演进过程就不逐一说了。

OWL 这个语言，大概 04 年第一个版本，09年是第二个版本，是基于描述逻辑的。它给了语义网以语义，就是Semantics。但是从某种程度上来说，这种很强的语义也导致了后来这种语言比较难以理解，所以它在工业界的应用就不够，最终在工业中真正应用起来的并不是语义非常丰富 OWL，而是RDF 以及 RDF 各种简化的版本。比如其中有一个版本叫 RDFa，然后我们再进一步简化、其中一部分思想把它融合到了 HTML 5 的 semantics 里面。前端工程师现在都在用这些东西，大家可能并没有意识到这背后有一个很长的技术发展的路径，有 semantics 也不知道为什么有这种东西，也不知道这个技术是怎么来的，但是这个挺好用。

后来就衍生出非常巨大的链接数据以及各种各样的开放数据，07年前后有Linked Data，以及Schema.org，以及到2012年Google 知识图谱。

总结下来，十几年的时间，我们从无到有地把 semantic Web 整个领域创建起来以后，发现没人用，因为太过复杂就不停地简化它，简化它到 12 年之后，开始来把它简化成知识图谱。

我们来回顾一下06年版本的W3C语义网底层技术栈，从URI到XML、RDF、RDFS等等，上面还有Proof、Trust，当时这些工作还没有做，后来这些领域的兴趣就减弱了，就被其他的领域继承了。

到底怎么被继承呢？12年之后，最底层的是图谱技术,我们现在把它称为叫知识图谱，这个领域是比较成功的。第二块是知识技术，有SPARQL、OWL、RIF等等，直到最近两三年又重新兴起。第三部分是这个互信技术，后来变成了区块链的技术。

知识图谱顾名思义就是知识+图谱，知识就是schema，图谱就是 instance 。我们把知识图谱拆成七层，从底层的文本一直到上层的规则，更加贴近非结构化数据的格式。这个金字塔更贴近目前工业界用的知识图谱，和技术栈之间是有对应关系的，这个知识部分相对于知识技术部分就是SPARQL OWL RIF这一部分，图谱部分也是数据部分，相当于 RDF XML 的这一部分。

这两年数字化转型非常火爆，尤其是各种中台技术、流程机器人技术。虽然大家在不同的时间提出了这样的技术，但是在数字化转型的几个核心的阶段，比如流程的自动化、服务的开放化等，恰好可以对应到语义蛋糕的不同层次上。技术总是有这样的特点，一开始我们想是这样，发现原来的路走不通，这个过程中诞生了各种副产品反而走成功。

知识图谱和大数据也很有关系，从传统的数据仓库，内部的结构化数据到后来的数据湖，多个来源的这种类型化的数据，是我们有了融合了 NLP 的能力之后，再有了知识提取之后，就有了智能中台的能力；再有了跨平台的信任能力，比如智能合约，区块链的开放平台的能力。整个技术栈和目前在企业界的应用有很大的关系。05~06年时候看得不是很清楚，那时候想到企业级的应用都是医药、政府的应用，Web当时用得不是很多。12~15年，我们开始尝试，亚马逊、Google等做成了推荐、搜索、智能音箱等应用，都是已知的应用。未知的应用是什么呢？后来发现在ToB企业数字化转型当中有大量的应用。这是15年认识到的。

刚才讲的是我们犯的错误以及无意中取得的成绩，再往后，从语义网到知识图谱这个版本，它和另外一个版本的 Web 3.0 融合在一起，就是区块链相关的这种尝试。新一代的Web 3.0的几个核心特点，一是价值，或是货币，将成为互联网固有特征，其次是去中心化应用为用户提供新的功能，第三是数字身份和数字资产权利。这三点并不是新的，10年左右Tim已经开始为之努力。我认为Web 3.0价值主要是催生一种数字资产经济，数据资产权利将催生新的产业。

可能我比较偏颇，但是我认为这件事才是当前世界上最重要的事情。现在世界上发生贸易战、国家冲突等，但十年之后、二十年之后或没有人再会记得这些。但是大家的生活将被改变，有一群Web的人、有一群技术的人创造了数字资产产业，创造了数字资产市场经济，为未来一代人带来了最大的经济增长点。这是地球上现在最重要的事情。

这个观念已经不新了，09年David Siegel已经在《Web 3.0》这本书里展望了。一说Web 3.0，一定会提到区块链，它一定是去中心化的系统吗？不一定。这里我提出一个不可能三角，安全性、去中心化和可扩展性，不可能同时满足，所以在Web上做需要牺牲，我相信被牺牲的是去中心，因为安全性和可扩展性不可能被牺牲。

去中心化又往往表现为强中心化，今天就不展开讨论了。

08年同时提出了区块链和互信技术。Tim 提出了AIR就是基于 RDF 的可追责语言，他的观点是Web是开放的组织，不能事先禁止大家做一些事情，但要进行事后追责。所以分布式信任技术并不仅仅是区块链，它是一个庞大的技术体系。

链式追责也不是新的概念了，Git就是这样的系统。区块链也是类似的系统。

Web 3.0是否必然建立在区块链之上？Tim最近说不一定，完全抛开区块链做一套去中心化的工作系统很难做到，但区块链未必是这件事唯一的实现路径，也不是最核心的本质，因为它的核心本质仍然是可追责性，不是区块链的分布式账本。

现在领域发展早期，更多强调的是革命，甩开原来的那一套闹革命，但是，我们面对利维坦，不可能革命，最多就是改良。

AIR是Accounability。Solid是Tim最近做的身份认证系统，现在在做一个新的公司Inrupt在实现这个想法。

总结来说，从Web发展来讲，我认为未来Web 3.0往前走，依然会是很庞大的体系，我把它分为七层，上面的合约层、逻辑层，恰恰是当年做语义网时候最终没有实现的那部分愿景，也就是我们的Proof、Trust等等，我们希望在新的平台上重现大家的理想。

Web过去已经有三十年时间，我相信未来还有很长的时间要走，如果把第一代Web称之为Doc Web，第二代是Social Web，过去十年是Data Web，未来20年可能还要实现Token Web和Value Web，就是万物可通证，通证之后，所有数字资产都要可分发、可清算，相信2040年之后一定会有Value Web，这个过程中将建立新的市场经济形态。相信在W3C同仁的努力下，一定会实现！谢谢大家！

提问：最后几页PPT里提到了通证、确权、清算等等，这些词都是动词，谁来做呢？

鲍捷：我觉得在不同的国家会有不同的路径，如果在中国，可能会有一些体制内的方式来推进，如果在海外，更多的是由分布式推。

提问：给我的感觉将来是有大而无形的企业或者是实体，很难成为真正的去中心化的状态？

鲍捷：这个问题我也在思考，Tim等领袖发明了这个词“社会机器”，我42岁之前很拥护这个东西。但是，在此之后我改变了想法。最近我看了一本刘慈欣的科幻小说《2185》，非常推荐大家去看看。

返回[会议总结页面]获取其他话题的会议纪要。

若您对上述内容有任何疑问或需进一步协助，请联系：会议主办方 W3C 北航总部 <team-beihang-events@w3.org>。

Web 中文兴趣组会议

2022年9月6日

题目：从语义网到知识图谱：Web 知识技术体系的变迁

讲者：鲍捷（文因互联）[演示文稿]

现场纪要