AI & Web：理解与管理机器学习模型对Web的影响

本文档给出[=AI系统=]尤其是基于[=机器学习模型=]的AI系统对Web的系统性影响，以及Web标准化在管理这种影响方面所扮演角色的分析。

伦理和社会影响

W3C技术架构组的“伦理Web准则”[[ethical-web-principles]]中有一条是保证“Web不应该给社会带来危害”。

如上所述，在人工智能最近的发展中，Web已经扮演了一个关键赋能者的角色，而且人工智能的使用和影响也通过借助Web来分发而成倍地增长。这就要求W3C社区作为Web的管理者必须了解这种混合过程中浮现的潜在危害，并且找到可能解决这些问题的方法。

由Web机器学习工作组率先起草撰写的“机器学习中的伦理原则[[webmachinelearning-ethics]]”整合了UNESCO（联合国教育、科学及文化组织）公布的《人工智能伦理问题建议书》[[UNESCO-AI]]中的价值观和原则，又增加了“伦理Web准则”中特定于Web的原则，确立了基于Web的机器学习应该遵循的4个价值观和11个原则，这些对本文档的结构也有帮助。

尊重自治和透明度

关于AI生成内容的透明度

最新的[=AI系统=]能够辅助人类进行部分或全部内容创作（包括文本、图像、音频和视频），内容的质量在一定程度上（至少表面上来看）是可以接受的，而且在数量上也会超越人类所创作的内容。对于内容创作者而言，这既是机会，又有风险。但更重要的是，这给内容给消费者带来了系统性的风险。因为面对海量AI生成的可接受（其中可能含有错误或者有意误导人的）内容，消费者无法分辨或者找到哪些内容是权威的，哪些内容又是杜撰的。

对最终用户来说，这个需求是非常直接的压力，因为他们作为个体来消费内容的。但同时这个压力也会给到最终用户所使用的代理。通常情况下，搜索引擎会因纯AI生成内容的透明度而受益。而有点令人啼笑皆非的是，用于训练AI模型的爬虫可能也需要这样的信号，因为使用模型的输出来[=训练=]模型可能导致意外且没有用的结果。

关于如何保证（比如通过密码）某个内容是不是（部分或者全部）通过[=AI系统=]生成的，我们并不知道什么可行的方案。这个方案的缺失很遗憾会造成谣言或垃圾满天飞的系统性风险，而这正是为了W3C这个内容分发平台乃至整个社会的健康而应该严重关切的问题。

在这个领域中，标准能够扮演的一个貌似合理的角色是至少能够加快内容标注的进程，通过标注来表明内容是否是计算机生成流程的结果。虽然这种标注不可能通过技术手段强制实施，但如果能够由[=AI系统=]自动添加（至少大规模删除的成本有足够的阻力），同时又是一种监管的手段，是有可能得到广泛采用的。

这个领域已经出现了一些提案，这些提案如何能够得到更多关注、讨论，以及最终成规模地部署就更好了：

C2PA关于AI和机器学习的指南 [[C2PA-AI]]
IPTC合成媒体[[IPTC-DST]]及其在Schema.org[[schema-org]]中对应的表示
[[HTML]]的建议：AI生成内容的元标签（单人提交）

AI介入服务的透明度

依赖于[=机器学习模型=]提供服务有一个众所周知的问题，就是可能吸收甚至可能强化[=训练=]数据中存在的偏见。偏见在其他算法和人类决策流程中也很常见。但对[=AI系统=]而言这是一个更大的挑战，因为由于当下的这些模型很大程度上是像一个盒子一样封闭运行的，所以很难审计和纠正。

这种偏见会在更大程度上影响那些期望的输入和输出在训练数据中没有被充分代表的用户（正如2023 AI与无障碍研究专题研讨会所报告的[[WAI-AI]]）。而凭直觉就很容易联想到那些已经被社会和技术所抛弃的人。比如，假设你的语言、外表或行为不符合主流预期的规范，就不太可能被主流内容关注，因而就不太可能在训练数据中出现，或者即使出现也是被歪曲的。

在更好的至少能够系统检测这种偏见的工具出现之前，鼓励和推动系统性地信息发布，包括是否使用了机器学习模型、这些模型是如何训练和检测偏见的，应该能够对最终用户选择自己要使用的服务提供更多有益的帮助（当然，前提是用户必须能够选择，比如不适用于某些政府提供的服务）。

“针对模型报告的模型卡（Model cards for Model Reporting）”[[MODEL-CARDS]]就是这样一个手段，我们曾在2020 W3C关于Web与机器学习研讨会上讨论过[[W3C-ML-WS]]。假设这个报告能够提供有意义和可行的透明度，那么对（这个）技术标准提出的问题就是，应该如何将这些卡序列化并使其在Web上可被发现。

W3C应该关注一种特殊的模型部署方式，即浏览器引擎本身使用的用于响应API请求的模型。很多Web浏览器API已经（或多或少明确地）暴露了[=机器学习模型=]的输出：

Web语音API（Web Speech API）[[SPEECH-API]]；
加速形状检测API（Accelerated Shape Detection API）[[SHAPE-DETECTION-API]]；
媒体捕获中的背景模糊、人脸检测、注视矫正控制。

正如下面要讨论的，这些API也带来一些工程化问题，包括如何确保像更传统的确定性算法一样提供同等程度的互用能力。

隐私权和数据保护

如果模型是在没有经过分类或只部分经过分类的Web内容上进行训练的，那么这些模型很可能会包含个人可识别信息（Personally Identifiable Information，PII）。同样，对于在用户选择与服务提供商共享（无论是否允许公众使用）的数据上训练的模型也是一个道理。这些模型有可能经常为知道如何提问的用户检索并向他们共享用户信息。而这不符合那些被收集个人信息的用户对隐私的预期，而且可能违反很多司法管辖区的隐私法规。更糟糕的是，这也会带来新型攻击的风险（参见“安全与安保”）。

虽然在内容创作方面讨论的排除规则有可能在某种程度上对第一种情形有帮助，但对第二种情形则无能为力。这个问题领域很可能面临严格的监管和法律审查。

从技术标准化的角度来看，除了标注内容，用户数据又被用于模型[=训练=]的现象以及由此引发的一些反弹，可能让（来自用户和服务提供商的）对于分布式架构的呼吁卷土重来，使用户数据较少受到集中控制（最近Activity Streams的应用范围不断扩大就说明了这一点）。

这种模式的一个特别典型的例子，就是最近出现的所谓个人数据存储：通过更加清晰地区分数据存储与数据处理的角色（在传统云基础设施下，通常完全由一个角色来处理），为用户提供更多方式更加细粒度地控制自己的数据。

这个话题最近在W3C已经通过2023年底SOLID工作组建议的章程有所显现（W3C社区已经认可该章程的重要性，但尚未达成共识）。

允许在个人数据之上[=运行=]模型同时又不必把数据上传到服务器，正是浏览器Web神经网络API（Web Neural Network API）[[WEBNN]]背后的动机之一。这套API是对WebAssembly[[WASM-CORE-2]]和WebGPU[[WEBGPU]]已经提供的计算能力的补充，提供了额外的特定于机器学习的优化，以便模型能够在浏览器（也就是在最终用户的设备上）高效[=运行=]。

安全与安保

很多[=机器学习模型=]都能够以非常低的成本模仿人类生成质量可以接受文本甚至视频（实时的或录制的）。这就显著放大了网络钓鱼和其他网络诈骗得逞的风险，同时也很大程度上提高了通过在线交际建立信任的门槛。如果用户对自己在数字化媒介中进行交际不再有安全感，那么Web将无法再扮演这种交际平台的角色。

这就对在Web上实现可靠身份与凭据管理产生了更加强烈的需求。可验证凭据工作组（Verifiable Credentials Working Group）的工作能够让凭据以密码级安全、保留隐私，以及机器可验证的方式进行表示 [[VC-DATA-MODEL]]。而把联合身份（Federated Identity）系统更好地集成到浏览器中 [[FEDCM]]，以及刚出现的将数据凭据在Web内容中公开化 [[DIGITAL-CREDENTIALS]] 的建议能够在某种程度上降低与这些新的模仿人类的威胁相关的风险。

可持续性

很显然，[=训练=]和[=运行=][=机器学习模型=]需要消耗大量资源，特别是要消耗大量电力和水。减少人类对自然资源占用的使命也应该特别明确地适用于通过标准化能够有助于其大规模部署的技术。

可持续Web设计社区组（Sustainable Web Design Community Group）（有望成为标准化工作组）有一项相对比较新但很有前景的工作，解释了如何以可持续的方式使用Web技术。

W3C仍然缺少一个完善的评估其标准对环境所产生影响的框架。鉴于有据可查的[=AI系统=]对环境的高度影响，W3C中那些预期会加速[=机器学习模型=]部署的小组，在探索和记录他们的工作对环境有哪些预期影响，以及他们能够找到哪些可能的应对方案方面采取积极主动的态度会变得非常重要。

平衡内容创作者激励与消费者权益

人们已经知道或已经假定，一些规模最大且最受瞩目的[=机器学习模型=]在没有创作者或发布者明确同意的情况下，使用了从Web爬取的数据进行训练。

因此引发的争议正在从版权法的角度进行辩论（也有一些仲裁的例子）。

我们不知道这种特定的使用场景能否适用版权法规，以及适用什么样的版权法规。除了法律上的考虑，版权机制能够在创作者和消费者之间营造一种（相对而言）共同的认知，即默认情况下，未经创作者同意，内容不能被重新分发、合成、改编或构建。这个共同认知让大量内容在Web上开放地分发成为可能。同时也让创作者能够在消费者始终都会来到自己页面的假定之下斟酌使用各种变现手段（订阅、付费阅读、广告）。

很多[=AI系统=]都整合了(1)对Web内容的自动化大规模消费，以及(2)大规模内容的生产，却从来没有意识到或者说考虑过回报那些用来训练的内容。

尽管这种紧张的气氛并不新鲜（下面会讨论到），但基于机器学习的系统无疑将颠覆已有的平衡。除非能够找到一个新的可持续的平衡点，否则将会给Web带来如下不良影响。

开放分发的内容明显变少（可能对不那么富裕的人产生更大影响）。
一个不那么吸引人的内容分发平台。

为了重新平衡这种情况而作出改变的版权法规也可能带来一些间接风险，即在限制内容消费者的权力的同时，也会削弱以内容分发作为核心主张的Web平台的价值。

与搜索引擎的比较

考虑到搜索引擎在Web平台上所扮演的中心角色，不难理解围绕大规模爬取Web内容的重用而出现的很多激烈争论其实有着悠久的历史。搜索引擎具有对Web上的内容进行检索和组织的能力，因而提供（同时也拥有）了价值。但这个价值高度依赖于构建Web内容的标准化基础设施。

搜索引擎与内容提供者之间多多少少已经达成了隐式契约，即搜索引擎可以对来自提供者的内容进行检索、解析以及只展示一部分内容。相应地，搜索引擎将为内容来源提供更多曝光机会和流量。进一步的共识也已经基于Web的运行方式确定下来，让这个隐式契约成为任何在Web上公开发布内容的人的默认选项，也就是通过robots.txt指令[[RFC9309]]编码的一种退出机制。

随着时间推移，除了通过用户查询来匹配网站链接之外，搜索引擎还集成了更多直接暴露目标网站内容的方式。包括使用富媒体片段（典型的做法是利用schema.org的元数据），以及实现嵌入式的预览组件（比如像AMP项目的组件）。这些变化在发生的同时，有时候也会引发质疑的讨论，焦点是如何平衡给爬取内容更多曝光量的同时又不会降低最终用户访问来源网站的积极性（因为他们在搜索结果页就已经得到足够多的信息了）。

在某些情况下，[=AI系统=]被用来替代或补充完成人们以前通常使用搜索引擎来完成的工作（实际上也越来越多地被集成到搜索引擎界面上）。因此，探索搜索引擎与内容创作者的需求平衡演进的过程能够在多大程度上启发关于爬虫用于训练[=机器学习模型=]的讨论看起来是有用的。

为了进行比较，有必要明确它们的区别。

内容创作者与搜索引擎爬虫的隐式契约（也就是会增加他们的曝光量），对于被集成到[=AI系统=]的内容而言并没有一个系统性的等效对应物。虽然有些系统具备了在给定[=推理=]中指出训练数据来源的能力，但这种能力很难成为此类系统的一个普遍功能，而且也不一定能够得到系统性的应用（比如，针对生成的图片给出训练源的链接有什么意义呢？）。即使能够做到，相比典型的搜索引擎结果页，其展示的来源可能会更少，相应地对用户跟随链接的刺激也会更小。
robots.txt指令支持基于用户代理向特定的爬虫下发特定的规则。虽然对于众所周知的搜索引擎爬虫来说，这个方法能实际起到管理的作用（无论效果是好是坏），但指望内容创作者去维护一份预期要允许或屏蔽哪些以检索训练数据为目的、数量快速增长的爬虫列表，应该是不太现实且无法持续的。

鉴于人们对[=AI系统=]相关爬取行为可能有着不同的预期，目前尚不清楚从早期Web继承而来的这种无许可模式（robots.txt是1994年设计的）是否能够满足在Web上发布内容的长期可持续性目标（但其本身对AI爬虫应该会长期关注的）。

一般来说，对于在这个领域寻求标准化的一个可能有用的建议，就是识别能够帮助内容生产者和AI爬虫找到可接受的条件，理想情况下在一定范围内对各方都具有吸引力的解决方案。

有一些组和个人已经开始探索如何让内容发布者表达自己希望怎么让自己的内容用于[=训练=][=机器学习模型=]的意愿。

文本与数据挖掘保留协议社区组（Text and Data Mining Reservation Protocol Community Group）制定了“TDM Reservation Protocol (TDMRep)” [[TDMRep]]，以“表达适用于合法使用Web内容进行文本及数据挖掘相关权限的保留”。
IETF围绕更新robots.txt指令的讨论已经开始，尤其是更新robots.txt社区组提议给robots.txt指令增加一个选择加入机制。

概述

简介

术语

AI系统与Web的交叉领域