W3C

无障碍专题交流

2022年9月7日

题目:我们为什么要给一个失声者打造一个声音

讲者:王育军(小米集团) [演示文稿]

现场纪要

王育军:

主持人:下午分享的第一位嘉宾是小米的王育军老师,他的主题是:我们为什么要给失声者打造一个声音。

上午听了非常多的分享,大家讨论了很多的标准,但是刚刚有嘉宾提到中国现在的技术发展非常的快,很多的标准会滞后于实践,我们怎么样保证技术发展的过程中,能够把最新的技术同样惠及给有特殊需求的人,这个是技术团队需要去提升他们的内功或者说无障碍意识的一个事。

王育军:谢谢主持人,谢谢大会,谢谢线上每一位听众牺牲午睡的来听我讲。

我是在学界和工业界做过20年的语音相关的工作,做过多模态的声纹事件,语音识别,还有其他嵌入式语音的应用,给微软做过外包,训练声学模型。我在语音技术和声学技术上从业比较久,主要是做语音交互方面的工作。

从一个技术人员的视角看,做无障碍的初衷是什么?语音技术有两个大方向,一个是语音的识别,一个是语音的生成。现在都进入了第4代的互联网了,技术很卷,各种边角角的“需求”都被挖出来去研究了。语音技术有很多应用也比较成熟了,在这些大的应用都已经成熟的情况下,技术人员经常做一些所谓的“有趣”的应用:

比如说识别鸟的叫声,识别汽车发动机的异响,识别婴儿的声音,识别手语者的手语,甚至互联网上还有很多比较“生猛”的应用,比如说陪聊机器人。公司每天都在想如果用户调侃小爱同学怎么办?

我们心里面有一个小小的隐忧,这些东西到底是满足了哪些人的需求?有没有满足大家的刚需?这个回答是否定的。首先我们为什么要做这些?可能是因为不安全感,因为AI技术现在的应用范围有限,但开发是很昂贵的,能证明其价值的方式不多,发论文打比赛是很常见的,有些时候可能是市场运营的同事想搞个噱头?所以会有些匪夷所思的场景出现,但却可能忽略了很多真正需要这些技术的人群和情境,比如障碍群体和场景。

右边图是用户的圈层,整个的用户群体中有相当大的一部分是障碍的人士,这里面有临时障碍用户,比如说开车的时候就变成了临时的视力和肢体障碍用户;老龄化之后听觉、视觉都不是很灵光了,我们就变成了混合障碍的用户;也有永久障碍用户,比如视听障碍的群体。这个绿色的箭头代表着不可逆的康庄大道,大部分人无可避免最后都会向用户圈层的中心奔去。所以我们为自己的未来研发了哪些技术?

我们手上又有哪些技术呢?我们看一下这幅图:带着意图的用户对世界上最大的手机和AI平台的说话,经过拾音识别,通过生成,再通过语音反馈给用户,满足他的需求意图。这个闭环中的语音技术,每天要提供10.6亿次的语音服务。

这些技术在无障碍面前要归零、还是重构?在2019年的深秋,带着上面成堆的问号和技术,我第一次跟小米社会责任的倡导人朱汐发生了碰撞。朱老师是小米无障碍的无冕之王。她给我描绘了一副很大的无障碍的图景,尽管当时小米只能实现其中的一小部分。

我自己也一直有一个梦想:做一个语训师。朱老师在小米内部也在有步骤地推动社会责任构想,比如说从一些无障碍的功能做起。刚好我们抓到了一个契机,黑客马拉松,我们和朱老师合作,让我们的第一次碰撞产生了一个预研性质的作品。当时我们做了一个项目叫“聆听”,它是用个性化的语音识别技术提升言语(构音)障碍者的用户体验(唤醒和识别率),这个作品很有幸得了小米的第一届的黑客马拉松的冠军。

这位是大奎,一位NLP方向的博士,算是我的同行,不知道在座的老师是否跟他是朋友。他在很小的时候因为生病成了脑性麻痹患者,他很难控制面部的肌肉和发音的肌肉,无论是语音输入还是打字输入,效率和准确率都不高。我们2018年认识的时候,他给我提了这个需求,那会是无法实现的,但我们知道这个技术并不难。

后来跟大奎老师吃了一顿饭,他说你观察一下,你周围的人很多人都有不同的“障碍”,人人都是声音障碍者,我带着这个观察在这之后的生活和工作中产生很多的思考。比如说我发现其实很多人都有性格上的一些执念,沟通上大家多少都有些障碍。我也开始试图理解我身边有“抑郁”现象的朋友,他们在一段时间内物理上真的做不到克服自己的“消极”状态。我也试图理解了ADHD的朋友,我自己的孩子有比较严重的ADHD,我也开始理解他,有些事他就是做不到。这是大奎老师给我的恩惠。作为回报,我们用了他在国际学校14分钟的励志演讲,把这个声音进行的转写,把这个转写的结果和声音告诉语音识别的模型,进行了自适应。左边白色的屏幕是我们在黑客马拉松上做的DEMO,右边是在日常模型上的识别。

经过黑客马拉松,技术的同学都看到技术和社会责任发生碰撞的时候,大家可以碰撞出很多的火花,大家开始自发的想在自己的小领域内有哪些语音的技术可以为特殊的人群服务。

我们于是就来了第二波碰撞,到了2021年的时候参加了小米的技术嘉年华,在这个技术嘉年华上做了一个展台:声声的爱,技术向善。在这个嘉年华上,这些图片有很多小的展位,每一个展位上都有一个技术空间宣讲自己的技术。就像食堂里面的大师傅自己站在窗口自己给大家打菜一样,来推销自己的菜。

首先有小米闻声,通过语音识别和环境检测帮助听障人群看见周围的人说话,或者说看见周围的环境中发生的事件。有小爱伴读,可以帮助声音困难者评价发音的质量。还有语音打游戏,用自己的音高控制一个飞机躲避障碍物。在这个过程中得分最高的是一位听障的朋友,他是经历过专业语训的,他控制声音能力其实远比我们纯天然会说话的人强。这也是很有趣的反思。

还有声音捐献,在2021年10月24日之前就开始运作了,当时开始预热、宣发,包括技术开放日承接着路演加搜集小米内部捐献者声音的舞台。声音捐献我们都做了什么?先看一段视频。(VCR播放)

给大家介绍一下声音捐赠背后的技术,刚才视频中提到发声基本的原理,我们从技术的视角介绍一下发声的原理,相对来说比较简单,肺部气体冲击声带,这是我们声音发生的动力来源。这些动力在声腔中,声道包括咽、口腔、舌、齿、唇,另外对头部和胸部进行共鸣,所有的共鸣会调制动力源泉,动力的源泉对应的就是声调,动力的调制对应的是音色,通过这么一个原理把声带的条件和音色的条件拆解开来。

有了这个原理,可以看到右边捐赠的流程分为三个阶段,配型的阶段,建模阶段,技术输出阶段。在配型阶段做什么呢?根据刚才的原理在捐赠人的音库里面挑选跟他声音条件、声带的松紧程度相似的一堆捐献人的声音,在利用他刚才发出的比较模糊的声音和初筛的候选人进行声音的匹配,匹配出一系列声音。

接下来会经过两周的发音建模,发音建模输出的模型会用很多的文本做发音序列的生成和预测,生成很多声音的小样,小样会做捐赠人声纹的保护,通过声纹技术来排除合成的声音有没有跟某个捐赠人特别的相似,来避免人们滥用捐赠人的声音。

最后一个声音是给到受捐人互动,如果他觉得声音没有问题,再调一点就好的,那我们就进行因素的微调,然后放到APP里面使用。如果他觉得这个声音跟他的认知不太一样,我们就打回重来,重新回到受捐人声音配型的环节,再重新进行这个过程。我们跟他的声音匹配,声音的输出经过了两轮的环节,最后拿到他比较喜欢的声音。

作为一个技术人员最大的收获,都在这两个奖状里面,一个是捐赠证书,一个是在参与的过程中被大家认可了,这是我在小米五年的职业生涯中含金量最高的三张奖状中的两张。

下面是我的颁奖现场,大家可以看到C位的是阿卷,他从青海来到北京小米来给我们颁奖,非常感谢颁奖者。朱老师在阿卷的右边隔一个,阿卷的右边是王怡苹(音),他把整个流程串联起来了。

刚才说的技术人员经过一系列和无障碍方面的尝试,对整个无障碍也有了一些新的认知。原来我们技术人员,我们公司只是在写算法,写的算法会变成论文,获奖的证书等等。我们只会做这些吗?我们只会把这些所谓的特别高大上的东西变成大家眼中的人工智能,或者说人工智障的产品或者说服务吗?

经过无障碍的打磨、熏陶,经过无障碍的认知转换,很难说这是认知的提升,因为提升我们自己也不知道,但是确实认知得到的转换。以前对声音障碍者表现出来的善意可能是出自于大家的教育和本心表现出来的礼貌,现在大家做了无障碍的项目,可以有一个代入感,可以换位思考。

经过换位思考我们可以打造出来声音捐赠,个性化的语音识别,闻声,让听障人群看到周围的声音,还有Talkback读屏,让视觉障碍者听到用户的界面。

这是刚才所谓的声音的小世界中已经在小米的手机、平板中上线了一些功能。

另外,提一下小米闻声背后有一个语音识别的技术,小米的首席语音科学家DanielPovey,他一直倡导语音识别的开源,他现在跟我们一起工作,我们的闻声背后的语音识别,还有喉语评测都已经在上线了,如果有立志于做技术的同学或者说老师们也可以看一下这个。

最后再让我们来重温一下朱老师的这套以人为本的障碍者支持体系,今天已经丰满很多了,我们形成了一个互动,目前这个链条中有工具、辅助障碍人群的工具、环境,有提升障碍人群的尊严、体面,有帮大家就业等等这些闭环。

这些都是通过技术,成就了我们的技术之美,特别是通过技术之美去给障碍人群的独立性、尊严等等。

另外我们自己也在这个过程中得到了学习,得到了认知的转换。

非常感谢倡导者,无障碍的无冕之王。

最后完整的故事线在这个地方,大家对这个完整的故事感兴趣的话,可以在B站上搜索“重获新声”。

我的分享到此结束,非常感谢大家的聆听,谢谢!

主持人:谢谢育军老师,

提问:我比较关注的是捐赠这个事,因为主动愿意捐赠的人毕竟是少数,当下技术发展到电子合成音已经以假乱真的角度,我们还要做捐赠的渠道吗?为什么不给他们匹配一个合适的电子合成音呢?流程还更加的简单一些。

王老师:我们的理解,非常感谢一些技术的先行者,比如说Google为我们提供了全链条的语音合成的技术,可以以假乱真,但是技术归技术,论文归论文,产品还是要我们自己做。

这一次声音捐赠中收到了几千人的声音捐赠,如果用某一个人为刚才比如说为阿卷捐献声音,也是存在着法律风险,比如说安全、隐私这样的风险,也要保证捐赠人的声音不会被滥用。

所以我们要合成出一个平均的声音,从平均声音库合成一个和阿卷比较相似的声音,如果只是让某一个人的声音捐赠,当然技术就更好做了,但是会有伦理上的风险。

主持人:我简单的补充一下,语音库小米有声音商店,如果想要在现有的语音库里面找一个声音或者说现成的机械音是可以的,但是用户有一个诉求,他希望这个声音是专属于他的,和他的本人有相关的。 在这个条件下我们做了配型,他如果能够发出声音,那大概能够发成什么样。最后我们听到的声音给到阿卷的时候,他一秒钟都没有犹豫就觉得这个声音是我。声音除了是我们表达说话的工具以外,还是我们身份识别的标签。作为一个个人生物信息被识别的有效性,比在声音商店里面选一个要更复杂。

提问:我是代表我的朋友来问的,比如说没有小米手机的情况下,家里面发生其他的声音,有人来敲门,小孩子哭了,这个时候小米的全屋智能产品是否能够帮助他去提醒?

王老师:这是我们现在正在努力的事,除了手机,我们也希望其他的IOT里面所有的设备都具备声音感知的能力,比如说音响、摄像头、电视、机器人等等。现在我们正在做,通过赋予不同设备不同声音的感知能力,让它们之间可以互联互通。因为每一个设备基本上还是代表了一个生活的空间或者说场景,比如说电视代表了客厅,门铃代表了门厅,比如说晾衣架代表了阳台。

不同的地方都有相应的设备,这些设备如果都有监测的能力比较互联互通互动,一个设备感知,或者几个设备联动感知,也有几个设备联动的展示,比如说传递到手环上的震动等等,试图去打造这样一个图景,但是这是我们正在做的事。

提问:刚才这个问题我也有过思考,我自己也正准备往这个方向做,我在视障或者说听障的情况下,这些智能设备怎么样帮到我?第一点必须是多模态的,不能只有声音告诉我,或者说不能只有屏幕告诉我,不管是输入还是输出都是这样的结果,就可以帮助到大家。小米在这方面是否也在开展研究?

小米是否有在多模态的智能家居方面布局或者说研究?因为刚才同学提到的问题实际上是听障或者说视障用户在这样的居住环境下,我们的智能家居能够给他带来怎样的便利?补充他原本做不到或者说失去的能力。

王老师:这个问题非常的好,多模态的技术正在应用于各个场景中,视觉,触觉,包括各种蓝牙传感器,无线的感知,这些都是感知的输入。在无障碍这个领域,至少我个人还没有把这种蓝牙、无线感知,比如说无线可以感知到离家,蓝牙可以感知到移动等等。音视觉多模态的联合检测更是很有必要。比如说摄像头上都是音视觉联合的方案,在摄像头上先检测到头像,再分析里面的声音,是一个融合的技术方案。这是一个很好的启发,我们回去会专门针对这个再讨论一次。

返回会议总结主页


若您对上述内容有任何疑问或需进一步协助,请联系:讲者冉若曦 <ran@w3.org> 或会议主办方 W3C 北航总部 <team-beihang-events@w3.org>。