当 AI 忘掉颜色,当手机听懂孩子的哭声


来源:纵横网 浏览量(1.7w) 2026-01-05 19:37:17
当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第1张

“最完美的办法不是你把我背上去、你把我抬上去,最完美的办法是你给我创造个条件,让我自己走上去”。

2025年12月8日至12月15日,全国第十二届残疾人运动会暨第九届特殊奥林匹克运动会(残特奥会)在粤港澳三地举办。在赛场上,我们可以看到坐式排球、轮椅舞蹈、盲人柔道、聋人足球等项目。而在赛事外,一场更深刻的变革也在无声地发生着。

中国共有8500万残障人士,其中听障者2780万,视障者1730万。他们在生活中遇到的困难各有不同,技术改变了他们的生活。借助手机,聋人妈妈可以听到婴儿的啼哭,盲人能在人群中识别出熟人。人们常说,随着时代的发展,手机已经成为了现代人身上一个不可分割的器官。但对部分残障群体而言,现有手机交互方式往往未能充分适配他们的使用需求,而他们本应与所有人一样,平等享有科技带来的便利。现在,随着AI的发展,技术在满足了他们日常生活的基础需求后,开始向他们的情感需求蔓延。

然而,满足这些多元化需求,在商业逻辑中并不算一件很划算的事。在许多公司,无障碍项目的推进都会面临巨大的阻力。然而,效率从来不是世界运行的唯一逻辑。正因为科技从来不止于服务多数人的便利,这件事才必须有人做。

妈妈想“听见”孩子的哭声

听障人士杜银玲的手机有一项功能,当身边孩子啼哭或者喊“妈妈”,收到推送的手表就会震动。这使她能“听见”孩子的需求,参与孩子的成长。但新问题随之出现。一天,杜银玲带孩子去商场的“淘气堡”玩时,她的手表震动不停——在场所有孩子都在喊“妈妈”。杜银玲心想:能不能让手机只识别自己孩子的声音?

杜银玲今年38岁,是一位普通妈妈。唯一的区别是,她说话的语音语调与常人不同,尾音过分上扬或下沉,听起来像外国人说中文。她也确实常被人问:“你是韩国人吗?”被问得多了,她就会笑着回答:“对呀~”

2岁那年,她因过敏反应而失聪。尽管佩戴助听器,她听到的世界仍是模糊的、单调的,各种声音像在同一个频率上,没有高低起伏。她说话时配合丰富的手势动作和面部表情,大笑,愤怒,委屈,疑惑,通通鲜活。“这是聋人的特点。”她说,“表情是手语的语素的一部分。”

技术改变了她的生活。现在,她用手机点咖啡。当我们交谈时,她只需打开手机上的“vivo听说”软件,软件就可以将语音转成文字。每当她听不清,她只需看一眼手机。她也用手机和听人打视频电话。手机的“无障碍通话”功能能将健听人群的声音转成字幕,再把听障人士打的字用AI语音读出来。

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第2张

2022年,她怀孕了,坚持独自产检。但是医院人声嘈杂,软件转写的文字会变得混乱。她去前台求助,医护人员为她找了一位专门的医生。医生将她带进安静的房间,承诺每次产检都可以找他。事情再次变得简单了。

但到了进产房的时候,手机不让带入,医生想与她对话,只能写在纸上,举在她脸上给她看。写一条,看一条。她用口语问:“能不能再打点无痛?”医生写:“已经打过一针了,不能再打了。”事后杜银玲和朋友聊天,说医院最好配一个字幕机。当然,最好的方式就是医生会手语。

孩子出生后,新的需求诞生了。有时她希望听见孩子的“童言童语”。有次孩子感冒,她给孩子擦鼻涕。婆婆后来告诉她,当时孩子说,“鼻子要掉了”,杜银玲觉得很逗,有时她有些遗憾,由于自己听不到,她错过了太多这样有趣的话。

杜银玲不是第一个提出希望和孩子有更多互动的人。2021年,一位vivo的运营总监访谈了一位聋人妈妈。这位妈妈说,当婴儿啼哭时,她希望有设备能立即提醒她。长沙的街头,一位B站up主捕捉到一对听障父母带着年幼的听障女儿一起在卖鸡蛋仔,夫妻俩倾其所有,将唯一买得起的一副助听器给了女儿,妈妈说,她最大的心愿是“听见”孩子喊妈妈。

vivo研发团队意识到,除了听障人士的日常需求,更容易被忽略的是他们的情感需求。家庭,是无障碍产品的一个重要使用场景。

一位听障妈妈的孩子虽然也学会了打手语,但孩子太小,手语打久了会感到厌烦。妈妈想要安抚孩子时,却无法使用语言。现在,她可以打字到手机里,让AI合成人声,念给孩子听:宝宝好棒!

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第3张

要识别出婴儿的哭声,工程师需要想办法实现一项叫作“声音识别”的功能。在市面上还没有开源大模型的2021年,一切全凭自己探索。vivo的工程师贾杰记得,第一步收集数据就把他们难住了。因为市面上婴儿啼哭的数据并不好找,团队购买的6万条数据清洗后只剩4万条。工程师们只好在自己家和亲戚家找了四五个婴儿,用手机全天候录制一个多月,花了一个多月,录了4000多条数据,才补上缺口。

7个月后,这项功能完成了。婴儿一哭,与手机相连的智能手表就会震动,准确率达96%以上,超越市面上所有同类产品。这些功能帮助到的群体远不止帮助聋人妈妈。生活中还有许多重要但被忽略的声音,团队为其他声音种类留了接口:比如敲门声、门铃声、汽车喇叭声、烟雾报警声等。

而如果想让聋人母亲“听见”孩子喊妈妈,则需要另一个升级版的功能——“自定义听声”。用户可以在手机上设置2-6个关键词,一旦触发关键词,与手机相连的手表也会震动。这项开发更难。“因为数据收集相当于没有边界”,贾杰说,所有2-6个中文汉字的排列组合都需要尽可能覆盖。

vivo的产品经理李柯男也是一位听障者。读大学时,他靠助听器和读唇来识别老师在讲什么。有时坐得远,老师点到时,他会看错,从而答错。后来工作后,同事喊他他总听不见。“自定义听声”可以在他的名字被提及时提醒他。“这是每一个听障者都需要的功能。”李柯男说。

今年,工程师们开始挑战一项更大的突破:“声音记忆”。在听障者使用“vivo听说”的语音转文字时,手机能通过录入的声纹识别出说话人是谁,并记住这个声音。这项功能最大的难点在于,人与人的一些音色可以非常相像,普通技术难以分辨。在vivo之前,市面上几乎没有公司开发这一功能,vivo走在市场前列。工程师承认,“我们现在识别的准确率只能做到83%,明年试图让它达到85%以上。”

一项不可能的任务

“(我们的)生活当中其实没有什么不方便,主要就是沟通障碍。”杜银玲告诉我。他们跟不上健听者的语速,还时常要面对健听者困惑的表情。好比当我们交谈时,她说“西瓜病毒”,再三比画,最终拿出手机来打字,我才终于明白,她说的是“新冠病毒”。

在一次无障碍安全日的活动上,有人提议玩游戏,在场每人说出一项无障碍设施。杜银玲发现,对盲人最有用的工具是盲杖、导盲仪……而对她来说,最有用的是一位手语翻译。

杜银玲所描述的这种区别,被美国女作家海伦·凯勒概括为:“盲分隔人和物,聋分隔人和人。”与视障人士相比,听障者在生活上的不便确实稍少一些,他们面对的最大困境是沟通障碍。在人群中,他们甚至会更隔绝、孤立感更强。

一位聋人向我讲述他大学时的遭遇:他在健听环境读大学,那时常有小组讨论,他依赖助听器和读唇勉强参与,但只要他稍微一低头,就分不清是谁在说话。到了要他发言的一瞬间,他总是茫然和停顿,因为他不知道别人上一句说的是什么。

刚参加工作,同事来叫他,叫很多遍,他总是听不见。最后同事说一句:已经叫过你很多遍了,像针一样扎在他的心上。他想,难道同事不知道他听不到吗?还是觉得听障人士带了助听器,就像近视者带了眼镜一样,立刻就什么障碍都不存在了?

杜银玲知道,其中的关键在于语言。视障者与明眼人的语言是相通的,听障者与健听者的语言却并不相通。语言与认知又息息相关,情感教育和社会化教育对他们来说是非常缺失的。

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第4张

有段时间,一则短视频在网上传播:一位听障外卖员直接给用户发短信:“给我钱27元。”用户感到被冒犯。在手语里,这位听障外卖员说的是正常语序——他们习惯先说重点,再加以辅助。直接转译为汉语,就显得没有礼貌。

小时候,出于老一辈的观念,杜银玲的父母一度不允许她学手语,坚持要她学说话。聋人学说话,只能凭感觉去发出某个音节,老师不断地拍打她的手掌:不对,不对,不对,不对,不对……直到某一次:对了。此后,她只能凭感觉记住当时的口型、舌头形状、喉咙用多大力、是否有鼻音。

学口语是很多听障儿童的父母会做的选择。从长远看,良好的口语能够帮助听障者更好地融入社会。但是,杜银玲意识到,不断迁就和适应强势文化,只会让弱势文化更加式微。

手语是一门语言,这是确定的。全球有7000万手语使用者,比泰语使用者(6800万)还多。2021年,杜银玲与丈夫在柬埔寨度蜜月,他们发现,靠打手势,他们更擅长与外国人沟通。手语的思维方式是全球共通的。

2011年,大学毕业后,杜银玲帮一位老师做手语视频的转译工作,一做三年。这位老师说过一句让她印象深刻的话:聋人地位低,不是因为受教育程度低,而是因为手语这门语言的地位低。

2012年前后,杜银玲开始在北京各大高校的社团教手语,很快发现教课的效果并不好。其中最关键的原因是,手语与汉字完全是两套思维系统。

汉语是符号思维,手语是图像思维。手语中的“一个人去砍树”,就是两根手指模拟人的两条腿,另一只手模拟一棵树,平放下来代表树被砍倒了——这是一幅画面,与文字中的主谓宾并没有清晰的对应关系。杜银玲发现,她需要在第一节课就说清两套语言体系根本的区别,这么做之后,讲课效果立马改善。

2021年,一些听障用户曾向vivo反馈,如果手机能直接识别出手语,并将手语直接转译成文字,他们使用产品的便捷度将大为提高。但因为两套语言互相转译的技术难度,在前期评估中,这个项目一直被认为可行性不强。

一方面,在技术上,手语翻译是所有无障碍项目中难度最大的一个。图像识别比语音识别难,视觉的序列识别又比静态识别难。一套手语动作,可以拆分成50帧甚至80帧的序列,任何细节的变化,都可能导致语义的变化,难度呈指数倍增长。在没有大语言模型之前,这几乎是一个“不可能的任务”。

另一方面,手语还涉及到“方言”的问题。一势多义、一义多势的情况都很常见。同一个词语“奶奶”,有人联想到的是皱纹,有人联想到的是拐杖,也有人联想到的是发髻。同一个动作,配合不同表情,表意也不同。手语甚至可以自己创造,只要足够形象。

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第5张

但他们做出来了。2023年,vivo的“手语翻译官”功能上线,可以在国家标准通用手语的1200个词汇量内实现手语与汉语的互相转译。到目前为止,vivo的“手语翻译官”仍是手机行业唯一一款中文手语识别与合成应用。尽管他们并不认为这一产品是绝对成功的。由于手语过于复杂,AI的技术还有边界,产品上线后,“方言”问题的反馈仍络绎不绝。无心插柳的是,一位聋协的老师指出,这一产品,或许有助于推动国家标准通用手语的普及。

他们如何“看见”世界

如果说聋人的困境是人际沟通,那么盲人面对的则是生活方方面面的不便利。人的大脑每天通过五种感官接受外部信息,每种感官占比不同:味觉1%,触觉1.5%,嗅觉3.5%,听觉11%,以及视觉83%。由于缺乏视力,盲人损失了83%的信息来源。

在过去,如果盲人想要“看见”周围的世界,只能借助他人。没有AI的时候,盲人群体中最有名的软件叫作Be My Eyes,这款由丹麦公司开发的软件可以随时随地连接全球各地的志愿者。志愿者通过视频连线,回答盲人提出的问题,向盲人描述,他面前有什么。

2023年起,vivo开始将无障碍产品从听障领域向视障领域扩展,推出了新产品“vivo看见”。“vivo看见”借助AI图像识别技术,可以直接为盲人描述周围的环境,使得盲人不用借助他人、就知道附近有什么成为可能。

从技术上讲,AI的图像识别原本就比语音识别难。但最让产品团队困扰的是,有时候产品明明在技术上迭代升级了,用户却反馈,AI描述得太啰嗦了,讲了一大堆,却没有他们想听到的重点信息。

为此,vivo的产品团队专程去拜访了中国盲文图书馆的副馆长、中国盲人协会的副主席何川,向他提出了自己的疑惑。

何川今年52岁,自己也是视障人士。他的手机里下载了10多个AI图像识别的软件,是他说,绝大部分AI图像识别不是描述给盲人听的。

为了演示,何川打开一个AI识图的软件,软件说道:你面前有一张棕色的桌子,桌上摆着一个维达纸巾盒,你穿着一件白色的卫衣。“其实物品的颜色、品牌这些信息,对我来说优先级很靠后了。我最想知道的不是这些。”何川说。大部分软件,都是按照明眼人的思维逻辑去描述的。

什么样的描述逻辑是适用盲人的呢?何川说,盲人最需要的是对他的行为有参考意义的信息。在一个会议室里,他需要知道有多少人,男士还是女士,有没有自己认识的人。在一条走廊上,他需要知道门在哪里,离他有多远。

根据AI的伦理,AI对画面中出现的人应当尽量中性描述,避免加以判断。但何川认为,AI对物和环境却可以有判断。在描述时,AI应先定义场景,譬如:这是一间办公室,这是一间餐厅。然后再描述离他最近物体(帮助他评估安全与否、是否有被绊倒的风险),最后再延伸到中景的细节。

我将这个问题抛给AI本身,AI对此也进行了反思。AI告诉我:“AI通常会告诉你面前有一杯咖啡,但不会告诉你杯柄在右,小心烫,而后者的信息才是盲人所需要的。”

30年前,何川毕业于长春大学特殊教育学院的中文专业,与民谣歌手周云蓬是同学。1989年,17名盲童在天津读了2年中文预科班,并有12名学生最终进入了长春大学,完成了为期三年的中文专业的学习——在此之前,长春大学特教学院的视障方向还只有按摩和音乐专业。毕业后的30年里,何川始终从事着针对视障群体的信息无障碍工作。

小时候,何川爱看书,但那时候,盲文书的出版很受限。把一本书翻译成盲文,单字段的汉字变成盲文,需要三个字段(声母、韵母、音调)来表示。薄薄一本书变成盲文后,体积会成倍增加。很多大部头的巨著只能出节选版。何川小时候想看《红楼梦》,只能看节选版,节选版打破了原有的叙事结构。很多年后,他才发现,节选版打破了原有的叙事结构,丧失了红楼的真味。

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第6张

读书的问题直到他来到盲图工作后才有所解决。2007年后,盲图开发了一批电子产品,最有名的阳光听书郎,形如当时的功能手机,可以帮助盲人大量听电子书。

智能手机刚出现时,盲人群体一度很恐慌,他们担心就此被时代抛弃。不过很快,读屏软件被开发了出来,人们呼唤开发者们制作出打标更清晰、更适配读屏软件的产品。

2008年,一家大厂第一次上线验证码功能的时候,何川代表盲人群体与他们谈判。那时候,大厂的开发者们惊讶于自己的产品竟然有盲人用户。他们呈现出一种既缺少认知、又“朴实”的状态,在何川展示了自己是如何像普通人一样使用电脑后,他们立即表示愿意调整。但验证码功能已经上线,不能撤回,他们选择用“笨办法”——给5000多位盲人用户手动开了白名单。

人工智能时代到来了,AI成为了实现信息无障碍的重要一环。何川告诉我,AI在速度上的优势,对盲人社会化的需求很重要。从前,盲人看电影,需要有专门的人为电影撰写解说和录制旁白。AI出现后,极大地节省了这项工作的成本。何川说,目前,AI的解读能力一定还不如人写的好,但盲人需要的是快,他们需要跟上最新的电影。

AI也满足了盲人的尊严需求。在2025年的vivo开发者大会上,许多被邀请来的用户都描述了自己身上发生的改变。原定每人说三四分钟,但大多数人一说就是十多分钟,导致会议严重超时。他们说,过去自己总是“偷感很重”,总觉得自己给社会添了麻烦。自从有了图像识别与描述技术,他们可以可以自己拿快递,自己在酒店找房间,自己找到自己打的出租车,再也不需要处处麻烦他人了。

一位盲人旅行博主过去在入住酒店时,总是分不清酒店提供的洗发水和沐浴露。借助“vivo看见”,他终于可以分清楚洗发水和沐浴露,不会再出现把沐浴露抹在头发上的尴尬了。还有一位盲人咖啡师,用“vivo看见”可以分辨清楚不同咖啡豆的种类,连开发者都没有想到,这一产品在各类场景中能有如此丰富的用法。

“最完美的办法是给我创造条件,我自己走上去”

残障人士通常背负着很重的包袱,害怕成为社会的负累。工程师贾杰最触动的一次体验,是在公司组织的一次活动中,他在青藏见到了一群有听力障碍的孩子,并给他们体验了自己的产品。与孩子们交流时,一个孩子说,他担心自己在使用vivo的“无障碍通话”功能时,打字速度太慢,让对方等太久,使对方感到不被尊重。

何川常年从事残疾人权益倡导的工作,他很早就意识到,残疾人维权始终存在一种微妙的博弈与平衡:一方面,他们需要在合理的范围内据理力争,另一方面,他们需要避免在社会资源不平均时过度维权,以免民众在其他方面对盲人产生报复性歧视。这一过程既需要技术的改善,更需要公众认知的进步。

在何川看来,残疾人需要的并不是简单的帮助,“最完美的办法不是你把我背上去、你把我抬上去,最完美的办法是你给我创造个条件,让我自己走上去”。

vivo正在试图创造这样的条件。vivo无障碍团队的战略负责人常卓告诉我,在vivo,做无障碍几乎是“不计成本”的。这个团队没有做商业闭环,也没有算全局投资,全公司最好的技术团队都来支援这个项目。

他们试图通过一套逻辑让大家达成共识:对于普通人来说,信息是用来辅助判断的,而对于障碍人士,信息是用来做决策的。无障碍对于信息准度的要求通常是最高的。因此,它对技术的要求也最高。如果能把无障碍做好,团队将提前探索出非常先进的技术能力。这些技术能力未来是可以迁移的。比如,未来,语音控制可能会是手机发展的一个主流,“vivo听说”的语音技术就可以迁移。

这种技术能力也是能够复用的、开放的。他们已经将蓝心大模型的AI能力开放给其他做无障碍产品的公司,十余家公司从中受益,累计节约400万成本。今年,vivo还将向本届残特奥会所有获奖的听障、视障运动员,捐赠搭载最新无障碍功能的手机设备,总价值超过150万元。

像何川和杜银玲这样积极提出建设意见的障碍用户还有很多。杜银玲的手机里有一个vivo无障碍产品用户微信群,有人将之戏称为“许愿池”。

有一年,杜银玲坐飞机,空姐戴口罩,她无法读唇,想用“vivo听说”翻译,又发现“vivo听说”在离线状态下不能使用。她将这个问题反馈上去,几个月后,“vivo听说”就上线了离线版本。

最近,何川还提出了一个建议。作为中国盲图的副馆长、北京盲协的主席、中国盲协的副主席,他经常需要出席会议。但他发现在人多的会议场合,如果身边人不说话,盲人根本无法得知谁来了。往往是事后和朋友聊起来,才发现“当时你也在啊”。他希望AI图像识别能够记忆人脸,帮他识别现场有没有熟人。这个点子他也提给了很多公司,vivo是第一个实现的。

常卓说,因为市面上的无障碍产品少,障碍群体的选择少,他们的用户粘性通常会非常高。这是一批非常可贵的用户,愿意陪伴产品成长。无障碍产品的用户群,活跃度总是比其他用户群的得多。

另一方面,障碍群体的需求总是非常细节的,这些具体的声音绝无可能靠普通人的空想触达。理解他们没有捷径,只有不断地与之接触、对话,才能不断贴近他们真实的体验。

技术提供条件,就业是另一件需要全社会搭建平台、让障碍人士“自己走上去”的事。盲人的职业选择远不止按摩师,聋人的职业选择也不止外卖骑手,他们需要的是更多信息渠道。2024年,“vivo声声有息公益计划”开始与北京联合大学特殊教育学院等全国20所大学特教学院合作,通过提供就业讲座的方式,将更多职业选择带到学生们面前。

听障人士李柯男是因为“手语翻译官”的项目加入vivo的,2023年时,他教团队学习手语,帮助团队做手语标注、手语核对的工作。每隔两周,他就会组织同事们进行一次团建,玩手语游戏,科普关于手语文化的知识。“手语翻译官”的项目的初期开发结束后,他又转岗到了vivo的产品团队,负责无障碍产品的用户可用性测试、用户调研等工作。

当 AI 忘掉颜色,当手机听懂孩子的哭声_https://www.izongheng.net_人物_第7张

他发现自己逐渐被这份工作改变了。从小,李柯男自认是个敏感的人。在健听环境长大,总需要察言观色,才能在人群中找出最可能接纳自己的人。如今,他所在的七八人团队中共有两名听障者,他们不再是绝对少数。开会时,团队会特意为他们放慢语速。遇到无障碍问题时,他们是专家。这份工作最大限度地发挥了他的优势,他对产品功能与问题的把握,几乎比任何健听人都准确、敏锐。

他在创造价值,李柯男感到自己的性格逐渐打开了。从前,当他没听清的时候,他总是会假装自己听到了,条件反射地点头说嗯、嗯、嗯。现在,他学会大大方方地讲,我没听清,麻烦您再说一遍。

来源 | 正面连接

作者 | 浦铭心







THE END

版权声明:未经纵横网授权,严禁转载或镜像,违者必究。
特别提醒:如果文章内容、图片、视频出现侵权问题,请与本站联系撤下相关作品。
风险提示:纵横网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
本文地址: