贝夫司机
2021年9月8日
要论一辆智能电动车的自我修养,我认为智能语音一定是人类和车之间产生情感的重要催化剂。在众多的科幻电影中,都有让人印象深刻的人工智能机器人,比如像《流浪地球》里的莫斯、《钢铁侠》里的贾维斯等等,脑洞再开一点,理想同学何尝不是我们的莫斯和贾维斯呢?
OTA 2.2版本已陆续推送,自研的理想同学从小学生升格为初中生,这次升级对于每天和它接触的车主来说,会有较为明显的感知,而理想同学变化的背后,是一群人对它的训练、提升和打磨。今天我就代表关心理想同学的车主们,跟语音团队的产品经理老胡,好好聊聊理想同学的过去、现在和未来。
做适合东方人的智能语音
与老胡的第一次见面,是在理想研发总部的一楼会议室,我推门进去的时候,他还在对着电脑专注地敲键盘,一抬头,别说,还有点理想同学呆萌的样子。
因为我们的工区不一样,所以这也是我跟老胡的第一次见面。寒暄、递水、聊家常,一套完整的“待客”流程后,突然老胡说道,“你知道之前为什么大家会觉得理想同学笨吗?因为东方人的第一次见面是先聊天,再谈事,第一印象很重要。”
根据后台数据显示,车主们跟理想同学首次见面时,大多数不会先下指令,而是会先查户口,比如会问“你几岁了?”“你吃饭了吗?”“你对象是谁?”,如果这些家长里短的问题答的不好,就会被留下“笨”的印象,这就是东方人的习惯,因为在潜意识里,会把理想同学当成一个有感情的“人”。
做适合东方人的智能语音,这是老胡一直挂在嘴边的。基于这个背景之下,理想同学跟车里的人应该是一种什么关系?朋友、助手、玩具还是其他类型?不同定位它的功能倾向就会不一样,也决定了产品表现。
因为理想汽车的品牌理念是“创造移动的家,创造幸福的家”,所以老胡对理想同学的定位是管家(当前阶段)和家人(未来目标),管家背后是高智商,家人背后是高情商。
先来说说管家,一个好的管家可不是那么容易当的,可分为初、中、高三级。
初级管家的能力是听懂用户指令。“你跟他说去把灶台上火给打开,他就给打开了,你说把锅架上去,他就把锅架上去了,你说放油就放油,放菜就放菜,但你要跟他说你给我做个饭,他就不会。”老胡对于初级管家的描述通俗易懂。
中级管家的能力是听懂用户需求。比如当你说“我想看星星”,天窗就自动打开了,当你说“车里有点热”,空调就自动调到22度。中级管家是具备一定理解能力和创造力的。
高级管家的能力是可以洞察用户的需求。比如说你上车后脱下外套,用手扇了下风,高级管家可以判断你热了,主动询问是否打开空调降温。对于高级管家来说,要有很强的感知能力,这就要配合视觉方案了。
家人的定位,跟管家有一个比较清晰的分界线,就是我们允许家人有点“笨”,可以这不会那不会,但是家人能跟你产生情愫。
跟AI产生感情,这不是不可能。“我们认为理想同学关于家人的那个定位,找了很多词去形容,最后找到一个,我觉得是现在最有代表性的,叫做牵绊感。”老胡说,当我们的车主跟朋友换车开,他会因为车上没有他的理想同学而难受,会很不舍时,这种牵绊感就已经存在了。
理想同学要想成为一个好家人,需要经历四步。一是建立关系(相遇),彼此知道对方是谁,也知道各自立场,当理想ONE的钥匙交到自己手里那一刻,就建立了关系。第二步是情感探索(相识),可以聊家常,知道彼此的性格、兴趣爱好、家庭信息等等。第三步是情感交流(相知),情感交流和情感探索之间有一个清晰的分界线,就是聊价值观,可以探讨观点,可以对世界的黑白灰交换意见。第四步是产生牵绊(相依),人与AI之间有了感情依赖,会出现不适应没有Ta的生活,这就是终极阶段。
管家和家人的角色,并不是一个进阶关系,而是共生关系,只是现阶段想做到家人的牵绊感太难,这只存在于科幻电影中,但是在将来一定可以实现。
智能语音的终极挑战—车载生态
汽车工业,一直被誉为现代工业体系中的掌上明珠。在智能电动车时代,这个地位依旧没有改变,只是从过去追求机械的极限,变成了追求万物互联的无极限。智能语音作为智能电动车最核心的交互方式,已经成为必须要占领的高地。
智能语音的实际使用场景中,共有六大类型,分别是音响、电视、可穿戴设备、机器人、手机、车。其中最难的场景就是车。“车载人工智能是人工智能所有产品里面最有深度,最有高度,最复杂的产品,也是最有可能做出牵绊感的产品。”老胡说,做好了车的智能语音,其他场景都是向下兼容,所以要做就要挑战行业里最难的领域。
像音响、电视、可穿戴设备等,都是单人单向的指令,更像是通过语音来进行搜索,但是在车内的话,就要解决人工智能领域中一个很著名的场景难题—“鸡尾酒会”。是指在一个嘈杂的鸡尾酒会上,人类可以随时判断是谁在跟自己说话,但是人工智能想判断准确就非常难。在车内的多人环境中,同样面临类似问题,这是车载语音面临的第一大难点。
车载智能语音的第二大难点是复杂庞大的生态接入,比如说导航、音乐、视频软件等,以及整车的车辆控制。在智能语音的神经网络里,可以理解为是一个3D立体世界的样子,QQ音乐、高德导航、车辆控制都是一个个房子,每一个指令进入这个世界后,都会去先找到对应的房子,然后再进入房间找到想要的东西,这个“东西”就是大家发出指令后想实现的功能。
随着各类房子越来越多,里面成百上千的“东西”也越多,对于语音的算法要求也越高。更重要的是,不同房子的背后,都是一个完整独立的团队,语音团队要挨家挨户的敲门、熟悉、制定迎客策略,这样才能保证车主的良好体验。
第三大难点,是对用户工具化需求和情感化需求的权衡。一部分用户希望理想同学别说话,默默高效的执行指令,一部分用户希望理想同学做个人,有自己的性格一点,可以跟自己逗乐解闷。所以,如果能做出一个千人千面的理想同学,那真是集人工智能之大成了。
理想汽车的语音团队已经做好战斗的准备,整个团队主要分为五大块,分别是产品、项目、设计、研发、测试,各司其职各有分工,目标就是把理想同学做到行业里的顶尖水准。
当前市面上把智能语音落地的公司主要分为三种类型:第一类是行业中以提供解决方案为为主的供应商,如一线互联网大厂,它们有很强的技术和路径实现的能力,但是没有做终端产品;第二类是像部分车企,需要语音供应商解决全套的方案,他们对用户和场景理解深刻,却在技术和产品上投入不足;第三类是自己有终端产品,自己也可以定义语音产品,有完整的自研能力。过去,理想汽车是第二类,但当去年自己的语言团队集结完成后就属于第三类了,虽然这条路更难,但却是正确的选择。
寥寥数语,只能让大家对智能语音的产品逻辑和行业格局有个框架的了解,至于背后的繁复,老胡觉得那对于车主来说不重要,在车主心里只有两个标准:满意和不满意。在进入理想汽车之前,老胡是在一线互联网大厂负责语音业务,这次来到车企也是为了实现自己的理想。
“这次我必须选择一个第三类的公司,而且理想的产品是面向家庭的,场景非常丰富,内置有四音区,多块大屏幕,这给智能语音提供了良好的发展环境。然后理想同学是有温度的,这个车本身也是有温度,所以在关系层面,无论是管家还是家人,都可以做得很深入,我觉得目前没有比理想更好的平台。”这就是老胡来到理想的理由。
积蓄力量,迎接新生
自研的理想同学带着更完整、更高阶的功能来到每位车主的“家”中,老胡是紧张的,这是整个语音团队积蓄了半年多的力量,就为打造一套“服务全家人的自由对话系统”,实现对话自由、指令自由。
上一个版本的理想同学我认为有四个痛点,分别是唤醒对话效率不够高、掌握技能不够多、后排体验不够好、声音机械不好听。新版的理想同学针对以往痛点逐个解决,一次带来八种新功能:连续对话、想说就说、无效文本拒识、可见即可说、四音区识别及抑制、全车车控控制、跨音区上下文对话以及接近真人的全新人声。
1.连续对话
“连续对话”是新版本的核心。原来的版本中,每次唤醒理想同学,只能下达一个指令,比如说打开空调、打开座椅通风、我要听歌这三个指令,如果用语音操作一轮效率很低。在连续对话上线后,唤醒理想同学,可以一个接一个的下达指令,中间免去再唤醒,提高了效率,而且唤醒后20秒内它都会待命。
2.想说就说
“想说就说”是当车主指下达指令时,不用等理想同学把话说完,可以继续说下个指令,避免理想同学的“啰嗦”回应。在过去,理想同学说的时候无法听,听的时候无法说,属于单向进出,想说就说功能上线后,理想同学的嘴和耳朵就同时打开了,专业术语里叫全双工语音。
3.无效文本拒识
“无效文本拒识”主要是在连续对话期间解决“鸡尾酒会”难题,理想同学可以自动识别出谁给自己下达的指令,同时还可以识别出哪些是指令,哪些是闲聊的语言,这个阶段的理想同学已经会察言观色,自己决定哪些话题要参与,哪些不参与。
4.可见即可说
“可见即可说”可以理解为用声音代替手指去操作,看到什么就可以说什么。这样有三个显而易见的好处,一是理想同学支持的功能大幅增加,用QQ音乐举例,可以完全100%用语音进行控制,哪怕是动态的歌单、歌曲名也不在话下。二是因为全部功能都支持,可以不用去死记硬背支持的功能了。三是可以配合直达类的指令完成细腻的操作,如“换个版本”,“第三首”。当然,对于不可见也应该支持的操作,自然会保留不可见也可说的特性,做到对这一应用功能全量且符合预期的控制。
5.四音区识别及抑制
在理想ONE车内,主驾、副驾是两个音区,二排左、三排左是一个音区,二排右、三排右是一个音区,共四个。“四音区对话”是最符合“创造移动的家”理念的语音功能,因为理想同学照顾到了车上每一位乘客。无论你坐在哪里都可以享受到主驾的待遇,连续对话、想说就说、自动甄别有效指令、可见即可说都能实现。
其他品牌的智能语音方面,这些功能最多开放给主驾、副驾,只有理想ONE全部开放给二排、三排乘客,所以打造“让全家每个人都幸福的智能空间”不是简简单单的口号,而是实实在在的功能和细节。
6.全车车控控制
理想同学增强了对地图、空调、座椅和车窗的控制能力,新增68项技能进行语音设置。如大家想要的车窗挡位控制,可以说“车窗开一点/开一档/开两档”。
7.跨音区上下文对话
理想同学还支持跨音区上下文对话,是指当副驾说“空调调到22°”时,后排乘客唤醒理想同学后说“我也要”,理想同学就会把两个区域的空调都调好。如果担心坐在自己后面的娃娃捣乱,还可以直接关闭这个位置的收音权限,只需要一句“关闭后排左音区”,即可搞定。
8.接近真人的全新人声
“接近真人的全新声音”是让理想同学拟人化最直接的方式之一。在2.2版本里,理想同学的新声音基于深度神经网络语音合成技术打造而成,合成引擎从本地改为了在离线融合方案,微软MOS语音质量评测中的得分高达4.49分(满分为5分)。在摆脱机械化的发音后,理想同学的声音能够像真人一样具有情感表现力,使用户能够享受更真实自然、有温度的声音。
未来语音团队将打造情感更加丰富的"理想同学",采用 “开心”、“遗憾”、“元气满满”、“伤感”等多样情感在对话中表达不同的情绪和态度,为用户提供多元化的语音交互体验。说得再多不如直接听一段语音吧。
以上,就是理想同学的变化,很期待也很感慨。期待自己的车上有这样一位“家人”,感慨人工智能的变化,短短几年时间,实现了从0到1的过程,而从1到10的阶段,将用更难以想象的速度大踏步前进,你做好迎接的准备了吗?
尾声
“早上好,现在是北京时间7点整,我已经为您关闭了理想X的勿扰模式,很高兴在金沙湾的清晨与您再见,下面我来介绍一下今天的基本情况。现在外面的天气为13摄氏度,多云,空气质量35,海底能见度61米,适合潜水。如您需要前往,我将需要13分钟自动驾驶到达,据我查询,您今天没有需要我帮您安排的日程,最后,祝您今日愉快!”
“出发。”
共 146 条评论
前尘忆梦
贝夫司机
耗子116
贝夫司机
利珈菩提
SAX阿涛
SAX阿涛
贝夫司机
Happyocean
带着理想出发
贝夫司机
JC929
贝夫司机
理想家-汐汐爸
鸡笼里的兔子
鸡笼里的兔子
贝夫司机
灵魂猎者
贝夫司机
理想or离乡
贝夫司机
shellvey
贝夫司机
加力
贝夫司机
加力
加力
贝夫司机
也许是风
贝夫司机
JUNA理想ONE
贝夫司机
鸥榊
鸥榊
贝夫司机