理想社区_理想汽车

对话产品经理|理想同学是怎样炼成的?

贝夫司机

2021年9月8日

要论一辆智能电动车的自我修养,我认为智能语音一定是人类和车之间产生情感的重要催化剂。在众多的科幻电影中,都有让人印象深刻的人工智能机器人,比如像《流浪地球》里的莫斯、《钢铁侠》里的贾维斯等等,脑洞再开一点,理想同学何尝不是我们的莫斯和贾维斯呢?

OTA 2.2版本已陆续推送,自研的理想同学从小学生升格为初中生,这次升级对于每天和它接触的车主来说,会有较为明显的感知,而理想同学变化的背后,是一群人对它的训练、提升和打磨。今天我就代表关心理想同学的车主们,跟语音团队的产品经理老胡,好好聊聊理想同学的过去、现在和未来。

做适合东方人的智能语音

与老胡的第一次见面,是在理想研发总部的一楼会议室,我推门进去的时候,他还在对着电脑专注地敲键盘,一抬头,别说,还有点理想同学呆萌的样子。

因为我们的工区不一样,所以这也是我跟老胡的第一次见面。寒暄、递水、聊家常,一套完整的“待客”流程后,突然老胡说道,“你知道之前为什么大家会觉得理想同学笨吗?因为东方人的第一次见面是先聊天,再谈事,第一印象很重要。”

根据后台数据显示,车主们跟理想同学首次见面时,大多数不会先下指令,而是会先查户口,比如会问“你几岁了?”“你吃饭了吗?”“你对象是谁?”,如果这些家长里短的问题答的不好,就会被留下“笨”的印象,这就是东方人的习惯,因为在潜意识里,会把理想同学当成一个有感情的“人”。

做适合东方人的智能语音,这是老胡一直挂在嘴边的。基于这个背景之下,理想同学跟车里的人应该是一种什么关系?朋友、助手、玩具还是其他类型?不同定位它的功能倾向就会不一样,也决定了产品表现。

因为理想汽车的品牌理念是“创造移动的家,创造幸福的家”,所以老胡对理想同学的定位是管家(当前阶段)和家人(未来目标),管家背后是高智商,家人背后是高情商。

理想同学的角色定位

先来说说管家,一个好的管家可不是那么容易当的,可分为初、中、高三级。

初级管家的能力是听懂用户指令。“你跟他说去把灶台上火给打开,他就给打开了,你说把锅架上去,他就把锅架上去了,你说放油就放油,放菜就放菜,但你要跟他说你给我做个饭,他就不会。”老胡对于初级管家的描述通俗易懂。

中级管家的能力是听懂用户需求。比如当你说“我想看星星”,天窗就自动打开了,当你说“车里有点热”,空调就自动调到22度。中级管家是具备一定理解能力和创造力的。

高级管家的能力是可以洞察用户的需求。比如说你上车后脱下外套,用手扇了下风,高级管家可以判断你热了,主动询问是否打开空调降温。对于高级管家来说,要有很强的感知能力,这就要配合视觉方案了。

家人的定位,跟管家有一个比较清晰的分界线,就是我们允许家人有点“笨”,可以这不会那不会,但是家人能跟你产生情愫。

跟AI产生感情,这不是不可能。“我们认为理想同学关于家人的那个定位,找了很多词去形容,最后找到一个,我觉得是现在最有代表性的,叫做牵绊感。”老胡说,当我们的车主跟朋友换车开,他会因为车上没有他的理想同学而难受,会很不舍时,这种牵绊感就已经存在了。

理想同学要想成为一个好家人,需要经历四步。一是建立关系(相遇),彼此知道对方是谁,也知道各自立场,当理想ONE的钥匙交到自己手里那一刻,就建立了关系。第二步是情感探索(相识),可以聊家常,知道彼此的性格、兴趣爱好、家庭信息等等。第三步是情感交流(相知),情感交流和情感探索之间有一个清晰的分界线,就是聊价值观,可以探讨观点,可以对世界的黑白灰交换意见。第四步是产生牵绊(相依),人与AI之间有了感情依赖,会出现不适应没有Ta的生活,这就是终极阶段。

管家和家人的角色,并不是一个进阶关系,而是共生关系,只是现阶段想做到家人的牵绊感太难,这只存在于科幻电影中,但是在将来一定可以实现。

智能语音的终极挑战—车载生态

汽车工业,一直被誉为现代工业体系中的掌上明珠。在智能电动车时代,这个地位依旧没有改变,只是从过去追求机械的极限,变成了追求万物互联的无极限。智能语音作为智能电动车最核心的交互方式,已经成为必须要占领的高地。

智能语音的实际使用场景中,共有六大类型,分别是音响、电视、可穿戴设备、机器人、手机、车。其中最难的场景就是车。“车载人工智能是人工智能所有产品里面最有深度,最有高度,最复杂的产品,也是最有可能做出牵绊感的产品。”老胡说,做好了车的智能语音,其他场景都是向下兼容,所以要做就要挑战行业里最难的领域。

车主“青森手艺人”镜头下的理想同学

像音响、电视、可穿戴设备等,都是单人单向的指令,更像是通过语音来进行搜索,但是在车内的话,就要解决人工智能领域中一个很著名的场景难题—“鸡尾酒会”。是指在一个嘈杂的鸡尾酒会上,人类可以随时判断是谁在跟自己说话,但是人工智能想判断准确就非常难。在车内的多人环境中,同样面临类似问题,这是车载语音面临的第一大难点。

车载智能语音的第二大难点是复杂庞大的生态接入,比如说导航、音乐、视频软件等,以及整车的车辆控制。在智能语音的神经网络里,可以理解为是一个3D立体世界的样子,QQ音乐、高德导航、车辆控制都是一个个房子,每一个指令进入这个世界后,都会去先找到对应的房子,然后再进入房间找到想要的东西,这个“东西”就是大家发出指令后想实现的功能。

随着各类房子越来越多,里面成百上千的“东西”也越多,对于语音的算法要求也越高。更重要的是,不同房子的背后,都是一个完整独立的团队,语音团队要挨家挨户的敲门、熟悉、制定迎客策略,这样才能保证车主的良好体验。

第三大难点,是对用户工具化需求和情感化需求的权衡。一部分用户希望理想同学别说话,默默高效的执行指令,一部分用户希望理想同学做个人,有自己的性格一点,可以跟自己逗乐解闷。所以,如果能做出一个千人千面的理想同学,那真是集人工智能之大成了。

理想汽车的语音团队已经做好战斗的准备,整个团队主要分为五大块,分别是产品、项目、设计、研发、测试,各司其职各有分工,目标就是把理想同学做到行业里的顶尖水准。

理想同学的形象照

当前市面上把智能语音落地的公司主要分为三种类型:第一类是行业中以提供解决方案为为主的供应商,如一线互联网大厂,它们有很强的技术和路径实现的能力,但是没有做终端产品;第二类是像部分车企,需要语音供应商解决全套的方案,他们对用户和场景理解深刻,却在技术和产品上投入不足;第三类是自己有终端产品,自己也可以定义语音产品,有完整的自研能力。过去,理想汽车是第二类,但当去年自己的语言团队集结完成后就属于第三类了,虽然这条路更难,但却是正确的选择。

寥寥数语,只能让大家对智能语音的产品逻辑和行业格局有个框架的了解,至于背后的繁复,老胡觉得那对于车主来说不重要,在车主心里只有两个标准:满意和不满意。在进入理想汽车之前,老胡是在一线互联网大厂负责语音业务,这次来到车企也是为了实现自己的理想。

“这次我必须选择一个第三类的公司,而且理想的产品是面向家庭的,场景非常丰富,内置有四音区,多块大屏幕,这给智能语音提供了良好的发展环境。然后理想同学是有温度的,这个车本身也是有温度,所以在关系层面,无论是管家还是家人,都可以做得很深入,我觉得目前没有比理想更好的平台。”这就是老胡来到理想的理由。

积蓄力量,迎接新生

自研的理想同学带着更完整、更高阶的功能来到每位车主的“家”中,老胡是紧张的,这是整个语音团队积蓄了半年多的力量,就为打造一套“服务全家人的自由对话系统”,实现对话自由、指令自由。

上一个版本的理想同学我认为有四个痛点,分别是唤醒对话效率不够高、掌握技能不够多、后排体验不够好、声音机械不好听。新版的理想同学针对以往痛点逐个解决,一次带来八种新功能:连续对话、想说就说、无效文本拒识、可见即可说、四音区识别及抑制、全车车控控制、跨音区上下文对话以及接近真人的全新人声。

1.连续对话

“连续对话”是新版本的核心。原来的版本中,每次唤醒理想同学,只能下达一个指令,比如说打开空调、打开座椅通风、我要听歌这三个指令,如果用语音操作一轮效率很低。在连续对话上线后,唤醒理想同学,可以一个接一个的下达指令,中间免去再唤醒,提高了效率,而且唤醒后20秒内它都会待命。

2.想说就说

“想说就说”是当车主指下达指令时,不用等理想同学把话说完,可以继续说下个指令,避免理想同学的“啰嗦”回应。在过去,理想同学说的时候无法听,听的时候无法说,属于单向进出,想说就说功能上线后,理想同学的嘴和耳朵就同时打开了,专业术语里叫全双工语音。

3.无效文本拒识

“无效文本拒识”主要是在连续对话期间解决“鸡尾酒会”难题,理想同学可以自动识别出谁给自己下达的指令,同时还可以识别出哪些是指令,哪些是闲聊的语言,这个阶段的理想同学已经会察言观色,自己决定哪些话题要参与,哪些不参与。

4.可见即可说

“可见即可说”可以理解为用声音代替手指去操作,看到什么就可以说什么。这样有三个显而易见的好处,一是理想同学支持的功能大幅增加,用QQ音乐举例,可以完全100%用语音进行控制,哪怕是动态的歌单、歌曲名也不在话下。二是因为全部功能都支持,可以不用去死记硬背支持的功能了。三是可以配合直达类的指令完成细腻的操作,如“换个版本”,“第三首”。当然,对于不可见也应该支持的操作,自然会保留不可见也可说的特性,做到对这一应用功能全量且符合预期的控制。

5.四音区识别及抑制

在理想ONE车内,主驾、副驾是两个音区,二排左、三排左是一个音区,二排右、三排右是一个音区,共四个。“四音区对话”是最符合“创造移动的家”理念的语音功能,因为理想同学照顾到了车上每一位乘客。无论你坐在哪里都可以享受到主驾的待遇,连续对话、想说就说、自动甄别有效指令、可见即可说都能实现。

其他品牌的智能语音方面,这些功能最多开放给主驾、副驾,只有理想ONE全部开放给二排、三排乘客,所以打造“让全家每个人都幸福的智能空间”不是简简单单的口号,而是实实在在的功能和细节。

6.全车车控控制

理想同学增强了对地图、空调、座椅和车窗的控制能力,新增68项技能进行语音设置。如大家想要的车窗挡位控制,可以说“车窗开一点/开一档/开两档”。

7.跨音区上下文对话

理想同学还支持跨音区上下文对话,是指当副驾说“空调调到22°”时,后排乘客唤醒理想同学后说“我也要”,理想同学就会把两个区域的空调都调好。如果担心坐在自己后面的娃娃捣乱,还可以直接关闭这个位置的收音权限,只需要一句“关闭后排左音区”,即可搞定。

8.接近真人的全新人声

“接近真人的全新声音”是让理想同学拟人化最直接的方式之一。在2.2版本里,理想同学的新声音基于深度神经网络语音合成技术打造而成,合成引擎从本地改为了在离线融合方案,微软MOS语音质量评测中的得分高达4.49分(满分为5分)。在摆脱机械化的发音后,理想同学的声音能够像真人一样具有情感表现力,使用户能够享受更真实自然、有温度的声音。

未来语音团队将打造情感更加丰富的"理想同学",采用 “开心”、“遗憾”、“元气满满”、“伤感”等多样情感在对话中表达不同的情绪和态度,为用户提供多元化的语音交互体验。说得再多不如直接听一段语音吧。

以上,就是理想同学的变化,很期待也很感慨。期待自己的车上有这样一位“家人”,感慨人工智能的变化,短短几年时间,实现了从0到1的过程,而从1到10的阶段,将用更难以想象的速度大踏步前进,你做好迎接的准备了吗?

尾声

“早上好,现在是北京时间7点整,我已经为您关闭了理想X的勿扰模式,很高兴在金沙湾的清晨与您再见,下面我来介绍一下今天的基本情况。现在外面的天气为13摄氏度,多云,空气质量35,海底能见度61米,适合潜水。如您需要前往,我将需要13分钟自动驾驶到达,据我查询,您今天没有需要我帮您安排的日程,最后,祝您今日愉快!”

“出发。”

插入表情
已输入0字

146 条评论

前尘忆梦

全文看完,司机的文章是我最喜欢读的

贝夫司机

耗子116

老司机优秀,结尾有点漫威彩蛋的科幻感。特别那句“如您需要前往,我将需要13分钟自动驾驶到达”最起码要等十年功夫吧。

贝夫司机

希望10年后咱们都能理想成真

利珈菩提

什么时候理想同学超越蔚来诺米

SAX阿涛

不支持5G?今后都是5G天下,4G明摆要成历史,车主又成JC?届时官方能推出更换措施吗?

SAX阿涛

回复贝夫司机 :为你的科普点赞并感谢,只是觉得官方在如此优秀的产品的某些决策上反而明显跟不上潮流趋势,很奇怪研发团队拍板人的思维。

贝夫司机

目前4G还是能满足需求的

Happyocean

升级后用方向盘语音键唤醒理想同学,结果还要先应答一声 “ 我在”,“你好”之类的了。原来的版本里就是静静的等待指令,多好。本来通过按键就是想快捷直接,再应答一声完全没必要,毕竟屏幕上已经显示理想同学在听了。

带着理想出发

多些这样的内幕,有利于与用户间的理解与沟通,就问ad辅助驾驶啥时候上线

贝夫司机

努力中

JC929

什么时候能实现语音阅读灯的分区控制,目前只要语音打开阅读灯,就是全车打开,开车过程中,前排的阅读灯比较影响驾驶视线。分区打开,就比较完美了

贝夫司机

我来反馈

理想家-汐汐爸

希望优化一个场景,导航语音播报的快捷开关闭功能,因为导航播报会降低娱乐声音大小,有时候需要导航但是不需要播报,关闭播报步骤太多了很麻烦,希望优化

鸡笼里的兔子

什么时候能升级网络到5G啊?

鸡笼里的兔子

回复贝夫司机 :谢谢老司机

贝夫司机

回复鸡笼里的兔... :在优化了
查看更多回复

灵魂猎者

顶你,一直觉得你比官方还官方,我都是看你的,问下老款有没有机会外放电

贝夫司机

我只能眨眨眼

理想or离乡

6月10号交付的21款 大概什么时候会推送?

贝夫司机

估计明天吧

shellvey

贝夫,充电设置为97还是100呢?

贝夫司机

都可以,看你喜欢~

加力

牵绊感,是这个词,挂念和相思,哈哈哈,不容易!

贝夫司机

牵绊感也很难

加力

文章写的真好,非常喜欢💕!团队对语言智能的理解很到位,希望以后有个性语音哈

加力

回复贝夫司机 :又看了一遍,这两天也体验了新版助手还是很不错的。另外有个想法,语音助手可以是两个,一个专职管家,就是干活的;另一个是家人朋友,聊天解闷的。分别用不同的唤醒词(比如管家理想同学,家人自定义用老四、小五之类的),唤醒不同的词库,这样也没有干扰的不好体验啦,哈哈哈

贝夫司机

未来会有的~

也许是风

想要电视家APP,大家觉得呢?

贝夫司机

建议收到

JUNA理想ONE

在缺乏实体和虚拟遥控器的情况下,理想同学对娱乐屛的控制不够啊!你让二排的人怎么去选择动画片?

贝夫司机

争取明年语音实现控制副驾屏

鸥榊

希望现有的QQ也好,还是新增的网易云也好,都能提供SQ级别音质选项

鸥榊

回复贝夫司机 :电音与英文主要是网易云,很多音码,低了真听不到。QQ就安心流行版权音乐,HQ也还是可以凑合的。

贝夫司机

网易云有了,QQ还不行
页面加载中,请稍候...