有个理想_
2022年7月15日
在理想汽车七周年之际,我们开展了系列技术演讲,并有幸邀请理想汽车智能空间副总裁勾晓菲为大家分享了理想汽车的智能空间技术。上篇中,勾晓菲为我们介绍了多模态感知及从二维到三维的变化。本篇将会针对感知、理解与表达三个方面,依次介绍目前理想汽车这三个方向的技术发展现状。
以下为演讲原文(有删减):
我们先看一下感知,感知主要分为视觉,听觉和触觉。那触觉这一部分,我这一次就不详细介绍了,因为我们还是使用的传统触控技术。在视觉层面,我们构建了基于深度学习的多幕视觉融合网络,这个是什么意思呢?我们可以先看一下传统的视觉算法是怎么做的,大家可能听说过DMS驾驶员监控系统,也听说过OMS成员监控系统。
这样的模型其实会带来两个好处,第一个的话其实就是整个摄像头的选型, 整个摄像头的布置这样的监控系统。传统的算法是基于功能去配合摄像头然后配合算法,比如说驾驶员监控系统,一般会配一个lR的红外摄像头, 为什么呢?因为这个功能主要是去识别驾驶员的人脸,主要是去识别图像信息,所以它对图像信息的依赖比较重。而OMS其实它主要是去识别深度信息,比如说我们可以举一个简单的例子,奔驰的通过识别手势把天窗打开或者把天窗关上,这是一个在空间里的移动的一个一个手势动作。这样的话它就需要感知到手在空间里的移动,它会去依赖一个3D的摄像头,它也会搭配这样的3D摄像头去设计相关的算法。同时像刚才提到的 DMS,也会去搭配那样的这种图像识别的2D摄像头去设计相应的算法。
而我们的这一套深度学习的融合网络,其实是将不同特性的摄像头最终融合成一张空间的图像。我们所有的算法也都是针对这张空间的图像进行分析和识别。就举一个简单的例子,我们在理想 L9的前排和后排分别布置了不一样的摄像头,不一样能力的摄像头。但是我们有一个统一的功能——指向类的功能,比如说打开这个打开那个。我们前排的指向和后排的指向其实是通过不一样的摄像头实现的,但是这两个不一样的摄像头,最终构建起了一个同样的空间的图像。而我们的算法只有一套,它只是去感知这个空间里不同位置,并不是说针对不一样的摄像头去做不一样的计算,这是我们模型的不同之处。
那么这样的模型其实会带来两个好处。第一个的话是,整个摄像头的这种适应能力会变得更强,那同时我的算法统一性会变得非常的简单,因为我上面不管底层是用了什么样的摄像头,其实我上面跑的都是一样的算法。那我们可以看一下,现在我们的空间感知能力做到了什么样子。
第一个呢,是对我们现在的整个手部的一个识别,第二个是对脸部的一个识别。二维世界会丢失大量的深度信息,而我们希望我们最终的感知能力是毫米级的。我们可以想象一下,在这样的一个智能空间里,如果能够达到毫米级的深度信息的感知能力,那我觉得我们的产品经理会有非常大的想象空间了。
对于感知的听觉部分,我们独创了基于深度学习的六音区,增强算法MIMO-NET。MIMO-NET是我们算法的名字,相较于传统的信号处理算法,音区定位的准确率我们可以提升20%。在多人讲话的这种场景下,主音区的识别错误率我们可以下降30%以上。
关于这部分我们做过一个对比。我们安排了4位同事在车里进行闲聊,未经处理的音频里大家聊天的内容基本上完全听不到。而通过传统算法处理的音区定位外加降噪之后,最终的效果大家可以听到。但是还是会有一些背景杂音,虽然说人声已经相对清晰了。那最后经过我们的MIMO-NET算法处理之后的音频文件,不仅可以听到清晰的内容,甚至噪音都完全没有了。
刚才上面独立说了我们的视觉感知的能力和听觉感知的能力。但是其实我们最终构建的是一套多模态的感知能力,所以说我们一定是把视觉和听觉的感知能力融合到一起最终做运算。也就是说,刚才同样的这个声源定位的场景,我们也会把视觉的信息作为补充。比如说会有一种情况就是,驾驶员在说话但是其实他的身子已经侧到了副驾的位置。但这个时候副驾根本没有人,如果单纯靠听觉其实我可能会误判是副驾有人在说话。而同时如果视觉看到副驾根本没有人,我就会把整个声源定位的位置纠偏回主驾,所以这就是整个融合算法才能带来的体验。
前面我们提到了理解这个维度主要是认知图谱的构建。认知图谱我们可以把它简单地分为四部分,知识图谱、事件图谱、逻辑推理和用户画像。我们举一个简单的例子来说明这几部分,你在家,你媳妇跑过来问你:“你是王心凌男孩吗?” 你媳妇的画面加她说的这句话,首先通过你的视觉和听觉感知到了你的大脑,马上知识图谱要起作用了。而你昨天刚刚从抖音上刷到了王心凌的视频,而且王心凌真的是你的最爱,所以你马上条件反射地说,“我当然是啊”。所以我们可以认为知识图谱更像是一种直觉,单纯的把你的记忆中的知识调取出来。这就是有这个知识还是没有这个知识的区别,也就是0和1的区别。
紧接着你媳妇走向客厅投屏,这个时候马上触发了你的一个事件图谱,一般这种情况她就是去跳刘耕宏了。这时事件图谱激活了一系列的行为,在你还没有反应过来的时候,你媳妇又走到你面前对你说,“刘耕宏和王心凌为什么会这么火?” 此时,你的逻辑推理开始工作了,从你的知识图谱里开始寻找各种维度。从事件图谱里对比不同的回答可能引发你媳妇的行为逻辑。
那用户画像又是什么呢?那就是同样的问题,今天晚上你妈跑过来又问了你一遍。你肯定会说,“妈,你还认识王心凌呢?”所以如果能够构建起完整的认知图谱,机器就可以像人一样去判断和思考了。
这是我们计划构建的认知图谱平台。智能空间的理解能力将全部承载在理想同学身上,所以理想同学不再是一套语音系统,而会成为一个智能空间机器人——能看能听,能说会话,懂你、学你、理解你的机器人。
我们可以简单地看一下认知图谱平台。搜索推荐引擎,这部分主要是基于用户画像的能力建设;图谱问答引擎,主要是知识图谱的建设;情景计算引擎,这是个最复杂的部分,它融合了刚刚介绍的完整的逻辑推理;最后多模对话引擎承载的是对画册的整体贯穿。
对于认知图谱能力的建设我们会分为三个阶段。第一个阶段,主要是基础的知识和事件图谱的构建会在2023年底完成。在这个阶段, 理想同学的能力体现是知道的越来越多了。从有问题可以试着问问理想同学到有问必答。理想 L9量产会搭载车辆使用上的专家顾问系统,以后在用车上如果遇到问题,可以随时问理想同学。如果他回答不了,不用担心。过几天再问问可能他就会了,因为他会不断地学习。
第二个阶段是基础知识和行为的认知推理。我们还会聚焦在车辆的使用场景里,先把体验做扎实。这时候的知识图谱,可以进入到自学习阶段,也就是说可以去通过阅读网络文献去补充自己的知识。同时在第二阶段建立起完整的用户画像能力,这个时间点是2024年底,最后在2025年底完成理想同学的人格化能力构建。
同时进一步扩充认知推理能力,即所谓的理想同学的人格化。未来你会发现随着你和理想同学交流越来越多,你会越来越发现他会越来越像你,当然他不会成为另一个你,更像是你的孩子。
那么最后我们要说,表达这个部分。其实表达这个部分比较简单,就是我们最终还是会聚焦到视觉和听觉这两个维度,只不过我们是把它从二维升级到三维。
在屏幕这方面,很多人都会问一个问题,理想ONE首创了四屏交互,它引领了整个这个智能座舱的一个风潮。自此之后,非常多的人都学习我们,开始做四屏交互。但是为什么我们新的一款车不再沿用这种四屏交互的体系,反而变成了五屏的方式,且屏幕的布置全都发生了变化。其实这个就是我们基于空间交互的理念,对每一块屏幕做了相应的位置上的调整。
以前的四屏交互其实是在一个平面上,但现在的屏幕是有一个空间立体的层次感。我们核心的目的是希望让数据出现在它最该出现的位置上,而不是说让数据只能出现在这一个位置上。就像刚才我一开始举的例子,当后排有乘客说理想同学我想看一个电影的时候,那这个电影应该投放在后排的屏幕上。不能说是,不管是任何位置人说我要看一个电影,它永远都是在某一个固定屏幕上进行播放。所以为了实现信息跨屏流转的能力,我们重点打造的是整个数据和信息的跨屏同步和跨屏转移的技术。
第一个是我们的多屏联动,我们可以把一样的信息在不同的屏幕里同时显示。第二个是我们的信息的跨屏流转,就是说当这一组信息有不一样的内容时,每一个屏幕可以显示不一样的内容。
这个其实就是我们为未来,比如说这种直播栏目打造的多视角的能力。详细地说,比如说,当我们未来看一个体育赛事的时候,我可以有不同的视角。比如说我看NBA,有全场的视角,有我喜欢球员的视角,有持球者的视角,每一个屏幕上其实都可以显示不一样的视角。除了信息的跨屏流转以外,我们还包含信息的局部流转。就像我们的理想同学被唤醒之后,理想同学的形象是可以游走在各个屏幕之间的。这个是屏幕视觉的部分,最后我们要看的是听觉的部分。
在介绍听觉之前,我要先简单地讲一个概念。之前我们经常听到的声音,其实都会经历一个视频的专业编解码技术。编解码的过程其实包含之前的音轨的录制和最后的多通道的信息回放。举个简单的例子,比如我们常听的耳机也好或者是电脑也好,一般的情况下,都是左右双声道。那么,当今天我说的话,录制成一个音轨之后,如果只有一条音轨,其实我是可以选择投放到左声道或者右声道。当我放到左声道,那你戴一个耳机听,你会发现只有左边有声音,右边没声音。所以,我们有的时候经常会听到一些歌,左边是人声,右边是音乐。其实就相当于他是把音乐的音轨投放到了右声道,把人声的音轨投放到了左声道。当然这是一个非常非常简单的例子,复杂的话,其实在环绕立体声里是有非常多的声道。
而我们最开始,做一个音频文件也会录制非常多的音轨,我们会把这些音轨投放到不同的通道里。但是最大的问题是所有的音轨其实最终只能定向的投放到一些通道里,所以可能我们最终听到的声音位置也是相对固定的。而所谓的立体声,只是把不同的声音分布到了这个空间的不一样的位置。
那全景声全新的音频编解码技术带来的全新的能力是什么呢?是它可以把同一个音轨均匀地分布到每一个通道里边。按照他的声音的移动,声音的相位去均匀地分布到每一个通道里。这样的话,这个音轨所承载的声音就可以真真正正地做到在空间里动态移动。我们可以看一个杜比音乐的视频,借助这个视频,我可以去更形象地给大家去解释一下全景声的能力。
以前我们听的音乐其实是相对固定相对平面的,以后我们再去听音乐那就真的是一个动态的声音了,我们会感觉每一个声音都是在这个空间里在移动的。那么基于杜比的全景声,我们最终能够提供给用户的是这种预编码空间声音的能力。也就是说,我要先录制音轨然后再做这种音轨的多通道回放,才能给大家这种感觉。
但是,其实我们现在同时也在自研着我们自己的实时编辑码的全景声的接口。这种实时编辑码最终能够提供给刚才我说的直播内容的合作伙伴,也可以提供给这种像类似于游戏的合作伙伴。为什么呢?因为其实比如说玩游戏卡丁车,我想要一种效果,当我开车时右后方被撞,我希望这个碰撞的声音来自右后方。碰撞肯定是实时产生的,我们不可能提前录制文件再去播放,而是说在它产生这个声音的同时,我就必须生成这个声音同时播放出来。所以,我们需要一个实时的编辑码技术,这就是我们自研的。这样的话,我们才能配合整个智能空间交互体系,把实时的这种空间的能力打造出来。
刚才讲述的就是理想L9在感知、理解和表达三个维度上能够带来的三维空间交互能力。上面很多都是技术相关的内容,大家可能不太理解这样的空间交互能力,到底会给我们带来什么不一样的体验。那我举几个简单的例子,比如说打游戏,如枪战类的游戏,电脑端的CS,手机端的吃鸡。不管是电脑上还是手机上,其实都是屏幕给我们输出了图像信息,扬声器给我们输出了听觉信息。那么这种听觉的信息其实更多地是对整个图像信息的一个真实性的补充。
那如果未来在车里玩这样的游戏,会是什么样的体验呢?就是当战场出现在你的背后的时候,所有的枪声、炮火声都来自于你背后。也就是说你根本不需要看屏幕,你光听声音,就知道战场在哪。当一个运输物资的飞机从你头顶飞过时,你根本不需要抬头看天,不需要移动你的屏幕。你只需要听声音,你就知道飞机飞到哪个方向,应该去哪个方向去拿补给品了,这个就是一个游戏上的不同的体验。
还有一个更加极致的体验是什么呢?就是刚才我提到的直播的场景。我们理想L9还搭配了VR 的接口。在这种直播的能力上,我们可以想象一下,如果有一天我在NBA总决赛的赛场的某一个位置上,布置了多个机位的摄像头,能把360度的这种图像信息全部采集出来。同时,我也布置了多个麦克风,能把360度的声音信息全部采集出来。那这个时候,当我坐在智能空间里戴上VR眼镜时,VR眼镜可以把赛场上环绕3D的画面完全的百分百的回放到VR眼镜里,给用户提供一个360度的沉浸式的,完全3D的视觉画面。我们的全景声也可以完全的回放出赛场上的360度的声音的画面。那么其实未来你在这个智能空间里戴上VR眼镜,你就会完全体验到身临其境的感觉。这种感觉和你在家里看电视,看一场 NBA 赛事的直播,那种感受是完全不一样的。这个就是整个空间交互能力会给大家带来的不一样。
再回过来,其实刚才我们提到的一个很重要的观点,就是在二维的终端里面感知这一块,我们感知的数据量是非常非常有限的。所以其实在二维的终端里对于理解能力的依赖非常弱,通过这一点其实也印证了过去几十年AI的发展一直不是特别好的原因。为什么呢?因为其实所有的智能终端对于AI其实都是一个锦上添花的需求,我们把它看作一个功能或者需求。因为手机也好电脑也好,我可以没有AI,我可以不AI。
比如说,拿语音举例子,苹果的手机也好电脑也好都有siri,但是其实真真正正用 siri 的人太少了,几乎没有人用siri。所以其实AI在这些二维的终端上它就是一个锦上添花的东西,但在三维的终端上我们可以看到,我们有如此强大的感知力。当我们的这个终端能像人一样去感知这个世界的时候,那其实这个时候它的这种AI 的能力,他的理解的能力就不仅仅是锦上添花的需求了,而是变成了一个非常非常基础的能力。所以其实我们可以判断出在这个三维的空间里,未来会对AI有极强烈的需求。
而AI也会借助这个三维的空间会迅速地发展。当AI发展到一定程度的时候,人机交互就会再出现一个质的飞跃。是什么呢?就是以前所有的人机交互,对于人和二维终端的交互其实都是人类在学习机器。比如说,我去用电脑或者我去用手机,我在使用的时候, 我先要去学习这个电脑怎么用,这个手机怎么操作,触控怎么使用。然后我学习了这些规则之后,才能掌握这个终端的使用方法。其实这是二维终端的所有的人机交互的一个状态。
那到了三维的这个终端的时候,三维终端会去学习人类,为什么呢?因为它必须要学习人类,它感知到的信息已经不是那种规则类的东西了。比如说,我要通过一个手部的运动表达指令,每个的手掌大小都是不一样的,每个人的这个胳膊的长度或者是挥舞胳膊的范围都是不一样的。所以其实没办法把它规则化,它只能去学习,大量的学习,了解所有的人大概是什么样,我才能知道不同的肢体语言代表着什么含义。
再比如,每个人的人脸,长得其实也都是不一样的,五官的位置所有的东西都是不一样的,所以其实我只有通过充分的学习才能去更准确的理解这部分的含义。包括语音也是类似的,每个人说话的方式,语速也好,语气也好,甚至自己会有一些口头禅,或者甚至自己会说一些非常非常代表着自己含义的那一系列话。比如说同样的文字原本是这个意思,但是这个人总喜欢用这个文字表达另一个意思,所以其实这些都要去学习。它会变成要面对一系列的不确定性的事件和信息输入。想要去处理好这些信息,就会不停地学习。逐渐地,三维空间的机器和人之间的交互会变成机器向人的学习。
这是一个非常大的转变,因为我们人和人之间的交流就是一个相互学习的过程。所以我相信,未来三维世界的智能终端、所有的三维的终端其实和人之间的交互都会变成一个相互学习的过程。这个也是交互在下一个阶段会面临的一个本质的改变。相信未来我们也会一起做出更多更有价值更有意思的东西。
以上为智能空间交互技术演讲全文回顾,欢迎大家评论区交流讨论。下一期我们将回顾主题演讲第二期,理想汽车智能驾驶算法研发负责人、AI 首席科学家王轶轮将为大家分享什么是智能驾驶,理想L9如何实现一键召唤、一键泊车?我们下期不见不散!
共 3 条评论
锋利的蝴蝶
水粉画
想理所想