+-
从软件许可到按需服务,车载语音交互的“连通性”革命
[ 智能网导读 ] 下一代语音助手将在影响市场竞争格局方面发挥关键作用。 汽车,车载语音交互,语音识别,智能座舱 图片来自“Unsplash”

【编者按】语音交互方案提供商,也将面临商业模式的变革,从过去的单一软件许可收费转型在线服务提供。连通性是汽车行业数字化转型的核心推动者,驱动汽车即服务模式落地。当涉及到互联车辆和更广泛的互联应用时,任何对未来的低估都会成为遗憾。

本文转载自高工智能汽车,原作者高工视角;由智能网编辑,仅供行业内人士参考。

在过去的20年时间里,车载语音交互被寄予厚望。
从简单代替实体按钮和开关来控制车内其他功能,到为驾驶员及乘客提供更多交互服务,技术上的现实却是,语音交互并没有完全按照大家的期望表现出好的体验。
到底是哪里出了错?
开启第一个车载语音的真正大规模应用是2001年推出的宝马7系iDrive。除了中央旋转控制器,语音识别第一次成为人机界面的一个关键元素。
不过,iDrive和随后的其他汽车制造商推出的系统所面临的挑战是,语音识别不仅不能减少驾驶员的注意力分散,反而会使情况变得更糟,因为它的效果并不好。
众所周知,汽车座舱似乎是一个使用语音识别的好地方,但它实际上是最难实现语音识别的地方之一。任何一个在嘈杂的环境中进行过交谈的人都知道有多难。驾驶汽车时周围的噪音水平使准确记录驾驶员和乘客所说的话变得很有挑战性,如果系统听不到这些话,就无法解释其含义。
然而,在解决了和语音识别相关的硬件及软件问题,即使系统能听到,理解人类的语言变成了另一件更困难的事情。同时,汽车开发周期长、苛刻的环境条件,过去车规级处理器的处理能力也并不强大,直接的结果就是离线语音识别处理的难度大。

直到2014年,当亚马逊推出一款名为Echo的全新概念智能音箱后,情况发生了一些变化。

作为一种家庭连接设备,Echo的特点除了是将智能语音交互技术植入到传统音箱中,最关键的是采用了过去类似iDrive和其他系统缺乏的关键功能或者说基础设施,就是云。

基于云端的语音服务,利用大型数据中心和几乎无处不在的宽带连接的强大功能,提供了比设备侧/车载计算更准确的单词识别功能。同时,通过利用用户过去的查询历史、在线服务的链接、车辆的位置和方向、导航路线等数据,数字助理现在可以获得用户可能想要的关键上下文信息。
更重要的是,数据中心服务可以越来越多地从多单词语句中获得语义。基于云的系统现在可以识别几乎所有的单词,而不是识别几十个特定的单词或短语,从单词的上下文更接近于理解用户的意图。
尽管,目前绝大多数的语音公司都还没有能力进行真正的自然语言处理,但距离越来越近。所有这一切之所以成为可能,是因为汽车内置的更快的无线通信、更强大高效的计算和更好的麦克风等硬件配置。
类似阵列麦克风,现在也被越多越多应用到汽车中,并与改进的噪音处理(比如降噪)相结合,以更好地捕捉司机和乘客的声音。阵列麦克风甚至可以区分谁在说话,并根据需要区分优先次序。
不过,尽管无线运营商喜欢“吹嘘”自己的通讯能力覆盖范围,但它远未达到100%的完美,尤其是在偏远地区以及人群密集地区。因此,仍然需要车载系统提供一些本地处理算法作为备份。
随着大多数新车的配置越来越高,制造商要想让自己与众不同变得越来越迫切。目前,车载离线语音识别市场也越来越饱和,销售增长将放缓。
而基于云端的数字语音助手为制造商提供了一种改善用户体验的方式,这仍然可以成为未来车载语音产品的一大特色,并根据需求的变化为新的服务和收入机会提供了一个平台。
这样的变化,也可以从一些汽车语音供应商身上看到。以全球车载语音厂商Cerence(Nuance拆分独立)为例,去年四季度软件许可收入4080万美元(下降7.4%);连接服务收入2300万美元(上升33.4%)。
从软件许可收入的下滑,到连接服务收入的增长,背后是汽车变得越来越像智能手机。传统离线语音识别的用户体验,正在被得到逐步改善。按照Cerence的预测,云服务将汽车真正成为“轮子上的智能手机”。目前,该公司每年的汽车语音收入在3亿美元左右。
比如,今年初,Cerence宣布正在与微软合作,将Cerence产品与微软连接车辆平台(MCVP)集成,通过语音平台和操作系统的互操作性在汽车上提供无缝连接的体验。
同时,各种形式的语音助手也为供应商提供了更多的获利机会。
Cerence在年初宣布推出ARK (AI参考工具包),这是一种全新的全钥匙解决方案,可以使汽车制造商快速开发、部署和管理语音助手。
通过ARK,Cerence 捆绑了核心语音助手功能,包括唤醒词、语音生物识别、自动语音识别、自然语言理解和文本到语音,并以一种开放、灵活和快速的架构交付。
按照计划,Cerence ARK将于今年晚些时候向中国市场客户进行交付,提供了三个版本级别—精简版、标准版和高级版,并附带三个关键组件—ARK Edge、ARK Client和ARK Cloud。
而云端能力对于车载语音的助推作用在于,可以非常容易地扩展处理能力。对于汽车制造商来说,车端计算能力的部署会有一定的限制。短期来说,一旦用户购买了一辆带有语音交互功能的车,基本上大多数车型的硬件能力是不太会升级的。
云计算的一个关键优势就是,可以随时满足各种新增的需求。而5G的商业化,无疑可以将语音识别安全体验提升到一个全新的水平,从而改变目前4G通信存在的一些弊端。
事实上,下一代语音助手将成为车载交互的下一个战场,提供云处理(尤其是混合云)的新一代互联语音助手方案正迅速被各大汽车制造商采用。
比如,混合解决方案就是将本地芯片处理和云处理结合起来的解决方案,将把车载处理的安全性、速度和稳定性与云解决方案近乎无限的使用可能性结合起来,低延迟、高性能的5G移动网络很可能成为连接的主干。
车内语音技术在过去几年里已经取得了巨大的进步,但它还只是刚刚起步。
一些行业人士表示,同时具备在线和离线车载语音功能将成为未来几年的趋势。此外,OTA渗透率的提升,也进一步强化了嵌入式语音识别技术的能力迭代。
《高工智能汽车》认为,下一代语音助手将在影响市场竞争格局方面发挥关键作用。而作为语音交互方案提供商,也将面临商业模式的变革,从过去的单一软件许可收费转型在线服务提供,比如服务的按次收费模式。
毫无疑问,连通性是汽车行业数字化转型的核心推动者,驱动汽车即服务模式落地。当涉及到互联车辆和更广泛的互联应用时,任何对未来的低估都会成为遗憾。

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。