智能座舱科普Ⅱ：语音交互系统

laoxiang21 · 发表于 30-7-2023 21:54:22

出于学习-总结的目的，在我从什么是智能座舱、智能座舱的发展驱动因素、智能座舱的构成要素三个方面梳理我对智能座舱的基础认识之后，为了加深“智能座舱产品入门”课程中语音交互部分知识的理解，我从什么是语音交互、语音交互的底层技术、智能座舱的语音交互等方面，对智能座舱语音交互系统相关的知识进行了梳理与总结。

一.什么是语音交互

语音交互：语音是方式，交互的对象是任何的智能设备，顾名思义，即通过语音的方式完成人与机的交互。

在现今的各种智能化场景中，语音交互已成为一种非常关键的人机交互方式。从用户的角度来看，语音交互的核心价值主要体现在释放用户的双手，使得人与机之间的交互变的更高效便捷。

智能座舱科普Ⅱ：语音交互系统w2.jpg

然而，从用户发出语音指令到实现与智能设备的交互，其过程并不像其名词描述的那么简单，要实现通过语音来完成人机交互，要解决解决三个关键问题，如何让机器听清用户的语音内容？如何机器理解用户的意图？如何让机器执行用户的意图？，解决这些问题的的过程是复杂的，其背后涉及到多个复杂的技术环节，如语音识别、自然语言理解、对话管理、自然语言生成、语音合成等。

智能座舱科普Ⅱ：语音交互系统w3.jpg

二.语音交互的底层技术

(一).语音识别

在语音交互系统中，用户的语音信号需要经过多个处理阶段才能得出正确的结果，而语音识别是实现语音交互的第一步，其在语音交互系统中负责对用户的语音信号进行前置处理，通过对用户语音信息的预处理、解码等关键任务，最终得到语音信号对应的文本内容，从而实现机器听清的用户的语音内容。

智能座舱科普Ⅱ：语音交互系统w4.jpg

1.语音输入：用户通过麦克风输入内容语音，例如：打开空调

2.预处理：预处理是语音识别过程中的一个基础性步骤，它的意义在于对录音文件进行分帧、去除噪音、语音增强、加窗等预处理，提取出有效的声音特征，用于后续的语音内容分析处理。

为了更形象的理解“预加重”，可以将其类比于在图像中的“锐化”，使得边缘更为清晰。

例如：以“打开空调”为例，假设录制的语音时长为2秒，采样率为16000Hz，那么原始语音信号就是一个长度为32000的一维向量，如果直接对这个声音信息进行语音识别，计算量会非常大，而且由于语音信号的频率和幅度变化非常快，很难进行有效的特征提取。

为了更加形象的理解“特征提取”，可以将其类比为制作抖音电影解说短视频，在制作的过程中，你需要从完整的电影中筛选出最精彩、最有代表性的片段，需要对整部电影进行剪辑，然后把这些片段组成一部短视频，以便于快速地展现电影的精华和主题。

3.解码：在完成原始音频信号的预处理与特征提取之后，需要将提取到的特征输入语音识别模型中通过声学模型、词典、语音模型的协同计算来得到最终的识别结果。

举个例子，如果用户说的是“我想要一杯咖啡”，在语音识别的过程中，可能会产生如下多个候选句子：我向要一杯咖啡我想要一辈咖啡我想要一杯可菲我向要一杯咖啡色菲语言模型通过预测每个识别候选结果的概率大小，就可以计算出每个候选结果的得分，从而筛选出最符合用户表达内容的最终结果，“我想要一杯咖啡”。

(二)自然语言处理

1.自然语言理解

在完成用于语音内容的识别之后，要让设备能顺利执行用户的意图，还需要自然语言处理（NLP）算法模型对计算机可识别的文本进行分析和处理，以理解用户语言的含义和意图，并根据需要进行相应的回答或操作，一般情况下，NLP算法模型对文本的处理过程包括包括词法分析、句法分析、语义分析等多个环节。

智能座舱科普Ⅱ：语音交互系统w5.jpg

例如：停用词是指一些在自然语言中使用比较频繁但实际上并不具有实际含义，对于句子的语义理解贡献较小的一些词语，比如一些代词、介词、连词等等（如“的”、“和”、“就”、“在”、“用”等），这些停用词虽然常常出现在文本中，但是对于计算机理解句子的真实含义并没有太大帮助，只会增加文本处理的复杂度，降低算法的精度和效率。

2.对话管理

在自然语言理解对语音识别的文本进行分析处理之后，需要对话管理系统进行意图识别，确定用户想要做什么，并且根据所处的对话状态进行状态跟踪，决定下一步需要执行的操作或回复用户的方式，这个过程包括根据用户输入的信息选择相应的策略、控制多轮对话流程、解决歧义等。对话管理系统是基于一个预先定义好的对话模型工作，对话模型中定义了对话流程、对话状态、对话策略等，在对话管理过程中，系统会使用这个对话模型来处理用户的请求。

举个例子：当用户询问“今天下雨吗？”，对话管理系统可以通过状态跟踪，结合当前的用户意图和上下文信息，快速准确地回答用户问题。

3.自然语言生成

在语音交互系统中，当对话管理系统确定要继续与用户对话或反馈执行结果的时候，此时需要自然语言生成模块根据对话管理系统的指令，从相关的知识库或语料库中提取信息，以及根据语境和上下文信息，将结构化数据转化为自然、逻辑连贯的文本，以人类语言回答用户的问题、提供建议或执行任务，其生成自然语言的过程一般包括：句法分析、语义分析、语法分析、信息抽取、输出文本等步骤。

举个例子，当用户询问“明天的天气如何？”时，自然语言生成模块可能会根据当前的时间和位置信息，生成类似于“明天的天气为晴天，最高气温27℃，最低气温18℃”的文本回复内容。

(三).语音合成

智能座舱科普Ⅱ：语音交互系统w6.jpg

在通过语音识别、自然语言理解、对话管理、自然语言生成对用户的语音信息进行分析处理之后，最后想要机器开口与人交流，则需要语音合成系统将自然语言文本转化为语音并通过输出设备输出给用户。

语音合成系统既是语音交互的终点也是起点，是语音交互系统的的重要底层技术之一,它基于语言模型、声学模型、音频处理等技术，通过文本前置处理、声学特征生成和音频合成等关键步骤，将自然语言文本合成为高质量、自然流畅的人类语音。

1.文本前置处理：在计算机获得一段文本之后，要让计算机像人类一样开口讲这段文本讲出来，首先需要让机器知道文本中字、词如何发音和文本要表达的意思与文本里蕴含的情绪。因此，在语音合成系统中，第一个关键任务对文本的前置处理，具体包括：分词、词性标注、句法分析、韵律预测、字形转音素、对音字与变调分析等。举个例子：举个例子，比如输入一段文本：“明天下雨，出门记得带伞。”在文本前置处理的过程中，可能需要经过分词、音素标注和添加天气标签的处理，变成：“明天/t 下雨/v ，出门/v 记得/v 带/v 伞/n ，天气/t 标签/rainy。”

2.声学特征生成：要想让机器像人类一样将自然语言文本内容有韵律、顿挫、情感地说出来，就需要让机器知道自然语言文本中每个音素的声学特征，包括基频、时长、频谱形态等，这些声学特征是语音信号的特征，用于描述和控制语音信号的音色、音高、节奏等方面。因此，在完成文本预处理后，要将自然语言文本内容合成为最近人类表达的语音内容，就需要先将自然语言文本转换成发音单元（音素），然后利用特定的算法将音素序列转化为对应的声学特征。

3.音频合成：这一步是将前面处理好的声学特征和文本信息进行结合，最终合成音频文件，作为语音合成系统的输出。具体来说，关键任务包括：波形合成、合成后处理等。

小结：以上我从产品的视角，基于课程内容、专业资料结合自身的理解，梳理的我对语音交互系统底层关键技术的理解，目的不在于学习语言交互相关的具体技术知识，而是知其大概原理。如存在歧义，欢迎交流，并建议参考相关的专业书籍与资料。

三.智能座舱的语音交互

(一).语音交互对智能座舱的意义

在传统的汽车座舱内，存在着大量的传统机械和电子设备，驾乘人员在执行驾驶任务或使用汽车功能时，需要不断地操作各种控制器和按钮，以控制车辆的速度、方向、功能等，这些操作可能同时占用驾乘人员的双手、手眼、双脚，不仅繁琐和复杂，还容易导致驾驶疲劳和注意力不集中，从而增加驾驶安全的风险。

因此，为了提高汽车驾驶的安全性和舒适性，语音交互系统被应用在汽车智能座舱中。语音交互系统通过语音交互的方式来代替部分驾驶操作，从而可以让驾乘人员的双手、手眼、双脚更多地用于安全驾驶和应急操作。例如，驾乘人员可以使用语音指令来操控空调、导航系统、音乐播放器等，而不需要手动操作控制面板，减少了驾驶员的分心和疲劳，在一定程度上提高了驾驶安全性和方便性。

从消费者的角度来看，语音交互系统不仅可以通过被动的接收用户的指令，帮用户高效地完成人与车交互，而且可以为通过主动式的交互为用户带来更智能化、情感化的人车交互体验。在当前“人机共驾”阶段，语音交互是座舱内最直接、最人性化、最完全的交互方式。

从厂商的角度来看，由于语音交互系统具备较大个性化、自定义空间，厂商可以基于结合品牌定位与用户需求，为用户打造具有差异化特征语言交互系统，在品牌差异化发展中发挥着重要的作用。另外，基于用户的个性化需求，在基础语音服务的基础上衍生除很多付费服务场景，例如，在samrt精灵1号上，付费的语音助手形象，付费的音助手装扮。

(二).智能座舱语音交互场景

智能座舱科普Ⅱ：语音交互系统w7.jpg

基于用户、场景、需求，以语音交互系统为起点，我们可以将智能座舱语音交互的场景抽象的分为主动交互场景和被动交互场景。

1.被动交互场景：当我们在讨论“人机交互”时，大部分情况讨论的是“被动式交互”，它的实现逻辑很简单，即由人给机器发号施令，机器执行并输出结果反馈给人。如，传统的被动式语音交互，是由用户主动向机器输入语音指令，然后由机器对用户的音指令进行分析、处里并执行，以实现特定的功能，其能为用户提供的最大价值仅仅是“君子动口不动手”。

在人与车的交互场景中，被动式的语音交互，仅能实现的是“不动手”地去实现车身功能、信息娱乐的功能的控制。这种被动式的交互，在某些情况下还是会分散用户的注意力，从而造成安全隐患，例如：用户在发起语言指令的时候，视线和注意力可能会从驾驶任务上转移。

2.主动交互场景：不同于被动式交互，主动式交互以机器为起点，机器可以自己主动地输入信息，主动输出执行结果或建议给用户。

在人与车的交互场景中，语音交互系统可以与其他模态交互融合，基于人、车状态和内外部环境，通过传感器、摄像头等设备主动输入信息进行决策判断，为用户提供主动的服务，例如：主动关怀服务、提醒服务、推荐服务等，主动式的语音交互，在一步提高人车交互效率的同时，还可以为用户提供更加智能化、情感化的人交互体验。

(三).智能座舱语音交互系统基础框架

智能座舱科普Ⅱ：语音交互系统w8.jpg

智能座舱的语音交互系统是一个高度复杂的综合系统，它不仅需要精密的硬件与软件协同配合，同时需要专业的运营管理来保障其可靠性和稳定性。总的来看，整个系统可以分为硬件层、服务层、应用层和运营管理平台四个组成部分。

1.硬件层：在语音交互系统中，硬件层是智能座舱语音交互系统的物理基础，关键的硬件设备包括输入/输出设备和音频处理芯片，其中输入/输出设备负责采集用户的语音指令和反馈信息，主要包括：麦克风阵列、扬声器、摄像头、传感器、灯光等，芯片部分主要负责音频信号的处理与分析，主要包括数字信号处理器(DSP)、音频解码器、音频放大器等。

2.服务层：服务层是智能座舱语音交互系统的核心，它承担着语音、图像等信息的处理和解析，并提供必要反馈和响应的重要任务。主要包括自然语言处理(NLP)引擎、语音识别引擎、语音合成引擎、声纹识别、云端服务、API服务、业务逻辑处理服务等模块。

3.应用层：应用层是指基于服务层提供的核心能力与用户的实际需求相结合，为用户提供的具体应用程序，以帮助用户通过语音交互实现具体的功能控制。例如，车身控制模块中的空调控制、座椅控制、车窗控制等应用，以及信息娱乐模块中娱乐、通讯、导航等应用。

4.运营管理平台：用户在使用语音交互系统的过程中，会产生大量的用户行为数据与音频、文本、图像数据，运营管理平台通过对这些数据的统计分析，为语音交互系统与各种AI模型的持续优化提供数据支持。从业务角度分类，运营管理平台主要分为两大核心模块：用户数据统计分析和模型数据运营。

用户数据统计分析模块，可以对实车用户使用语音交互系统的行为数据进行统计和分析，从而生成不同维度、不同粒度的分析报表。这些报表可以帮助我们深入了解用户使用习惯和偏好，及时发现并解决系统存在的问题，为语音交互系统的优化提供数据依据。

模型数据运营模块，可以通过对用户在使用语音交互系统过程中产生的大量音频、文本、图像数据的定期回收与采集、标注，生产出各个AI模型需要的数据，为模型训练提供数据支持。

[人机交互] 智能座舱科普Ⅱ：语音交互系统

快速发帖