一种嵌入式语音交互系统技术方案

技术编号：26069301 阅读：17 留言：0更新日期：2020-10-28 16:42

本发明专利技术公开了一种嵌入式语音交互系统，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块，所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除；本软件音频输入后，进入Preproc信号预处理模块，该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作，提高音频质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种嵌入式语音交互系统
本专利技术涉及智能语音交互
，具体为一种嵌入式语音交互系统。
技术介绍
人工智能的研发和应用进入了高速发展的阶段。其中，智能语音技术可谓是最具前景的领域之一，AI语音交互开始成为了人机交互的重要渠道。而在出行领域，搭载了语音交互技术的嵌入式语音交互软件，也将带来车内人机交互体验的又一次升级，目前市面上的语音交互功能在汽车上的存在感较弱，用户体验做的不够好。相对于市面上的语音交互软件，芯智科技的嵌入式语音交互软件在识别率、识别速度、语音理解能力、对于用户真实需求的感知以及在提升用户体验上要求极高，该软件方案包括拾音降噪，语音交互，云端计算和内容服务一揽子解决方案，解决车载垂直场景下，用户导航、电话、娱乐、咨询、社交5大场景的功能诉求，对于用户来说，该语音交互软件无疑是更好的选择。但是现有技术中，语音交互软件的输入输出模块存在以下问题：(1)接口和硬件资源相关，可能存在调用冲突；(2)要考虑音频数据流处理的实时性，避免数据溢出：一方面对AudioIn产生的数据要迅速消费，另一方面要适当控制向AudioOut输出数据的速度；(3)原始HAL硬件抽象层接口不够易用。
技术实现思路
针对现有技术存在的不足，本专利技术的目的就在于提出一种嵌入式语音交互系统，针对以上问题，提出以下解决方案：(1)调用冲突的问题由Session调度器保证；(2)引入“消费驱动”的概念：由消费者主动向数据源“Pull”数据，而不是由数据源向消费者“Pus...

【技术保护点】
1.一种嵌入式语音交互系统，其特征在于，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；/n所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除，具体预处理步骤如下：/n步骤一：对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除；/n步骤二：对外界输入的语音进行混响去除；/n步骤三：对外界输入的语音进行DOA计算；/n步骤四：对外界输入的语音进行VR噪音消除；/n步骤五：对外界输入的语音进行蓝牙电话噪音消除；/n步骤六：将预处理后的语音的频率和峰值进行监测和记录；/n步骤七：将预处理后的音频参数与预处理前的音频参数进行比较；/n若预处理后的音频的频率大于预处理前的音频的频率，则再次进行信号预处理；/n若预处理后的音频的峰值大于预处理前的音频的峰值，则再次进行信号预处理；/n若预处理后的音频的频率小于预处理前的音频的...

【技术特征摘要】
1.一种嵌入式语音交互系统，其特征在于，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；
所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除，具体预处理步骤如下：
步骤一：对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除；
步骤二：对外界输入的语音进行混响去除；
步骤三：对外界输入的语音进行DOA计算；
步骤四：对外界输入的语音进行VR噪音消除；
步骤五：对外界输入的语音进行蓝牙电话噪音消除；
步骤六：将预处理后的语音的频率和峰值进行监测和记录；
步骤七：将预处理后的音频参数与预处理前的音频参数进行比较；
若预处理后的音频的频率大于预处理前的音频的频率，则再次进行信号预处理；
若预处理后的音频的峰值大于预处理前的音频的峰值，则再次进行信号预处理；
若预处理后的音频的频率小于预处理前的音频的频率，则将预处理后的音频的数据信号发送至音频处理模块；
若预处理后的音频的峰值小于预处理前的音频的峰值，则将预处理后的音频的数据信号发送至音频处理模块；
所述音频处理模块用于在连续的声音流中，标记出语音的开始时刻和结束时刻，主要用于人声检测，经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块；
所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令，通过tts播报语音与用户互动，面对开车场景中的日常需求，用户可以通过语音指令，跟车机连续问答，实现用户需求，具体使用步骤如下：
在离线情况下，经过音频模块处理后的音频经过离线引擎得到本地识别结果，本地ENLU对于输入语句，首先进行意图识别，获取其意图信号，对于本地支持的意图信号，在进一步提取词槽，若仲裁结果为本地ENLU返回结果，则输出到DM模块进行处理；
所述云端语音识别模块用于联网情况下实现了唤醒后下达指令，调用在线功能，通过tts播报语音与用户互动，可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令，具体使用步骤如下：
在联网的情况下，经过音频模块处理后的音频经过在线引擎得到云端识别结果，云端NLU对于输入语句，首先进行意图识别，获取其意图...

【专利技术属性】
技术研发人员：李重，王利平，徐超，高深，
申请(专利权)人：安徽芯智科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人