一种嵌入式语音交互系统技术方案

技术编号:26069301 阅读:17 留言:0更新日期:2020-10-28 16:42
本发明专利技术公开了一种嵌入式语音交互系统,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块,所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除;本软件音频输入后,进入Preproc信号预处理模块,该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作,提高音频质量。

【技术实现步骤摘要】
一种嵌入式语音交互系统
本专利技术涉及智能语音交互
,具体为一种嵌入式语音交互系统。
技术介绍
人工智能的研发和应用进入了高速发展的阶段。其中,智能语音技术可谓是最具前景的领域之一,AI语音交互开始成为了人机交互的重要渠道。而在出行领域,搭载了语音交互技术的嵌入式语音交互软件,也将带来车内人机交互体验的又一次升级,目前市面上的语音交互功能在汽车上的存在感较弱,用户体验做的不够好。相对于市面上的语音交互软件,芯智科技的嵌入式语音交互软件在识别率、识别速度、语音理解能力、对于用户真实需求的感知以及在提升用户体验上要求极高,该软件方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,解决车载垂直场景下,用户导航、电话、娱乐、咨询、社交5大场景的功能诉求,对于用户来说,该语音交互软件无疑是更好的选择。但是现有技术中,语音交互软件的输入输出模块存在以下问题:(1)接口和硬件资源相关,可能存在调用冲突;(2)要考虑音频数据流处理的实时性,避免数据溢出:一方面对AudioIn产生的数据要迅速消费,另一方面要适当控制向AudioOut输出数据的速度;(3)原始HAL硬件抽象层接口不够易用。
技术实现思路
针对现有技术存在的不足,本专利技术的目的就在于提出一种嵌入式语音交互系统,针对以上问题,提出以下解决方案:(1)调用冲突的问题由Session调度器保证;(2)引入“消费驱动”的概念:由消费者主动向数据源“Pull”数据,而不是由数据源向消费者“Push”;(3)引入Buffer,谨慎设计Buffer的大小。本专利技术的目的可以通过以下技术方案实现:一种嵌入式语音交互系统,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;步骤二:对外界输入的语音进行混响去除;步骤三:对外界输入的语音进行DOA计算;步骤四:对外界输入的语音进行VR噪音消除;步骤五:对外界输入的语音进行蓝牙电话噪音消除;步骤六:将预处理后的语音的频率和峰值进行监测和记录;步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,具体使用步骤如下:在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图信号,若仲裁结果为云端NLU返回结果,则输出到DM模块进行处理;所述仲裁模块用于给用户提供最准确的回应结果,会内部进行语义解析结果的仲裁,经过一系列的判断分析,给出最终准确结果,具体分析步骤如下:SS1:用户的每一次语音交互,仲裁模块从引擎接口适配层接收以下数据:本地LASR识别结果、云端NLU输出结果、本地NLU输出结果;SS2:首先进行本地ENLU语义解析,对ASR识别结果进行意图识别,获取其域和意图,若对于本地支持的意图,再进一步提取词槽;如果该仲裁结果为本地支持处理的意图,置信度很高,无需等待云端NLU返回结果,直接输出本地ENLU结果;SS3:若步骤2中,本地置信度低,则等待云端NLU结果,有结果则采用云端NLU结果,否则还是使用本地ENLU结果;SS4:若步骤2中,本地ENLU无法识别ASR识别结果意图,则等待云端NLU结果,有结果则采用云端NLU结果,若云端服务不可用,则输出不理解;所述事件路由模块用于将事件转发给正确的接收方,通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块,所述调度模块是指用户和终端的一次完整交互过程,在意图信号到来时,选择对应的调度器进行处理;当不止一个调度器需要运行时,根据优先级来安排调度器运行、排队、打断和恢复;调度器调度的结果是:同一时间只有一个调度器处于运行状态,其他调度器只能处于等待的状态;所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去,与用户到达交流的目的,当调度器接收到意图信号后,选择对应的调度器进行处理,处理完成以后将数据信号发送至音频输出模块,并将其转化成音频信号输送至语音合成模块,音合成模块将其合成为音频,随后通过音频输出模块输送出去。进一步地,所述语音合成模块用于人机交互功能的语音提示,当调度模块选择对应的调度器进行处理后,将处理后的数据信号发送至语音合成模块,具体语音合成的方案如下:在线合成、离线合成以及PCM播报;其中在线和离线合成均以文本为输入,将指定文本内容转化为语音播报;PCM播报则直接播报输入的录音段;合成中支持对发音人、语音长度、输出音频格式以及文本预处理标签等多种参数进行设置。进一步地,所述录入模块用于将音乐播放调度器、天气播报调度器、网络连接调度器以及设备控制调度器录入至调度模块中。与现有技术相比,本专利技术的有益效果是:1、本软件音频输入后,进入信号预处理模块,该模块对输入音频进行回声消除、去混响、DOA计算、VR噪音消除、蓝牙电话噪音消除等操作,提高音频质量;2、本软件在用音频处理模块确定静音和语音数据的开始和起止点之前,需要对语音数据进行信号预处理,然后再计算语音数据的开始和起止点,经过音频处理模块处理后的音频,可以降低存储或传输的数据量,降低ASR模块的负担从而降本文档来自技高网...

【技术保护点】
1.一种嵌入式语音交互系统,其特征在于,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;/n所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:/n步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;/n步骤二:对外界输入的语音进行混响去除;/n步骤三:对外界输入的语音进行DOA计算;/n步骤四:对外界输入的语音进行VR噪音消除;/n步骤五:对外界输入的语音进行蓝牙电话噪音消除;/n步骤六:将预处理后的语音的频率和峰值进行监测和记录;/n步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;/n若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;/n若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;/n若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;/n若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;/n所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;/n所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:/n在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;/n所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,具体使用步骤如下:/n在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图信号,若仲裁结果为云端NLU返回结果,则输出到DM模块进行处理;/n所述仲裁模块用于给用户提供最准确的回应结果,会内部进行语义解析结果的仲裁,经过一系列的判断分析,给出最终准确结果,具体分析步骤如下:/nSS1:用户的每一次语音交互,仲裁模块从引擎接口适配层接收以下数据:本地LASR识别结果、云端NLU输出结果、本地NLU输出结果;/nSS2:首先进行本地ENLU语义解析,对ASR识别结果进行意图识别,获取其域和意图,若对于本地支持的意图,再进一步提取词槽;如果该仲裁结果为本地支持处理的意图,置信度很高,无需等待云端NLU返回结果,直接输出本地ENLU结果;/nSS3:若步骤2中,本地置信度低,则等待云端NLU结果,有结果则采用云端NLU结果,否则还是使用本地ENLU结果;/nSS4:若步骤2中,本地ENLU无法识别ASR识别结果意图,则等待云端NLU结果,有结果则采用云端NLU结果,若云端服务不可用,则输出不理解;/n所述事件路由模块用于将事件转发给正确的接收方,通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块,所述调度模块是指用户和终端的一次完整交互过程,在意图信号到来时,选择对应的调度器进行处理;当不止一个调度器需要运行时,根据优先级来安排调度器运行、排队、打断和恢复;调度器调度的结果是:同一时间只有一个调度器处于运行状态,其他调度器只能处于等待的状态;/n所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去,与用户到达交流的目的,当调度器接收到意图信号后,选择对应的调度器进行处理,处理完成以后将数据信号发送至音频输出模块,并将其转化成音频信号输送至语音合成模块,音合成模块将其合成为音频,随后通过音频输出模块输送出去。/n...

【技术特征摘要】
1.一种嵌入式语音交互系统,其特征在于,包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块;
所述音频输入模块用于将外界输入的语音,由语音信号转化为数据信号,并发送至信号预处理模块对数据信号进行预处理,所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除,具体预处理步骤如下:
步骤一:对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除;
步骤二:对外界输入的语音进行混响去除;
步骤三:对外界输入的语音进行DOA计算;
步骤四:对外界输入的语音进行VR噪音消除;
步骤五:对外界输入的语音进行蓝牙电话噪音消除;
步骤六:将预处理后的语音的频率和峰值进行监测和记录;
步骤七:将预处理后的音频参数与预处理前的音频参数进行比较;
若预处理后的音频的频率大于预处理前的音频的频率,则再次进行信号预处理;
若预处理后的音频的峰值大于预处理前的音频的峰值,则再次进行信号预处理;
若预处理后的音频的频率小于预处理前的音频的频率,则将预处理后的音频的数据信号发送至音频处理模块;
若预处理后的音频的峰值小于预处理前的音频的峰值,则将预处理后的音频的数据信号发送至音频处理模块;
所述音频处理模块用于在连续的声音流中,标记出语音的开始时刻和结束时刻,主要用于人声检测,经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块;
所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令,通过tts播报语音与用户互动,面对开车场景中的日常需求,用户可以通过语音指令,跟车机连续问答,实现用户需求,具体使用步骤如下:
在离线情况下,经过音频模块处理后的音频经过离线引擎得到本地识别结果,本地ENLU对于输入语句,首先进行意图识别,获取其意图信号,对于本地支持的意图信号,在进一步提取词槽,若仲裁结果为本地ENLU返回结果,则输出到DM模块进行处理;
所述云端语音识别模块用于联网情况下实现了唤醒后下达指令,调用在线功能,通过tts播报语音与用户互动,可实现导航、音乐、天气、听书、百科知识等跨场景多种多种的语音调令,具体使用步骤如下:
在联网的情况下,经过音频模块处理后的音频经过在线引擎得到云端识别结果,云端NLU对于输入语句,首先进行意图识别,获取其意图...

【专利技术属性】
技术研发人员:李重王利平徐超高深
申请(专利权)人:安徽芯智科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1