一种语音交互系统及方法技术方案

技术编号:17163369 阅读:12 留言:0更新日期:2018-02-01 21:18
本发明专利技术公开了一种语音交互系统及方法,包括:前处理模块,其包括声音预处理模块和端点检测模块;声学模型库,其包括HMM模型匹配单元、TDNN模型匹配单元、HMM模型数据库和ANN模型数据库;语言模型库,其包括N‑Gram模型数据库和Rule‑based模型数据库;识别模块,其包括MFCC参数特征提取单元和识别控制单元;交互中心,其包括语义理解模块、交互处理模块、应答信息库和语义词典数据库。本发明专利技术利用反馈模块对识别信息和客户的反馈指令的监测,并通过识别控制单元向客户展示识别信息,同时控制改变声音匹配模型和语言模型库,很好的优化交互系统的交互识别正确率。

A speech interactive system and method

The invention discloses a voice interactive system and method, including: pretreatment module, including the module and voice endpoint detection module pre; acoustic model library, which includes the HMM model matching unit, TDNN model, HMM model unit, ANN database and model database; language model library, including the N Gram model database based model and Rule database; identification module, which includes unit and control unit identification MFCC parameter extraction characteristics; interaction center, which includes semantic understanding module, interactive processing module, response information database and semantic dictionary database. The invention uses the feedback module to monitor the identification information and the feedback instruction of the customer, and displays identification information to the customer by identifying the control unit, while controlling the changing of the sound matching model and the language model library, so as to optimize the interactive recognition accuracy rate of the interactive system.

【技术实现步骤摘要】
一种语音交互系统及方法
本专利技术涉及语音交互领域,具体涉及一种语音交互系统及方法。
技术介绍
随着人工智能走进日常生活中,人们对于语音交互的认识也越来越深,同时对人工智能中语音交互系统的要求也越来越高。现有专利CN107146622A一种冰箱、语音交互系统、语音交互方法、计算机设备、计算机可读存储介质,其中,语音交互系统包括:语音采集模块,用于对语音信号采集和预处理,并将预处理后的语音信号发送至语音识别模块;语音识别模块,用于将预处理后的语音信号转化为文本信息,并将文本信息分别发送至处理模块和语义理解模块;语义理解模块,用于将文本信息转化为语义结果,并将语义结果发送至处理模块;处理模块,用于根据文本信息和语义结果,查询并结合相关联的信息库以执行语音信号对应的语音交互任务。虽然现有专利CN107146622A实现了语言人机交互,提高了交互体验度。但是也存在如下弊端:当客户跟系统交互出现答非所问或者有明显的不能识别或者不理解客户的语音信息的时候,往往顾客无计可施,大大降低了人机交互的性能。
技术实现思路
本专利技术的目的在于提供一种语音交互系统及方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种语音交互系统,包括:前处理模块,其包括声音预处理模块和端点检测模块,所述声音预处理模块分别与所述麦克风和端点检测模块电性连接;声学模型库,其包括HMM模型匹配单元、TDNN模型匹配单元、HMM模型数据库和ANN模型数据库,所述HMM模型匹配单元与所述HMM模型数据库电性连接,所述TDNN模型匹配单元与所述ANN模型数据库电性连接;语言模型库,其包括N-Gram模型数据库和Rule-based模型数据库;识别模块,其包括MFCC参数特征提取单元和识别控制单元,所述MFCC参数特征提取单元分别与所述识别控制单元和端点检测模块电性连接;所述识别控制单元分别与所述N-Gram模型数据库、Rule-based模型数据库、HMM模型数据库、ANN模型数据库、语义理解模块和反馈模块电性连接;交互中心,其包括语义理解模块、交互处理模块、应答信息库和语义词典数据库,所述交互处理模块分别与所述语义理解模块、反馈模块、应答信息库和语音合成模块电性连接,所述语音合成模块分别与反馈模块和扬声器电性连接。优选的,所述声音预处理模块包括防混叠滤波器处理、A/D转换器转和分帧加窗处理。优选的,所述端点检测模块为基于频带方差的端点检测模块。优选的,所述识别控制单元为ARM单片机,且其上面集成了声音模型选择电路,用于选择HMM模型匹配单元和TDNN模型匹配单元,同时集成了语言模型库选择电路,用于选择N-Gram模型数据库和ANN模型数据库。优选的,所述应答信息库内存储情景对话的应答映射。优选的,所述语义词典数据库内存储语句语义映射。优选的,所述反馈模块内设有存储器,用于存储所述交互处理模块传递过来的文本信息、语音合成模块传递过来到的语音信息和反馈指令。一种语音交互方法,包括:步骤一:带噪语音从麦克风传入所述语音交互系统,在所述声音预处理模块过程中经过防混叠滤波器滤波处理、A/D转换器信号转换和分帧加窗处理后再经过基于频带方差的端点检测模块后得到语音信号;步骤二:步骤一中的语音信号经过所述MFCC参数特征提取单元后得到特征矢量,所述特征矢量传送到所述识别控制单元后,所述识别控制单元控制声音模型选择电路和语言模型库选择电路选择相应的模型匹配和语言模型库对特征矢量进行识别得到初始文本信息;步骤三:步骤二中的初始文本信息经过所述语义词典数据库的映射和语义理解模块的处理得到识别文本信息;步骤四:步骤三中的识别文本信息经过所述应答信息库的映射和交互处理模块的处理得到应答文本信息,同时所述交互处理模块将步骤二中的初始文本信息、步骤三种的识别文本信息和应答文本信息传递给所述反馈模块;步骤五:步骤四中的应答文本信息经过所述语音合成模块处理后将应答文本信息转换成语音信息后经扬声器与客户交流;步骤六:所述反馈模块存储步骤二中的初始文本信息、步骤三中的识别文本信息和步骤四中的应答文本信息,当重复出现相同的初始文本信息、识别文本信息或者初始文本信息、识别文本信息为反馈指令,则所述反馈模块向所述控制单元发出反馈信号;步骤七:所述控制单元接收到步骤六中的反馈信号后控制所述交互处理模块将步骤三中的识别文本信息传送给所述语音合成模块,并通过所述扬声器向客户展示识别文本信息;步骤八:在向顾客展示文本信息后,所述控制单元控制声音模型选择电路和声音模型选择电路更换声音匹配模型和语言模型库。与现有技术相比,本专利技术的有益效果是:本专利技术利用反馈模块对识别信息和客户的反馈指令的监测,并通过识别控制单元向客户展示识别信息,同时控制改变声音匹配模型和语言模型,很好的优化交互系统的交互识别正确率。附图说明图1为本专利技术的语音交互系统结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如附图1所示,一种语音识别系统,包括前处理模块,其包括声音预处理模块和端点检测模块,声音预处理模块分别与麦克风和端点检测模块电性连接,声学模型库,其包括HMM模型匹配单元、TDNN模型匹配单元、HMM模型数据库和ANN模型数据库,HMM模型匹配单元与HMM模型数据库电性连接,TDNN模型匹配单元与ANN模型数据库电性连接。语言模型库,其包括N-Gram模型数据库和Rule-based模型数据库,识别模块,其包括MFCC参数特征提取单元和识别控制单元,MFCC参数特征提取单元分别与识别控制单元和端点检测模块电性连接;识别控制单元分别与N-Gram模型数据库、Rule-based模型数据库、HMM模型数据库、ANN模型数据库、语义理解模块和反馈模块电性连接。交互中心,其包括语义理解模块、交互处理模块、应答信息库和语义词典数据库,交互处理模块分别与语义理解模块、反馈模块、应答信息库和语音合成模块电性连接,语音合成模块分别与反馈模块和扬声器电性连接。声音预处理模块包括防混叠滤波器处理、A/D转换器转和分帧加窗处理,端点检测模块为基于频带方差的端点检测模块,识别控制单元为ARM单片机,且其上面集成了声音模型选择电路,用于选择HMM模型匹配单元和TDNN模型匹配单元,同时集成了语言模型库选择电路,用于选择N-Gram模型数据库和ANN模型数据库。应答信息库内存储情景对话的应答映射,语义词典数据库内存储语句语义映射。反馈模块内设有存储器,用于存储交互处理模块传递过来的文本信息、语音合成模块传递过来到的语音信息和反馈指令。当带噪语音通过麦克风输入发哦语音交互系统后,前处理模块对带噪语音进行声音预处理和端点检测,端点检测后的待在语音经过MFCC参数特征处理后得到相应的特征矢量,识别单元控制选择HMM模型匹配和N-Gram模型数据组合进行对特征矢量的匹配,匹配得到初始文本信息,初始文本信息经过语义理解模块进行语义理解后的到识别文本信息,识别文本信息经过交互处理模块的处理后得到应答文本本文档来自技高网...
一种语音交互系统及方法

【技术保护点】
一种语音交互系统,其特征在于包括:前处理模块,其包括声音预处理模块和端点检测模块,所述声音预处理模块分别与所述麦克风和端点检测模块电性连接;声学模型库,其包括HMM模型匹配单元、TDNN模型匹配单元、HMM模型数据库和ANN模型数据库,所述HMM模型匹配单元与所述HMM模型数据库电性连接,所述TDNN模型匹配单元与所述ANN模型数据库电性连接;语言模型库,其包括N‑Gram模型数据库和Rule‑based模型数据库;识别模块,其包括MFCC参数特征提取单元和识别控制单元,所述MFCC参数特征提取单元分别与所述识别控制单元和端点检测模块电性连接;所述识别控制单元分别与所述N‑Gram模型数据库、Rule‑based模型数据库、HMM模型数据库、ANN模型数据库、语义理解模块和反馈模块电性连接;交互中心,其包括语义理解模块、交互处理模块、应答信息库和语义词典数据库,所述交互处理模块分别与所述语义理解模块、反馈模块、应答信息库和语音合成模块电性连接,所述语音合成模块分别与反馈模块和扬声器电性连接。

【技术特征摘要】
1.一种语音交互系统,其特征在于包括:前处理模块,其包括声音预处理模块和端点检测模块,所述声音预处理模块分别与所述麦克风和端点检测模块电性连接;声学模型库,其包括HMM模型匹配单元、TDNN模型匹配单元、HMM模型数据库和ANN模型数据库,所述HMM模型匹配单元与所述HMM模型数据库电性连接,所述TDNN模型匹配单元与所述ANN模型数据库电性连接;语言模型库,其包括N-Gram模型数据库和Rule-based模型数据库;识别模块,其包括MFCC参数特征提取单元和识别控制单元,所述MFCC参数特征提取单元分别与所述识别控制单元和端点检测模块电性连接;所述识别控制单元分别与所述N-Gram模型数据库、Rule-based模型数据库、HMM模型数据库、ANN模型数据库、语义理解模块和反馈模块电性连接;交互中心,其包括语义理解模块、交互处理模块、应答信息库和语义词典数据库,所述交互处理模块分别与所述语义理解模块、反馈模块、应答信息库和语音合成模块电性连接,所述语音合成模块分别与反馈模块和扬声器电性连接。2.根据权利要求1所述的一种语音交互系统,其特征在于,所述声音预处理模块包括防混叠滤波器处理、A/D转换器转和分帧加窗处理。3.根据权利要求1所述的一种语音交互系统,其特征在于,所述端点检测模块为基于频带方差的端点检测模块。4.根据权利要求1所述的一种语音交互系统,其特征在于,所述识别控制单元为ARM单片机,且其上面集成了声音模型选择电路,用于选择HMM模型匹配单元和TDNN模型匹配单元,同时集成了语言模型库选择电路,用于选择N-Gram模型数据库和ANN模型数据库。5.根据权利要求1所述的一种语音交互系统,其特征在于,所述应答信息库内存储情景对话的应答映射。6.根据权利要求1所述的一种语音交互系统,其特征在于,所述语义词典数据库...

【专利技术属性】
技术研发人员:王冬
申请(专利权)人:安徽硕威智能科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1