一种语音语义识别方法及系统技术方案

技术编号：29794301 阅读：26 留言：0更新日期：2021-08-24 18:14

本发明专利技术提供一种语音语义识别方法及系统，语音语义识别方法包括：采集训练样本集，训练样本集包括：语音样本组和标注信息，语音样本组包括：语音内容相同的普通话样本和方言样本；将训练样本集输入语义识别网络，语义识别网络包括：语音识别子网络、用于获取第一语义标签的长短期记忆子网络和用于获取第二语义标签的卷积神经子网络；根据第一语义标签和第二语义标签，对语义识别网络进行训练，获取语义识别模型；通过将待识别语音输入语义识别模型进行语义识别，完成语音语义识别；本发明专利技术中的语音语义识别方法，提高了语音识别的精确度，识别速度较快，实现了对语音语义的精准识别，有效提高了语音语义识别的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音语义识别方法及系统
本专利技术涉及机器识别领域，尤其涉及一种语音语义识别方法及系统。
技术介绍
为了满足人们的语音识别需求，语音识别技术发展得越发迅速，由于语音存在多种方言类型，目前通常需要将语音输入多个方言数据库进行多次匹配，完成语音识别，然而，匹配次数较多，运行负载较大，识别速度较慢；进一步地，当需要进行语音语义识别时，目前，通常对语音中的关键词进行语义匹配，确定语音语义，然而，对语音中的关键词进行语义匹配确定语音语义的方式，未针对语音中的上下文信息对进行分析，语义识别精确度较低，给用户带来较差的体验。
技术实现思路
本专利技术提供一种语音语义识别方法及系统，以解决现有技术中对方言进行识别时，匹配次数较多，运行负载较大，识别速度较慢，且语音语义识别精确度较低的问题。本专利技术提供的语音语义识别方法，包括：采集训练样本集，所述训练样本集包括：语音样本组和标注信息，所述语音样本组包括：语音内容相同的普通话样本和方言样本；将所述训练样本集输入语义识别网络，所述语义识别网络包括...

【技术保护点】
1.一种语音语义识别方法，其特征在于，包括：/n采集训练样本集，所述训练样本集包括：语音样本组和标注信息，所述语音样本组包括：语音内容相同的普通话样本和方言样本；/n将所述训练样本集输入语义识别网络，所述语义识别网络包括：语音识别子网络、用于获取第一语义标签的长短期记忆子网络和用于获取第二语义标签的卷积神经子网络；/n根据所述第一语义标签和第二语义标签，对语义识别网络进行训练，获取语义识别模型；/n通过将待识别语音输入所述语义识别模型进行语义识别，完成语音语义识别。/n

【技术特征摘要】
1.一种语音语义识别方法，其特征在于，包括：
采集训练样本集，所述训练样本集包括：语音样本组和标注信息，所述语音样本组包括：语音内容相同的普通话样本和方言样本；
将所述训练样本集输入语义识别网络，所述语义识别网络包括：语音识别子网络、用于获取第一语义标签的长短期记忆子网络和用于获取第二语义标签的卷积神经子网络；
根据所述第一语义标签和第二语义标签，对语义识别网络进行训练，获取语义识别模型；
通过将待识别语音输入所述语义识别模型进行语义识别，完成语音语义识别。

2.根据权利要求1所述的语音语义识别方法，其特征在于，语音内容相同的所述普通话样本与所述方言样本具有第一关联关系；
将所述训练样本集输入所述语义识别网络中的语音识别子网络进行语音特征提取，获取语音特征；
对所述语音特征进行分类与标注，确定语音特征类别，所述语音特征类别包括：普通话和方言；
根据所述第一关联关系与语音特征类别，确定不同类别的语音特征之间的第二关联关系；
利用所述第二关联关系，获取语音文本，完成语音识别。

3.根据权利要求1所述的语音语义识别方法，其特征在于，
获取所述普通话样本或所述方言样本中的属性信息，所述属性信息至少包括以下之一：地域信息和身份信息；
根据所述地域信息和/或身份信息，确定所述普通话样本或所述方言样本的一个或多个关联类型；
根据所述关联类型，将所述普通话样本或方言样本的语音特征输入对应类型的语音特征库，进行特征匹配，获取语音文本。

4.根据权利要求3所述的语音语义识别方法，其特征在于，根据所述关联类型，将所述普通话样本或方言样本的语音特征输入对应类型的语音特征库的步骤包括：
根据预先设置的权重分配规则，获取多个所述关联类型对应的权重；
根据多个所述关联类型对应的权重，获取所述语音特征与不同类型的所述语音特征库的匹配顺序；
根据所述匹配顺序，将所述语音特征依次输入对应的语音特征库进行特征匹配，获取语音文本。

5.根据权利要求1所述的语音语义识别方法，其特征在于，
对所述语音识别子网络输出的语音文本进行分词处理，获取一个或多个分词词汇；
获取所述分词词汇的词频与逆向文件频率；
根据所述词频与所述逆向文件频率，确定所述分词词汇的词汇分数；
根据所述词汇分数和预先设置的分数阈值，对所述分词词汇进行截断过滤，获取降噪词汇；
将所述降噪词汇输入所述长短期记忆子网络，根据上下文信息，进行语义特征提取，获取语义特征向量；
根据所述语义特征向量，获取所述语音文本的第一语义标签。

6.根据权利要求1所述的语音语义识别方法，其特征在于，
将降噪词汇输入所述卷积神...

【专利技术属性】
技术研发人员：姚娟娟，樊代明，钟南山，
申请(专利权)人：明品云北京数据科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人