一种语音识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:18944676 阅读:27 留言:0更新日期:2018-09-15 11:57
本申请公开了一种语音识别方法、装置、设备及可读存储介质,本申请预先以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据训练得到文本合理性判定模型,在识别过程获取语音数据对应的第一识别结果,并在确定第一识别结果中包含指定类型符号对应的目标文字时,将目标文字替换为对应的目标符号,得到第二识别结果,分别将第一识别结果和第二识别结果输入文本合理性判定模型,得到输出的第一识别结果和第二识别结果各自的文本合理性判定得分,进而可以将第一识别结果和第二识别结果中,文本合理性判定得分高的一个作为最终识别结果输出,更加符合用户真实意图,语音识别准确度也更高。

Speech recognition method, device, device and readable storage medium

This application discloses a speech recognition method, device, device, and readable storage medium. The application trains the training text data containing symbols and/or corresponding characters labeled with text reasonableness determination labels in advance to obtain a text reasonableness determination model, and obtains the first recognition corresponding to the speech data in the recognition process. As a result, when the target character corresponding to the specified type symbol is determined in the first recognition result, the target character is replaced by the corresponding target symbol, and the second recognition result is obtained. The first recognition result and the second recognition result are input into the text reasonableness judgment model respectively, and the output first recognition result and the second recognition result are obtained. Each result has its own score of text reasonableness judgment, and then one of the first and second recognition results with high score of text reasonableness judgment can be output as the final recognition result, which is more in line with the real intention of users and has higher accuracy of speech recognition.

【技术实现步骤摘要】
一种语音识别方法、装置、设备及可读存储介质
本申请涉及语音识别
,更具体地说,涉及一种语音识别方法、装置、设备及可读存储介质。
技术介绍
随着人工智能的持续火热,语音识别技术也得到了广泛的普及。从简单的语音输入法,再到会议的实时转写系统,乃至最终的智能机器人,都是建立在语音识别的基础上。语音识别是通过机器学习的方法让机器能够自动的将语音转换成相应的文字。语音本身能够天然的表达人类的不同情感,比如愤怒、哀伤、高兴等情绪,而文字只是一堆抽象的代码,无法从中表达人类的情感,所以符号应运而生。符号的种类有多种,常见的如标点符号:“。”、“,”、“!”等;再比如某些特殊符号:等。这些符号均存在对应的文字表达,如“!”对应的文字表达是“感叹号”,对应的文字表达是“笑脸”。由于语音识别的服务对象包括各种各样的用户群体,用户可能会将符号通过语音形式说出,进而在进行语音识别时,现有技术是先将语音数据转换为文字形式的识别结果。进一步按照预置替换规则,将识别结果中符号对应的文字表达替换为具体符号。如识别结果为:“我一会过来感叹号”(双引号中的内容为识别结果),现有技术将其中“感叹号”替换为“!”,最终替换后的识别结果为:“我一会过来!”。本案专利技术人通过对现有技术的研究发现,其在某些场景下得到的最终识别结果不符合用户真正意图,如:用户在文本修改场景下说:“这个地方的逗号应该去掉”。此时,按照现有技术的方式,会直接将“逗号”替换为“,”,最终得到的识别结果为:“这个地方的,应该去掉”。显然,该识别结果不符合用户真正意图。有鉴于此,现有技术亟需一种语音识别过程符号准确转换的方案,以提高语音识别的准确性。
技术实现思路
有鉴于此,本申请提供了一种语音识别方法、装置、设备及可读存储介质,用于实现在语音识别过程对符号的准确转换,提高识别准确度。为了实现上述目的,现提出的方案如下:一种语音识别方法,包括:获取语音数据对应的第一识别结果;在确定所述第一识别结果中包含指定类型符号对应的目标文字时,将所述第一识别结果中所述目标文字替换为对应的目标符号,得到第二识别结果;分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分;所述文本合理性判定模型为,以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到;根据所述第一识别结果和所述第二识别结果的文本合理性判定得分,选取文本合理性高的一个作为最终识别结果输出。优选地,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,包括:分别将所述第一识别结果和所述第二识别结果输入预训练的语言合理性判定模型,得到所述语言合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的语言合理性判定得分;所述语言合理性判定模型为,以标注有语言合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到。优选地,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,包括:获取由所述第一识别结果中,所述目标文字及其前后词组组成的第一三元组;以及,获取由所述第二识别结果中,所述目标符号及其前后词组组成的第二三元组;分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型,得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分;所述语义合理性判定模型为,以训练文本数据中标识词及其前后词组组成的三元组为训练样本,以所述三元组的语义合理性标注结果为样本标签训练得到,所述标识词为符号或符号对应的文字;将所述第一三元组的语义合理性判定得分作为所述第一识别结果的文本合理性判定得分;将所述第二三元组的语义合理性判定得分作为所述第二识别结果的文本合理性判定得分。优选地,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,还包括:获取由所述第一识别结果中,所述目标文字及其前后词组组成的第一三元组;以及,获取由所述第二识别结果中,所述目标符号及其前后词组组成的第二三元组;分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型,得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分;所述语义合理性判定模型为,以训练文本数据中标识词及其前后词组组成的三元组为训练样本,以所述三元组的语义合理性标注结果为样本标签训练得到,所述标识词为符号或符号对应的文字;根据所述第一识别结果的语言合理性判定得分及所述第一三元组的语义合理性判定得分,确定所述第一识别结果的文本合理性判定得分;根据所述第二识别结果的语言合理性判定得分及所述第二三元组的语义合理性判定得分,确定所述第二识别结果的文本合理性判定得分。优选地,所述分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型,得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分,包括:通过语义合理性判定模型的输入层,分别输入所述第一三元组和所述第二三元组;通过语义合理性判定模型的特征提取层,分别确定所述第一三元组和第二三元组的词向量特征;通过语义合理性判定模型的输出层,依据词向量特征分别确定所述第一三元组和所述第二三元组各自的语义合理性判定得分。优选地,所述获取语音数据对应的第一识别结果,包括:获取语音数据的声学特征;基于所述声学特征,确定所述语音数据对应的第一识别结果,所述第一识别结果在所述语音数据中存在停顿时能显性的进行停顿标记;在所述根据所述第一识别结果和所述第二识别结果的文本合理性判定得分,选取文本合理性高的一个作为最终识别结果输出之前,该方法还包括:根据所述第一识别结果是否包含停顿标记,对所述第一识别结果和/或第二识别结果的文本合理性判定得分进行调整,当第一识别结果包含停顿标记时,第一识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更低,第二识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更高。优选地,所述基于所述声学特征,确定所述语音数据对应的第一识别结果,包括:调用预先构建的解码网络,所述解码网络包括携带有词间停顿标记的词组合;根据所述声学特征及所述解码网络,确定述语音数据对应的第一识别结果。一种语音识别装置,包括:第一识别结果获取单元,用于获取语音数据对应的第一识别结果;第二识别结果获取单元,用于在确定所述第一识别结果中包含指定类型符号对应的目标文字时,将所述第一识别结果中所述目标文字替换为对应的目标符号,得到第二识别结果;得分确定单元,用于分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分;所述文本合理性判定模型为,以标注有文本合理性判定本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:获取语音数据对应的第一识别结果;在确定所述第一识别结果中包含指定类型符号对应的目标文字时,将所述第一识别结果中所述目标文字替换为对应的目标符号,得到第二识别结果;分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分;所述文本合理性判定模型为,以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到;根据所述第一识别结果和所述第二识别结果的文本合理性判定得分,选取文本合理性高的一个作为最终识别结果输出。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取语音数据对应的第一识别结果;在确定所述第一识别结果中包含指定类型符号对应的目标文字时,将所述第一识别结果中所述目标文字替换为对应的目标符号,得到第二识别结果;分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分;所述文本合理性判定模型为,以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到;根据所述第一识别结果和所述第二识别结果的文本合理性判定得分,选取文本合理性高的一个作为最终识别结果输出。2.根据权利要求1所述的方法,其特征在于,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,包括:分别将所述第一识别结果和所述第二识别结果输入预训练的语言合理性判定模型,得到所述语言合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的语言合理性判定得分;所述语言合理性判定模型为,以标注有语言合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到。3.根据权利要求1所述的方法,其特征在于,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,包括:获取由所述第一识别结果中,所述目标文字及其前后词组组成的第一三元组;以及,获取由所述第二识别结果中,所述目标符号及其前后词组组成的第二三元组;分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型,得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分;所述语义合理性判定模型为,以训练文本数据中标识词及其前后词组组成的三元组为训练样本,以所述三元组的语义合理性标注结果为样本标签训练得到,所述标识词为符号或符号对应的文字;将所述第一三元组的语义合理性判定得分作为所述第一识别结果的文本合理性判定得分;将所述第二三元组的语义合理性判定得分作为所述第二识别结果的文本合理性判定得分。4.根据权利要求2所述的方法,其特征在于,所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型,得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分,还包括:获取由所述第一识别结果中,所述目标文字及其前后词组组成的第一三元组;以及,获取由所述第二识别结果中,所述目标符号及其前后词组组成的第二三元组;分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型,得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分;所述语义合理性判定模型为,以训练文本数据中标识词及其前后词组组成的三元组为训练样本,以所述三元组的语义合理性标注结果为样本标签训练得到,所述标识词为符号或符号对应的文...

【专利技术属性】
技术研发人员:吴思远潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1