The invention discloses a voice recognition method and device for determining the input speech in the corresponding sentence text, to identify sentences in text words, and determine the wrong word scenarios do not conform to the sentence in the text after the replacement, so as to improve the accuracy of speech recognition. Including a speech recognition method provided by the embodiment of the invention: according to the speech recognition input the text sentence corresponding to the speech recognition; the wrong word of the sentence in the text; determine the corresponding to the wrong word to replace the word; the wrong word changed to the words.
【技术实现步骤摘要】
一种语音识别方法及其装置
本专利技术涉及语音识别
,尤其涉及一种语音识别方法及其装置。
技术介绍
随着网络智能设备数量的迅猛发展,设备的形态也各种各样,交互方式也各有不同,尤其随着语音识别技术公司的崛起,语音识别技术越来越成熟,应用的范围也越来越广;对于一些开发具有语音识别功能产品的公司,更多的情况是集成语音识别公司的软件开发工具包(SDK)来实现语音识别的功能,并且使用其通用的SDK,而不是针对其具体应用场景进行的识别,就会很容易的出现识别结果与输入的发音一致,同时识别结果在语义上也是合理的,但是与实际应用场景却不符的情况。例如,对于艺术类的应用场景情况下,通过语音识别的结果却是“这是什么话”,而真正想要表达的意思是“这是什么画”。因此,虽然识别结果与输入的发音一致,但是识别结果却与实际应用场景不符。因此,这样会对语音识别结果造成偏差,基于这种情况对语音识别的结果进行错词纠正就很有必要。
技术实现思路
本专利技术实施例提供了一种语音识别方法及其装置,用以在确定输入的语音所对应句子文本后,对句子文本中的词语进行识别,并确定该句子文本中不符合应用场景的错词后进行替换,从而提高语音识别的正确率。本专利技术实施例提供的一种语音识别方法,该方法包括:根据输入的语音识别出该语音所对应的句子文本;识别所述句子文本中的错词;确定所述错词所对应的替换词;将所述错词更改为所述替换词。在一种可能的实施方式中,本专利技术实施例提供的上述语音识别方法中,所述识别所述句子文本中的错词,包括:对所述句子文本进行分词处理,得到至少一个词语;根据预设的训练语料库,确定与所述句子文本中的 ...
【技术保护点】
一种语音识别方法,其特征在于,该方法包括:根据输入的语音识别出该语音所对应的句子文本;识别所述句子文本中的错词;确定所述错词所对应的替换词;将所述错词更改为所述替换词。
【技术特征摘要】
1.一种语音识别方法,其特征在于,该方法包括:根据输入的语音识别出该语音所对应的句子文本;识别所述句子文本中的错词;确定所述错词所对应的替换词;将所述错词更改为所述替换词。2.根据权利要求1所述的方法,其特征在于,所述识别所述句子文本中的错词,包括:对所述句子文本进行分词处理,得到至少一个词语;根据预设的训练语料库,确定与所述句子文本中的选定词语相似度最大的前N个相似词语,N为正整数;确定所述前N个相似词语与所述选定词语的第一平均相似度;依次计算所述选定词语与所述句子文本中其他词语之间的相似度,并确定所述选定词语与所述其他词语之间的最大相似度一;当所述第一平均相似度小于第一阈值,且所述最大相似度一小于第二阈值时,则确定所述选定词语为错词。3.根据权利要求1所述的方法,其特征在于,确定所述错词所对应的替换词,包括:将所述错词转换成拼音,根据预设的拼音词语映射表确定所述拼音所对应的M个词语,M为正整数;根据预设的训练语料库,分别确定所述拼音所对应的M个词语中的每一词语所对应的相似度最大的前P个相似词语,P为正整数;依次确定所述M个词语中的每一词语与该词语所对应的相似度最大的前P个相似词语的第二平均相似度;依次计算所述M个词语中的每一词语与所述句子文本中其他词语之间的相似度,并确定所述M个词语中的每一词语与所述其他词语之间的最大相似度二;依次确定所述M个词语中的每一词语所对应的第二平均相似度与所述最大相似度二之间的平均值,将M个所述平均值中的最大值所对应的词语作为所述错词的替换词。4.根据权利要求2或3所述的方法,其特征在于,所述预设的训练语料库中的每一词语对应一个词向量模型,根据每一词语所对应的词向量模型,确定两个词语之间的相似度。5.根据权利要求3所述的方法,其特征在于,所述预设的拼音词语映射表是根据预设的语料库中的词语,将所述词语转换成拼音,且拼音相同的词语为一组而建立的拼音与词语的映射关系表。6.根据权利要求3或5所述的方法,其特征在于,根据区位码定位的方式将所述预设的拼音词语映射表预先进行存储。7.根据权利要求2所述的方法,其特征在于,对所述句子文本进行分词处理,得到至少一个词语,包括:对所述句子文本进行分词,去掉停用词后,得到至少一个词语。8.一种语音识别装置,其特征在于,该装置包括:初...
【专利技术属性】
技术研发人员:李英杰,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。