The embodiment of the invention provides a device and method of error detection and recognition of text, which belongs to the technical field of language processing. The method includes: obtaining the recognition of text recognition every word translation confidence, confidence and confidence will identify context; text recognition of each word confidence, confidence and confidence of translation context are fused to obtain recognition of text every word comprehensive confidence scores, comprehensive word set the reliability score is less than a preset threshold as the recognition errors in the text word. Due to the translation of confidence to identify each word reverse credibility as the recognition results based on the context and the confidence level of each word as determined credible recognition results before translation or translation context based on, resulting in a combination of translation and context confidence confidence and recognition confidence of each text recognition word segmentation error detection, error detection based on the more diverse, and can improve the detection accuracy.
【技术实现步骤摘要】
识别文本检错方法及装置
本专利技术实施例涉及语言处理
,更具体地,涉及一种识别文本检错方法及装置。
技术介绍
目前,语言沟通成为不同种族群体在相互交流时所面临的一个重要课题。传统的翻译方式通常是采用人工陪同口译、交替口译以及同声传译等,以解决语言沟通障碍问题,但受限于人力不足以及成本限制,无法满足普通人进行沟通交流的需求。而语音翻译技术的发展对传统翻译方式做出了有益补充,为普通人日常沟通交流提供了另一条途径,并在成本及时效性等方面更具优势。语音翻译包括语音识别、机器翻译和语音合成这三个步骤,由于在语音识别环节中引入的错误,会直接影响后续翻译准确度,从而如何对识别文本进行检错是提升翻译准确度的关键。相关技术中提供了一种识别文本检测方法,该方法主要是基于识别文本中每个词的识别置信度判断识别文本中每个词是否正确。由于是基于识别过程中每个词的识别置信度来进行检错,检错依据较为单一,从而检错准确度较低。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的识别文本检错方法及装置。根据本专利技术实施例的第一方面,提供了一种识别文本检错方法,该方法包括:获取识别文本中每一分词的识别置信度、翻译置信度和语境置信度,翻译置信度是基于目标语言文本中每一目标词的翻译准确度所得到的,语境置信度是基于识别文本中每一分词的语境特征所得到的,目标语言文本是对识别文本进行翻译后得到的;将识别文本中每一分词的识别置信度、翻译置信度及语境置信度进行融合,以得到识别文本中每一分词的综合置信度分值,将综合置信度分值小于预设阈值的分词作为识别文本中的错 ...
【技术保护点】
一种识别文本检错方法,其特征在于,包括:获取所述识别文本中每一分词的识别置信度、翻译置信度和语境置信度,所述翻译置信度是基于目标语言文本中每一目标词的翻译准确度所得到的,所述语境置信度是基于所述识别文本中每一分词的语境特征所得到的,所述目标语言文本是对所述识别文本进行翻译后得到的;将所述识别文本中每一分词的识别置信度、翻译置信度及语境置信度进行融合,以得到所述识别文本中每一分词的综合置信度分值,将综合置信度分值小于预设阈值的分词作为所述识别文本中的错误词。
【技术特征摘要】
1.一种识别文本检错方法,其特征在于,包括:获取所述识别文本中每一分词的识别置信度、翻译置信度和语境置信度,所述翻译置信度是基于目标语言文本中每一目标词的翻译准确度所得到的,所述语境置信度是基于所述识别文本中每一分词的语境特征所得到的,所述目标语言文本是对所述识别文本进行翻译后得到的;将所述识别文本中每一分词的识别置信度、翻译置信度及语境置信度进行融合,以得到所述识别文本中每一分词的综合置信度分值,将综合置信度分值小于预设阈值的分词作为所述识别文本中的错误词。2.根据权利要求1所述的方法,其特征在于,所述目标语言文本是将所述识别文本输入至翻译编解码循环神经网络输出得到的;相应地,所述获取识别文本中每一分词的翻译置信度,包括:基于所述翻译编解码循环神经网络中解码层的输出特征及每一分词在所述识别文本中的编码特征,获取每一分词的翻译贡献度,每一分词的编码特征用于表示每一分词翻译前的语境;对每一分词的翻译贡献度进行归一化,获取每一分词对应的归一化注意力权重系数;将每一分词对应的归一化注意力权重系数与每一目标词的翻译准确度进行加权求和,得到每一分词的翻译置信度。3.根据权利要求2所述的方法,其特征在于,所述获取每一分词在所述识别文本中的编码特征,包括:通过所述翻译编解码循环神经网络获取每一分词的词向量对应的前向编码特征及反向编码特征,将每一分词对应的前向编码特征与反向编码特征进行拼接,得到每一分词在所述识别文本中的编码特征。4.根据权利要求1所述的方法,其特征在于,每一分词的语境特征包括解码特征,每一分词的解码特征用于表示用于每一分词翻译后的语境;相应地,所述获取所述识别文本中每一分词的语境特征,包括:将每一分词对应的归一化注意力权重系数与所述翻译编解码循环神经网络中解码层的输出特征进行加权求和,得到每一分词的解码特征。5.根据权利要求4所述的方法,其特...
【专利技术属性】
技术研发人员:刘俊华,魏思,胡国平,柳林,王建社,方昕,李永超,孟廷,
申请(专利权)人:新疆科大讯飞信息科技有限责任公司,
类型:发明
国别省市:新疆,65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。