识别文本纠错方法及装置制造方法及图纸

技术编号:17837492 阅读:63 留言:0更新日期:2018-05-03 19:12
本发明专利技术提供一种识别文本纠错方法及装置,属于语言处理技术领域。该方法包括:确定识别文本中每一识别错误的错误分词对应的纠错词;将每一纠错词替换识别文本中对应的错误分词,以得到识别文本对应的纠错候选文本;确定每一纠错候选文本对应的纠错置信度,并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。本发明专利技术通过确定每一纠错候选文本对应的纠错置信度,并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。由于在通过语音识别得到识别文本后,可选取可信程度较高的纠错候选文本作为纠错后的识别文本,以实现对识别文本进行纠错,从而提高了后续翻译的准确性。

Identification of text error correction methods and devices

The invention provides a method and device for identifying text correction, and belongs to the field of language processing technology. The method includes: determining the error correction words corresponding to each recognition error in the text, replacing each error word with the corresponding error participle in the identification text to obtain the error correction candidate text corresponding to the identified text, determining the error correction reliability for each error correction candidate text, and the error correction confidence greater than the first. The candidate text of the preset threshold is used as the recognition text after error correction. The invention determines the error correction confidence of each error correction candidate text, and the error correction candidate text which is higher than the first preset threshold as the error correcting identification text. Since the text can be identified through speech recognition, the candidate text with higher credibility can be selected as the corrected text to correct the recognition text, thus improving the accuracy of the subsequent translation.

【技术实现步骤摘要】
识别文本纠错方法及装置
本专利技术实施例涉及语言处理
,更具体地,涉及一种识别文本纠错方法及装置。
技术介绍
目前,语言沟通成为不同种族群体在相互交流时所面临的一个重要课题。传统的翻译方式通常是采用人工陪同口译、交替口译以及同声传译等,以解决语言沟通障碍问题,但受限于人力不足以及成本限制,无法满足普通人进行沟通交流的需求。而语音翻译技术的发展对传统翻译方式做出了有益补充,为普通人日常沟通交流提供了另一条途径,并在成本及时效性等方面更具优势。语音翻译包括语音识别、机器翻译和语音合成这三个步骤,由于在语音识别环节中引入的错误,会直接影响后续翻译准确度,从而如何对识别文本进行纠错是提升翻译准确度的关键。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的识别文本纠错方法及装置。根据本专利技术实施例的第一方面,提供了一种识别文本纠错方法,该方法包括:确定识别文本中每一识别错误的错误分词对应的纠错词,每一错误分词对应至少一个纠错词;将每一纠错词替换识别文本中对应的错误分词,以得到识别文本对应的纠错候选文本,识别文本对应至少一个纠错候选文本;确定每本文档来自技高网...
识别文本纠错方法及装置

【技术保护点】
一种识别文本纠错方法,其特征在于,包括:确定识别文本中每一识别错误的错误分词对应的纠错词,每一错误分词对应至少一个纠错词;将每一纠错词替换所述识别文本中对应的错误分词,以得到所述识别文本对应的纠错候选文本,所述识别文本对应至少一个纠错候选文本;确定每一纠错候选文本对应的纠错置信度,并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本,每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

【技术特征摘要】
1.一种识别文本纠错方法,其特征在于,包括:确定识别文本中每一识别错误的错误分词对应的纠错词,每一错误分词对应至少一个纠错词;将每一纠错词替换所述识别文本中对应的错误分词,以得到所述识别文本对应的纠错候选文本,所述识别文本对应至少一个纠错候选文本;确定每一纠错候选文本对应的纠错置信度,并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本,每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。2.根据权利要求1所述的方法,其特征在于,所述确定识别文本中每一识别错误的错误分词对应的纠错词之前,还包括:确定所述识别文本中每一分词的识别置信度,并将识别置信度小于第二预设阈值的分词作为错误分词;或者,确定所述识别文本经过翻译后得到的目标语言文本中每一目标分词的翻译准确度,并将翻译准确度小于第三预设阈值的目标分词在所述识别文本中对应的分词作为错误分词,每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。3.根据权利要求1所述的方法,其特征在于,所述确定所述识别文本中每一识别错误的错误分词对应的纠错词,包括:对于所述识别文本中任一错误分词,确定所述任一错误分词对应的易混淆词,确定所述任一错误分词对应的每一易混淆词的易混淆度,所述任一错误分词对应至少一个易混淆词;基于所述任一错误分词对应易混淆词的易混淆度,按照预设规则对所述任一错误分词对应的易混淆词进行选取,将选取结果作为所述任一错误分词对应的纠错词。4.根据权利要求3所述的方法,其特征在于,所述确定所述任一错误分词对应的每一易混淆词的易混淆度,包括:对于所述任一错误分词对应的任一易混淆词,将所述任一错误分词与所述任一易混淆词之间的发音相似度以及所述任一易混淆词被识别错误的概率进行融合,得到所述任一易混淆词的易混淆度。5.根据权利要求3所述的方法,其特征在于,所述基于所述任一错误分词对应易混淆词的易混淆度,按照预设规则对所述任一错误分词对应的易混淆词进行选取,将选取结果作为所述任一错误分词对应的纠错词,包括:按照从大到小的次序对所述任一错误分词对应易混淆词的易混淆度进行排序,选取前N个易混淆度对应的易混淆词作为所述任一错误分词对...

【专利技术属性】
技术研发人员:赵彬刘俊华魏思胡国平
申请(专利权)人:新疆科大讯飞信息科技有限责任公司
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1