【技术实现步骤摘要】
一种用于快递领域票据识别文本纠错方法
[0001]本专利技术专利技术属于自然语言处理邻域,尤其涉及到一种快递领域票据文字识别后文本纠错方法。
技术介绍
[0002]快递领域票据识别是利用OCR技术将图片上的文字智能识别成可编辑的文字,可极大提高信息处理的效率。现阶段OCR技术已经比较成熟,由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等),经常存在文字识别错误的问题。识别错误会逐级传递放大,并累积至后续链路。因此,有必要对OCR之后的文字进行进一步纠错处理。中文纠错系统主要有基于pipeline串联和联合模型两种方法。前者把系统分为检错和纠错环节,每个模型解决具体的特定问题,然后串联起来得到最后结果。此方法便于问题分析,能够针对各个问题进行重点突破,但也存在错误级联传递的问题。第二种方法采用端到端联合学习的方式,单个模型就能完成纠错任务。但在真实应用环境中,经常存在语料缺失,标注成本高,训练代价大的问题。本专利针对快递领域票据识别场景,提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测,然后替换错原句子中错误字符,通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。
技术实现思路
[0003]本专利技术提供的一种多轮对话系统的指代消解方法,包括以下步骤:
[0004]Step1:输入OCR识别字符置信度和每个字词的n
‑
gram检测概率值做加权,求得概率,根据阈值进行检错。
[0005]Step2:利用领域语料进行候选 ...
【技术保护点】
【技术特征摘要】
1.一种用于快递领域票据识别文本纠错方法,其特征在于包括以下步骤:Step1:输入OCR识别字符置信度和每个字词的n
‑
gram检测概率值做加权,求得概率,根据阈值进行检错。Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。2.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n
‑
gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值P
char
来衡量,如下:P
char
=α*P
ocr
+β*P
gram
其中P
char
为文字识别模型中softmax输出的概率值,P
gram
为n
‑
gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n
‑
gram模型。α,β为权重,且二者加和为1。对文本字符串按字符进行切分,切分结果保存为word_list。获取字符char左3
‑
gram字符串(left 3
‑
gram string,l3gs),即target_text中位于字符char左边且紧挨着字符的长度为3的字符串,并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含,则字符char的l3gs的匹配状态(记为state_l3gs)为ture,否则为false。接着,获取字符char右3
‑
gram字符串(right 3
‑
gram string,r3gs),即target_text中位于字符char右边且紧挨word的长度为3的字符串,并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含,则字符char的r3gs的匹配状态(记为state_r3gs)为ture,否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false,则字符char被判定为异常词P
【专利技术属性】
技术研发人员:薛鹏,于红建,邸岩兴,
申请(专利权)人:北京同城必应科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。