文本纠错方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:37084650 阅读:21 留言:0更新日期:2023-03-29 20:00
本发明专利技术提供的文本纠错方法、装置、计算机设备及可读存储介质,包括:获取待纠错文本对应的文字序列、文字序列中各个文字的置信度以及各个文字的图像组成的图像序列;通过纠错模型根据文字序列得到待纠错文本对应的语义信息特征,并根据图像序列得到图像信息特征;纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层;将语义信息特征和图像信息特征进行融合后预测每个文字位置上的候选字集合;对文字序列中置信度小于预设置信度阈值的目标文字,基于目标文字所在文字位置上的候选字集合进行纠错。本发明专利技术充分考虑了语义信息和字形信息,根据融合的特征信息确定了候选字,信息利用更充分,可以帮助提高纠错准确率。纠错准确率。纠错准确率。

【技术实现步骤摘要】
文本纠错方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及图像识别
,具体而言,涉及一种文本纠错方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]OCR(Optical Character Recognition),全称光学字符识别,即将图像中的文本转换为计算机可以直接处理的格式,该技术在各个业务领域中有着广泛的应用。如在金融领域,可以通过OCR技术对大量的财务报告中的语句和数据进行自动化提取,以高效、低成本的方式迅速获取信息,帮助数据使用者根据信息做出投资决策。但是OCR技术在识别过程中可能会出现某些文字的识别错误,因此针对识别结果的纠错工作变得必不可少。
[0003]现有技术现有的纠错方法主要是从预先获取的混淆集中进行选择从而找到正确文字进行对错字的替换以完成纠错,该方法要求对语料库前期的进行大量得训练,费时费力且无法确保精确度。此外,只通过语义通顺程度对字符进行纠错,指标单一,纠错效率低。因此,目前相关技术在对图像文本中识别的错误字符进行纠正处理时,存在的效率低、精确度低的问题。

技术实现思路

[0004]本专利技术的目的之一在于提供一种文本纠错方法、装置、计算机设备及可读存储介质,用于提高文本纠错的效率和准确度,本专利技术可以这样实现:
[0005]第一方面,本专利技术提供一种文本纠错方法,所述方法包括:获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列;根据所述文字序列,得到所述待纠错文本对应的语义信息特征,并根据所述图像序列,得到所述待纠错文本对应的图像信息特征;其中,所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到;所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层;所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息;将所述语义信息特征和所述图像信息特征进行融合,并基于融合后的特征,预测所述待纠错文本的每个文字位置上的候选字集合;所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合,得到所述融合后的特征;所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布;对所述文字序列中置信度小于预设置信度阈值的目标文字,基于所述目标文字所在文字位置上的候选字集合进行纠错。
[0006]第二方面,本专利技术提供一种文本纠错装置,包括:获取模块,用于:获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及所述各个文字的图像组成的图像序列;确定模块,用于:根据所述文字序列,得到所述待纠错文本对应的语义信息特征,并根据所述图像序列,得到所述待纠错文本对应的图像信息特征;其中,所述语义信息特征和
所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到;所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层;所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息;预测模块,用于将所述语义信息特征和所述图像信息特征进行融合,并基于融合后的特征,预测所述待纠错文本的每个文字位置上的候选字集合;所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合,得到所述融合后的特征;所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布;纠错模块,用于对所述文字序列中置信度小于预设置信度阈值的目标文字,基于所述目标文字所在文字位置上的候选字集合进行纠错。
[0007]第三方面,本专利技术提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
[0008]第四方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
[0009]本专利技术提供的文本纠错方法、装置、计算机设备及可读存储介质,方法包括:获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及所述各个文字的图像组成的图像序列;根据所述文字序列,得到所述待纠错文本对应的语义信息特征,并根据所述图像序列,得到所述待纠错文本对应的图像信息特征;将所述语义信息特征和所述图像信息特征进行融合,并基于融合后的特征,预测所述待纠错文本的每个文字位置上的候选字集合;对所述文字序列中置信度小于预设置信度阈值的目标文字,基于所述目标文字所在文字位置上的候选字集合进行纠错。整个过程充分考虑了语义信息和字形信息,根据融合的特征信息确定了候选字,信息利用更充分,可以帮助提高纠错准确率。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0011]图1为本申请实施例提供的一种应用场景示意图;
[0012]图2为本专利技术实施例提供的纠错模型的结构示意图;
[0013]图3为本专利技术实施例提供的文本纠错方法的示意性流程图;
[0014]图4为本专利技术实施例提供的步骤304的示意性流程图;
[0015]图5为本专利技术实施例提供的步骤306的示意性流程图;
[0016]图6为本专利技术实施例提供的文本纠错装置的功能模块图;
[0017]图7为本专利技术实施例提供的计算机设备的结构框图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例
中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0019]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0021]在本专利技术的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列;根据所述文字序列,得到所述待纠错文本对应的语义信息特征,并根据所述图像序列,得到所述待纠错文本对应的图像信息特征;其中,所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到;所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层;所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息;将所述语义信息特征和所述图像信息特征进行融合,并基于融合后的特征,预测所述待纠错文本的每个文字位置上的候选字集合;所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合,得到所述融合后的特征;所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布;对所述文字序列中置信度小于预设置信度阈值的目标文字,基于所述目标文字所在文字位置上的候选字集合进行纠错。2.根据权利要求1所述的文本纠错方法,其特征在于,获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列,包括:对待识别文本图像基于光学字符识别模型进行识别,输出所述文字序列、所述文字序列中各个所述文字的置信度、以及各个所述文字的坐标值;基于各个所述文字的坐标值,对所述待识别文本图像进行切割,得到所述图像序列。3.根据权利要求1所述的文本纠错方法,其特征在于,根据所述文字序列,得到所述待纠错文本对应的语义信息特征,包括:对所述文字序列进行预编码;将预编码后的所述文字序列输入到所述预训练的纠错模型的所述语义信息提取器中,得到所述语义信息特征。4.根据权利要求1所述的文本纠错方法,其特征在于,根据所述图像序列,得到所述待纠错文本对应的图像信息特征,包括:将所述图像序列中的每张图像转换成预设尺寸的矩阵;按照所述图像序列中各个所述图像的顺序,对各个所述矩阵进行拼接,并将拼接后的所述矩阵输入所述预训练的纠错模型的所述图像特征提取器中,得到所述图像信息特征。5.根据权利要求1所述的文本纠错方法,其特征在于,将所述语义信息特征和所述图像信息特征进行融合,并基于融合后的特征,预测所述待纠错文本的每个文字位置上的候选字集合,包括:基于语义信息权重和图像信息权重,对所述语义信息特征和所述图像信息特征进行加权求和,得到所述融合后的特征;将所述融合后的特征输入归一化指数函数中,预测预建立的字典中每个候选字属于每个所述文字位置的概率;针对每个所述文字位置,按照概率值从大到小的顺序,从所述预建立字典...

【专利技术属性】
技术研发人员:丁雪纯孙勇于业达林雅陈连鑫
申请(专利权)人:上海恒生聚源数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1