System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于信息提取,具体涉及一种扫描件中的文本要素抽取方法、装置及存储介质。
技术介绍
1、在金融行业中,存在大量业务以扫描件的形式进行业务交互,如需要从文档中提取关键要素做数据录入、基于盖章的扫描件做数据的复核等,由于数据的非结构化,导致相关业务无法自动化,只能依赖大量人工操作。
2、目前,行业中常见的处理方案是先用光学字符识别(optical characterrecognition,ocr)模型提取文字和文字所在的表格及位置信息,然后分析每类文件模板,找出每个要素所在的位置规律,写相应的规则代码以对文本要素进行提取。然而,由于文件模板样式多种多样,采用这样的方式需要针对每种模板开发相应的代码,从而增加了开发成本,且对于新出现的文件模板或原来的文件模板做了小的修改,也很难适配。此外,日常维护的成本很高,需要经常修改代码,容易引入新的错误,给扫描件中文本要素的抽取带来了极大的不便。
3、因此,如何提供一种有效的方案,以方便扫描件中文本要素的抽取已成为现有技术中一亟待解决的难题。
技术实现思路
1、本专利技术的目的是提供一种扫描件中的文本要素抽取方法、装置及存储介质,用以解决现有技术中存在的上述问题。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种扫描件中的文本要素抽取方法,包括:
4、通过光学字符识别模型识别出待抽取扫描件中的第一文本内容;
5、基于所述第一文本内容
6、将拼接后的第一文本内容输入预先训练的要素抽取模型,输出所述第一文本内容中的至少一个文本要素及各文本要素的位置;
7、其中,所述要素抽取模型包括t5模型和指针网络层,所述指针网络层与所述t5模型的最后一层输出层连接,所述t5模型的最后一层输出层用于输出所述第一文本内容中的至少一个文本要素,所述指针网络层用于将所述至少一个文本要素作为输入,输出所述第一文本内容中各文本要素的位置。
8、基于上述公开的内容,本专利技术通过光学字符识别模型识别出待抽取扫描件中的第一文本内容;基于第一文本内容在所述待抽取扫描件中的文本格式,对第一文本内容进行拼接,其中文本格式为文本段落或表格;将拼接后的第一文本内容输入预先训练的要素抽取模型,输出第一文本内容中的至少一个文本要素及各文本要素的位置。如此,可十分方便的提取出待抽取扫描件中的文本要素,降低人力投入,同时不需要针对每种文件模板开发相应的代码,一般新出现的文件样式也能很好的适配,降低了开发成本,此外由于不需要针对每种文件模板开发相应的代码,因此不需要对大量代码进行维护,避免由于频繁修改代码而引入新的问题,可广泛用于各领域的扫描件中文本要素的抽取,特别是金融领域中扫描件中文本要素的抽取。
9、通过上述的设计,本专利技术可十分方便的提取出待抽取扫描件中的文本要素,降低人力投入,同时不需要针对每种文件模板开发相应的代码,一般新出现的文件样式也能很好的适配,降低了开发成本,此外由于不需要针对每种文件模板开发相应的代码,因此不需要对大量代码进行维护,避免由于频繁修改代码而引入新的问题,可广泛用于各领域的扫描件中文本要素的抽取,特别是金融领域中扫描件中文本要素的抽取。
10、在一个可能的设计中,所述对所述第一文本内容进行拼接,包括:
11、如果所述文本格式为文本段落,则通过第一拼接符号将所述第一文本内容中相邻的两行文本内容拼接;
12、如果所述文本格式为表格,则按照从左至右从上往下的顺序,通过第二拼接符号将所述第一文本内容中相邻的两列文本内容拼接,通过所述第一拼接符号将所述第一文本内容中相邻的两行文本内容拼接。
13、在一个可能的设计中,所述方法还包括:
14、通过光学字符识别模型识别出样本扫描件中的第二文本内容;
15、基于所述第二文本内容在所述样本扫描件中的文本格式,对所述第二文本内容进行拼接;
16、将标注文本要素的且拼接后的第二文本内容,作为要素抽取模型的输入进行训练,得到训练后的要素抽取模型。
17、4.根据权利要求3所述的扫描件中的文本要素抽取方法,其特征在于,所述要素抽取模型的损失函数为其中dtask表示训练样本,s表示文本要素的提示词,x表示标注文本要素的且拼接后的第二文本内容,y表示要抽取要素的内容,θe表示要素抽取模型中的编码参数,θd表示要素抽取模型中的解码参数。
18、在一个可能的设计中,所述待抽取扫描件的文件格式为jpg或pdf。
19、第二方面,本专利技术提供了一种扫描件中的文本要素抽取装置,扫描件中的文本要素抽取装置包括:
20、识别单元,用于通过光学字符识别模型识别出待抽取扫描件中的第一文本内容;
21、拼接单元,用于基于所述第一文本内容在所述待抽取扫描件中的文本格式,对所述第一文本内容进行拼接,其中所述文本格式为文本段落或表格;
22、运算单元,用于将拼接后的第一文本内容输入预先训练的要素抽取模型,输出所述第一文本内容中的至少一个文本要素及各文本要素的位置;
23、其中,所述要素抽取模型包括t5模型和指针网络层,所述指针网络层与所述t5模型的最后一层输出层连接,所述t5模型的最后一层输出层用于输出所述第一文本内容中的至少一个文本要素,所述指针网络层用于将所述至少一个文本要素作为输入,输出所述第一文本内容中各文本要素的位置。
24、第三方面,本专利技术提供了另一种扫描件中的文本要素抽取装置,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述第一方面或第一方面任一可能设计所述的扫描件中的文本要素抽取方法。
25、第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行第一方面或第一方面任一可能设计所述的扫描件中的文本要素抽取方法。
26、第五方面,本专利技术提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面任一可能设计所述的扫描件中的文本要素抽取方法。
27、有益效果:
28、本专利技术提供的扫描件中的文本要素抽取方法、装置及存储介质,可十分方便的提取出待抽取扫描件中的文本要素,降低人力投入,同时不需要针对每种文件模板开发相应的代码,一般新出现的文件样式也能很好的适配,降低了开发成本,此外由于不需要针对每种文件模板开发相应的代码,因此不需要对大量代码进行维护,避免由于频繁修改代码而引入新的问题,可广泛用于各领域的扫描件中文本要素的抽取,特别是金融领域中扫描件中文本要素的抽取。
本文档来自技高网...【技术保护点】
1.一种扫描件中的文本要素抽取方法,其特征在于,包括:
2.根据权利要求1所述的扫描件中的文本要素抽取方法,其特征在于,所述对所述第一文本内容进行拼接,包括:
3.根据权利要求1所述的扫描件中的文本要素抽取方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的扫描件中的文本要素抽取方法,其特征在于,所述要素抽取模型的损失函数为其中DTask表示训练样本,s表示文本要素的提示词,x表示标注文本要素的且拼接后的第二文本内容,y表示要抽取要素的内容,θe表示要素抽取模型中的编码参数,θd表示要素抽取模型中的解码参数。
5.根据权利要求1所述的扫描件中的文本要素抽取方法,其特征在于,所述待抽取扫描件的文件格式为JPG或PDF。
6.一种扫描件中的文本要素抽取装置,其特征在于,包括:
7.一种扫描件中的文本要素抽取装置,其特征在于,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~5任意一项所述的扫描件中的文本
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~5任意一项所述的扫描件中的文本要素抽取方法。
...【技术特征摘要】
1.一种扫描件中的文本要素抽取方法,其特征在于,包括:
2.根据权利要求1所述的扫描件中的文本要素抽取方法,其特征在于,所述对所述第一文本内容进行拼接,包括:
3.根据权利要求1所述的扫描件中的文本要素抽取方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的扫描件中的文本要素抽取方法,其特征在于,所述要素抽取模型的损失函数为其中dtask表示训练样本,s表示文本要素的提示词,x表示标注文本要素的且拼接后的第二文本内容,y表示要抽取要素的内容,θe表示要素抽取模型中的编码参数,θd表示要素抽取模型中的解码参数。
5.根据权利要求1所述...
【专利技术属性】
技术研发人员:朱运运,姚树宇,何同飞,
申请(专利权)人:招商基金管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。