单证影像文件中文本检索的方法技术

技术编号:39809540 阅读:11 留言:0更新日期:2023-12-22 02:44
本发明专利技术公开了单证影像文件中文本检索的方法

【技术实现步骤摘要】
单证影像文件中文本检索的方法、装置、存储介质及产品


[0001]本专利技术涉及自然语言处理领域,尤其是涉及单证影像文件中文本检索的方法

装置

存储介质及产品


技术介绍

[0002]在国际贸易信用证业务中,信用证对相关的各类单据的制单时间

出具人

打印内容提出了要求

因此,当提交的单据
(
扫描件
)
及其展示内容不符合信用证要求时,卖方客户可能会面临财产及货物的双重损失

[0003]单证中心在处理这类业务时,审核经办人会严格遵照信用证对单据的要求来审核信用证及对应单据上呈现的内容的存在性,及严格对比各类单据上相同要素的值的一致性

然而,在上述存在性及一致性审核中,往往容易出现多个非常见类型的号码串

公司名称地址

证明语句的打印等,这通常需要审核经办人逐个字符进行严格比对,非常耗费审核经办人的精力,审单时长占比高

[0004]现有技术中,通过使用光学字符识别
(Optical Character Recognition

OCR)
技术对单证影像文件的处理及一些检索技术或识别技术,来大幅度提高审核经办人审核单证影像文件的处理效率,包括审核经办人可快速检索单证影像文件中的特定文本以实现对比及审核

[0005]然而,在单证影像文件中往往存在连续无意义的号码串

长段公司名称等,它们在单证影像文件中通常会占据多行,
OCR
对这类文本进行识别时,通常会将之识别为多个文本块,而在检索
OCR
识别后的文本后,由于无法跨文本块检索,导致审核经办人无法正确

快速检索由多个文本块组成的文本

[0006]鉴于此,如何提高审核经办人在单证影像中的文本检索准确率及效率,成为一个亟待解决的技术问题


技术实现思路

[0007]本专利技术提供单证影像文件中文本检索的方法

装置

存储介质及产品,用以解决现有技术中存在的审核经办人无法正确

快速检索由多个文本块组成的文本的技术问题

[0008]第一方面,为解决上述技术问题,本专利技术实施例提供的一种单证影像文件中文本检索的方法的技术方案如下:
[0009]从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词,得到备选文本块集合;其中,所述检索分词是按预设分词规则切分所述待检索文本得到的,所述切分词是按所述预设分词规则切分所述单证影像文件对应的各文本块得到的,所述切分词与所述切分词源自的文本块的索引号关联;
[0010]从所述备选文本块集合中选取对所述待检索文本中检索分词的整体覆盖度大于预设覆盖度,且在所述待检索文本的阅读方向上升序排列的至少一组文本块进行合并,得到至少一个合并文本块;其中,不同组文本块包含的索引号不完全相同;
[0011]从所述至少一个合并文本块中确定与所述待检索文本的起止词一致的精确文本,得到精确文本集合;
[0012]将所述精确文本集合中与所述待检索文本的字符相似度大于预设值的精确文本作为检索结果

[0013]一种可能的实施方式,从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词之前,还包括:
[0014]对信用证业务对应的一套单证影像文件中,每个单证影像进行所述光学字符识别,得到所述每个单证影像文件的原始文本块集合;其中,所述原始文本块集合中每个原始文本块具有唯一索引号;
[0015]将所述原始文本块集合中每个原始文本块中的小写西文字母替换为大写西文字母,并将所述原始文本块中的干扰符替换为空格,得到对应文本块;其中,所述文本块的索引号为对应原始文本块的索引号;
[0016]按所述预设分词规则切分所述原始文本块集合对应的每个文本块,得到所述原始文本块集合对应的多个切分词;
[0017]根据每个切分词源自的各文本块的索引号,建立对应切分词的倒排序索引;其中,所述切分词通过所述倒排序索引中的索引号与源自的文本块关联;
[0018]将所述原始文本块集合对应的所有切分词,构建为所述单证影像文件的文本块集合

[0019]一种可能的实施方式,对信用证业务对应的一套单证影像文件中,每个单证影像进行所述光学字符识别,得到所述每个单证影像文件的原始文本块集合,包括:
[0020]对所述每个单证影像文件进行光学字符识别,得到多个初始文本块;
[0021]对所述多个初始文本块进行校正,使实际行间距小于正常行间距的相邻两个初始文本块同行,得到多个原始文本块;
[0022]按所述单证影像文件的阅读顺序,对所述校正后的多个原始文本块依次编号,得到每个原始文本块的索引号;
[0023]将所述单证影像文件对应的具有索引号的原始文本块构建为所述原始文本块集合

[0024]一种可能的实施方式,按所述预设分词规则切分所述原始文本块集合对应的每个文本块,得到所述原始文本块集合对应的多个切分词,包括:
[0025]根据所述每个文本块中的空格,切分所述每个文本块中的非中文字符,得到所述每个文本块包含的非中文分词;
[0026]将所述每个文本块中的中文字符,切分为单个字,得到所述每个文本块包含的中文分词;
[0027]对所有非中文分词

所有中文分词进行去重,得到所述原始文本块对应的多个切分词

[0028]一种可能的实施方式,从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词,得到备选文本块集合,包括:
[0029]将所述待检索文本中与预设高频词一致的检索分词设置为停用词;并对待检索文本对应的检索分词去重;
[0030]将去重后的每个非停用词作为有效检索分词;
[0031]将每个有效检索分词与所述文本块集合中的切分词逐一比对;
[0032]将所有比对成功的切分词构建成所述备选文本块集合

[0033]一种可能的实施方式,从所述备选文本块集合中选取对所述待检索文本中分词整体覆盖度大于预设覆盖度,且在所述待检索文本的阅读方向上升序排列的至少一组文本块进行合并,得到至少一个合并文本块,包括:
[0034]将所述备选文本块集合中每个切分词关联的索引号,与所述待检索文本中与对应切分词一致的检索分词关联,得到初始待检索文本序列;
[0035]在所述待检索文本的阅读方向上,去除位于所述初始待检索文本序列尾部区域中符合预设条件的索引号,得到待检索文本序列;其中,所述预设条件为索引号小于上一检索分词关联的索引号;
[0036]在所述待检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种单证影像文件中文本检索的方法,其特征在于,包括:从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词,得到备选文本块集合;其中,所述检索分词是按预设分词规则切分所述待检索文本得到的,所述切分词是按所述预设分词规则切分所述单证影像文件对应的各文本块得到的,所述切分词与所述切分词源自的文本块的索引号关联;从所述备选文本块集合中选取对所述待检索文本中检索分词的整体覆盖度大于预设覆盖度,且在所述待检索文本的阅读方向上升序排列的至少一组文本块进行合并,得到至少一个合并文本块;其中,不同组文本块包含的索引号不完全相同;从所述至少一个合并文本块中确定与所述待检索文本的起止词一致的精确文本,得到精确文本集合;将所述精确文本集合中与所述待检索文本的字符相似度大于预设值的精确文本作为检索结果
。2.
如权利要求1所述的方法,其特征在于,从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词之前,还包括:对信用证业务对应的一套单证影像文件中,每个单证影像进行所述光学字符识别,得到所述每个单证影像文件的原始文本块集合;其中,所述原始文本块集合中每个原始文本块具有唯一索引号;将所述原始文本块集合中每个原始文本块中的小写西文字母替换为大写西文字母,并将所述原始文本块中的干扰符替换为空格,得到对应文本块;其中,所述文本块的索引号为对应原始文本块的索引号;按所述预设分词规则切分所述原始文本块集合对应的每个文本块,得到所述原始文本块集合对应的多个切分词;根据每个切分词源自的各文本块的索引号,建立对应切分词的倒排序索引;其中,所述切分词通过所述倒排序索引中的索引号与源自的文本块关联;将所述原始文本块集合对应的所有切分词,构建为所述单证影像文件的文本块集合
。3.
如权利要求2所述的方法,其特征在于,对信用证业务对应的一套单证影像文件中,每个单证影像进行所述光学字符识别,得到所述每个单证影像文件的原始文本块集合,包括:对所述每个单证影像文件进行光学字符识别,得到多个初始文本块;对所述多个初始文本块进行校正,使实际行间距小于正常行间距的相邻两个初始文本块同行,得到多个原始文本块;按所述单证影像文件的阅读顺序,对所述校正后的多个原始文本块依次编号,得到每个原始文本块的索引号;将所述单证影像文件对应的具有索引号的原始文本块构建为所述原始文本块集合
。4.
如权利要求2所述的方法,其特征在于,按所述预设分词规则切分所述原始文本块集合对应的每个文本块,得到所述原始文本块集合对应的多个切分词,包括:根据所述每个文本块中的空格,切分所述每个文本块中的非中文字符,得到所述每个文本块包含的非中文分词;将所述每个文本块中的中文字符,切分为单个字,得到所述每个文本块包含的中文分
词;对所有非中文分词

所有中文分词进行去重,得到所述原始文本块对应的多个切分词
。5.
如权利要求2‑4任一项所述的方法,其特征在于,从单证影像文件对应的文本块集合中,选取与待检索文本中的检索分词相同的切分词,得到备选文本块集合,包括:将所述待检索文本中与预设高频词一致的检索分词设置为停用词;并对待检索文本对应的检索分词去重;将去重后的每个非停用词作为有效检索分词;将每个有效检索分词与所述文本块集合中的切分词逐一比对;将所有比对成功的切分词构建成所述备选文本块集合
。6.
如权利要求5所述的方法,其特征在于,从所述备选文本块集合中选取对所述待检索文本中分词整体覆盖度大于预设覆盖度,且在所述待检索文本的阅读方向上升序排列的至少一组文本块进行合并,得到至少一个合并文本块,包括:将所述备选文本块集合中每个切分词关联的索引号,与所述待检索文本中与对应切分词一致的检索分词关联,得到初始待检索文本序列;在所述待检索文本的阅读方向上,去除位于所述初始待检索文本序列尾部区域中符合预设条件的索引号,得到待检索文本序列;其中,所述预设条件为索引号小于上一检索分词关联的索引号;在所述待检索文本的阅读方向上,从所述待检索文本序列中获取索引号降序排列的所有组合;根据每个组合包含的检索分词总数,确定对应组合对所述待检索文本的整体覆盖度;选取...

【专利技术属性】
技术研发人员:卜丽陆佳庆于淑英李力汪宏
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1