一种基于OCR识别的格式化文档生成方法及系统技术方案

技术编号:32504574 阅读:28 留言:0更新日期:2022-03-02 10:14
本公开提供了一种基于OCR识别的格式化文档生成方法及系统,使用OCR技术将多个纸质文件扫描并识别成多个字符串;使用中文分词算法分别将各个字符串处理为各个字符串数组,处理得到的各个字符串数组的集合作为分词数组集合;对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量;在分词数组集合中,以每一个字符串数组进行向量化得到多个关系组合向量;对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系;根据映射关系,将关系组合向量对应的三元组组成文本并将文本填入模板中,生成得到格式化文档。成得到格式化文档。成得到格式化文档。

【技术实现步骤摘要】
一种基于OCR识别的格式化文档生成方法及系统


[0001]本专利技术属于数据处理领域,具体涉及一种基于OCR识别的格式化文档生成方法及系统。

技术介绍

[0002]格式化文档生成是使用模板对通过信息抽取得到的关键信息进行再加工得到符合一定格式的文档的技术。OCR识别技术有利于信息抽取得到的关键信息的处理过程,通过OCR对纸质文件的批量化并行式扫描,可以大规模地获取文本信息。当前,现有的文本自动生成高度依赖于深度神经网络模型,深度神经网络随着层数的增加对数据规模的要求也不断提高。在文本生成任务中,训练集中若不同类别数据量比例失衡过大,则会出现过拟合现象,严重影响生成文本的质量。况且,数据集的搜集往往耗费巨大的成本,增加工程实施的难度。在申请号为CN201910973900.7的专利文献中提供了一种文档生成方法、装置、终端设备及介质,尽管可以在本地终端设备上通过对文本信息进行处理,实现了文档的自动生成并节省了用户编写文档的时间,但是输入效率较低,仍不足以应对大批量自动化的格式化的文档生成。

技术实现思路

[0003]本专利技术的目的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别的格式化文档生成方法,其特征在于,所述方法包括以下步骤:S100,使用OCR技术将多个纸质文件扫描并识别成多个字符串;S200,使用中文分词算法分别将各个字符串处理为各个字符串数组,处理得到的各个字符串数组的集合作为分词数组集合;S300,对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量;S400,在分词数组集合中,以每一个字符串数组进行向量化得到多个关系组合向量;S500,对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系;S600,根据映射关系,将关系组合向量对应的三元组组成文本并将文本填入模板中,生成得到格式化文档。2.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法,其特征在于,在S100中,使用OCR技术将多个纸质文件扫描并识别成多个字符串的方法为:取多个不同的纸质文件,纸质文件的表面印刷有文字,对每个纸质文件使用OCR技术识别出纸质文件的表面印刷的文字,并将每个纸质文的识别出来的文字作为一个字符串,由此,分别从各个纸质文件得到各个字符串。3.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法,其特征在于,在S200中,使用中文分词算法分别将各个字符串处理为各个字符串数组,处理得到的各个字符串数组的集合作为分词数组集合的方法为:使用中文分词算法,分别对每一个字符串进行分词处理并将分词得到的各个分词组成的数组作为一个字符串数组,由此将各个字符串处理为对应的各个字符串数组,把各个字符串数组组成的集合作为分词数组集合。4.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法,其特征在于,在S300中,对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量的方法为:对中文知识图谱中的数据,按照知识图谱的三元组的形式,一个三元组为三个字符串,将中文知识图谱中的数据以三元组的形式进行保存,将保存得到的三元组所组成的数据集作为三元组数据集;利用知识图谱嵌入算法使用三元组数据集作为训练数据集,得到各个三元组的嵌入向量,每个三元组的嵌入向量由三个维度数量相同的向量组成,并将各个三元组的嵌入向量的集合作为三元组嵌入向量集。5.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法,其特征在于,在S400中,在分词数组集合中,以每一个字符串数组进行向量化得到多个关系组合向量的方法为:使用ELMo中文预训练模型作为获得嵌入向量的预训练模型;分别将每一个字符串数组输入到ELMo中文预训练模型中,ELMo中文预训练模型输出该个字符串数组中各个字符串的嵌入向量,将各个字符串的嵌入向量组成的数组作为该个字符串数组对应的一个分词向量数组,由此得到各个字符串数组对应的分词向量数组,并将各个字符串数组对应的分词向量数组所组成的集合作为分词向量数组集合;将所有的字符串数组所组成的集合记作字符串数组集合,字符串数组集合记作Aset,
Aset中元素的数量为n,Aset中元素的序号为i,i∈[1,n],Aset中元素的序号为i的字符串数组记为Aset(i),Aset(i)中元素的数量为n(i),Aset(i)中元素的序号为j,j∈[1, n(i)],Aset[i(j)]表示Aset(i)中序号为j的元素,Aset[i(1)] 表示在Aset(i)中序号为1的元素;字符串数组集合中的各字符串数组与分词向量数组集合中的各分词向量数组相互对应,字符串数组集合的字符串数组中的字符串与分词向量数组集合的分词向量数组中的分词向量相互对应;字符串数组集合中元素的数量与分词向量数组集合中元素的数量相同皆为n,字符串数组集合中元素的序号与分词向量数组集合中元素的序号相同皆为i,记分词向量数组集合为Bset,Bset中序号为i的元素为Bset(i),Bset(i)与Aset(i)相互对应,Bset(i)中元素的数量同为n(i),Bset(i)中元素的序号同样为j,Bset[i(j)]表示Bset(i)中序号为j的元素,Bset[i(j)]与Aset[i(j)]相互对应,Bset[i(j)]为Aset[i(j)]经过ELMo中文预训练模型输出的嵌入向量;在ELMo中文预训练模型输出的嵌入向量中,其维度的数量为k,其维度的序号为v,v∈[1,k];Bset[i(j)]中序号为v的维度的数值记作Bset[i(j)]v;定义区分度为表示一个向量与若干个向量之间的区分的程度的数值;得到多个关系组合向量的具体步骤包括:S401,设置集合Buset以表示关系组合向量的集合,集合Buset初始值为空;选取Bset中各元素Bset(i);S402,对Bset(i)中的各元素进行如下S402

1至S402

5的操作:S402

1,设置变量i(j)表示Bset(i)中的各元素的序号;S402

2,分别计算各个 Bset[i(j)]与其在Bset(i)中除Bset[i(j)]外的其他元素的区分度,定义函数Gap()为计算i(j)元素的区分度的函数,Gap(Bset[i(j)])即为Bset[i(j)]的区分度,Gap(Bset[i(j)])的计算方法为:,其中函数exp为以自然常数e为底的指数函数,由此,得到Bset[i(j)]的区分度;S402

3,把Bset(i)中的各个元素Bset[i(j)],按照Bset[i(j)]对应的Gap(Bset[i(j)])的数值从小到大的顺序进行排序,排序...

【专利技术属性】
技术研发人员:苗苏望蓝建敏池穆霖申鑫张旭君
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1