一种电子单据的生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23985226 阅读:28 留言:0更新日期:2020-04-29 13:12
本发明专利技术实施例公开了一种电子单据的生成方法、装置、计算机设备和存储介质,该方法包括:接收单据文件;查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件;查找与所述单据文件匹配的点阵模型;从所述点阵模型中识别与所述点阵文件相似的目标模型;使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据。本实施例自动化识别类目与目标信息之间的关系,从而提高了录入信息、生成单子单据的操作的简便性,减少耗时。

A generation method, device, computer equipment and storage medium of electronic documents

【技术实现步骤摘要】
一种电子单据的生成方法、装置、计算机设备和存储介质
本专利技术实施例涉及然语言处理的技术,尤其涉及一种电子单据的生成方法、装置、计算机设备和存储介质。
技术介绍
在报关、交易展会、技术交流会议、购物等场合,会有许多厂家在已有纸质版的文件上印制新的信息,如报关单、发票等。目前,为了实现无纸化办公、数据归档、数据分析等需求,通过将纸质版的文件通过OCR(OpticalCharacterRecognition,光学字符识别)识别文本,并录入其中所需的信息。但是,这些文件的格式多种多样,在打印时信息也会产生偏移,录入的过程通常是用户手动浏览文本、筛选所需的信息,并将该信息复制至可编辑的电子单据中,录入信息的操作较为繁琐,耗时较长。
技术实现思路
本专利技术实施例提供一种电子单据的生成方法、装置、计算机设备和存储介质,以解决基于纸质版的单据生成电子单据的操作较为繁琐,耗时较长的问题。第一方面,本专利技术实施例提供了一种电子单据的生成方法,包括:接收单据文件;查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件;查找与所述单据文件匹配的点阵模型;从所述点阵模型中识别与所述点阵文件相似的目标模型;使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据。可选地,所述根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件,包括:确定所述目标文件中的像素点;将第一元素设置为第一值,所述第一元素为表示单个所述文本信息的像素点;将第二元素设置为第二值,所述第二元素为除第一元素之外的其他像素点;将成组的所述第一元素合并为目标区域。可选地,所述将成组的所述第一元素合并为目标区域,包括:统计每相邻两个所述第一元素之间间隔的所述第二元素的数量,作为单项距离;计算所有所述单项距离的平均值,作为距离阈值;若相邻两个所述第一元素之间的单项距离小于所述距离阈值,则将相邻两个所述第一元素合并在同一个组中;将所述组中所有所述第一元素的最小外接矩形设置为目标区域。可选地,所述查找与所述单据文件匹配的点阵模型,包括:确定所述单据文件的维度,所述维度包括所述单据文件所属的企业与所述单据文件的类型;查找对所述维度设置的点阵模型。可选地,所述点阵模型具有第一元素、第二元素,所述第一元素组成关联类目的参考区域,所述点阵文件中具有第一元素、第二元素,所述第一元素组成表示文本信息的目标区域;所述从所述点阵模型中识别与所述点阵文件相似的目标模型,包括:针对每个所述点阵模型,确定非重叠区域中包含的第一元素和/或第二元素的数量,作为单项面积,所述非重叠区域为所述点阵模型中、所述参考区域中与所述目标区域未重叠的区域;计算所有所述单项面积之和,作为总面积;统计所有所述参考区域包含的第一元素的数量,作为原面积;计算一与非重叠占比的差值,作为所述点阵模型与所述点阵文件的相似度,所述非重叠占比为所述总面积与所述原面积之间的比值;将相似度最高的点阵模型设置为与所述点阵文件相似的目标模型。可选地,所述针对每个所述点阵模型,确定非重叠区域中包含的第一元素和/或第二元素的数量,作为单项面积,包括:针对每个所述点阵模型,查找与所述参考区域至少部分重叠的目标区域;若查找到,则生成包含所述参考区域与所述目标区域的最小外接矩形;在所述最小外接矩形中去除所述参考区域与所述目标区域重叠的区域,获得非重叠区域;统计所述非重叠区域中包含的第一元素和/或第二元素的数量,作为单项面积;若未查找到,则统计所述参考区域包含的第一元素的数量,作为单项面积。可选地,所述使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据,包括:在所述目标模型中,确定所述参考区域指示的坐标;在所述目标文件中,提取位于所述坐标中的文本信息,作为归属所述参考区域关联类目的目标信息;在所述单据模板中,将所述目标信息写入所述类目关联的栏目中,以生成电子单据。可选地,还包括:接收纠正操作;根据所述纠正操作,纠正归属某个类目的目标信息;根据所述纠正操作,更新所述点阵模型。可选地,所述根据所述纠正操作,纠正归属某个类目的目标信息,包括:确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;在所述目标文件中提取位于所述纠正区域内的文本信息;将所述文本信息设置为所述类目的目标信息。可选地,所述根据所述纠正操作,更新所述点阵模型,包括:确定所述点阵模型与所述点阵文件之间的相似度;若所述相似度小于或等于预设的阈值,则将所述点阵文件设置为新的点阵模型,其中,所述点阵文件中所述目标信息所处的目标区域为所述新的点阵模型中的参考区域;若所述相似度大于预设的阈值,则确定所述纠正操作指示的类目,以及,在所述目标文件中指示的纠正区域;基于所述纠正区域更新表示所述类目的参考区域。可选地,所述基于所述纠正区域更新所述类目表示的参考区域,包括:若所述纠正区域中的文本信息包含所述参考区域中的文本信息,则将所述纠正区域与所述参考区域进行合并操作,作为所述节点表示的参考区域;或者,若所述参考区域中的文本信息包含所述纠正区域中的文本信息,则将所述参考区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;在所述参考区域中去除所述区域差异信息所处的区域,作为所述节点表示的参考区域;或者,若所述参考区域中的文本信息与所述纠正区域中的文本信息部分相同,则将所述参考区域中的文本信息减去所述纠正区域中的文本信息,获得差异信息;在所述参考区域中去除所述区域差异信息所处的区域,作为差异区域;将所述纠正区域与所述参考区域进行合并操作,作为所述节点表示的参考区域。可选地,还包括:在所述目标文件中确定所有所述文本信息的最小外接矩形;在所述目标文件中忽略除所述最小外接矩形之外的区域。第二方面,本专利技术实施例还提供了一种电子单据的生成装置,包括:单据文件接收模块,用于接收单据文件;单据模板查找模块,用于查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;光学字符识别模块,用于对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;二值化处理模块,用于根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件;点阵模型查找模块,用于查找与所述单据文件匹配的点阵模型;目标模型识别模块,用于从所述本文档来自技高网...

【技术保护点】
1.一种电子单据的生成方法,其特征在于,包括:/n接收单据文件;/n查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;/n对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;/n根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件;/n查找与所述单据文件匹配的点阵模型;/n从所述点阵模型中识别与所述点阵文件相似的目标模型;/n使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据。/n

【技术特征摘要】
1.一种电子单据的生成方法,其特征在于,包括:
接收单据文件;
查找与所述单据文件匹配的单据模板,所述单据模板具有多个关联的类目与栏目;
对所述单据文件进行光学字符识别,获得目标文件,所述目标文件中具有文本信息;
根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件;
查找与所述单据文件匹配的点阵模型;
从所述点阵模型中识别与所述点阵文件相似的目标模型;
使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据。


2.根据权利要求1所述的方法,其特征在于,所述根据所述文本信息对所述目标文件进行二值化处理,获得点阵文件,包括:
确定所述目标文件中的像素点;
将第一元素设置为第一值,所述第一元素为表示单个所述文本信息的像素点;
将第二元素设置为第二值,所述第二元素为除第一元素之外的其他像素点;
将成组的所述第一元素合并为目标区域。


3.根据权利要求2所述的方法,其特征在于,所述将成组的所述第一元素合并为目标区域,包括:
统计每相邻两个所述第一元素之间间隔的所述第二元素的数量,作为单项距离;
计算所有所述单项距离的平均值,作为距离阈值;
若相邻两个所述第一元素之间的单项距离小于所述距离阈值,则将相邻两个所述第一元素合并在同一个组中;
将所述组中所有所述第一元素的最小外接矩形设置为目标区域。


4.根据权利要求1所述的方法,其特征在于,所述点阵模型具有第一元素、第二元素,所述第一元素组成关联类目的参考区域,所述点阵文件中具有第一元素、第二元素,所述第一元素组成表示文本信息的目标区域;
所述从所述点阵模型中识别与所述点阵文件相似的目标模型,包括:
针对每个所述点阵模型,确定非重叠区域中包含的第一元素和/或第二元素的数量,作为单项面积,所述非重叠区域为所述点阵模型中、所述参考区域中与所述目标区域未重叠的区域;
计算所有所述单项面积之和,作为总面积;
统计所有所述参考区域包含的第一元素的数量,作为原面积;
计算一与非重叠占比的差值,作为所述点阵模型与所述点阵文件的相似度,所述非重叠占比为所述总面积与所述原面积之间的比值;
将相似度最高的点阵模型设置为与所述点阵文件相似的目标模型。


5.根据权利要求4所述的方法,其特征在于,所述使用所述目标模型从所述文本信息中将归属于所述类目的目标信息所述类目关联的栏目中,以生成电子单据,包括:
在所述目标模型中,确定所述参...

【专利技术属性】
技术研发人员:高宇明田兴林郭健甄智李科勇郑捷
申请(专利权)人:广州市昊链信息科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1