文件识别方法、装置制造方法及图纸

技术编号:29874029 阅读:18 留言:0更新日期:2021-08-31 23:49
本发明专利技术提供一种文件识别方法和装置,包括:获取待识别文件、获取待识别文件第一预设位置的第一图文信息,根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板,获取待识别文件在第二预设位置的第二图文信息,识别第二图文信息并与对应的预设属性以预设规则输出。本申请技术方案能够在识别待识别文件时充分利用模板的已知有效信息,提高识别效率和准确度。

【技术实现步骤摘要】
文件识别方法、装置
本专利技术涉及图像识别领域,特别涉及一种文件识别方法、装置、芯片和计算机可读存储介质。
技术介绍
日常工作中存在大量文件,各个行业都需要对这些文件进行不定期、不定量的核查检验工作,例如银行需要对身份证、存款单进行核对以完成借贷、放款等业务;公司内部对纸质文件的检查和修订工作;政府机构则需要长期保存官方出具的证明文件以便日后审查等。传统的文件核验方法通常是检查人员手动对比被校验文件,逐行逐字进行核对并寻找修正错误。该方法依赖于人工经验,不仅耗费人力成本,增加工作时间,极端情况下还可能导致较高的错误率。
技术实现思路
为了解决现有技术存在的问题,本专利技术的至少一个实施例提供了一种文件识别方法、装置、芯片和计算机可读存储介质,能够克服现有技术存在的缺陷,提高识别效率。第一方面,本专利技术实施例提出一种文件识别方法,包括:获取待识别文件;获取待识别文件第一预设位置的第一图文信息,第一预设位置为第一模板的锚点位置;根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板,第一模板的锚点信息为第一模板在锚点位置的图文信息;获取第一模板对应的第二预设位置的第二图文信息,第二预设位置为与第一模板对应的待识别位置,且所述待识别位置与预设属性对应;识别第二预设位置的第二图文信息,并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。在一些实施例中,根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板,包括:比对第一图文信息与第一模板的锚点信息;根据比对结果确定待识别文件对应第一模板。在一些实施例中,第一模板的锚点信息为第一模板锚点图文的特征值,比对第一图文信息与第一模板的锚点信息,包括:获取第一图文信息的特征值;比对第一图文信息的特征值和第一模板锚点图文的特征值,确定两者特征值相似度;根据比对结果确定待识别文件对应第一模板,包括:根据特征值相似度确定待识别文件对应第一模板。在一些实施例中,该文件识别方法,还包括:获取所述第一模板的文字特征,所述文字特征包括至少以下之一或组合:文字类型、字体等;识别所述第二预设位置的第二图文信息,具体包括:采用与所述文字特征对应的模型识别所述第二图文信息。在一些实施例中,该文件识别方法,还包括:根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板,第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。在一些实施例中,该文件识别方法,还包括:获取所述待识别文件的第三位置区域,所述第三位置区域为所述第一模板的印章位置区域;获取所述第三位置区域各像素点的RGB值;根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、各像素点R、G、B颜色通道的平均值,以及,确定所述像素点的R、G、B颜色通道数值分别与所述平均值的偏离值;当所述像素点的所述平均值大于第一预设数值,或像素点R、G、B各颜色通道数值大于第三预设值,且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时,以白色像素点替换所述像素点。第二方面,本专利技术实施例还提供一种文件识别装置,包括:第一获取模块,用于获取待识别文件;第二获取模块,用于获取待识别文件第一预设位置的第一图文信息,第一预设位置为第一模板的锚点位置;第一确定模块,用于根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板,第一模板的锚点信息为第一模板在锚点位置的图文信息;第三获取模块,用于获取第一模板对应的第二预设位置的第二图文信息,第二预设位置为与第一模板对应的待识别位置,且所述待识别位置与预设属性对应;识别模块,用于识别第二预设位置的第二图文信息,并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。在一些实施例中,该文件识别装置的第一确定模块,包括比对单元和确定单元,其中,比对单元,用于比对第一图文信息与第一模板的锚点信息;确定单元,用于根据比对结果确定待识别文件对应第一模板。在一些实施例中,该文件识别装置比对单元包括获取子单元、比对子单元,其中,获取子单元,用于获取第一图文信息的特征值;比对子单元,用于比对第一图文信息的特征值和第一模板锚点图文的特征值,确定两者特征值相似度;确定单元,具体用于根据特征值相似度确定待识别文件对应第一模板。在一些实施例中,该文件识别装置的第一确定模块,还用于根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板,第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。在一些实施例中,该文件识别装置还包括第四获取模块,用于获取待识别文件的第三位置区域的第三图文信息,第三位置区域为第一模板的印章位置区域;第五获取模块,用于获取所述第三位置区域各像素点的RGB值;第二确定模块,用于根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、确定所述像素点的R、G、B颜色通道的平均值、以及,确定所述像素点的R、G、B颜色通道分别与所述平均值的偏离值;处理模块,用于当所述像素点的所述平均值大于第一预设数值,或像素点R、G、B各颜色通道数值至少一个大于第三预设值,且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时,以白色像素点替换所述像素点。在一些实施例中,该文件识别装置还包括:第六获取模块,用于获取所述第一模板的文字特征,所述文字特征包括至少以下之一或组合:文字类型、字体等;所述识别模块,具体用于采用与所述文字特征对应的模型识别所述第二图文信息。第三方面,本专利技术实施例还提供一种文件识别装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现如上第一方面的任一项所述的方法。第四方面,本专利技术实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面中的方法。第五方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面的任一项所述的方法。第六方面,本专利技术实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面中的方法。本专利技术实施例的文件识别方法和装置,通过获取待识别文件在模板锚点位置的图文信息确认待识别文件对应的某一特定模板,利用该模板对应的已知信息,直接获取该模板预设位置的图文信息,通过识别该预设位置的图文信息,并结合该预设位置对应的属性来输出识别结果。本申请技术方案首先利用特定模板在锚点位置有特定的信息,快速确定待识别文件是否对应该特定模板,在确定待识别文件对应该特定模板之后利用该特定模板对应的已知信息,如对应的待识别位置对该待识别文件需要识别的位置进行快速识别,最后再次利用该模板对应的已知信息,如该模板对应的待识别位置对应的属性等对识别出的内容进行属性定义,最终在输出时将识别出的内容和对应的属性作为本文档来自技高网...

【技术保护点】
1.一种文件识别方法,其特征在于,包括:/n获取待识别文件;/n获取所述待识别文件第一预设位置的第一图文信息,所述第一预设位置为第一模板的锚点位置;/n根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板,所述第一模板的锚点信息为所述第一模板在所述锚点位置的图文信息;/n获取所述待识别文件在第二预设位置的第二图文信息,所述第二预设位置为根据所述第一模板确定的待识别位置,且所述待识别位置与预设属性对应;/n识别所述第二预设位置的第二图文信息,并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。/n

【技术特征摘要】
1.一种文件识别方法,其特征在于,包括:
获取待识别文件;
获取所述待识别文件第一预设位置的第一图文信息,所述第一预设位置为第一模板的锚点位置;
根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板,所述第一模板的锚点信息为所述第一模板在所述锚点位置的图文信息;
获取所述待识别文件在第二预设位置的第二图文信息,所述第二预设位置为根据所述第一模板确定的待识别位置,且所述待识别位置与预设属性对应;
识别所述第二预设位置的第二图文信息,并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。


2.根据权利要求1所述的方法,其特征在于,根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板,包括:
比对所述第一图文信息与所述第一模板的锚点信息;
根据所述比对结果确定所述待识别文件对应所述第一模板。


3.根据权利要求2所述的方法,其特征在于,所述第一模板的锚点信息为所述第一模板锚点图文的特征值,所述比对第一图文信息与所述第一模板的锚点信息,包括:
获取所述第一图文信息的特征值;
比对所述第一图文信息的特征值和所述第一模板锚点图文的特征值,确定两者特征值相似度;
所述根据所述比对结果确定所述待识别文件对应所述第一模板,包括:
根据所述特征值相似度确定所述待识别文件对应所述第一模板。


4.根据权利要求1-3所述的方法,其特征在于,还包括:
获取所述第一模板的文字特征,所述文字特征包括至少以下之一或组合:文字类型、字体等;
识别所述第二预设位置的第二图文信息,具体包括:
采用与所述文字特征对应的模型识别所述第二图文信息。


5.根据权利要求1所述的方法,其特征在于,还包括:
根据所述第一图文信息与第二模板的锚点信息确定所述待识别文件不对应所述第二模板,所述第二模板的锚点信息为所述第二模板在其锚点位置的锚点图文信息。


6.根据权利要求1-5中任一项所述的方法,其特征在于,还包括:
获取所述待识别文件的第三位置区域,所述第三位置区域为所述第一模板的印章位置区域;
获取所述第三位置区域各像素点的RGB值;
根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、各像素点R、G、B颜色通道的平均值,以及,确定所述像素点的R、G、B颜色通道数值分别与所述平均值的偏离值;
当所述像素点的所述平均值大于第一预设数值,或像素点R、G、B各颜色通道数值大于第三预设值,且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时,以白色像素点替换所述像素点。


7.一种文件识别装置,其特征在于...

【专利技术属性】
技术研发人员:支晓繁薛利赵博王砚溱申震
申请(专利权)人:上海期货信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1