The present disclosure relates to a method of identifying information recorded on a document, including identifying the location of each region in one or more regions on the document, each region in the one or more regions, and all or part of the information recorded on the document, based on the image of the document and a first pre-trained model of the document. The first model is a model based on a neural network, and the single is determined by recognizing the characters in each region of the one or more regions based on the image of the document, the position of each region in the one or more regions, and a second pre-trained model. According to the information recorded, the second model is based on the neural network model. The disclosure also relates to a system for identifying information recorded on a document. The disclosure can efficiently and accurately identify information recorded on various documents.
【技术实现步骤摘要】
识别单据上记载的信息的方法及系统
本公开涉及一种识别单据上记载的信息的方法及系统。
技术介绍
准确地识别各种单据上记载的信息是不简单的。因此,存在对新技术的需求。
技术实现思路
本公开的一个目的是提供一种识别单据上记载的信息的方法及系统。根据本公开的第一方面,提供了一种识别单据上记载的信息的方法,包括:基于所述单据的影像和预先训练的第一模型,识别所述单据上的一个或多个区域中的每个区域的位置,所述一个或多个区域中的每个区域与所述单据上记载的全部或部分信息相关联,其中,所述第一模型是基于神经网络的模型;以及基于所述单据的影像、所述一个或多个区域中的每个区域的所述位置、以及预先训练的第二模型,识别所述一个或多个区域中的每个区域中的字符,从而确定所述单据上记载的信息,其中,所述第二模型是基于神经网络的模型。根据本公开的第二方面,提供了一种识别单据上记载的信息的系统,包括:第一模型,所述第一模型是基于神经网络的模型;第二模型,所述第二模型是基于神经网络的模型;以及一个或多个第一装置,所述一个或多个第一装置被配置为:基于所述单据的影像和所述第一模型,识别所述单据上的一个或多个区域中的每个区域的位置,所述一个或多个区域中的每个区域与所述单据上记载的全部或部分信息相关联;以及基于所述单据的影像、所述一个或多个区域中的每个区域的所述位置、以及所述第二模型,识别所述一个或多个区域中的每个区域中的字符,从而确定所述单据上记载的信息。根据本公开的第三方面,提供了一种获取单据上记载的信息的设备,将所述单据的影像传送给如上所述的系统;以及从所述系统获取被数字化了的由所述系统识别出的所述单 ...
【技术保护点】
1.一种识别单据上记载的信息的方法,其特征在于,包括:基于所述单据的影像和预先训练的第一模型,识别所述单据上的一个或多个区域中的每个区域的位置,所述一个或多个区域中的每个区域与所述单据上记载的全部或部分信息相关联,其中,所述第一模型是基于神经网络的模型;以及基于所述单据的影像、所述一个或多个区域中的每个区域的所述位置、以及预先训练的第二模型,识别所述一个或多个区域中的每个区域中的字符,从而确定所述单据上记载的信息,其中,所述第二模型是基于神经网络的模型。
【技术特征摘要】
1.一种识别单据上记载的信息的方法,其特征在于,包括:基于所述单据的影像和预先训练的第一模型,识别所述单据上的一个或多个区域中的每个区域的位置,所述一个或多个区域中的每个区域与所述单据上记载的全部或部分信息相关联,其中,所述第一模型是基于神经网络的模型;以及基于所述单据的影像、所述一个或多个区域中的每个区域的所述位置、以及预先训练的第二模型,识别所述一个或多个区域中的每个区域中的字符,从而确定所述单据上记载的信息,其中,所述第二模型是基于神经网络的模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述单据的影像和所述第一模型,还识别与所述一个或多个区域中的每个区域相关联的信息的信息类型;以及基于识别出的与所述一个或多个区域中的每个区域相关联的信息的所述信息类型、以及识别出的所述一个或多个区域中的每个区域中的所述字符,来确定所述单据上记载的信息。3.根据权利要求1所述的方法,其特征在于,在识别所述单据上的一个或多个区域中的每个区域的位置之前,所述方法还包括:基于所述单据的影像和预先训练的第三模型,识别所述单据的类别,其中,所述第三模型是基于神经网络的模型;以及根据识别出的所述类别来选择将要使用的所述第一模型和/或所述第二模型。4.根据权利要求3所述的方法,其特征在于,所述类别至少包括语种。5.根据权利要求1所述的方法,其特征在于,所述第一模型通过如下过程得到:对第一单据影像样本训练集中的每个单据影像样本进行标注处理,以标注出每个所述单据影像样本中的一个或多个区域中的每个区域的位置,所述一个或多个区域中的每个区域与所述单据影像样本中的全部或部分信息相关联;以及通过经过所述标注处理的所述第一单据影像样本训练集,对第一神经网络进行训练,以得到所述第一模型。6.根据权利要...
【专利技术属性】
技术研发人员:徐青松,陈明权,罗欢,
申请(专利权)人:杭州睿琪软件有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。