生成训练样本的方法、系统及存储介质技术方案

技术编号:20364447 阅读:16 留言:0更新日期:2019-02-16 17:14
本公开涉及一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:获取第一样本的影像特征;以及以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像,从而生成所述训练样本。本公开还涉及一种生成训练样本的系统和计算机可读存储介质。本公开能够增加样本的数量并保证样本的真实度高。

【技术实现步骤摘要】
生成训练样本的方法、系统及存储介质
本公开涉及一种生成训练样本的方法、系统及存储介质。
技术介绍
训练样本可以用来训练用于识别影像中的内容的模型。训练样本的真实度和数量均对被其训练的模型的识别准确性有影响。因此,存在对新技术的需求。
技术实现思路
本公开的一个目的是提供一种生成训练样本的方法、系统及存储介质。根据本公开的第一方面,提供了一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:获取第一样本的影像特征;以及以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像,从而生成所述训练样本。根据本公开的第二方面,提供了一种生成训练样本的系统,所述训练样本用于训练识别影像中的内容的模型,所述系统包括:一个或多个计算装置,所述一个或多个计算装置被配置为:获取第一样本的影像特征;以及以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像,从而生成所述训练样本。根据本公开的第三方面,提供了一种生成训练样本的系统,所述训练样本用于训练识别影像中的内容的模型,所述系统包括:一个或多个处理器;以及一个或多个存储器,所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当所述一系列计算机可执行的指令被所述一个或多个处理器执行时,使得所述一个或多个处理器进行上述的方法。根据本公开的第四方面,提供了一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列计算机可执行的指令被一个或多个计算装置执行时,使得所述一个或多个计算装置进行上述的方法。通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1是示意性地示出根据本公开的一些实施例的生成训练样本的方法的至少一部分的流程图。图2是示意性地示出根据本公开的一些实施例的生成训练样本的系统的至少一部分的结构图。图3是示意性地示出根据本公开的一些实施例的生成训练样本的系统的至少一部分的结构图。图4A至4C示意性地示出根据本公开的一些实施例的生成训练样本的方法的示例的示意图。图5A至5D示意性地示出根据本公开的一些实施例的生成训练样本的方法的示例的示意图。图6示意性地示出根据本公开的一些实施例的生成训练样本的方法的示例的示意图。注意,在以下说明的实施方式中,有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分,而省略其重复说明。在本说明书中,使用相似的标号和字母表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。具体实施方式以下将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。在下面描述中,为了更好地解释本公开,阐述了许多细节,然而可以理解的是,在没有这些细节的情况下也可以实践本公开。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。本公开提供了一种生成训练样本的方法,如图1所示,该方法包括:获取第一样本的影像特征(步骤S1),以及将第二样本中的内容与第一样本的影像特征结合以生成训练样本(步骤S2)。其中,第一样本或第二样本可以是用来训练用于识别影像中的内容的模型的影像,也可以是仅用来提供影像特征或内容的影像。根据本公开提供的方法,将一个样本中的内容与另一个样本的影像特征结合,可以生成新的样本,如此,能够增加样本的数量,有利于模型的训练。此外,在一些实施例中,生成的新的样本的内容和影像特征均是基于现有的真实存在的样本,能够使得生成的新的样本的真实度高,有利于模型的训练。在一些实施例中,训练样本所用于的模型可以用来从包含单据的至少部分的影像中识别出单据的至少部分中的内容。训练样本所用于的模型可以是基于一个或多个神经网络的模型。包含单据的至少部分的影像可以是包含一整张单据的影像、包含一整张单据的一部分的影像、以及包含多张单据的影像(其中多张单据是指单据的来源多于一张单据,可以是第一整张单据加第二整张单据的一部分、第一整张单据加第二整张单据、以及第一整张单据的一部分加第二整张单据的一部分等)等。在这些情况下,第一样本或第二样本可以是包含一张单据的影像或包含多张单据的影像的至少部分。例如,第一样本或第二样本可以是至少包含图6中一个或多个以矩形框所标示的区域的影像。本公开所称的“单据”是指在其上记载有信息的实体,这些信息以一些模式被布置在单据上,并由中文字、外文字、数字、符号、图形等中的一种或多种形式来承载。本公开所称的“单据”的一些具体示例可以是,发票、账单、税单、收据、购物清单、餐饮小票、保险单、报销单、存款流水单、信用卡对账单、快递单、行程单、车票、登机牌、专利公开文本的信息页、选票、调查问卷、评价表、签到表、申请表等各种由人工和/或机器填写的单据。本领域技术人员可以理解,本公开所称的“单据”不限于本文所列出的这些具体示例,而且不限于与金融或商业有关的票据,也不限于其上带有公章的单据,可以是带有打印字体的单据也可以是带有手写字体的单据,可以是具有规定和/或通用格式的单据也可以不是具有规定和/或通用格式的单据。单据的影像是指以可视化方式呈现的单据,例如单据的图片、视频等。训练样本所用于的模型基于单据的影像,能够识别出由中文字、外文字、数字、符号、图形等中的一种或多种形式来承载的信息的内容。例如,训练样本所用于的模型能够识别出的单据的至少部分中的内容包括单据上所记载的以下各项中的一个或多个的组合:个人或单位(例如购买方、销售方等)的名称、单位的图形化标识(例如商标、印章等)、条目的名称(例如商品或服务等的名称)、金额的货币种类、金额的数值、单据的识别码(例如编号、条形码、二维码等)、以及单据的图形化标识(例如单据本身的识别章等)。相应地,第二样本中的内容包括单据上所记载的以下各项中的一个或多个的组合:单位的名称、单位的图形化标识、条目的名称、金额的货币种类、金额的数值、单据的识别码、以及单据的图形化标识。下面结合图6所示的一个具体的示意性的示例,来对训练样本所用于的模型、第一和第二样本、以及生成的训练样本进行说明。图6所示为一整张单据(在该示例中为增值税普通发票)的影像,其中以矩形框标示出了多个区域。例如,在用数字标注出的多个区域中,包括与购买方的名称相关联的区域1、与购买方的纳税人识别号相关联的区域2、与销售方的名称相关联的区域3、与销售方的纳税人识别号相关联的区域4、与货物或服务的名称相关联的区域5、与货物或服务的金额相关联的区域6、与发票的二维码相关联的区域7、与发票的密码相关联的区域8、与开票的日期相本文档来自技高网...

【技术保护点】
1.一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:获取第一样本的影像特征;以及以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像,从而生成所述训练样本。

【技术特征摘要】
1.一种生成训练样本的方法,所述训练样本用于训练识别影像中的内容的模型,所述方法包括:获取第一样本的影像特征;以及以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像,从而生成所述训练样本。2.根据权利要求1所述的方法,其特征在于,所述第一样本和所述第二样本中的任一个包括以下各项中的至少部分:包含一张单据的影像、以及包含多张单据的影像。3.根据权利要求1所述的方法,其特征在于,所述第一样本的影像特征包括主体特征和背景特征,以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像包括:将所述主体特征应用于所述第二样本中的内容以建立第一图层;基于所述背景特征建立第二图层;以及将所述第一图层和所述第二图层相叠加以产生叠加后的影像,其中所述第一图层位于所述第二图层之上。4.根据权利要求3所述的方法,其特征在于,所述第一样本的影像特征还包括前景特征,以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像还包括:基于所述前景特征建立第三图层;以及将所述第一图层、所述第二图层、以及所述第三图层叠加以产生所述叠加后的影像,其中所述第一图层位于所述第二图层之上,并且所述第三图层位于所述第一图层之上。5.根据权利要求3所述的方法,其特征在于,所述第一样本的影像特征还包括整体特征,以至少所述第一样本的影像特征来呈现包含第二样本中的内容的影像还包...

【专利技术属性】
技术研发人员:徐青松李青
申请(专利权)人:杭州睿琪软件有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1