一种发票字条语义信息的识别方法及装置制造方法及图纸

技术编号:12314861 阅读:116 留言:0更新日期:2015-11-12 04:00
本发明专利技术提出了一种发票字条语义信息的识别方法,包括如下步骤:建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。本发明专利技术还涉及一种实现上述发票字条语义信息的识别方法的装置。实施本发明专利技术的发票字条语义信息的识别方法及装置,具有以下有益效果:能自动化识别发票的各种语义信息。

【技术实现步骤摘要】

本专利技术涉及发票识别领域,特别涉及一种发票字条语义信息的识别方法及装置
技术介绍
OCR识别技术能够将图片转换为文字,但是系统不能识别文字属于什么类别。譬如100这三个数字,有可能是发票金额,有可能是发票代码。这里我们将如何区分识别内容的类编定义为语义分析。如何从语义角度分析发票的内容,这是个技术难点。传统技术需要人工收集训练数据,采集大量不同发票格式。随着时间的变化,发票的格式也有相应的变化,需要增量收集不同的发票,系统不存在的发票格式暂时无法识别。最主要的问题是系统无法自动化识别发票的各种语义信息,例如:金额、抬头和开票人等等。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述无法自动化识别发票的各种语义信息的缺陷,提供一种能自动化识别发票的各种语义信息的发票字条语义信息的识别方法及装置。本专利技术解决其技术问题所采用的技术方案是:构造一种发票字条语义信息的识别方法,包括如下步骤:A)建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;B)对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;C)接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。在本专利技术所述的发票字条语义信息的识别方法中,所述步骤C)进一步包括:C1)接收需要识别的发票,查找所述训练数据库中的包围盒;C2)将所述查找的包围盒套在所述需要识别的发票上;C3)采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;C4)计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;C5)判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒,并返回步骤C2) 0在本专利技术所述的发票字条语义信息的识别方法中,所述步骤D)进一步包括:D1)获取所述相似度最大的字条所对应的包围盒;D2)根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。在本专利技术所述的发票字条语义信息的识别方法中,所述步骤C4)进一步包括:C41)计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;C42)将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。在本专利技术所述的发票字条语义信息的识别方法中,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。本专利技术还涉及一种实现上述发票字条语义信息的识别方法的装置,包括:数据库建立单元:用于建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;标识单元:用于对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;匹配单元:用于接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;识别分类单元:用于识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。在本专利技术所述的装置中,所述匹配单元进一步包括:包围盒查找模块:用于接收需要识别的发票,查找所述训练数据库中的包围盒;位置对应模块:用于将所述查找的包围盒套在所述需要识别的发票上;识别模块:用于采用开源OCR识别引擎对被所述包围盒套住的字条进行识别;相似度计算模块:用于计算所述识别出的字条与所述包围盒所包含的字条之间的相似度;遍历模块:用于判断是否已经遍历所述训练数据中的所有包围盒,如是,对所有的相似度进行比较,找出相似度最大的字条;否则,从所述训练数据库中查找下一个包围盒。在本专利技术所述的装置中,所述识别分类单元进一步包括:最大相似度包围盒获取模块:用于获取所述相似度最大的字条所对应的包围盒;字条内容识别分类模块:用于根据所述相似度最大的字条所对应的包围盒,识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。在本专利技术所述的装置中,所述相似度计算模块进一步包括:乘积计算模块:用于计算出所述识别出的字条中每个字符的出现概率及其数量的乘积;相加模块:用于将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。在本专利技术所述的装置中,所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人;所述字符包括汉字、拉丁字母或/和数字。实施本专利技术的发票字条语义信息的识别方法及装置,具有以下有益效果:由于首先收集各种不同格式的发票,将其保存到训练数据库中,然后,人工标签训练数据库中发票所有字条的包围盒,当接收到需要识别的发票时,从训练数据库中找出与需要识别的发票最相似的发票(图片),然后识别发票中每个字条的内容并对其语义信息进行分类,所以其能自动化识别发票的各种语义信息。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术发票字条语义信息的识别方法及装置一个实施例中方法的流程图;图2为所述实施例中接收需要识别的发票,将其分别与训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票的具体流程图;图3为所述实施例中识别出需要识别的发票中每个字条的内容并对其语义信息进行分类的具体流程图;图4为所述实施例中计算识别出的字条与包围盒所包含的字条之间的相似度的具体流程图;图5为所述实施例中装置的结构示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术发票字条语义信息的识别方法及装置实施例中,其发票字条语义信息的识别方当前第1页1 2 3 本文档来自技高网...
一种发票字条语义信息的识别方法及装置

【技术保护点】
一种发票字条语义信息的识别方法,其特征在于,包括如下步骤:A)建立训练数据库,收集所有不同格式的发票并保存到所述训练数据库中;每种格式的发票均包括多个字条;B)对所述训练数据库中的发票中所有字条进行包围盒的标识;所述包围盒包括识别的内容和语义信息分类;C)接收需要识别的发票,将其分别与所述训练数据库中每张发票的格式进行匹配,找出与其格式最相似的发票;D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈健庆李锦鹏
申请(专利权)人:广州敦和信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1