基于OCR和可信结构化数据的信息鉴别方法技术

技术编号:20026476 阅读:27 留言:0更新日期:2019-01-06 05:14
本发明专利技术涉及一种一种基于OCR和可信结构化数据库的信息鉴别方法,包括:步骤S100,对信息载体(纸)的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算B和Q的相似度

【技术实现步骤摘要】
基于OCR和可信结构化数据的信息鉴别方法
本专利技术涉及信息鉴别领域,尤其涉及一种基于OCR和可信结构化数据的信息鉴别方法。
技术介绍
目前的很多情况下,需要对用户提供的纸件承载的信息中的内容进行鉴真,例如用户提供的身份证复印件、企业营业执照中的是否被篡改,以及用户提供的纸质招标文件中的企业资质信用是否准确、真实等。现有技术中,对于纸件承载的信息的鉴别主要通过人工比对完成,自动化程度较低、鉴别的效率也较低。OCR技术的发展为解决上述问题提供了契机。
技术实现思路
为解决上述技术问题,本专利技术涉及一种基于OCR和可信结构化数据库的信息鉴别方法,包括:步骤S100,对信息载体(纸)的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算B和Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D,那么判断所述影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,将对本专利技术作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本专利技术的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本专利技术,在不脱离本专利技术的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。根据本专利技术,提供了一种基于OCR和可信结构化数据库的信息鉴别方法,包括:步骤S100,对信息载体的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量。根据本专利技术,信息载体用于承载信息,信息通常为格式化信息或者结构化信息,载体物理实现为印刷材料,例如各种型号的纸张。进一步的,本专利技术中的格式化或结构化的信息即能够根据载体的区域位置、区域标识等进行大概率区分的信息,例如营业执照信息、身份证信息、名片信息等。根据本专利技术,影像一般实现为信息载体的复印件、影印件、扫描件、拍摄的照片、拍摄视频的截图等形式。对于不同的信息载体,影像可能具有一个或多个,例如对于营业执照,影像为一个;对于身份证,影像为两个(正反面);对于名片,影像可能为一个,也可能为两个;对于包含营业执照、纳税证明、开户证明、法人代表身份证等多种信息的标书,影像一般为多个。根据本专利技术,对影像进行OCR处理,能够获得结构化信息,例如一条或多条记录信息。具体获得手段并非本专利技术意图保护的重点,本专利技术支持采用现有技术中的手段来获得结构化信息,这些手段例如但不限于“蒙恬科技”公司的产品“名片王”中的使用的技术,以及“梦婷科技”公司在CN103679117B号专利中公开的技术。根据本专利技术,例如对标书中的营业执照副本扫描件(或者投标人提供的格式化法人信息)和法人代表身份证扫描件进行OCR处理后,能够获得以下结构化内容:来源于营业执照副本的:“组织机构代码:XXXXXX;名称:XXXX有限责任公司;法定代表人:王XX;注册资本:XXXX万元;成立日期:2000年XX月XX日经营范围:XXXX,XXXX,XXXX…………”来源于身份证的:“法定代表人:王XX;法定代表人身份证号:XXXXXX19700101XXXX;……”根据本专利技术,将上述结构化内容分为三种:主索引内容、第一内容和第二内容。其中主索引内容CI只有一项,在上述标书示例中可以选择“组织结构代码”。第一内容为必须全部正确的内容,在上述标书示例中,例如可以选择“法定代表人”、“法定代表人身份证号”等,即第一内容向量A中包括法定代表人a1和法定代表人身份证号a2。第二内容为可以大部分正确的内容(即允许部分瑕疵),在上述标书示例中,例如可以选择“名称”、“经营范围”等,即第二内容向量B中包括名称b1和经营范围b2。显然,本领域技术人员理解,标书示例仅仅是为了清晰阐述本专利技术的技术方案而列举的一个例子,其不能代表本专利技术只能够处理标书、营业执照或身份证等信息载体。事实上,只要能够通过OCR处理获得结构化信息的载体,均落入本专利技术的保护范围。步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn)。其中,P的内容与A的内容相对应,Q的内容与B的内容相对应。根据本专利技术,可信结构化数据库中存储有可信数据,一般为来源于具有公信力的机构所发布的数据,例如工商、税务、海关、质检、公检法等发布的数据。以前述标书为例,可信结构化数据库可以包括企业工商登记信息数据,例如“启信宝”、“天眼查”等产品所使用的可信数据库。显然,本领域技术人员理解,“启信宝”、“天眼查”示例仅仅是为了清晰阐述本专利技术的技术方案而列举的一个例子,其不能代表本专利技术中的可信结构化数据只能是工商登记数据。事实上,只要是对于用户而言可信的数据库,均可称之为可信数据库,也均落入本专利技术的保护范围。仍以前述标书为例进行说明,在使用主索引内容CI(例如组织机构代码)在可信数据库中进行检索,能够获得对应组织机构代码的“法定代表人”、“法定代表人身份证号”、“名称”、“经营范围”。其中,“法定代表人”、“法定代表人身份证号”作为第一可信内容向量P=(p1,p2,...,pm)中的p1和p2;“名称”、“经营范围”作为第二可信内容向量Q=(q1,q2,...,qn)中的q1和q2。步骤S300,如果A=P,那么执行步骤S400,继续进行判断;如果A≠P,说明OCR出现了错误或者标书中的材料不可信,不管哪种情况,均应当向用户提示影像中呈现的内容为虚假内容,以供用户分辨。进一步的,步骤S300中,A=P的判断具体为:如果内容向量A和P的每组对应元素均相同,即ai=pi,i的取值为1…m,那么A=P,即前述例子中即“法定代表人”、“法定代表人身份证号”相同;如果内容向量A和P的存在任意一组对应元素不相同,那么A≠P,前述例子中即“法定代表人”或者“法定代表人身份证号”不相同。步骤S400,计算第二内容向量B和第二可信内容向量Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D(D为预设阈值,D的取值范围为0…1,优选的D的取值大于0.8),那么判断影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容。根据本专利技术,第二内容向量B和第二可信内容向量Q中的元素均为文本类型,与第一内容不同,第二内容允许有一定的冗余度,从而兼容第二内容向量B中因为录入或OCR过程中出现的瑕疵。具体的,步骤S400还包括:步骤S410,如果bi=q本文档来自技高网...

【技术保护点】
1.一种基于OCR和可信结构化数据库的信息鉴别方法,其特征在于,包括:步骤S100,对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算第二内容向量B和第二可信内容向量Q的相似度

【技术特征摘要】
1.一种基于OCR和可信结构化数据库的信息鉴别方法,其特征在于,包括:步骤S100,对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算第二内容向量B和第二可信内容向量Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D(D为预设阈值),那么判断所述影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容;所述第二内容向量B和所述第二可信内容向量Q中的元素均为文本类型。2.根据权利要求1所述的信息鉴别方法,其特征在于,所述步骤S300中,A=P的判断具体为:如果内容向量A和P的每组对应元素均相同,即ai=pi,i的取值为1…m,那么A=P;如果内容向量A和P的存在任意一组对应元素不相同,那么A≠P。3.根据权利要求2所述的信息鉴别方法,其特征在于,所述步骤S400还包括:步骤S41...

【专利技术属性】
技术研发人员:王佩光杨小蕾罗奕朱友卫林雄建肖郑海陈龙潘盛裕孟浩
申请(专利权)人:国网信通亿力科技有限责任公司国网信息通信产业集团有限公司国家电网有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1