本发明专利技术公开了一种基于大数据和集合理论的序列匹配方法,包括:S1,获取多张文字图片,构建图片大数据仓库;S2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;S3,利用文字识别技术对获取的文字图片进行文字识别;S4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;S5,对待测试图片进行步骤S2和步骤S3的处理;S6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。本发明专利技术将集合理论与大数据技术引入序列匹配过程,对图像文字识别结果与真实结果序列进行自动匹配,实现校核工作的自动化、智能化,缩短了校核时间,提高了校核准确性。
A sequence matching method based on big data and set theory
【技术实现步骤摘要】
一种基于大数据和集合理论的序列匹配方法
本专利技术涉及图片分析
,特别是涉及一种基于大数据和集合理论的序列匹配方法。
技术介绍
在图片比对分析的实际场景中,经常会遇到比较两个序列的一致性问题,其中一个序列不一定与另一个序列完全一致,比如一个序列为利用文字识别技术识别的图像文本,另一个为图像中的正确文本。由于文字识别技术存在一定概率的错误率,此时两个序列未必完全一致,如何判断两个序列是否来自于同一图像,具有重要意义,如通过文字识别的方式来识别身份证号码,通过与真实号码进行比较来判断是否是同一个人,通过文字识别的方式来识别驾驶证的车牌号码与真实车牌号对比进行机动车智能审核等。在传统的校核过程中,主要依靠人工完成,对于每张照片,如身份证,驾驶证等,人工通过查看图片原件中的信息,并通过与登记时的真实数据对比,比较信息的一致性,真实数据通常需要去专门的数据库中获取。整个过程其工作量大,效率低下,并且容易出错,耗时较长等缺点。
技术实现思路
本专利技术的目的在于提出一种基于大数据和集合理论的序列匹配方法,以提升图片中序列匹配的智能化,缩短校核时间,提高校核的准确性。一种基于大数据和集合理论的序列匹配方法,包括以下步骤:S1,获取多张文字图片,构建图片大数据仓库;S2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;S3,利用文字识别技术对获取的文字图片进行文字识别;S4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;S5,对待测试图片进行步骤S2和步骤S3的处理;S6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。根据本专利技术提供的基于大数据和集合理论的序列匹配方法,将集合理论与大数据技术引入序列匹配过程,对图像文字识别结果与真实结果序列进行自动匹配,实现图像校核工作的自动化,智能化,让校核工作从繁重的业务中解放出来,不仅缩短了校核过程的时间,简化了校核流程,而且校核的准确性大大提高,相比传统技术,具有以下有益效果:1.该方法将大数据技术应用到参数的计算过程中,使得到的参数基于数据信息,有效的利用了数据的潜在价值,相比传统的依靠经验决定参数,具有客观、可靠的优点,同时这种方法避免了传统方法由于经验缺乏带来的困扰;2.将集合思想与排序算法引入序列的比较过程,使得比较的结果更加准确,传统方法中通常依靠序列的相似系数进行确定,这种方法通常只能通过设置相似阈值来确定,具有一定的局限性,而且阈值通常也是主观给出的,通过集合思想与排序算法避免了参数的设置,从而更加客观;3.图像文字识别中使用深度学习模型,识别准确度高,传统的文字识别通常基于特征提取,过程复杂,非常消耗人工成本。另外,根据本专利技术上述的基于大数据和集合理论的序列匹配方法,还可以具有如下附加的技术特征:进一步地,所述步骤S3具体包括:基于densenet深度神经网络文字识别或基于tesseract文字识别技术对获取的文字图片进行文字识别。进一步地,所述步骤S3,在文字识别过程中,利用CTPN模型进行文字定位,或者直接进行文字识别。进一步地,所述步骤S4具体包括:对于步骤S3中每张图片文字识别的结果,将每张图片的识别结果序列与数据库中图片标注的真实文字序列进行匹配,匹配时,对于相似的标注序列,在一定的相似度阈值下,匹配出多个匹配结果,其中,相似度计算方式如下:对于识别结果序列A=α1α2...αm与真实标注序列B=β1β2...βn的相似度为:其中set{α1,α2,...,αm}与set{β1,β2,...,βn}表示序列A,B的集合,|·|表示元素的个数,符号&表示交集,n≥m;比较图片j,j∈{1,2,…,k}识别结果与数据库中各标注结果的相似度,记为{r1,r2,...,rk},其中k为数据库中照片的数量;比较rj与{r1,r2,…,rj-1,rj+1,…,rk}的大小关系,对数据库中所有照片都做上述处理,选择一个相似阈值h,使得h能将绝大部分的rj与{r1,r2,…,rj-1,rj+1,…,rk},j∈{1,2,…,k}分开。进一步地,所述步骤S5具体包括:对待测试图片进行步骤S2和步骤S3的处理,得到文字识别结果序列,记为A=α1α2…αm,标注序列记为B=β1β2…βn。进一步地,所述步骤S6具体包括:判断序列A的元素集合set{α1,α2,…,αm}与序列B的集合set{β1,β2,…,βn}是否满足包含关系n≥m;若不满足,直接判定照片与标注内容不一致,若满足继续下面的步骤;按步骤S4中相似度计算公式计算序列A与序列B的相似系数rAB,判断rAB≥h是否满足,若不满足,直接判定照片与标注内容不一致,若满足继续下面的步骤:若A中没有重复元素且n≥8,计算序列A中的集合set{α1,α2,…,αm}的各个元素在序列B中的索引位置,若set{α1,α2,…,αm}各元素在set{β1,β2,…,βn}中的索引位置单调增加,则判定照片与标注内容一致,否则判定为不一致;若A中有重复元素且n≥8,删除A中重复元素,只保留最低索引位置对应的元素,计算序列A中的集合set{α1,α2,…,αm}的各个元素在序列B中的索引位置,对于出现在A中的重复元素,只计算在B中出现最低索引位置,若set{α1,α2,…,αm}各元素在B中的索引位置单调增加,则判定照片与标注内容一致,否则判定为不一致;n<8,若序列A与序列B完全一致,则判断照片与标注内容一致,否则判定为不一致。进一步地,所述步骤S6通过python,Java,C++中任一编程语言实现。附图说明本专利技术实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例提供的基于大数据和集合理论的序列匹配方法的逻辑流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的基于大数据和集合理论的序列匹配方法,包括以下步骤S1~S6,请同时结合图1,对本实施例的方法进行详细说明:S1,获取多张文字图片,构建图片大数据仓库;其中,针对实际应用场景收集相应的图片,如要进行身份证号码校核,收集身份证图片,若要进行车牌号或车架号校核,则搜集驾驶证照片。S2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;其中,针对步骤S1中收集的图片,对相应要识别的部分进行标本文档来自技高网...
【技术保护点】
1.一种基于大数据和集合理论的序列匹配方法,其特征在于,包括以下步骤:/nS1,获取多张文字图片,构建图片大数据仓库;/nS2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;/nS3,利用文字识别技术对获取的文字图片进行文字识别;/nS4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;/nS5,对待测试图片进行步骤S2和步骤S3的处理;/nS6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。/n
【技术特征摘要】
1.一种基于大数据和集合理论的序列匹配方法,其特征在于,包括以下步骤:
S1,获取多张文字图片,构建图片大数据仓库;
S2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;
S3,利用文字识别技术对获取的文字图片进行文字识别;
S4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;
S5,对待测试图片进行步骤S2和步骤S3的处理;
S6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。
2.根据权利要求1所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S3具体包括:
基于densenet深度神经网络文字识别或基于tesseract文字识别技术对获取的文字图片进行文字识别。
3.根据权利要求2所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S3,在文字识别过程中,利用CTPN模型进行文字定位,或者直接进行文字识别。
4.根据权利要求1所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S4具体包括:
对于步骤S3中每张图片文字识别的结果,将每张图片的识别结果序列与数据库中图片标注的真实文字序列进行匹配,匹配时,对于相似的标注序列,在一定的相似度阈值下,匹配出多个匹配结果,其中,相似度计算方式如下:
对于识别结果序列A=α1α2…αm与真实标注序列B=β1β2…βn的相似度为:
其中set{α1,α2,…,αm}与set{β1,β2,…,βn}表示序列A,B的集合,|·|表示元素的个数,符号&表示交集,n≥m;
比较图片j,j∈{1,2,…,k}识别结果与数据库中各标注结果的相似度,记为{r1,r2,…,rk},其中k为数据库中照片的数量;比较rj与{r1,r2,…,rj-1,rj+...
【专利技术属性】
技术研发人员:沈国安,熊奎,
申请(专利权)人:南昌市微轲联信息技术有限公司,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。