【技术实现步骤摘要】
一种基于大数据和集合理论的序列匹配方法
本专利技术涉及图片分析
,特别是涉及一种基于大数据和集合理论的序列匹配方法。
技术介绍
在图片比对分析的实际场景中,经常会遇到比较两个序列的一致性问题,其中一个序列不一定与另一个序列完全一致,比如一个序列为利用文字识别技术识别的图像文本,另一个为图像中的正确文本。由于文字识别技术存在一定概率的错误率,此时两个序列未必完全一致,如何判断两个序列是否来自于同一图像,具有重要意义,如通过文字识别的方式来识别身份证号码,通过与真实号码进行比较来判断是否是同一个人,通过文字识别的方式来识别驾驶证的车牌号码与真实车牌号对比进行机动车智能审核等。在传统的校核过程中,主要依靠人工完成,对于每张照片,如身份证,驾驶证等,人工通过查看图片原件中的信息,并通过与登记时的真实数据对比,比较信息的一致性,真实数据通常需要去专门的数据库中获取。整个过程其工作量大,效率低下,并且容易出错,耗时较长等缺点。
技术实现思路
本专利技术的目的在于提出一种基于大数据和集合理论的序列匹配方法 ...
【技术保护点】
1.一种基于大数据和集合理论的序列匹配方法,其特征在于,包括以下步骤:/nS1,获取多张文字图片,构建图片大数据仓库;/nS2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;/nS3,利用文字识别技术对获取的文字图片进行文字识别;/nS4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;/nS5,对待测试图片进行步骤S2和步骤S3的处理;/nS6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。/n
【技术特征摘要】
1.一种基于大数据和集合理论的序列匹配方法,其特征在于,包括以下步骤:
S1,获取多张文字图片,构建图片大数据仓库;
S2,对获取的文字图片分别进行文字序列标注,构建图片与标注信息相映射的图片信息大数据仓库;
S3,利用文字识别技术对获取的文字图片进行文字识别;
S4,利用大数据技术根据文字识别结果和标注信息计算出最优参数;
S5,对待测试图片进行步骤S2和步骤S3的处理;
S6,判断待测试图片的识别结果与标注结果是否满足集合关系与步骤S4中的最优参数,以得到匹配一致性判断结果。
2.根据权利要求1所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S3具体包括:
基于densenet深度神经网络文字识别或基于tesseract文字识别技术对获取的文字图片进行文字识别。
3.根据权利要求2所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S3,在文字识别过程中,利用CTPN模型进行文字定位,或者直接进行文字识别。
4.根据权利要求1所述的基于大数据和集合理论的序列匹配方法,其特征在于,所述步骤S4具体包括:
对于步骤S3中每张图片文字识别的结果,将每张图片的识别结果序列与数据库中图片标注的真实文字序列进行匹配,匹配时,对于相似的标注序列,在一定的相似度阈值下,匹配出多个匹配结果,其中,相似度计算方式如下:
对于识别结果序列A=α1α2…αm与真实标注序列B=β1β2…βn的相似度为:
其中set{α1,α2,…,αm}与set{β1,β2,…,βn}表示序列A,B的集合,|·|表示元素的个数,符号&表示交集,n≥m;
比较图片j,j∈{1,2,…,k}识别结果与数据库中各标注结果的相似度,记为{r1,r2,…,rk},其中k为数据库中照片的数量;比较rj与{r1,r2,…,rj-1,rj+...
【专利技术属性】
技术研发人员:沈国安,熊奎,
申请(专利权)人:南昌市微轲联信息技术有限公司,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。