基于OCR和可信结构化数据的信息鉴别方法技术

技术编号：20026476 阅读：27 留言：0更新日期：2019-01-06 05:14

本发明专利技术涉及一种一种基于OCR和可信结构化数据库的信息鉴别方法，包括：步骤S100，对信息载体(纸)的一个或多个影像进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a1,a2,...,am)和第二内容向量B＝(b1,b2,...,bn)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p1,p2,...,pm)和第二可信内容向量Q＝(q1,q2,...,qn)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算B和Q的相似度

全部详细技术资料下载

【技术实现步骤摘要】
基于OCR和可信结构化数据的信息鉴别方法
本专利技术涉及信息鉴别领域，尤其涉及一种基于OCR和可信结构化数据的信息鉴别方法。
技术介绍
目前的很多情况下，需要对用户提供的纸件承载的信息中的内容进行鉴真，例如用户提供的身份证复印件、企业营业执照中的是否被篡改，以及用户提供的纸质招标文件中的企业资质信用是否准确、真实等。现有技术中，对于纸件承载的信息的鉴别主要通过人工比对完成，自动化程度较低、鉴别的效率也较低。OCR技术的发展为解决上述问题提供了契机。
技术实现思路
为解决上述技术问题，本专利技术涉及一种基于OCR和可信结构化数据库的信息鉴别方法，包括：步骤S100，对信息载体(纸)的一个或多个影像进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a1,a2,...,am)和第二内容向量B＝(b1,b2,...,bn)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p1,p2,...,pm)和第二可信内容向量Q＝(q1,q2,...,qn)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算B和Q的相似度其中，bqi为bi和qi的相似度，如果SBQ≥D，那么判断所述影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚，将对本专利技术作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本专...

【技术保护点】
1.一种基于OCR和可信结构化数据库的信息鉴别方法，其特征在于，包括：步骤S100，对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a1,a2,...,am)和第二内容向量B＝(b1,b2,...,bn)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p1,p2,...,pm)和第二可信内容向量Q＝(q1,q2,...,qn)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算第二内容向量B和第二可信内容向量Q的相似度

【技术特征摘要】
1.一种基于OCR和可信结构化数据库的信息鉴别方法，其特征在于，包括：步骤S100，对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a1,a2,...,am)和第二内容向量B＝(b1,b2,...,bn)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p1,p2,...,pm)和第二可信内容向量Q＝(q1,q2,...,qn)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算第二内容向量B和第二可信内容向量Q的相似度其中，bqi为bi和qi的相似度，如果SBQ≥D(D为预设阈值)，那么判断所述影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容；所述第二内容向量B和所述第二可信内容向量Q中的元素均为文本类型。2.根据权利要求1所述的信息鉴别方法，其特征在于，所述步骤S300中，A＝P的判断具体为：如果内容向量A和P的每组对应元素均相同，即ai＝pi，i的取值为1…m，那么A＝P；如果内容向量A和P的存在任意一组对应元素不相同，那么A≠P。3.根据权利要求2所述的信息鉴别方法，其特征在于，所述步骤S400还包括：步骤S41...

【专利技术属性】
技术研发人员：王佩光，杨小蕾，罗奕，朱友卫，林雄建，肖郑海，陈龙，潘盛裕，孟浩，
申请(专利权)人：国网信通亿力科技有限责任公司，国网信息通信产业集团有限公司，国家电网有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人