【技术实现步骤摘要】
一种基于OCR识别设备数据并生成数据表单的方法及系统
[0001]本专利技术涉及数据识别
,具体为一种基于OCR识别设备数据并生成数据表单的方法及系统。
技术介绍
[0002]OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
[0003]目前,对于一些需要采购大量的设备大型厂商采购单位,每台设备拥有自己的铭牌信息,传统的信息录入方式是由人工现场人工进行收货、验货、记录设备铭牌信息,人工分析将元数据录入数据存储系统。人工录入数据无法识别元数据、无法提取数据特征属性,导致标准分类元数据信息不准确,既浪费了人力成本也没有实现数据的分类。< ...
【技术保护点】
【技术特征摘要】
1.一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:包括如下步骤:第一步:接收待处理图片信息,通过图片处理模块进行处理,之后通过PCA提取特征码并送入SVM仿真测试,根据SVM输出项判断所属类别,标识后输出分类样本数据;第二步:扫描第一步中的分类样本数据,基于OCR技术获取模板字库,通过SnowNLP技术获取特征值,建立BiLSTM+Attention模型,将识别的数据命名,生成数据模型并输出;第三步:接收数据模型,获取数据表头字段,判断当前类型的数据标准业务数据表是否存在,最终输出数据标准业务数据;第四步:接收数据标准业务数据,动态生成数据标准表单。2.根据权利要求1所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述第一步中处理图片信息具体包括以下步骤:S1、图片处理模块接收需要处理的包含设备铭牌信息的图片,所述图片通过拍照设备收集;S2、基于PCA技术提取每个样本的特征码,将特征码送入进行SVM训练;S3、基于PCA技术生成待分类图像的特征码,将待分类图像的特征码送入SVM仿真测试;S4、根据SVM输出项判断所属类别,并将输出目标进行标识。3.根据权利要求2所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述S2中将特征码送入进行SVM训练具体包括以下步骤:S21、根据样本特征码生成输入项,根据样本所属类别生成对应的输出项;S22、将输入项与输出项送入SVM训练,学习图像特征。4.根据权利要求1所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述第二步中生成数据模型具体包括以下步骤:S1、接收第一步中的分类样本数据并扫描;S2、依据OCR技术获取模板字库,将获得的数据进行键值对的标注,标识出该模板中的Key值;S3、通过SnowNLP技术进行训练,获取特征值;S4、将S3中的数据,通过有监督的学习法,训练S3产生的数据集,计算出每个词条的值对应的数据类型,并将数据类型追加到词条中;S5、基于S4的结果,建立BiLSTM+Attention模型并对数据进行分析,将识别出的数据进行命名,确定模型数据字段的key值,输出数据模型。5.根据权利要求4所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述S1接收分类样本数据并扫描具体包括:S11、将所有图像按照顺序存...
【专利技术属性】
技术研发人员:马艳龙,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。