一种基于OCR识别设备数据并生成数据表单的方法及系统技术方案

技术编号:36707929 阅读:24 留言:0更新日期:2023-03-01 09:32
本发明专利技术公开了一种基于OCR识别设备数据并生成数据表单的方法及系统,涉及数据识别技术领域。该基于OCR识别设备数据并生成数据表单的方法,包括接收待处理图片信息,通过PCA提取特征码并送入SVM仿真测试,根据SVM输出项判断所属类别。本发明专利技术从多层次、多维度采集设备信息、收集设备实物数据,通过图像识别模型训练、经过图像处理、文字识别,特征数据提取和降维分类、数据计算等过程,提取到元数据并存储到数据库,通过动态生成表单的方式将数据渲染到信息化界面,从而解决了人工录入数据无法识别元数据、无法提取数据特征属性,导致标准分类元数据信息不准确,既浪费了人力成本也没有实现数据的分类的问题。现数据的分类的问题。现数据的分类的问题。

【技术实现步骤摘要】
一种基于OCR识别设备数据并生成数据表单的方法及系统


[0001]本专利技术涉及数据识别
,具体为一种基于OCR识别设备数据并生成数据表单的方法及系统。

技术介绍

[0002]OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
[0003]目前,对于一些需要采购大量的设备大型厂商采购单位,每台设备拥有自己的铭牌信息,传统的信息录入方式是由人工现场人工进行收货、验货、记录设备铭牌信息,人工分析将元数据录入数据存储系统。人工录入数据无法识别元数据、无法提取数据特征属性,导致标准分类元数据信息不准确,既浪费了人力成本也没有实现数据的分类。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种基于OCR识别设备数据并生成数据表单的方法及系统,解决了人工录入数据无法识别元数据、无法提取数据特征属性,导致标准分类元数据信息不准确,既浪费了人力成本也没有实现数据的分类的问题。
[0005]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于OCR识别设备数据并生成数据表单的方法,包括如下步骤:<br/>[0006]第一步:接收待处理图片信息,通过图片处理模块进行处理,之后通过PCA提取特征码并送入SVM仿真测试,根据SVM输出项判断所属类别,标识后输出分类样本数据;
[0007]第二步:扫描第一步中的分类样本数据,基于OCR技术获取模板字库,通过SnowNLP技术获取特征值,建立BiLSTM+Attention模型,将识别的数据命名,生成数据模型并输出;
[0008]第三步:接收数据模型,获取数据表头字段,判断当前类型的数据标准业务数据表是否存在,最终输出数据标准业务数据;
[0009]第四步:接收数据标准业务数据,动态生成数据标准表单。
[0010]进一步地,所述第一步中处理图片信息具体包括以下步骤:
[0011]S1、图片处理模块接收需要处理的包含设备铭牌信息的图片,所述图片通过拍照设备收集;
[0012]S2、基于PCA技术提取每个样本的特征码,将特征码送入进行SVM训练;
[0013]S3、基于PCA技术生成待分类图像的特征码,将待分类图像的特征码送入SVM仿真测试;
[0014]S4、根据SVM输出项判断所属类别,并将输出目标进行标识。
[0015]进一步地,所述S2中将特征码送入进行SVM训练具体包括以下步骤:
[0016]S21、根据样本特征码生成输入项,根据样本所属类别生成对应的输出项;
[0017]S22、将输入项与输出项送入SVM训练,学习图像特征。
[0018]进一步地,所述第二步中生成数据模型具体包括以下步骤:
[0019]S1、接收第一步中的分类样本数据并扫描;
[0020]S2、依据OCR技术获取模板字库,将获得的数据进行键值对的标注,标识出该模板中的Key值;
[0021]S3、通过SnowNLP技术进行训练,获取特征值;
[0022]S4、将S3中的数据,通过有监督的学习法,训练S3产生的数据集,计算出每个词条的值对应的数据类型,并将数据类型追加到词条中;
[0023]S5、基于S4的结果,建立BiLSTM+Attention模型并对数据进行分析,将识别出的数据进行命名,确定模型数据字段的key值,输出数据模型。
[0024]进一步地,所述S1接收分类样本数据并扫描具体包括:
[0025]S11、将所有图像按照顺序存进一个多维的数组,将图像数据的每一个像素除以255,转化为0到1的值;
[0026]S12、对图像进行均值方差归一化处理,每张图像减去数据值的均值并除以数据集的方差,另外对数据集进行一定的数据增强;
[0027]S13、通过OCR扫描技术识别图片文本信息。
[0028]进一步地,所述S2中模板字库包括标准字符和所述标准字符的特征;
[0029]所述S3中采用Character

Based Generative Model算法进行分词向量训练,提取信息共性数据;
[0030]所述S5中建立BiLSTM+Attention模型时,辅以Boson命名实体识别数据进行命名实体识别。
[0031]进一步地,所述第三步中判断当前类型的数据标准业务数据表是否存在具体包括如下步骤:
[0032]S1、接收模型数据,并获取该数据的表头字段;
[0033]S2、判断当前类型的数据标准业务数据表是否存在,若否,创建数据标准业务表,并录入数据库;
[0034]若是,校验业务数据是否存在,若否,录入数据库;
[0035]若否,废弃数据;
[0036]S3、输出数据标准业务数据。
[0037]进一步地,所述第四步动态生成数据标准表单具体包括以下步骤:
[0038]S1、通过调用Api接口的形式获取标准业务数据;
[0039]S2、通过UI组件将标准数据渲染到信息化系统并输出信息化表单。
[0040]进一步地,所述第三步中接收模型数据之前,将第二步生成的数据模型转换为json格式。
[0041]一种基于OCR识别设备数据并生成数据表单的系统,包括:
[0042]图片处理模块,通过图片处理模块接收待处理图片信息,通过PCA提取特征码并送入SVM仿真测试,根据SVM输出项判断所属类别,标识后输出分类样本数据;
[0043]数据模型生成模块,用于扫描分类样本数据,基于OCR技术获取模板字库,通过SnowNLP技术获取特征值,建立BiLSTM+Attention模型,将识别的数据命名,生成数据模型并输出;
[0044]业务模块,用于接收数据模型,获取数据表头字段,判断当前类型的数据标准业务数据表是否存在,最终输出数据标准业务数据;
[0045]WEB端,用于接收数据标准业务数据,动态生成数据标准表单。
[0046]本专利技术具有以下有益效果:
[0047]在数据中心实施场景下,从多层次、多维度采集设备信息、收集设备实物数据,通过图像识别模型训练、经过图像处理、文字识别,特征数据提取和降维分类、数据计算等过程,提取到元数据并存储到数据库,通过动态生成表单的方式将数据渲染到信息化界面,从而解决了现有技术中人工录入数据无法识别元数据、无法提取数据特征属性,导致标准分类元数据信息不准确,既浪费了人力成本也没有实现数据的分类的问题。
[0048]当然,实施本专利技术的任一产品并不一定需要同时达到以上所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:包括如下步骤:第一步:接收待处理图片信息,通过图片处理模块进行处理,之后通过PCA提取特征码并送入SVM仿真测试,根据SVM输出项判断所属类别,标识后输出分类样本数据;第二步:扫描第一步中的分类样本数据,基于OCR技术获取模板字库,通过SnowNLP技术获取特征值,建立BiLSTM+Attention模型,将识别的数据命名,生成数据模型并输出;第三步:接收数据模型,获取数据表头字段,判断当前类型的数据标准业务数据表是否存在,最终输出数据标准业务数据;第四步:接收数据标准业务数据,动态生成数据标准表单。2.根据权利要求1所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述第一步中处理图片信息具体包括以下步骤:S1、图片处理模块接收需要处理的包含设备铭牌信息的图片,所述图片通过拍照设备收集;S2、基于PCA技术提取每个样本的特征码,将特征码送入进行SVM训练;S3、基于PCA技术生成待分类图像的特征码,将待分类图像的特征码送入SVM仿真测试;S4、根据SVM输出项判断所属类别,并将输出目标进行标识。3.根据权利要求2所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述S2中将特征码送入进行SVM训练具体包括以下步骤:S21、根据样本特征码生成输入项,根据样本所属类别生成对应的输出项;S22、将输入项与输出项送入SVM训练,学习图像特征。4.根据权利要求1所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述第二步中生成数据模型具体包括以下步骤:S1、接收第一步中的分类样本数据并扫描;S2、依据OCR技术获取模板字库,将获得的数据进行键值对的标注,标识出该模板中的Key值;S3、通过SnowNLP技术进行训练,获取特征值;S4、将S3中的数据,通过有监督的学习法,训练S3产生的数据集,计算出每个词条的值对应的数据类型,并将数据类型追加到词条中;S5、基于S4的结果,建立BiLSTM+Attention模型并对数据进行分析,将识别出的数据进行命名,确定模型数据字段的key值,输出数据模型。5.根据权利要求4所述的一种基于OCR识别设备数据并生成数据表单的方法,其特征在于:所述S1接收分类样本数据并扫描具体包括:S11、将所有图像按照顺序存...

【专利技术属性】
技术研发人员:马艳龙
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1