基于机器学习对数据进行识别的方法及装置制造方法及图纸

技术编号:39817079 阅读:12 留言:0更新日期:2023-12-22 19:36
本发明专利技术公开了一种基于机器学习对数据进行识别的方法及装置,该方法包括:通过将获取到的针对预设数据识别需求的训练数据集输入到与预设数据识别需求匹配的机器学习类的数据识别模型中,对数据识别模型进行训练,能够训练出准确可靠的数据识别模型,并将训练好的目标数据识别模型部署到对应的框架中进行应用,能够提高对待识别数据的识别准确性及识别精度;以及通过将目标数据识别模型部署到预设框架中,能够提高目标数据识别模型的可迁移性,更好地适应相关工作环境

【技术实现步骤摘要】
基于机器学习对数据进行识别的方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于机器学习对数据进行识别的方法及装置


技术介绍

[0002]在现有技术中,往往需要使用传统的
OCR
或者第三方厂家的
SDK
进行图像

文字识别开发,以实现字符等数据的识别

图像配准等功能

但是,在相对复杂的环境下,如对相对模糊的图片或文本进行识别时,传统的
OCR
或第三方厂家的
SDK
的识别准确率较低

因此,提出一种能够提高数据识别准确率的技术方案显得尤为重要


技术实现思路

[0003]本专利技术提供了一种基于机器学习对数据进行识别的方法及装置,能够有利于提高对数据进行识别的识别精度和适用的数据的范围,提高了对数据进行识别的准确性

[0004]为了解决上述技术问题,本专利技术第一方面公开了一种基于机器学习对数据进行识别的方法,所述方法包括:获取针对预设数据识别需求的训练数据集,所述训练数据集的类型包括文本类型和
/
或图像类型;
[0005]将所述训练数据集输入到预先确定出的与所述预设数据识别需求匹配的数据识别模型,对所述数据识别模型进行训练,得到训练完毕的目标数据识别模型,所述数据识别模型为机器学习类型的模型;
[0006]将所述目标数据识别模型部署到预设框架中;
[0007]通过部署到所述预设框架中的所述目标数据识别模型,对待识别数据进行识别,得到与所述预设数据识别需求对应的目标信息

[0008]作为一种可选的实施方式,在本专利技术第一方面中,根据所述预设数据识别需求和所述训练数据集的参数,确定数据识别模型的模型框架,所述模型框架包括卷积神经网络框架

循环神经网络框架和转移学习框架中的一种;
[0009]根据所述训练数据集的参数,确定所述数据识别模型的批大小,其中,所述训练数据集的参数包括数据类型

数据大小以及数据数量中的一种或多种;
[0010]根据所述数据识别模型的模型框架

所述训练数据集的参数以及所述数据识别模型的批大小,确定所述数据识别模型的初始学习率;
[0011]根据所述模型框架

所述批大小以及所述初始学习率,生成所述数据识别模型,作为与所述预设数据识别需求匹配的数据识别模型

[0012]作为一种可选的实施方式,在本专利技术第一方面中,将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合,所述验证数据集的类型包括文本类型和
/
或图像类型;
[0013]根据所述预设数据识别需求对应的数据识别效果,为所述性能参数集合中的每个性能参数添加权重系数;
[0014]根据所述目标数据识别模型的性能参数集合以及所述性能参数集合中的每个性能参数的权重系数,计算所述目标数据识别模型综合性能值;
[0015]根据预设的综合性能阈值评估所述目标数据识别模型的综合性能值是否达标,得到评估结果;
[0016]当所述评估结果表示所述目标数据识别模型的综合性能值达标时,执行所述的将所述目标数据识别模型部署到预设框架中的操作

[0017]作为一种可选的实施方式,在本专利技术第一方面中,在所述将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合之前,所述方法还包括:
[0018]根据所述预设数据识别需求和所述目标数据识别模型的应用场景,确定与所述预设数据识别需求和所述目标数据识别模型的应用场景相匹配的数据集,作为所述验证数据集;
[0019]确定所述验证数据集的参数,并根据所述预设数据识别需求和所述验证数据集的参数,确定需要计算的性能参数类型,所述性能参数类型包括准确率

精确率

召回率
、F1

、ROC
曲线
、AUC
值以及混淆矩阵中的至少一种;
[0020]其中,将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合,包括:
[0021]将所述验证数据集及性能参数类型输入到所述目标数据识别模型中,计算与所述性能参数类型匹配的参数集合,作为所述目标数据识别模型的性能参数集合

[0022]作为一种可选的实施方式,在本专利技术第一方面中,在所述获取针对预设数据识别需求的训练数据集之后,所述方法还包括:
[0023]根据所述预设数据识别需求和所述训练数据集的参数,对所述训练数据集中的数据进行降噪处理,得到第一训练数据集;
[0024]对所述第一训练数据集执行数据增强操作,得到第二训练数据集,所述数据增强操作包括裁剪

旋转

缩放以及平移中的至少一种;
[0025]根据所述预设数据识别需求,对所述第二训练数据集进行标注,得到目标训练数据集;
[0026]所述将所述训练数据集输入到预先确定出的与所述预设数据识别需求匹配的数据识别模型,对所述数据识别模型进行训练,得到训练完毕的目标数据识别模型,包括:
[0027]将所述目标训练数据集输入到预先确定出的与所述预设数据识别需求匹配的数据识别模型,对所述数据识别模型进行训练,得到训练完毕的目标数据识别模型

[0028]作为一种可选的实施方式,在本专利技术第一方面中,当所述评估结果表示所述目标数据识别模型的综合性能值不达标时,所述方法还包括:
[0029]确定所述目标数据识别模型所需应用的应用场景的场景参数,所述应用场景的场景参数包括所述应用场景中待识别数据的数据量

该待识别数据的数据类型

该待识别数据的并发量

该待识别数据的数据反馈时长要求中的一种或多种;
[0030]分析所述应用场景的场景参数,得到与所述应用场景匹配的数据识别需求参数;
[0031]确定所述目标数据识别模型的数据类型;
[0032]根据所述数据识别需求参数和所述目标数据识别模型的数据类型,对所述目标数
据识别模型进行优化,并将优化后的目标数据识别模型更新为所述目标数据识别模型,以及触发执行所述的将所述目标数据识别模型部署到预设框架中的操作

[0033]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述数据识别需求参数和所述目标数据识别模型的数据类型,对所述目标数据识别模型进行优化,并将优化后的目标数据识别模型更新为所述目标数据识别模型,包括:
[0034]根据所述数据识别需求参数,确定所述目标数据识别模型的每个层的冗余系数;
[0035]将所述目标数据识别模型的每个层的冗余系数与预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于机器学习对数据进行识别的方法,其特征在于,所述方法包括:获取针对预设数据识别需求的训练数据集,所述训练数据集的类型包括文本类型和
/
或图像类型;将所述训练数据集输入到预先确定出的与所述预设数据识别需求匹配的数据识别模型,对所述数据识别模型进行训练,得到训练完毕的目标数据识别模型,所述数据识别模型为机器学习类型的模型;将所述目标数据识别模型部署到预设框架中;通过部署到所述预设框架中的所述目标数据识别模型,对待识别数据进行识别,得到与所述预设数据识别需求对应的目标信息
。2.
根据权利要求1所述的基于机器学习对数据进行识别的方法,其特征在于,所述方法还包括:根据所述预设数据识别需求和所述训练数据集的参数,确定数据识别模型的模型框架,所述模型框架包括卷积神经网络框架

循环神经网络框架和转移学习框架中的一种;根据所述训练数据集的参数,确定所述数据识别模型的批大小,其中,所述训练数据集的参数包括数据类型

数据大小以及数据数量中的一种或多种;根据所述数据识别模型的模型框架

所述训练数据集的参数以及所述数据识别模型的批大小,确定所述数据识别模型的初始学习率;根据所述模型框架

所述批大小以及所述初始学习率,生成所述数据识别模型,作为与所述预设数据识别需求匹配的数据识别模型
。3.
根据权利要求1或2所述的基于机器学习对数据进行识别的方法,其特征在于,所述方法还包括:将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合,所述验证数据集的类型包括文本类型和
/
或图像类型;根据所述预设数据识别需求对应的数据识别效果,为所述性能参数集合中的每个性能参数添加权重系数;根据所述目标数据识别模型的性能参数集合以及所述性能参数集合中的每个性能参数的权重系数,计算所述目标数据识别模型综合性能值;根据预设的综合性能阈值评估所述目标数据识别模型的综合性能值是否达标,得到评估结果;当所述评估结果表示所述目标数据识别模型的综合性能值达标时,执行所述的将所述目标数据识别模型部署到预设框架中的操作
。4.
根据权利要求3所述的基于机器学习对数据进行识别的方法,其特征在于,在所述将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合之前,所述方法还包括:根据所述预设数据识别需求和所述目标数据识别模型的应用场景,确定与所述预设数据识别需求和所述目标数据识别模型的应用场景相匹配的数据集,作为所述验证数据集;确定所述验证数据集的参数,并根据所述预设数据识别需求和所述验证数据集的参数,确定需要计算的性能参数类型,所述性能参数类型包括准确率

精确率

召回率
、F1

、ROC
曲线
、AUC
值以及混淆矩阵中的至少一种;
其中,将验证数据集输入到所述目标数据识别模型中,计算所述目标数据识别模型的性能参数集合,包括:将所述验证数据集及性能参数类型输入到所述目标数据识别模型中,计算与所述性能参数类型匹配的参数集合,作为所述目标数据识别模型的性能参数集合
。5.
根据权利要求1或2所述的基于机器学习对数据进行识别的方法,其特征在于,在所述获取针对预设数据识别需求的训练数据集之后,所述方法还包括:根据所述预设数据识别需求和所述训练数据集的参数,对所述训练数据集中的数据进行降噪处理,得到第一训练数据集;对所述第一训练数据集执行数据增强操作,得到第二训练数据集,所述数据增强操作包括裁剪

旋转

【专利技术属性】
技术研发人员:张清森陈俊灵易启邦吕旭明
申请(专利权)人:深圳市绿联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1