一种数据识别模型的训练方法和系统技术方案

技术编号：33772671 阅读：32 留言：0更新日期：2022-06-12 14:25

本发明专利技术适用于数据识别技术领域，尤其涉及一种数据识别模型的训练方法和系统，所述方法包括：获取固定训练数据集；对固定训练数据集中包含的全部文字进行相互比对，得到分类文字组；统计每一个分类文字组内文字的笔画数量，对分类文字组内的文字进行排序；对分类文字组的所有文字进行变形处理，得到变形文字数据集；将变形文字数据集和固定训练数据集整合得到辅助训练数据集，对数据识别模型进行训练。本发明专利技术通过对原始训练数据进行辅助扩充，从而生成额外的辅助训练数据，通过辅助训练数据能够对与原始训练数据相近的数据进行涵盖，以实现对数据识别模型进行全面训练的目的，使得数据识别模型能够在数据识别过程中，具有更高的识别精度。识别精度。识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据识别模型的训练方法和系统

[0001]本专利技术属于数据识别
，尤其涉及一种数据识别模型的训练方法和系统。

技术介绍

[0002]随着网络技术的发展，数据识别已经成为了实现不同计算机功能的不可或缺的技术手段。所谓数据识别，是利用计算机技术对待甄别的数据进行分析，从而确定该数据包含的内容。
[0003]在当前的数据识别模型中，就有进行文字识别的。其通过对数字化图片进行分析，从而确定数字化图片上包含的文字信息，因此，随着数据识别技术的不断发展，文字识别的精度也是越来越高。
[0004]但是，在数据识别模型进行应用之前，都需要对其进行训练，现有的训练方式主要为从固定的训练数据集中挑选数据供数据识别模型进行识别，并根据识别结果进行实时校正，最终得到通过训练的数据识别模型，这样得到的数据识别模型对与训练数据相同的数据识别精度高，但是一旦需要识别的数据与训练数据不同时，其识别度将会大大降低。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种数据识别模型的训练方法，旨在解决
技术介绍
...

【技术保护点】

【技术特征摘要】
1.一种数据识别模型的训练方法，其特征在于，所述方法包括：获取固定训练数据集，所述固定训练数据集中包含全部文字的同一种字体信息；对固定训练数据集中包含的全部文字进行相互比对，得到分类文字组，所述分类文字组中至少包含一个文字；统计每一个分类文字组内文字的笔画数量，按照笔画数量对分类文字组内的文字进行排序；对分类文字组的所有文字进行变形处理，得到变形文字数据集，所述变形文字数据集中包含每个文字与变形文字之间的对应关系；将变形文字数据集和固定训练数据集整合得到辅助训练数据集，利用辅助训练数据集对数据识别模型进行训练。2.根据权利要求1所述的数据识别模型的训练方法，其特征在于，所述对固定训练数据集中包含的全部文字进行相互比对，得到分类文字组的步骤，具体包括：统计固定训练数据集中包含的全部文字的笔画数量，并按照笔画数量对文字进行分类，得到笔画分类文字组，所述笔画分类文字组内文字的笔画相同；按照笔画数量对笔画分类文字组编号，每次选择一组笔画分类文字组内的一个文字，将其与该笔画分类文字组内的其他文字进行比较，确定区别笔画特征；将笔画区别特征数量小于预设值的文字归为一类，得到分类文字组。3.根据权利要求1所述的数据识别模型的训练方法，其特征在于，所述统计每一个分类文字组内文字的笔画数量，按照笔画数量对分类文字组内的文字进行排序的步骤，具体包括：统计每一个分类文字组内每一个文字的笔画数量；按照笔画数量对分类文字组内的文字进行排序。4.根据权利要求1所述的数据识别模型的训练方法，其特征在于，所述对分类文字组的所有文字进行变形处理，得到变形文字数据集的步骤，具体包括：每次从预设变形数据库中读取一种文字变形方案；根据文字变形方案对分类文字组的所有文字进行对应的变形处理，得到变形文字组；重复上述步骤，直到预设变形数据库中所有文字变形方案均被读取，生成变形文字数据集。5.根据权利要求1所述的数据识别模型的训练方法，其特征在于，所述利用辅助训练数据集对数据识别模型进行训练的步骤，具...

【专利技术属性】
技术研发人员：王奋成，吴思亮，
申请(专利权)人：湖南鸿钧智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人