一种模型训练方法、数据识别方法、装置及设备制造方法及图纸

技术编号：33288483 阅读：17 留言：0更新日期：2022-05-01 00:02

本说明书实施例提供了一种模型训练方法、数据识别方法、装置及设备，包括：获取多个训练样本，将多个训练样本输入至第一模型中，确定训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；并将多个训练样本输入至第二模型中，确定训练样本对应的字符序列中的每个字符位的字符为预设字符的第二预测概率；基于第一预测概率和训练样本的标签信息，从多个训练样本中选取第一数量的训练样本；并基于第二预测概率和训练样本的标签信息，从多个训练样本中选取第二数量的训练样本；基于第一数量的训练样本对第二模型进行训练，并基于第二数量的训练样本对第一模型进行训练，直到训练后的第一模型和/或训练后的第二模型满足相应的收敛条件。二模型满足相应的收敛条件。二模型满足相应的收敛条件。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、数据识别方法、装置及设备

[0001]本文件涉及计算机
，尤其涉及一种模型训练方法、数据识别方法、装置及设备。

技术介绍

[0002]在有监督学习过程中，往往需要大量的准确标注的样本。然而，在实际应用过程中，标记样本往往需要大量的人力，物力和财力。标注样本的质量在某种程度上还会受到人为主观因素的影响，导致实际获取的标注样本中可能含有一定比例的标签噪声(例如，某验证码正确的标签信息为657I,而人为在对该验证码进行标注的过程中很可能误将上述标签信息最后一位英文字母I标注成数字1，即将上述验证码标注成6571等)。如果在对神经网络进行训练的过程中，用于训练神经网络的样本中携带有标签噪声将会导致神经网络学习到标签噪声中的信息，给所训练的神经网络的性能带来干扰，并影响所训练神经网络识别的准确性。为此，需要提供一种有效提高模型训练准确度和模型性能的技术方案。

技术实现思路

[0003]本说明书实施例的目的是提供一种模型训练方法、数据识别方法、装置及设备，以提供一种能够有效提高模型训练准确度和模型性能的技术方案。
[0004]为了解决上述技术问题，本说明书实施例是这样实现的：
[0005]第一方面，本说明书实施例提供了一种模型训练方法，包括：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列。将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，所述方法包括：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；并将所述多个训练样本输入至第二模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第二预测概率，所述第一模型和所述第二模型是由同一个基准模型确定；基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；并基于所述第二预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第二数量的训练样本；基于所述第一数量的训练样本对所述第二模型进行训练，并基于所述第二数量的训练样本对所述第一模型进行训练；如果训练后的所述第一模型和/或训练后的所述第二模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型和所述第二模型进行训练的步骤，直到训练后的所述第一模型和/或训练后的所述第二模型满足相应的收敛条件。2.根据权利要求1所述的方法，所述基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本，包括：基于所述训练样本的标签信息，确定所述训练样本对应的字符序列中的每个字符位的字符为第一字符；基于所述训练样本对应的字符序列中的每个字符位的字符为第一字符，以及所述第一预测概率，确定所述训练样本对应的字符序列的置信度，所述置信度用于表征所述训练样本的标签信息的准确程度；基于所述训练样本对应的字符序列的置信度，从所述多个训练样本中选取第一数量的训练样本。3.根据权利要求2所述的方法，所述基于所述训练样本对应的字符序列的置信度，从所述多个训练样本中选取第一数量的训练样本，包括：从所述多个训练样本中确定所述置信度大于预设置信度阈值的训练样本，并从所述置信度大于预设置信度阈值的训练样本中选取第一数量的训练样本。4.根据权利要求2
‑
3任一项所述的方法，所述基于所述训练样本对应的字符序列中的每个字符位的字符为第一字符，以及所述第一预测概率，确定所述训练样本对应的字符序列的置信度，包括：针对所述训练样本对应的字符序列中的目标字符位，从所述第一预测概率中获取所述目标字符位为所述第一字符的字符预测概率，所述目标字符位为所述训练样本对应的字符序列中的任一字符位；将所述训练样本对应的字符序列中的多个字符位的字符预测概率的乘积作为所述训练样本对应的字符序列的置信度。5.根据权利要求1所述的方法，所述字符序列中包含的字符包括中文字符、字母、数字、符号和图形中的一种或多种。
6.根据权利要求1所述的方法，所述基准模型为基于一种或多种不同的预设神经网络算法构建的模型。7.根据权利要求1所述的方法，所述训练样本中还包括与所述字符序列不相关的噪声数据，所述噪声数据包括中文字符、字母、数字、符号、图形、线条中的一种或多种。8.一种模型训练方法，所述方法包括：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；基于所述第一数量的训练样本对所述第一模型进行训练，如果训练后的所述第一模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型进行训练的步骤，直到训练后的所述第一模型满足相应的收敛条件。9.一种数据识别方法，所述方法包括：获取待识别的数据，所述数据中包括由多个字符构成的字符序列；将所述待识别的数据输入至第一模型或第二模型中，输出与所述数据对应的字符序列，其中，所述第一模型为通过训练样本预先训练的模型，所述第二模型为通过训练样本预先训练的模型；所述第一模型和所述第二模型的训练过程包括：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；并将所述多个训练样本输入至第二模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第二预测概率，所述第一模型和所述第二模型是由同一个基准模型确定；基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；并基于所述第二预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第二数量的训练样本；基于所述第一数量的训练样本对所述第二模型进行训练，并基于所述第二数量的训练样本对所述第一模型进行训练；如果训练后的所述第一模型和/或训练后的所述第二模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型和所述第二模型进行训练的步骤，直到训练后的所述第一模型和/或训练后的所述第二模型满足相应的收敛条件；或者，获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至第一模型或第二模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；基于所述第一数量的训练样本对所述第一模型或第二模型进行训练，如果训练后的所述第一模型或第二模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型或第二模型进行训练的步骤，直到训练后的
所述第一模型或第二模型满足相应的收敛条件。10.根据权利要求9所述的方法，所述待识别的数据中还包括与所述字符序列不相关的噪声数据，所述噪声数据包括中文字符、字母、数字、符号、图形、线条中的一种或多种。11.一种模型训练方法，应用于区块链系统，所述方法包括：接收第一设备发送的模型训练规则信息，基于所述模型训练规则信息生成第一智能合约，并将所述第一智能合约部署于所述区块链系统中；在获取到所述第一设备发送的模型训练请求时，基于所述第一智能合约执行以下处理：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至基于所述第一智能合约预先训练的第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；并将所述多个训练样本输入至基于所述第一智能合约预先训练的第二模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第二预测概率，所述第一模型和所述第二模型是由同一个基准模型确定；基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；并基于所述第二预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第二数量的训练样本；基于所述第一数量的训练样本对所述第二模型进行训练，并基于所述第二数量的训练样本对所述第一模型进行训练；如果训练后的所述第一模型和/或训练后的所述第二模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型和所述第二模型进行训练的步骤，直到训练后的所述第一模型和/或训练后的所述第二模型满足相应的收敛条件。12.一种模型训练装置，所述装置包括：第一获取模块，获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；第一处理模块，将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；并将所述多个训练样本输入至第二模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第二预测概率，所述第一模型和所述第二模型是由同一个基准模型确定；第一选取模块，基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；并基于所述第二预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第二数量的训练样本；第一训练模块，基于所述第一数量的训练样本对所述第二模型进行训练，并基于所述第二数量的训练样本对所述第一模型进行训练；如果训练后的所述第一模型和/或训练后的所述第二模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型和所述第二模型进行训练的步骤，直到训练后的所述第一模型和/或训练后的所述第
二模型满足相应的收敛条件。13.一种模型训练装置，所述装置包括：第二获取模块，获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；第二处理模块，将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字符为预设字符的第一预测概率；第二选取模块，基于所述第一预测概率和所述训练样本的标签信息，从所述多个训练样本中选取第一数量的训练样本；第二训练模块，基于所述第一数量的训练样本对所述第一模型进行训练，如果训练后的所述第一模型不满足相应的收敛条件，则重新执行获取多个训练样本，以及对所述第一模型进行训练的步骤，直到训练后的所述第一模型满足相应的收敛条件。14.一种数据识别装置，所述装置包括：第三获取模块，获取待识别的数据，所述数据中包括由多个字符构成的字符序列；输出模块，将所述待识别的数据输入至第一模型或第二模型中，输出与所述数据对应的字符序列，其中，所述第一模型为通过训练样本预先训练的模型，所述第二模型为通过训练样本预先训练的模型；所述第一模型和所述第二模型的训练过程包括：获取多个训练样本，其中，所述训练样本中包括由多个字符构成的字符序列；将所述多个训练样本输入至第一模型中，对所述训练样本对应的字符序列中的每个字符位的字符进行预测，确定所述训练样本对应的字符序列中的每个字符位的字...

【专利技术属性】
技术研发人员：王可，孟昌华，王维强，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人