文本检错模型训练方法、文本检错方法及装置制造方法及图纸

技术编号：34275605 阅读：59 留言：0更新日期：2022-07-24 17:04

本申请提供文本检错模型训练方法、文本检错方法及装置，其中所述文本检错模型训练方法包括：获取测试集，其中，测试集包括多个无标签的测试文本，将各测试文本分别输入预先训练的标签确定模型，获得各测试文本对应的错误标签，根据各测试文本以及各测试文本对应的错误标签，生成目标样本集，利用目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型，通过根据各测试文本以及各测试文本对应的错误标签，生成目标样本集，扩充了初始文本检错模型的训练数据，提高了训练得到的文本检错模型的准确性，进一步提高了基于文本检错模型进行文本检错的准确性。错模型进行文本检错的准确性。错模型进行文本检错的准确性。

Text error detection model training method, text error detection method and device

全部详细技术资料下载

【技术实现步骤摘要】
文本检错模型训练方法、文本检错方法及装置

[0001]本申请涉及计算机
，特别涉及一种文本检错模型训练方法。本申请同时涉及一种文本检错模型训练装置，一种文本检错方法，一种文本检错装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，日常办公中对文本检错越来越多地依赖于互联网进行，文本检错是对文本进行智能检测，从而获得该文本中的错误数据，可以有效提高办公效率。
[0003]当前，通常采用基于规则匹配的方法进行文本检错：人工预先搜集大量的错字、正确字构建规则库，将待处理文本与预先构建的规则库进行匹配，获得待处理文本中的错字。然而，上述基于规则匹配的方法中，需要人工设置大量规则，人工势必会引入不确定因素，导致文本检错的准确性较差。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种文本检错模型训练方法及一种文本检错方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本检错模型训练装置，一种文本检错装置、一种计算设备，以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面，提供了一种文本检错模型训练方法，包括：
[0006]获取测试集，其中，测试集包括多个无标签的测试文本；
[0007]将各测试文本分别输入预先训练的标签确定模型，获得各测试文本对应的错误标签；
[0008]根据各测试文本以及各测试文本对应的错误标签，生成目标样本集；
[0009]利用目标样本集对初始文本检错模型进行...

【技术保护点】

【技术特征摘要】
1.一种文本检错模型训练方法，其特征在于，包括：获取测试集，所述测试集包括多个无标签的测试文本；将各测试文本分别输入预先训练的标签确定模型，获得所述各测试文本对应的错误标签；根据所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集；利用所述目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型。2.根据权利要求1所述的方法，其特征在于，所述标签确定模型的训练方式，包括：获取初始样本集，所述初始样本集包括多个样本文本以及各样本文本对应的错误标签；提取第一样本文本，将所述第一样本文本输入初始标签确定模型，获得所述第一样本文本的第一预测错误信息，其中，所述第一样本文本为所述初始样本集中的任一样本文本；根据所述第一预测错误信息和所述第一样本文本对应的错误标签，计算第一损失值；若所述第一损失值大于第一预设阈值，则调整所述初始标签确定模型的模型参数，并返回执行所述提取第一样本文本，将所述第一样本文本输入初始标签确定模型，获得所述第一样本文本的第一预测错误信息的步骤；若所述第一损失值小于或等于所述第一预设阈值，则停止训练，获得训练后的标签确定模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集的步骤，包括：在所述初始样本集中，添加所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集。4.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；分别对所述多个样本文本进行图片转换，获得所述多个样本文本分别对应的样本图片；识别各样本图片的文本内容；针对任一样本图片，将该样本图片的文本内容与该样本图片对应的样本文本进行对比，确定该样本图片的文本内容对应的错误标签；根据所述各样本图片的文本内容以及各样本图片的文本内容对应的错误标签，生成初始样本集。5.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；利用预设音频转换工具，将所述多个样本文本分别转换为对应的样本音频；识别各样本音频的文本内容；针对任一样本音频，将该样本音频的文本内容与该样本音频对应的样本文本进行对比，确定该样本音频的文本内容对应的错误标签；根据所述各样本音频的文本内容以及各样本音频的文本内容对应的错误标签，生成初始样本集。
6.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；将所述多个样本文本和预设错误数据库进行匹配，对所述多个样本文本分别进行随机错字替换，生成各样本文本分别对应的错字替换文...

【专利技术属性】
技术研发人员：赵硕丰，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人