模型训练方法、文本处理方法、装置和电子设备制造方法及图纸

技术编号：32924357 阅读：12 留言：0更新日期：2022-04-07 12:15

本申请公开了一种模型训练方法、文本处理方法、装置以及电子设备，属于计算机技术领域。其中模型训练方法包括：获取训练文本，所述训练文本包括被错误使用的标点字符；根据所述训练文本，生成目标序列，所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列；基于所述训练文本，生成第一初始掩码矩阵；对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得第一目标掩码矩阵，所述训练文本包括第一目标子文本；根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练，获得目标模型，所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。误使用的标点字符进行校正。误使用的标点字符进行校正。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、文本处理方法、装置和电子设备

[0001]本申请属于人工智能
，具体涉及一种模型训练方法、文本处理方法、装置和电子设备。

技术介绍

[0002]目前针对文本中标点符号校正的方法是先将文本中的标点符号去除掉，然后使用一些机器学习、深度学习等模型方法，预测出文本中标点符号出现的位置以及类型，然后再与人工之前标注的标点符号进行对比，确认两者之间差异的标点符号，最后再人工校验。
[0003]可见目前的符号校正方法，过程繁琐，人工参与度高，校正效率低。

技术实现思路

[0004]本申请实施例的目的是提供一种模型训练方法、文本处理方法、装置和电子设备，能够解决目前技术对文本中的符号进行校正时，校正效率较低的问题。
[0005]第一方面，本申请实施例提供了一种模型训练方法，该方法包括：
[0006]获取训练文本，所述训练文本包括被错误使用的标点字符；
[0007]根据所述训练文本，生成目标序列，所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列；
[0008]基于所述训练文本，生成第一初始掩码矩阵；
[0009]对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得第一目标掩码矩阵，所述训练文本包括第一目标子文本；
[0010]根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练，获得目标模型，所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。
[0011]第二方面，本...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取训练文本，所述训练文本包括被错误使用的标点字符；根据所述训练文本，生成目标序列，所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列；基于所述训练文本，生成第一初始掩码矩阵；对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得第一目标掩码矩阵，所述训练文本包括第一目标子文本；根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练，获得目标模型，所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述训练文本，生成目标序列，包括：获取词汇表，所述词汇表包括字符与第一标号之间的对应关系，以及转换操作与第二标号之间的对应关系，所述字符包括文字字符和标点字符；根据所述词汇表，将所述训练文本转换成所述目标序列。3.根据权利要求2所述的模型训练方法，其特征在于，所述第一标号包括第一子标号和第二子标号，所述第二标号包括第三子标号；所述根据所述词汇表，将所述训练文本转换成所述目标序列，包括：根据所述词汇表，将所述训练文本中的文字字符转换成所述第一子标号；将所述训练文本中被错误使用的标点字符转换成所述第二子标号，获得所述目标序列，所述词汇表中第一标点字符对应的标号为所述第二子标号，所述第一标点字符为对所述被错误使用的标点字符进行校正后获得的字符；将所述训练文本中被正确使用的标点字符转换成所述第三子标号，其中，所述第三子标号为所述词汇表中目标转换操作对应的标号，被正确使用的标点字符对应所述目标转换操作。4.根据权利要求1所述的模型训练方法，其特征在于，所述初始模型包括编码器和解码器，所述解码器使用第一目标掩码矩阵进行解码。5.根据权利要求4所述的模型训练方法，其特征在于，所述第一初始掩码矩阵包括N行N列，N为所述训练文本的文字字符和标点字符个数之和，N为正整数；所述对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得第一目标掩码矩阵，包括：获取标点位置信息，所述标点位置信息包括所述训练文本中每个标点字符在所述训练文本中的位置；根据所述标点位置信息，对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得所述第一目标掩码矩阵；其中，所述第一目标掩码矩阵中第一目标子文本对应的第一目标位置的数值为第一目标值，所述第一目标子文本为所述训练文本中除第二目标子文本之外的文本，所述第二目标子文本为所述训练文本中位于第二标点字符之前的目标字符以及所述第二标点字符，所述第二标点字符为所述训练文本中的任意一个标点字符；
所述第一目标掩码矩阵中第二目标子文本对应的第二目标位置的数值为第二目标值。6.一种文本处理方法，其特征在于，所述方法包括：获取待处理文本，所述待处理文本包括标点字符；根据所述待处理文本，生成第二初始掩码矩阵；对所述第二初始掩码矩阵中的第三目标子文本进行隐藏，获得第二目标掩码矩阵，所述待处理文本包括第三目标子文本；根据所述待处理文本和所述第二目标掩码矩阵，利用权利要求1
‑
5中任一项所述的目标模型对所述待处理文本中被错误使用的标点字符进行校正，得到目标文本。7.一种模型训练装置，其特征在于，所述装置包括：第一获取模块，用于获取训练文本，所述训练文本包括被错误使用的标点字符；第一生成模块，用于根据所述训练文本，生成目标序列，所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列；第二生成模块，用于基于所述训练文本，生成第一初始掩码矩阵；第二获取模块，用于对所述第一初始掩码矩阵中的第一目标子文本进行隐藏，获得第一...

【专利技术属性】
技术研发人员：王晓明，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人