模型训练方法、文本处理方法、装置和电子设备制造方法及图纸

技术编号:32924357 阅读:12 留言:0更新日期:2022-04-07 12:15
本申请公开了一种模型训练方法、文本处理方法、装置以及电子设备,属于计算机技术领域。其中模型训练方法包括:获取训练文本,所述训练文本包括被错误使用的标点字符;根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;基于所述训练文本,生成第一初始掩码矩阵;对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一目标掩码矩阵,所述训练文本包括第一目标子文本;根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练,获得目标模型,所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。误使用的标点字符进行校正。误使用的标点字符进行校正。

【技术实现步骤摘要】
模型训练方法、文本处理方法、装置和电子设备


[0001]本申请属于人工智能
,具体涉及一种模型训练方法、文本处理方法、装置和电子设备。

技术介绍

[0002]目前针对文本中标点符号校正的方法是先将文本中的标点符号去除掉,然后使用一些机器学习、深度学习等模型方法,预测出文本中标点符号出现的位置以及类型,然后再与人工之前标注的标点符号进行对比,确认两者之间差异的标点符号,最后再人工校验。
[0003]可见目前的符号校正方法,过程繁琐,人工参与度高,校正效率低。

技术实现思路

[0004]本申请实施例的目的是提供一种模型训练方法、文本处理方法、装置和电子设备,能够解决目前技术对文本中的符号进行校正时,校正效率较低的问题。
[0005]第一方面,本申请实施例提供了一种模型训练方法,该方法包括:
[0006]获取训练文本,所述训练文本包括被错误使用的标点字符;
[0007]根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;
[0008]基于所述训练文本,生成第一初始掩码矩阵;
[0009]对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一目标掩码矩阵,所述训练文本包括第一目标子文本;
[0010]根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练,获得目标模型,所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。
[0011]第二方面,本申请实施例提供了一种文本处理方法,所述方法包括:
[0012]获取待处理文本,所述待处理文本包括标点字符;
[0013]根据所述待处理文本生成第二初始掩码矩阵;
[0014]对所述第二初始掩码矩阵中的第三目标子文本进行隐藏,获得第二目标掩码矩阵,所述待处理文本包括第三目标子文本;
[0015]根据所述待处理文本和所述第二目标掩码矩阵,利用目标模型对所述待处理文本中被错误使用的标点字符进行校正,得到目标文本。
[0016]第三方面,本申请实施例提供了一种模型训练装置,包括:
[0017]第一获取模块,用于获取训练文本,所述训练文本包括被错误使用的标点字符;
[0018]第一生成模块,用于根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;
[0019]第二生成模块,用于基于所述训练文本,生成第一初始掩码矩阵;
[0020]第二获取模块,用于对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获
得第一目标掩码矩阵,所述训练文本包括第一目标子文本;
[0021]第三获取模块,用于根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练,获得目标模型,所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。
[0022]第四方面,本申请实施例提供了一种文本处理装置,所述装置包括:
[0023]第一获取模块,用于获取待处理文本,所述待处理文本包括标点字符;
[0024]生成模块,用于根据所述待处理文本生成第二初始掩码矩阵;
[0025]第二获取模块,用于对所述第二初始掩码矩阵中的第三目标子文本进行隐藏,获得第二目标掩码矩阵,所述待处理文本包括第三目标子文本;
[0026]第三获取模块,用于根据所述待处理文本和所述第二目标掩码矩阵,利用目标模型对所述待处理文本中被错误使用的标点字符进行校正,得到目标文本。
[0027]第五方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
[0028]第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。
[0029]第七方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面或第二方面所述的方法。
[0030]在本申请实施例中,获取训练文本,所述训练文本包括被错误使用的标点字符;根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;基于所述训练文本,生成第一初始掩码矩阵;对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一目标掩码矩阵,所述训练文本包括第一目标子文本;根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练,获得目标模型,所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。通过上述方法可以获得对输入文本,即输入至所述目标模型的文本中被错误使用的标点字符进行校正的目标模型,对文本的标点符号进行校正时,由于采用目标模型进行校正,人工参与度低,可以提高校正效率。
附图说明
[0031]图1是本申请实施例提供的模型训练方法的一流程图;
[0032]图2a是本申请实施例提供的编码块的结构示意图;
[0033]图2b是本申请实施例提供的一种掩码处理过程示意图;
[0034]图2c是本申请实施例提供的另一种掩码处理过程示意图;
[0035]图3是本申请实施例提供的文本处理方法的一流程图;
[0036]图4是本申请实施例提供的文本处理方法的又一流程图;
[0037]图5是本申请实施例提供的模型训练装置的结构图;
[0038]图6是本申请实施例提供的文本处理装置的结构图;
[0039]图7是本申请实施例提供的电子设备的一结构图;
[0040]图8是本申请实施例的电子设备的硬件结构示意图。
具体实施方式
[0041]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0042]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0043]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法进行详细地说明。
[0044]图1为本申请实施例提供的模型训练方法的流程图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取训练文本,所述训练文本包括被错误使用的标点字符;根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;基于所述训练文本,生成第一初始掩码矩阵;对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一目标掩码矩阵,所述训练文本包括第一目标子文本;根据所述训练文本、所述目标序列和所述第一目标掩码矩阵对初始模型进行训练,获得目标模型,所述目标模型用于对输入至所述目标模型的文本中被错误使用的标点字符进行校正。2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述训练文本,生成目标序列,包括:获取词汇表,所述词汇表包括字符与第一标号之间的对应关系,以及转换操作与第二标号之间的对应关系,所述字符包括文字字符和标点字符;根据所述词汇表,将所述训练文本转换成所述目标序列。3.根据权利要求2所述的模型训练方法,其特征在于,所述第一标号包括第一子标号和第二子标号,所述第二标号包括第三子标号;所述根据所述词汇表,将所述训练文本转换成所述目标序列,包括:根据所述词汇表,将所述训练文本中的文字字符转换成所述第一子标号;将所述训练文本中被错误使用的标点字符转换成所述第二子标号,获得所述目标序列,所述词汇表中第一标点字符对应的标号为所述第二子标号,所述第一标点字符为对所述被错误使用的标点字符进行校正后获得的字符;将所述训练文本中被正确使用的标点字符转换成所述第三子标号,其中,所述第三子标号为所述词汇表中目标转换操作对应的标号,被正确使用的标点字符对应所述目标转换操作。4.根据权利要求1所述的模型训练方法,其特征在于,所述初始模型包括编码器和解码器,所述解码器使用第一目标掩码矩阵进行解码。5.根据权利要求4所述的模型训练方法,其特征在于,所述第一初始掩码矩阵包括N行N列,N为所述训练文本的文字字符和标点字符个数之和,N为正整数;所述对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一目标掩码矩阵,包括:获取标点位置信息,所述标点位置信息包括所述训练文本中每个标点字符在所述训练文本中的位置;根据所述标点位置信息,对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得所述第一目标掩码矩阵;其中,所述第一目标掩码矩阵中第一目标子文本对应的第一目标位置的数值为第一目标值,所述第一目标子文本为所述训练文本中除第二目标子文本之外的文本,所述第二目标子文本为所述训练文本中位于第二标点字符之前的目标字符以及所述第二标点字符,所述第二标点字符为所述训练文本中的任意一个标点字符;
所述第一目标掩码矩阵中第二目标子文本对应的第二目标位置的数值为第二目标值。6.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本,所述待处理文本包括标点字符;根据所述待处理文本,生成第二初始掩码矩阵;对所述第二初始掩码矩阵中的第三目标子文本进行隐藏,获得第二目标掩码矩阵,所述待处理文本包括第三目标子文本;根据所述待处理文本和所述第二目标掩码矩阵,利用权利要求1

5中任一项所述的目标模型对所述待处理文本中被错误使用的标点字符进行校正,得到目标文本。7.一种模型训练装置,其特征在于,所述装置包括:第一获取模块,用于获取训练文本,所述训练文本包括被错误使用的标点字符;第一生成模块,用于根据所述训练文本,生成目标序列,所述目标序列为对所述训练文本中被错误使用的标点字符进行校正之后获得的序列;第二生成模块,用于基于所述训练文本,生成第一初始掩码矩阵;第二获取模块,用于对所述第一初始掩码矩阵中的第一目标子文本进行隐藏,获得第一...

【专利技术属性】
技术研发人员:王晓明
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1