多任务文本纠错模型的训练与多任务文本纠错方法、设备技术

技术编号:37968122 阅读:12 留言:0更新日期:2023-06-30 09:43
本申请提供了一种多任务文本纠错模型的训练与多任务文本纠错方法、设备,涉及人工智能技术领域,包括:获取训练数据;确定该训练数据对应的输入向量,该输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;基于所述输入向量对预训练语言模型进行训练,得到多任务文本纠错模型;其中,上述预训练语言模型包括文本错误检测网络、文本错误纠正网络、文本错误类型分类网络、敏感信息检测网络以及敏感信息类型分类网络;基于待纠错文本对应的输入向量与上述多任务文本纠错模型,得到多个任务的检测结果。本申请可以实现多个任务的模型的联合训练与检测,提升文本纠错与敏感信息检测的效率。信息检测的效率。信息检测的效率。

【技术实现步骤摘要】
多任务文本纠错模型的训练与多任务文本纠错方法、设备


[0001]本申请涉及人工智能
,尤其涉及一种多任务文本纠错模型的训练与多任务文本纠错方法、设备。

技术介绍

[0002]文本纠错是指对文本中出现错误的内容进行纠正的过程,利用深度学习模型是实现中文语句错误检测、自动纠正的一项关键研究内容,该任务在文字编辑和校对行业,作为单独的一项功能,可提高语言正确性的同时减少人工校验成本。
[0003]目前,互联网上存在大量的文本信息传播,为了防止敏感信息以及不良信息的无限制传播,基于文本的敏感信息检测是实现对不良言论进行管控和监督的重要手段。
[0004]在现有技术中,文本纠错与敏感信息检测通常都是分开进行的,文本纠错和敏感词的信息无法相互辅助,特征无法共享,从而导致检测效率较低。

技术实现思路

[0005]本申请提供了一种多任务文本纠错模型的训练与多任务文本纠错方法、设备,可以解决现有技术中文本纠错与敏感信息检测的效率较低的技术问题。
[0006]第一方面,本申请提供了一种多任务文本纠错模型的训练方法,该方法包括:
[0007]获取训练数据,所述训练数据包括多种不同错误类型的错误文本样本以及多种不同敏感信息类型的敏感信息文本样本;
[0008]确定所述训练数据对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;
[0009]基于所述输入向量对预训练语言模型进行训练,得到多任务文本纠错模型;其中,所述预训练语言模型包括文本错误检测网络、文本错误纠正网络、文本错误类型分类网络、敏感信息检测网络以及敏感信息类型分类网络。
[0010]在一些实施方式中,还包括:
[0011]构建所述预训练语言模型;
[0012]所述构建所述预训练语言模型,包括:
[0013]构建BERT模型;
[0014]在所述BERT模型的输出端增加第一全连接层作为所述文本错误检测网络;
[0015]在所述BERT模型的输出端增加卷积神经网络(Convolutional Neural Network,CNN)层作为所述文本错误类型分类网络;
[0016]将所述BERT模型的掩码语言模型(Masked Language Model,MLM)网络作为所述文本错误纠正网络;
[0017]在所述BERT模型的输出端增加第二全连接层作为所述敏感信息检测网络;
[0018]在所述BERT模型的输出端增加sigmoid层作为所述敏感信息类型分类网络。
[0019]在一些实施方式中,所述预训练语言模型的损失函数为所述文本错误检测网络、
所述文本错误纠正网络、所述文本错误类型分类网络、所述敏感信息检测网络以及所述敏感信息类型分类网络对应的损失函数的加权和。
[0020]第二方面,本申请提供了一种多任务文本纠错方法,该方法包括:
[0021]获取待纠错文本对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;
[0022]基于所述输入向量与多任务文本纠错模型,得到多个任务的检测结果向量,所述多个任务的检测结果向量包括文本错误检测结果向量、文本错误纠正结果向量、文本错误类型分类结果向量、敏感信息检测结果向量以及敏感信息类型分类结果向量;所述多任务文本纠错模型是根据第一方面提供的多任务文本纠错模型的训练方法获得的;
[0023]根据所述多个任务的检测结果向量,输出所述多个任务的输出结果。
[0024]在一些实施方式中,所述根据所述多个任务的检测结果向量,输出所述多个任务的输出结果,包括:
[0025]根据所述文本错误检测结果向量,输出所述待纠错文本对应的文本错误检测结果;
[0026]根据所述文本错误纠正结果向量,输出所述待纠错文本纠错后的目标文本;
[0027]根据所述文本错误类型分类结果向量,输出所述待纠错文本的文本错误类型;
[0028]根据所述敏感信息检测结果向量,输出所述待纠错文本对应的敏感信息检测结果;
[0029]根据所述敏感信息类型分类结果向量,输出所述待纠错文本对应的敏感信息类型。
[0030]第三方面,本申请提供了一种多任务文本纠错模型的训练装置,该装置包括:
[0031]初始化模块,用于获取训练数据,所述训练数据包括多种不同错误类型的错误文本样本以及多种不同敏感信息类型的敏感信息文本样本;
[0032]特征抽取模块,用于确定所述训练数据对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;
[0033]训练模块,用于基于所述输入向量对预训练语言模型进行训练,得到多任务文本纠错模型;其中,所述预训练语言模型包括文本错误检测网络、文本错误纠正网络、文本错误类型分类网络、敏感信息检测网络以及敏感信息类型分类网络。
[0034]在一些实施方式中,还包括模型构建模块,用于构建所述预训练语言模型;
[0035]所述构建所述预训练语言模型,包括:
[0036]构建BERT模型;
[0037]在所述BERT模型的输出端增加第一全连接层作为所述文本错误检测网络;
[0038]在所述BERT模型的输出端增加CNN层作为所述文本错误类型分类网络;
[0039]将所述BERT模型的MLM网络作为所述文本错误纠正网络;
[0040]在所述BERT模型的输出端增加第二全连接层作为所述敏感信息检测网络;
[0041]在所述BERT模型的输出端增加sigmoid层作为所述敏感信息类型分类网络。
[0042]第四方面,本申请提供了一种多任务文本纠错装置,该装置包括:
[0043]特征抽取模块,用于获取待纠错文本对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;
[0044]处理模块,用于基于所述输入向量与多任务文本纠错模型,得到多个任务的检测结果向量,所述多个任务的检测结果向量包括文本错误检测结果向量、文本错误纠正结果向量、文本错误类型分类结果向量、敏感信息检测结果向量以及敏感信息类型分类结果向量;所述多任务文本纠错模型是根据第三方面提供的多任务文本纠错模型的训练装置获得的;
[0045]输出模块,用于根据所述多个任务的检测结果向量,输出所述多个任务的输出结果。
[0046]第五方面,本申请提供了一种电子设备,包括:至少一个处理器和存储器;
[0047]所述存储器存储计算机执行指令;
[0048]所述至少一个处理器用于执行所述存储器存储的计算机执行指令,以实现如第一方面提供的多任务文本纠错模型的训练方法,或者实现如第二方面提供的多任务文本纠错方法。
[0049]第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当计算机执行所述计算机执行指令时,实现如第一方面提供的多任务文本纠错模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多任务文本纠错模型的训练方法,其特征在于,所述方法包括:获取训练数据,所述训练数据包括多种不同错误类型的错误文本样本以及多种不同敏感信息类型的敏感信息文本样本;确定所述训练数据对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;基于所述输入向量对预训练语言模型进行训练,得到多任务文本纠错模型;其中,所述预训练语言模型包括文本错误检测网络、文本错误纠正网络、文本错误类型分类网络、敏感信息检测网络以及敏感信息类型分类网络。2.根据权利要求1所述的方法,其特征在于,还包括:构建所述预训练语言模型;所述构建所述预训练语言模型,包括:构建BERT模型;在所述BERT模型的输出端增加第一全连接层作为所述文本错误检测网络;在所述BERT模型的输出端增加卷积神经网络CNN层作为所述文本错误类型分类网络;将所述BERT模型的掩码语言模型MLM网络作为所述文本错误纠正网络;在所述BERT模型的输出端增加第二全连接层作为所述敏感信息检测网络;在所述BERT模型的输出端增加sigmoid层作为所述敏感信息类型分类网络。3.根据权利要求1或2所述的方法,其特征在于,所述预训练语言模型的损失函数为所述文本错误检测网络、所述文本错误纠正网络、所述文本错误类型分类网络、所述敏感信息检测网络以及所述敏感信息类型分类网络对应的损失函数的加权和。4.一种多任务文本纠错方法,其特征在于,所述方法包括:获取待纠错文本对应的输入向量,所述输入向量包括字特征表示向量、段特征表示向量及位置特征表示向量;基于所述输入向量与多任务文本纠错模型,得到多个任务的检测结果向量,所述多个任务的检测结果向量包括文本错误检测结果向量、文本错误纠正结果向量、文本错误类型分类结果向量、敏感信息检测结果向量以及敏感信息类型分类结果向量;所述多任务文本纠错模型是根据权利要求1至3任一项所述的多任务文本纠错模型的训练方法获得的;根据所述多个任务的检测结果向量,输出所述多个任务的输出结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述多个任务的检测结果向量,输出所述多个任务的输出结果,包括:根据所述文本错误检测结果向量,输出所述待纠错文本对应的文本错误检测结果;根据所述文本错误纠正结果向量,输出所述待纠错文本纠错后的目标文本;根据所述文本错误类型分类结果向量,输出所述待纠错文本的文本错误类型;根据所述敏感信息检测结果向量,输出所述待纠错文本对应的敏感信息检测结果;根据所述敏感信息类型分类结果向量,输出所述待纠错文本对...

【专利技术属性】
技术研发人员:邓慧桑海岩刘文廉士国
申请(专利权)人:联通数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1