文本处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:32335807 阅读:22 留言:0更新日期:2022-02-16 18:43
本发明专利技术提供的文本处理方法、装置、存储介质及计算机设备,在对业务文本进行文本处理时,可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符,接着将每个句子中的每个词及每个句子的结尾符进行向量转换,从而得到与业务文本对应的文本序列,接着将该文本序列输入至执行文本处理任务的文本处理模型中,以通过文本处理模型来对文本序列执行文本处理任务;本申请中,由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型,能够更加准确地执行当前业务文本的文本处理任务,从而有效提高文本处理结果的准确率。高文本处理结果的准确率。高文本处理结果的准确率。

【技术实现步骤摘要】
文本处理方法、装置、存储介质及计算机设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本处理方法、装置、存储介质及计算机设备。

技术介绍

[0002]现有的开源的预训练语言模型如BERT、Ernie、XLNET、ALBERT等,在预训练阶段,其主要使用来源于维基百科、贴吧、论坛等通用或者开放领域的数据作为预训练的大规模数据集,并使用特定场景下的下游任务对预训练后得到的模型进行微调,从而得到适用于特定场景的语言模型。例如,在电商智能客服和人工客服场景中,在预训练阶段可以使用开源的BERT预训练语言模型,当需要执行下游任务,如售前和售后意图识别、FAQ语义匹配、工单小结、口径质检等任务时,可使用预训练阶段得到的模型进行微调,从而得到与各个下游任务对应的语言模型。
[0003]然而,由于前期进行预训练阶段使用的是开源的预训练语言模型,该预训练语言模型使用的数据集主要来源于通用或开放领域,与特定场景下的下游任务所对应的业务数据的差距较大,使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调,并使用微调后的模型进行预测时,得到的预测结果的准确率较低。

技术实现思路

[0004]本专利技术的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中开源的预训练语言模型使用的数据集主要来源于通用或开放领域,与特定场景下的下游任务所对应的业务数据的差距较大,使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调,并使用微调后的模型进行预测时,得到的预测结果的准确率较低的技术缺陷。<br/>[0005]本专利技术提供了一种文本处理方法,所述方法包括:
[0006]获取业务文本及所述业务文本中每个句子对应的角色类型;
[0007]基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
[0008]将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
[0009]将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务;其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练。
[0010]可选地,将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列的步骤,包括:
[0011]将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的
每个字符及每个句子的结尾符对应的段向量、词向量,以及在所述业务文本中的位置向量;
[0012]将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与所述业务文本对应的文本序列。
[0013]可选地,所述文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤,包括:
[0014]获取与所述文本处理任务对应的网络层;
[0015]将预训练的跨角色掩码语言模型与所述网络层进行拼接,以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征,所述网络层的输出为所述文本处理任务的处理结果;
[0016]利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型。
[0017]可选地,所述利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型的步骤,包括:
[0018]获取与所述文本处理任务对应的训练集,所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签;
[0019]将所述训练样本输入到拼接后的跨角色掩码语言模型中,得到所述拼接后的跨角色掩码语言模型输出的预测结果;
[0020]以所述预测结果趋近于所述样本标签为目标,对所述拼接后的跨角色掩码语言模型进行参数初始化;
[0021]当所述拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。
[0022]可选地,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练的步骤,包括:
[0023]获取所述跨角色掩码语言模型训练时的训练文本,其中,所述训练文本包括多种类型的业务数据组合后形成的完整的对话文本,所述对话文本中的每个句子对应有所属角色的角色类型;
[0024]基于所述训练文本中每个句子对应的角色类型,确定所述训练文本中每个句子中的每个字符及每个句子的结尾符;
[0025]将所述训练文本中每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述训练文本对应的文本序列;
[0026]将所述训练文本对应的文本序列输入至所述跨角色掩码语言模型中,并以预测训练文本中被遮挡的字符为目标进行训练。
[0027]可选地,所述业务文本包括售前售后意图识别文本、FAQ语义匹配文本、工单小结文本和口径质检文本;
[0028]所述售前售后意图识别文本中每个句子对应的角色类型包括咨询用户;
[0029]所述FAQ语义匹配文本中每个句子对应的角色类型包括咨询用户及对应的客服;
[0030]所述工单小结文本中每个句子对应的角色类型包括咨询用户及对应的客服;
[0031]所述口径质检文本中每个句子对应的角色类型包括客服。
[0032]可选地,所述文本处理任务包括售前售后意图识别任务、FAQ语义匹配任务、工单小结任务和口径质检任务。
[0033]本专利技术还提供了一种文本处理装置,包括:
[0034]文本获取模块,用于获取业务文本及所述业务文本中每个句子对应的角色类型;
[0035]结尾符确定模块,用于基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;
[0036]向量转换模块,用于将每个句子中的每个词及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;
[0037]文本处理模块,用于将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务,其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以训练文本及其所属角色的角色类型作为样本输入,以预测训练文本中被遮挡的字符为目标进行训练。
[0038]本专利技术还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述文本处理方法的步骤。
[0039]本专利技术还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取业务文本及所述业务文本中每个句子对应的角色类型;基于所述业务文本中每个句子对应的角色类型,确定所述业务文本中每个句子中的每个字符及每个句子的结尾符;将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列;将所述文本序列输入至执行文本处理任务的文本处理模型中,以对所述文本序列执行文本处理任务;其中,所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以所述训练文本及其所属角色的角色类型作为样本输入,并以预测训练文本中被遮挡的字符为目标进行训练。2.根据权利要求1所述的文本处理方法,其特征在于,将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到与所述业务文本对应的文本序列的步骤,包括:将每个句子中的每个字符及每个句子的结尾符进行向量转换,得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量,以及在所述业务文本中的位置向量;将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后,形成与所述业务文本对应的文本序列。3.根据权利要求1所述的文本处理方法,其特征在于,所述文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤,包括:获取与所述文本处理任务对应的网络层;将预训练的跨角色掩码语言模型与所述网络层进行拼接,以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征,所述网络层的输出为所述文本处理任务的处理结果;利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型。4.根据权利要求3所述的文本处理方法,其特征在于,所述利用与所述文本处理任务对应的训练集,对拼接后的跨角色掩码语言模型进行参数初始化,以得到所述文本处理模型的步骤,包括:获取与所述文本处理任务对应的训练集,所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签;将所述训练样本输入到拼接后的跨角色掩码语言模型中,得到所述拼接后的跨角色掩码语言模型输出的预测结果;以所述预测结果趋近于所述样本标签为目标,对所述拼接后的跨角色掩码语言模型进行参数初始化;当所述拼接后的跨角色掩码语言模型满足预设的训练条件时,将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。5.根据权利要求1所述的文本处理方法,其特征在于,所述跨角色掩码语言模型训练时,以多种类型的业务数据组合后形成训练文本,以...

【专利技术属性】
技术研发人员:王绥学王睿黎洛晨
申请(专利权)人:唯品会广州软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1