文本处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：32335807 阅读：39 留言：0更新日期：2022-02-16 18:43

本发明专利技术提供的文本处理方法、装置、存储介质及计算机设备，在对业务文本进行文本处理时，可以先根据业务文本中每个句子对应的角色类型来确定每个句子的结尾符，接着将每个句子中的每个词及每个句子的结尾符进行向量转换，从而得到与业务文本对应的文本序列，接着将该文本序列输入至执行文本处理任务的文本处理模型中，以通过文本处理模型来对文本序列执行文本处理任务；本申请中，由于文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的，使用该跨角色掩码语言模型进行下游任务微调后得到的文本处理模型，能够更加准确地执行当前业务文本的文本处理任务，从而有效提高文本处理结果的准确率。高文本处理结果的准确率。高文本处理结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、存储介质及计算机设备

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文本处理方法、装置、存储介质及计算机设备。

技术介绍

[0002]现有的开源的预训练语言模型如BERT、Ernie、XLNET、ALBERT等，在预训练阶段，其主要使用来源于维基百科、贴吧、论坛等通用或者开放领域的数据作为预训练的大规模数据集，并使用特定场景下的下游任务对预训练后得到的模型进行微调，从而得到适用于特定场景的语言模型。例如，在电商智能客服和人工客服场景中，在预训练阶段可以使用开源的BERT预训练语言模型，当需要执行下游任务，如售前和售后意图识别、FAQ语义匹配、工单小结、口径质检等任务时，可使用预训练阶段得到的模型进行微调，从而得到与各个下游任务对应的语言模型。
[0003]然而，由于前期进行预训练阶段使用的是开源的预训练语言模型，该预训练语言模型使用的数据集主要来源于通用或开放领域，与特定场景下的下游任务所对应的业务数据的差距较大，使得后续使用特定场景下的下游任务对预训练后得到的模型进行微调，并使用微...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取业务文本及所述业务文本中每个句子对应的角色类型；基于所述业务文本中每个句子对应的角色类型，确定所述业务文本中每个句子中的每个字符及每个句子的结尾符；将每个句子中的每个字符及每个句子的结尾符进行向量转换，得到与所述业务文本对应的文本序列；将所述文本序列输入至执行文本处理任务的文本处理模型中，以对所述文本序列执行文本处理任务；其中，所述文本处理模型是基于预训练的跨角色掩码语言模型进行参数初始化的，所述跨角色掩码语言模型训练时，以多种类型的业务数据组合后形成训练文本，以所述训练文本及其所属角色的角色类型作为样本输入，并以预测训练文本中被遮挡的字符为目标进行训练。2.根据权利要求1所述的文本处理方法，其特征在于，将每个句子中的每个字符及每个句子的结尾符进行向量转换，得到与所述业务文本对应的文本序列的步骤，包括：将每个句子中的每个字符及每个句子的结尾符进行向量转换，得到每个句子中的每个字符及每个句子的结尾符对应的段向量、词向量，以及在所述业务文本中的位置向量；将所述业务文本中的各个字符对应的段向量、词向量和位置向量进行拼接后，形成与所述业务文本对应的文本序列。3.根据权利要求1所述的文本处理方法，其特征在于，所述文本处理模型基于预训练的跨角色掩码语言模型进行参数初始化的步骤，包括：获取与所述文本处理任务对应的网络层；将预训练的跨角色掩码语言模型与所述网络层进行拼接，以使所述网络层的输入为所述跨角色掩码语言模型输出的文本特征，所述网络层的输出为所述文本处理任务的处理结果；利用与所述文本处理任务对应的训练集，对拼接后的跨角色掩码语言模型进行参数初始化，以得到所述文本处理模型。4.根据权利要求3所述的文本处理方法，其特征在于，所述利用与所述文本处理任务对应的训练集，对拼接后的跨角色掩码语言模型进行参数初始化，以得到所述文本处理模型的步骤，包括：获取与所述文本处理任务对应的训练集，所述训练集包括训练样本以及对所述训练样本进行标注后得到的样本标签；将所述训练样本输入到拼接后的跨角色掩码语言模型中，得到所述拼接后的跨角色掩码语言模型输出的预测结果；以所述预测结果趋近于所述样本标签为目标，对所述拼接后的跨角色掩码语言模型进行参数初始化；当所述拼接后的跨角色掩码语言模型满足预设的训练条件时，将训练完成的拼接后的跨角色掩码语言模型作为所述文本处理模型。5.根据权利要求1所述的文本处理方法，其特征在于，所述跨角色掩码语言模型训练时，以多种类型的业务数据组合后形成训练文本，以...

【专利技术属性】
技术研发人员：王绥学，王睿，黎洛晨，
申请(专利权)人：唯品会广州软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人