文本处理方法以及装置制造方法及图纸

技术编号:39434239 阅读:8 留言:0更新日期:2023-11-19 16:17
本说明书实施例提供文本处理方法以及装置,其中所述文本处理方法包括:在关联目标领域的样本文本数据集中确定样本事件文本和样本事件文本对应的样本推荐文本;按照目标领域对应的问答文本模板对样本事件文本和样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;基于问题指示文本和答案指示文本构建指示文本组;将指示文本组添加至指示文本数据集,其中,指示文本数据集用于训练关联目标领域的预训练文本处理模型。通过构建出的指示文本数据集进行模型训练,使文本处理模型具有在特定领域下进行问答并给出可解释性理由的能力,提高文本处理模型输出结果的正确率以及采纳率。以及采纳率。以及采纳率。

【技术实现步骤摘要】
文本处理方法以及装置


[0001]本说明书实施例涉及人工智能
,特别涉及一种文本处理方法。

技术介绍

[0002]随着计算机技术的发展,通过大规模样本数据训练得到的文本处理模型,因为其出色的自然语言文本的理解能力,准确完成文本生成、问答、对话等功能,被广泛应用于数据查询、商品推荐、情感分析、文本分类、实体识别等项目领域。
[0003]目前在不同应用场景下,需要通过特定场景下大量的历史数据来进行模型训练,而这个过程需要极大的人力物力和依赖于特定场景人员的经验来积累历史数据,如在售后场景下需要客服人员整理消费者不同诉求的共同归类,确定诉求对应的售后类别,从而为消费者提供相应的售后服务,因此用于训练模型的样本数据少,使得模型训练成本高,并且训练出的模型精度不高,无法提供准确的预测结果。因此,如何实现模型能够在特定场景下准确输出结果是目前亟需解决的问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了文本处理方法、文本处理模型的训练方法。本说明书一个或者多个实施例同时涉及文本处理装置、文本处理模型的训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0006]在关联目标领域的样本文本数据集中确定样本事件文本和所述样本事件文本对应的样本推荐文本;
[0007]按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;
[0008]基于所述问题指示文本和所述答案指示文本构建指示文本组;
[0009]将所述指示文本组添加至指示文本数据集,其中,所述指示文本数据集用于训练关联所述目标领域的预训练文本处理模型。
[0010]根据本说明书实施例的第二方面,提供了一种文本处理模型的训练方法,包括:
[0011]获取关联目标领域的样本文本数据集和所述样本文本数据集对应的指示文本数据集,其中,所述指示文本数据集通过所述文本处理方法获得;
[0012]通过所述样本文本数据集和所述指示文本数据集对关联所述目标领域的预训练文本处理模型进行训练,获得满足训练停止条件的文本处理模型。
[0013]根据本说明书实施例的第三方面,提供了一种文本处理方法,应用于服务端,包括:
[0014]接收客户端提交的关联目标领域的问题文本,并将所述问题文本输入至关联所述目标领域的文本处理模型,其中,所述文本处理模型通过文本处理模型的训练方法获得;
[0015]获得所述文本处理模型输出的答案文本和解释文本,将所述答案文本和所述解释
文本反馈至所述客户端。
[0016]根据本说明书实施例的第四方面,提供了一种文本处理方法,应用于云侧设备,包括:
[0017]获取端侧设备提交的关联目标领域的样本文本数据集,并在所述样本文本数据集中确定样本事件文本和所述样本事件文本对应的样本推荐文本;
[0018]按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;
[0019]基于所述问题指示文本和所述答案指示文本构建指示文本组;
[0020]将所述指示文本组添加至指示文本数据集,利用所述指示文本数据集训练关联所述目标领域的预训练文本处理模型,获得满足训练停止条件的文本处理模型;
[0021]发送所述文本处理模型至所述端侧设备。
[0022]根据本说明书实施例的第五方面,提供了一种文本处理装置,包括:
[0023]确定模块,被配置为在关联目标领域的样本文本数据集中确定样本事件文本和所述样本事件文本对应的样本推荐文本;
[0024]生成模块,被配置为按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;
[0025]构建模块,被配置为基于所述问题指示文本和所述答案指示文本构建指示文本组;
[0026]添加模块,被配置为将所述指示文本组添加至指示文本数据集,其中,所述指示文本数据集用于训练关联所述目标领域的预训练文本处理模型。
[0027]根据本说明书实施例的第六方面,提供了一种文本处理模型的训练装置,包括:
[0028]获取模块,被配置为获取关联目标领域的样本文本数据集和所述样本文本数据集对应的指示文本数据集,其中,所述指示文本数据集通过所述文本处理方法获得;
[0029]训练模块,被配置为通过所述样本文本数据集和所述指示文本数据集对关联所述目标领域的预训练文本处理模型进行训练,获得满足训练停止条件的文本处理模型。
[0030]根据本说明书实施例的第七方面,提供了一种文本处理装置,应用于服务端,包括:
[0031]接收模块,被配置为接收客户端提交的关联目标领域的问题文本,并将所述问题文本输入至关联所述目标领域的文本处理模型,其中,所述文本处理模型通过所述文本处理模型的训练方法获得;
[0032]反馈模块,被配置为获得所述文本处理模型输出的答案文本和解释文本,将所述答案文本和所述解释文本反馈至所述客户端。
[0033]根据本说明书实施例的第八方面,提供了一种文本处理装置,应用于云侧设备,包括:
[0034]获取模块,被配置为获取端侧设备提交的关联目标领域的样本文本数据集,并在所述样本文本数据集中确定样本事件文本和所述样本事件文本对应的样本推荐文本;
[0035]生成模块,被配置为按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;
[0036]构建模块,被配置为基于所述问题指示文本和所述答案指示文本构建指示文本
组;
[0037]训练模块,被配置为将所述指示文本组添加至指示文本数据集,利用所述指示文本数据集训练关联所述目标领域的预训练文本处理模型,获得满足训练停止条件的文本处理模型;
[0038]发送模块,被配置为发送所述文本处理模型至所述端侧设备。
[0039]根据本说明书实施例的第九方面,提供了一种计算设备,包括:
[0040]存储器和处理器;
[0041]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法、文本处理模型的训练方法的步骤。
[0042]根据本说明书实施例的第十方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法、文本处理模型的训练方法的步骤。
[0043]根据本说明书实施例的第十一方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法、文本处理模型的训练方法的步骤。
[0044]本说明书一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:在关联目标领域的样本文本数据集中确定样本事件文本和所述样本事件文本对应的样本推荐文本;按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本;基于所述问题指示文本和所述答案指示文本构建指示文本组;将所述指示文本组添加至指示文本数据集,其中,所述指示文本数据集用于训练关联所述目标领域的预训练文本处理模型。2.如权利要求1所述的方法,按照所述目标领域对应的问答文本模板对所述样本事件文本和所述样本推荐文本进行文本生成处理,获得问题指示文本和答案指示文本,包括:在所述目标领域对应的问答文本模板集合中确定问答文本模板;提取所述问答文本模板中的问题模板文本和答案模板文本;根据所述样本事件文本和所述问题模板文本生成问题指示文本,根据所述样本推荐文本和所述答案模板文本生成答案指示文本。3.如权利要求2所述的方法,提取所述问答文本模板中的问题模板文本和答案模板文本,包括:在所述问答文本模板中确定问题模板文本和所述问题模板文本对应的问题类型;按照所述问题类型在所述问答文本模板中选择所述问题模板文本对应的答案模板文本。4.如权利要求2所述的方法,根据所述样本事件文本和所述问题模板文本生成问题指示文本,包括:确定所述问题模板文本中的待填充问题信息,根据所述待填充问题信息和所述样本事件文本生成问题填充字段;根据所述待填充问题信息确定所述问题填充字段在所述问题模板文本中的问题填充位置;按照所述问题填充位置将所述问题填充字段添加至所述问题模板文本,获得问题指示文本。5.如权利要求2所述的方法,根据所述样本推荐文本和所述答案模板文本生成答案指示文本,包括:确定所述答案模板文本中的待填充答案信息,根据所述待填充答案信息和所述样本推荐文本生成答案填充字段;根据所述待填充答案信息确定所述答案填充字段在所述答案模板文本中的答案填充位置;按照所述答案填充位置将所述答案填充字段添加至所述答案模板文本,获得答案指示文本。6.如权利要求1所述的方法,所述方法还包括:确定所述答案指示文本对应的解释指示文本;基于所述问题指示文本、所述答案指示文本和所述解释指示文本构建目标指示文本组;
将所述目标指示文本组添加至所述指示文本数据集。7.如权利要求6所述的方法,确定所述答案指示文本对应的解释指示文本,包括:确定所述问题指示文本与所述答案指示文本之间的语义关系,基于所述语义关系和所述答案指示文本生成所述答案指示文本对应的解释指示文本;或,获取针对所述答案指示文本提交的标注数据,将所述标注数据作为所述答案指示文本对应的解释指示文本。8.如权利要求6所述的方法,基于所述问题...

【专利技术属性】
技术研发人员:韩宇冯文锋张跃伟
申请(专利权)人:杭州阿里巴巴飞天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1