【技术实现步骤摘要】
用于文本处理的方法和装置
本说明书的实施例涉及信息
,更具体地,涉及用于文本处理的方法、装置、计算设备和机器可读存储介质。
技术介绍
随着机器学习等各种技术的不断发展,为了方便用户获得帮助,已经开发了智能问答系统。智能问答系统可以通过机器人客服来实现人机对话,例如,用户向机器人客服提出问题,机器人客服自动地回答用户的问题。目前,在大部分的智能问答系统中,机器人客服是基于知识库来工作的。例如,知识库可以包括多个问答对,每个问答可以包括问题文本和相应的答案文本。机器人客服在接收到用户问题文本之后,可以通过检索知识库来输出针对用户问题文本的答复。可见,知识库对于智能问答系统而言是非常重要的。那么,如何高效地建立知识库成为关注的问题之一。
技术实现思路
考虑到现有技术的上述问题,本说明书的实施例提供了用于文本处理的方法、装置、计算设备和机器可读存储介质。一方面,本说明书的实施例提供了一种用于文本处理的方法,包括:从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户 ...
【技术保护点】
1.一种用于文本处理的方法,包括:/n从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户与机器人客服的对话,所述目标问题文本用于表示机器人客服未能回答的用户问题;/n基于所述目标问题文本,获取目标人工对话日志,其中,所述目标人工对话日志用于表示所述目标用户与人工客服的对话,所述目标人工对话日志是基于所述目标问题文本而产生的;/n利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,其中:/n所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的;/n所述训练语料是基于历史问题文本和历史人工对话日志得到的,所述历史问题文本 ...
【技术特征摘要】
1.一种用于文本处理的方法,包括:
从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户与机器人客服的对话,所述目标问题文本用于表示机器人客服未能回答的用户问题;
基于所述目标问题文本,获取目标人工对话日志,其中,所述目标人工对话日志用于表示所述目标用户与人工客服的对话,所述目标人工对话日志是基于所述目标问题文本而产生的;
利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,其中:
所述机器阅读模型是通过基于训练语料对预训练语言模型进行训练而得到的;
所述训练语料是基于历史问题文本和历史人工对话日志得到的,所述历史问题文本用于表示所述机器人客服未能回答的历史用户问题,所述历史人工对话日志用于表示基于所述历史用户问题而产生的用户与人工客服的对话;
基于所述机器阅读模型的处理结果,从所述目标人工对话日志中获取针对所述目标问题文本的答案文本,其中,所述目标问题文本和所述答案文本以问答对的形式被存储到知识库中。
2.根据权利要求1所述的方法,其中,所述训练语料是通过如下方式得到:
在所述历史人工对话日志的每一轮对话中,针对来自用户的文本添加第一标识,并且针对来自人工客服的文本添加第二标识,以得到训练对话日志;
生成所述训练语料,其中,所述训练语料包括所述历史问题文本和所述训练对话日志。
3.根据权利要求1或2所述的方法,其中,所述预训练语言模型包括BERT模型,其中,在对所述BERT模型进行训练时使用掩码语言模型作为损失函数。
4.根据权利要求1或2所述的方法,其中,所述预训练语言模型包括RoBERTa模型或SpanBERT模型中的一者。
5.根据权利要求1至4中任一项所述的方法,其中,所述机器阅读模型是通过如下方式得到的:
基于所述训练语料对所述预训练语言模型进行预训练,得到目标语言模型;
针对所述目标语言模型添加任务层,得到所述机器阅读模型。
6.根据权利要求1至5中任一项所述的方法,其中,利用机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,包括:
利用所述机器阅读模型对所述目标问题文本和所述目标人工对话日志进行处理,得到起始位置信息和结束位置信息,其中,所述起始位置信息用于指示所述答案文本在所述目标人工对话日志中的起始位置,所述结束位置信息用于指示所述答案文本在所述目标人工对话日志中的结束位置。
7.一种用于文本处理的装置,包括:
第一获取单元,其从目标机器对话日志中获取目标问题文本,其中,所述目标机器对话日志用于表示目标用户与机器人客服的对话,所述目标问题文本用于表示机器人客服未能回答...
【专利技术属性】
技术研发人员:彭爽,崔恒斌,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。