【技术实现步骤摘要】
一种训练文本关键内容提取模型的方法和系统
本申请涉及计算机
,特别涉及一种训练文本关键内容提取模型的方法和系统。
技术介绍
随着互联网和人工智能等领域的不断发展,客服机器人在客户服务中扮演了重要的角色,客服机器人在为客户解答时,一般是从预先整理好的、包含了大量问题和问题答案的知识库中去寻找客户的答案。为了尽可能详尽地解决用户的问题,知识库中的答案一般需要涉及用户问题相关的多个方面,通常有比较长,冗余信息较多。因此,亟需一种对知识库中答案提取关键内容的方法。
技术实现思路
本说明书一个方面提供一种训练文本关键内容提取模型的方法。所述方法包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样 ...
【技术保护点】
1.一种训练文本关键内容提取模型的方法,包括:/n获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;/n从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;/n拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;/n基于多组所述训练样本训练得到文本关键内容提取模型。/n
【技术特征摘要】
1.一种训练文本关键内容提取模型的方法,包括:
获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;
从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;
拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;
基于多组所述训练样本训练得到文本关键内容提取模型。
2.如权利要求1所述的方法,所述方法还包括:
获取实体对象的询问内容;
基于所述询问内容从知识库中获取至少一个候选答案;
将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容。
3.如权利要求2所述的方法,所述文本关键内容提取模型包含机器阅读理解模型和用于分类的神经网络;
其中,所述机器阅读理解模型基于所述询问内容和/或所述至少一个候选答案中词的上下文确定所述词的向量;
所述用于分类的神经网络基于所述词的向量计算所述词属于不同位置类别的概率,所述位置类别包括:属于所述文本关键内容的起点、属于所述文本关键内容的终点以及属于所述文本关键内容的起点和终点以外的其他位置。
4.如权利要求3所述的方法,所述机器阅读理解模型为BERT模型或BiDAF模型。
5.如权利要求3所述的方法,所述将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容包括:
将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第一预设条件的词分别作为第一文本关键内容的起点或终点;将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第二预设条件的词分别作为第二文本关键内容的起点或终点;
将所述第一文本关键内容和所述第二文本关键内容分别以第一方式和第二方式展示给所述实体对象。
6.如权利要求5所述的方法,所述第一方式或所述第二方式分别为单独输出所述文本关键内容或在所述至少一个候选答案中高亮展示。
7.如权利要求2所述的方法,所述基于所述询问内容从知识库中获取至少一个候选答案包括:
基于所述询问内容从所述知识库中召回至少一个初始候选问题答案对;
基于所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度确定至少一个候选问题答案对;
将所述至少一个候选问题答案对中的答案作为所述至少一个候选答案。
8.如权利要求7所述的方法,基于相似度模型确定所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度。
9.如权利要求8所述的方法,所述相似度模型为ESIM模型。
10.一种训练文本关键内容提取模型的系统,包括:
第一获取模块,用于获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;
选择模块,用于从所述多个问题答案对中选取目标问...
【专利技术属性】
技术研发人员:杨明晖,崔恒斌,陈晓军,陈显玲,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。