基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质制造方法及图纸

技术编号:29330610 阅读:30 留言:0更新日期:2021-07-20 17:48
本申请涉及一种基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质,其中,该基于文本相似度算法的相似问题生成方法包括:获取交互场景文本数据,生成问答对文本;计算问答对文本中的答案文本与行业问答对中的答案文本的文本相似度,确定相似度最大的行业问答对;计算问答对文本中的问题文本与相似度最大的行业问答对中的问题文本的文本相似度,确定问题文本相似度最大值;将问题文本的相似度最大值与预设阈值进行比对,若满足预设阈值,则将问题文本相似度最大值对应的问答对文本中的问题文本补充到对应的行业问答对语料中作为问题文本的相似问题。通过本申请,解决了相关技术中生成的相似问题语句不通顺和包含冗余内容的问题。

【技术实现步骤摘要】
基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质
本申请涉及自然语言处理
,特别是涉及基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质。
技术介绍
在智能交互过程中,需要识别出用户的文本意图,进而触发相应的流程。目前的智能客服机器人技术,主要是利用机器学习算法进行意图识别。而机器学习算法需要基于大量相似语料进行训练,故在智能客服机器人构建初期需要准备大量的标注数据。目前,训练数据一般是由业务人员进行人工标注生成的,存在周期长、标注成本高等问题,因此如何在智能机器人构建初期自动化的获取相关相似语料数据显得尤为关键。为解决上述问题,在现有技术中,中国专利申请CN201810749005.2公开了一种自动生成FAQ相似问句的方法和装置,所述方法包括:根据选定的FAQ生成一个文本;判断生成文本与所述选定的FAQ是否相似;如果生成的文本与所述选定的FAQ相似,则该文本为所述选定的FAQ的相似问句。该方法虽然能自动生成相似问句,但是相似问句是基于句子生成规则生成的,规则不便于维护;且根据规则输出的相似问句可能存在语病等问题,不能直接用作训练数据。在另一中国专利申请CN201811029233.9公开了问答对构建方法、装置及计算机可读存储介质,该方法包括:获取人工客服与用户的对话记录,并基于预设规则对所述对话记录进行处理,得到目标对话记录;基于所述目标对话记录确定标准形式问答对,并对所述标准形式问答对进行过滤处理,得到目标问答对;对所述目标问答对进行合并,并输出所述合并后的目标问答对,以供管理员进行审核。该专利在进行问答对构建时,采用是否包含疑问句的判断方法,但是真实场景下用户提出的咨询问题不一定包含疑问词,因此输出的语料取决于对疑问词的维护程度;且目标问答对的合并采用答案相同的方法,对于大量答案近似的问答对仍需要人工审核,效率不高;另外,在进行问答对构建时,需要将用户角色和客服角色的连续交互文本分别进行合并,导致最终生成的相似问题冗长,且可能包含过多与问题不相干的文本内容,影响最终的模型训练效果。目前针对相关技术中生成的相似问题语句不通顺和包含冗余内容的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质,以至少解决相关技术中生成的相似问题语句不通顺和包含冗余内容的问题。第一方面,本申请实施例提供了一种基于文本相似度算法的相似问题生成方法,所述方法包括:获取交互场景文本数据,生成问答对文本数据;计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据;将所述问题文本的相似度最大值与预设阈值进行比对,若满足所述预设阈值,则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中,作为所述对应的行业问答对语料中的问题文本的相似问题。在其中一些实施例中,所述获取交互场景文本数据,生成问答对文本数据,包括:获取交互场景文本数据,将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接;并将拼接后的交互场景文本数据按交互轮次进行分组,在每个交互轮次下根据顺序组合用户文本和客服文本,得到问答对文本数据。在其中一些实施例中,所述将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接之前,包括:对所述交互场景数据进行数据清洗,去除交互轮数大于第二预设阈值的交互场景文本数据。在其中一些实施例中,通过文本相似度算法分别计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度以及所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度;其中,所述文本相似度为余弦相似度算法、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离中的任意一种。在其中一些实施例中,所述计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度,确定答案文本相似度最大值对应的行业问答对语料,包括:计算所述问答对文本数据中每个交互轮次的答案文本与行业问答对语料中的答案文本的文本相似度,确定每个交互轮次的答案文本相似度最大值对应的行业问答对语料。在其中一些实施例中,所述计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据,包括:分别计算所述问答对文本数据中每个交互轮次的问题文本与所述每个交互轮次的答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定每个交互轮次的问题文本相似度最大值对应的问答对文本数据。在其中一些实施例中,所述将所述问题文本的相似度最大值与预设阈值进行比对,包括:将所述每个交互轮次的问题文本相似度最大值分别与预设阈值进行比对。第二方面,本申请实施例提供了一种基于文本相似度算法的相似问题生成系统,所述系统包括:数据获取模块、答案文本相似度计算模块、问题文本相似度计算模块和相似问题提取模块:所述数据获取模块,用于获取交互场景文本数据,生成问答对文本数据;所述答案文本相似度计算模块,用于计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度,确定答案文本相似度最大值对应的行业问答对语料;所述问题文本相似度计算模块,用于计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据;所述相似问题提取模块,用于将所述问题文本的相似度最大值与预设阈值进行比对,若满足所述预设阈值,则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中,作为所述对应的行业问答对语料中的问题文本的相似问题。第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于文本相似度算法的相似问题生成方法。第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于文本相似度算法的相似问题生成方法。相比于相关技术,本申请实施例提供的基于文本相似度算法的相似问题生成方法,通过结合行业问答对语料,从交互场景语料中提取相似问题,避免生成的相似问题语句不通顺。又由于相似问题是从真实的交互场景语料中提取,因此提取到的相似问题更全面,更加符合真实的交互场景。且利用文本相似度结合阈值的方式,对答案相似的问题文本进行相似问题提取和整合,使得最终获得的相似问题不包含冗余内容。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示本文档来自技高网
...

【技术保护点】
1.一种基于文本相似度算法的相似问题生成方法,其特征在于,所述方法包括:/n获取交互场景文本数据,生成问答对文本数据;/n计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度,确定答案文本相似度最大值对应的行业问答对语料;/n计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据;/n将所述问题文本的相似度最大值与预设阈值进行比对,若满足所述预设阈值,则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中,作为所述对应的行业问答对语料中的问题文本的相似问题。/n

【技术特征摘要】
1.一种基于文本相似度算法的相似问题生成方法,其特征在于,所述方法包括:
获取交互场景文本数据,生成问答对文本数据;
计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度,确定答案文本相似度最大值对应的行业问答对语料;
计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据;
将所述问题文本的相似度最大值与预设阈值进行比对,若满足所述预设阈值,则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中,作为所述对应的行业问答对语料中的问题文本的相似问题。


2.根据权利要求1所述的方法,其特征在于,所述获取交互场景文本数据,生成问答对文本数据,包括:
获取交互场景文本数据,将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接;
并将拼接后的交互场景文本数据按交互轮次进行分组,在每个交互轮次下根据顺序组合用户文本和客服文本,得到问答对文本数据。


3.根据权利要求2所述的方法,其特征在于,所述将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接之前,包括:
对所述交互场景数据进行数据清洗,去除交互轮数大于第二预设阈值的交互场景文本数据。


4.根据权利要求1所述的方法,其特征在于,通过文本相似度算法分别计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度以及所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度;其中,所述文本相似度为余弦相似度算法、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离中的任意一种。


5.根据权利要求2所述的方法,其特征在于,所述计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度,确定答案文本相似度最大值对应的行业问答对语料,包括:
计算所述问答对文本数据中每个交互轮次的答案文本与行业问答对语料中的答案文本的文本相似度,确定每个交互轮次的答案文本相似度最大值对应的...

【专利技术属性】
技术研发人员:嵇望王伟凯钱艳朱鹏飞安毫亿梁青
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1