基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质制造方法及图纸

技术编号：29330610 阅读：30 留言：0更新日期：2021-07-20 17:48

本申请涉及一种基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质，其中，该基于文本相似度算法的相似问题生成方法包括：获取交互场景文本数据，生成问答对文本；计算问答对文本中的答案文本与行业问答对中的答案文本的文本相似度，确定相似度最大的行业问答对；计算问答对文本中的问题文本与相似度最大的行业问答对中的问题文本的文本相似度，确定问题文本相似度最大值；将问题文本的相似度最大值与预设阈值进行比对，若满足预设阈值，则将问题文本相似度最大值对应的问答对文本中的问题文本补充到对应的行业问答对语料中作为问题文本的相似问题。通过本申请，解决了相关技术中生成的相似问题语句不通顺和包含冗余内容的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质
本申请涉及自然语言处理
，特别是涉及基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质。
技术介绍
在智能交互过程中，需要识别出用户的文本意图，进而触发相应的流程。目前的智能客服机器人技术，主要是利用机器学习算法进行意图识别。而机器学习算法需要基于大量相似语料进行训练，故在智能客服机器人构建初期需要准备大量的标注数据。目前，训练数据一般是由业务人员进行人工标注生成的，存在周期长、标注成本高等问题，因此如何在智能机器人构建初期自动化的获取相关相似语料数据显得尤为关键。为解决上述问题，在现有技术中，中国专利申请CN201810749005.2公开了一种自动生成FAQ相似问句的方法和装置，所述方法包括：根据选定的FAQ生成一个文本；判断生成文本与所述选定的FAQ是否相似；如果生成的文本与所述选定的FAQ相似，则该文本为所述选定的FAQ的相似问句。该方法虽然能自动生成相似问句，但是相似问句是基于句子生成规则生成的，规则不便于维护；且根据规则输出的相似问句可能存在语病等问题，不能直接用作训练数据。在另一中国专利申请CN201811029233.9公开了问答对构建方法、装置及计算机可读存储介质，该方法包括：获取人工客服与用户的对话记录，并基于预设规则对所述对话记录进行处理，得到目标对话记录；基于所述目标对话记录确定标准形式问答对，并对所述标准形式问答对进行过滤处理，得到目标问答对；对所述目标问答对进行合并，并输出所述...

【技术保护点】
1.一种基于文本相似度算法的相似问题生成方法，其特征在于，所述方法包括：/n获取交互场景文本数据，生成问答对文本数据；/n计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度，确定答案文本相似度最大值对应的行业问答对语料；/n计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度，确定问题文本相似度最大值对应的问答对文本数据；/n将所述问题文本的相似度最大值与预设阈值进行比对，若满足所述预设阈值，则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中，作为所述对应的行业问答对语料中的问题文本的相似问题。/n

【技术特征摘要】
1.一种基于文本相似度算法的相似问题生成方法，其特征在于，所述方法包括：
获取交互场景文本数据，生成问答对文本数据；
计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度，确定答案文本相似度最大值对应的行业问答对语料；
计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度，确定问题文本相似度最大值对应的问答对文本数据；
将所述问题文本的相似度最大值与预设阈值进行比对，若满足所述预设阈值，则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中，作为所述对应的行业问答对语料中的问题文本的相似问题。

2.根据权利要求1所述的方法，其特征在于，所述获取交互场景文本数据，生成问答对文本数据，包括：
获取交互场景文本数据，将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接；
并将拼接后的交互场景文本数据按交互轮次进行分组，在每个交互轮次下根据顺序组合用户文本和客服文本，得到问答对文本数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接之前，包括：
对所述交互场景数据进行数据清洗，去除交互轮数大于第二预设阈值的交互场景文本数据。

4.根据权利要求1所述的方法，其特征在于，通过文本相似度算法分别计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度以及所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度；其中，所述文本相似度为余弦相似度算法、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离中的任意一种。

5.根据权利要求2所述的方法，其特征在于，所述计算所述问答对文本数据中的答案文本与行业问答对语料中的答案文本的文本相似度，确定答案文本相似度最大值对应的行业问答对语料，包括：
计算所述问答对文本数据中每个交互轮次的答案文本与行业问答对语料中的答案文本的文本相似度，确定每个交互轮次的答案文本相似度最大值对应的...

【专利技术属性】
技术研发人员：嵇望，王伟凯，钱艳，朱鹏飞，安毫亿，梁青，
申请(专利权)人：杭州远传新业科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人