相似问题生成方法、装置、设备及介质制造方法及图纸

技术编号:24251990 阅读:29 留言:0更新日期:2020-05-22 23:48
本发明专利技术公开了一种相似问题生成方法,涉及自然语言处理技术领域,旨在通过标注部分交互语料数据训练问题识别模型,通过问题识别模型识别问题并计算问题相似度,从而完成相似问题分类,进而实现生成相似问题,该方法包含以下步骤:获取交互语料文本数据;标注部分交互语料文本数据,形成问题文本语料数据;利用预处理后的所述问题文本语料数据训练原始机器学习模型,生成问题识别模型;利用所述问题识别模型对未标注的交互语料文本数据进行问题识别,形成问题语料;通过文本相似度算法计算问题语料的相似度,以生成各类别相似问题语料;输出各类别相似问题语料。本发明专利技术还公开了一种相似问题生成装置、电子设备和计算机存储介质。

Generation methods, devices, equipment and media of similar problems

【技术实现步骤摘要】
相似问题生成方法、装置、设备及介质
本专利技术涉及自然语言处理
,尤其涉及一种相似问题生成方法、装置、设备及介质。
技术介绍
目前的智能客服机器人技术,主要是基于机器学习算法实现意图识别。而机器学习算法需要提供大量已知类别的相似语料用于训练,故在智能客服机器人构建初期需要准备大量的标注数据。在现有的智能客服机器人构建过程中,一般通过人工标注的方式得到大量的标注数据用作相似语料,存在周期长,标注成本高等问题。因此如何在智能客服机器人构建初期自动化的获取相关相似语料数据就显得尤为关键。在现有技术中,中国专利CN109033390A公开了一种自动生成相似问句的方法和装置,所述方法包括获取初始问句;根据所述初始问句生成拓展问句;判断拓展问句是否为相似问句,并根据判断结果标记出相似问句。该方法利用计算机自动生成相似问句,节省了人工标注相似问句所耗费的人力,能够降低机器人客服的成本。但是上述方法在实际应用时采用深度学习模型,因此在进行深度学习模型训练时需要大量标注的训练语料,存在获取训练数据困难的问题;而通过模型输出的语句不仅受训练语料范围的限制,还有可能存在不通顺、语病等问题。在另一中国专利CN109063004A中公开了一种自动生成FAQ相似问句的方法和装置,所述方法包括:根据选定的FAQ生成一个文本;判断生成的文本与所述选定的FAQ是否相似;如果生成的文本与所述选定的FAQ相似,则该文本为所述选定的FAQ的相似问句。该专利通过自动生成FAQ相似问句,减少了人工标注的投入成本,并且对于新增的FAQ,可以快速地构建出对应的相似问;此外,采用自然语言处理方法与句子生成规则相结合的方式来进行文本生成,可以更加有效地提高相似问句生成的质量。但是该专利存在近义词准确维护困难、初始问题生成规则构建困难等问题,不易维护且适用性低,不能普遍应用。因此为了实现相似语料数据的自动获取,亟需提出一种克服上述现有技术缺陷且普遍适用的相似问题生成方法。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种相似问题生成方法,旨在对部分交互语料进行标注,将标注后的交互语料作为训练语料,以完成对问题识别模型的训练,通过该问题识别模型识别交互语料中的问题语句,再通过文本相似度算法生成相似问题,实现了相似语料数据的自动获取,避免了大量标注训练语料,且生成的相似问题不受训练语料范围的限制。本专利技术的目的之一采用以下技术方案实现:一种相似问题生成方法,包括以下步骤:获取交互语料文本数据;抽取若干所述交互语料文本数据用于问题标注,形成问题文本语料数据;预处理所述问题文本语料数据和未标注的所述交互语料文本数据;利用预处理后的所述问题文本语料数据训练原始机器学习模型,生成问题识别模型;利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料;通过文本相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料进行分类,生成各类别相似问题语料;输出各类别相似问题语料。进一步地,获取交互语料文本数据,具体包括:获取交互语料数据,判断所述交互语料的数据类型;若所述交互语料数据的数据类型为文本数据,则将所述交互语料数据作为所述交互语料文本数据;若所述交互语料数据的数据类型为语音数据,则对所述交互语料数据进行语音转译和文本纠错,将语音转译和文本纠错后的交互语料数据作为所述交互语料文本数据。进一步地,结合行业客服话术数据库对抽取的若干所述交互语料文本数据进行问题标注。进一步地,预处理所述问题文本语料数据和未标注的所述交互语料文本数据,具体包括:对所述问题文本语料数据和未标注的所述交互语料文本数据分别进行分词和停用词过滤。进一步地,所述原始机器学习模型为有监督的机器学习模型,利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料之后,还包括:标注所述问题语料,利用标注后的所述问题语料迭代训练所述问题识别模型。进一步地,所述文本相似度算法为余弦相似度算法,通过所述余弦相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料进行分类,生成各类别相似问题语料,具体包括如下步骤:将所述问题语料进行向量化处理,得到问题句向量集合;从所述向量化问题句集合中随机抽取一个问题句向量,作为问题类别的中心向量;遍历计算所述问题句向量集合中的问题句向量与各问题类别的中心向量的余弦相似度:若所述余弦相似度最大值大于所述预设阈值,则将所述问题句向量归类到所述余弦相似度最大值对应的问题类别,并同时以向量平均方法更新所述问题类别的中心向量;若所述余弦相似度最大值小于等于所述预设阈值,则新增问题类别,所述问题句向量作为所述新增问题类别的中心向量。进一步地,输出各类别相似问题语料,具体包括如下步骤:通过关键词算法对所述各类别相似问题语料进行关键词提取,根据关键词提取结果整合所述各类相似问题语料,输出各类别相似问题语料;其中所述关键词算法为TextRank算法,根据关键词提取结果整合所述各类别相似问题语料,具体包括:合并关键词含义相同的相似问题语料;和/或,拆分或删除关键词含义不同的相似问题语料;和/或,拆分或删除关键词含义不同的相似问题语料,提取所述拆分或删除的相似问题语料中的相似问题,并增加至关键词含义相同的各类别相似问题语料中。本专利技术的目的之二在于提供一种相似问题生成装置,其通过标注部分交互数据作为模型训练的训练语料,以通过模型训练生成问题识别模型,并通过该问题识别模型识别交互语料中的问题语句,最后通过文本相似度算法计算问题相似度,以生成相似问题。本专利技术的目的之二采用以下技术方案实现:数据获取模块,用于获取交互语料文本数据;标注模块,用于抽取若干所述交互语料文本数据用于问题标注,形成问题文本语料数据;数据预处理模块,用于预处理所述问题文本语料数据和未标注的所述交互语料文本数据;模型训练模块,用于利用预处理后的所述问题文本语料数据训练原始机器学习模型,生成问题识别模型;问题识别模块,用于利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料;分类模块,用于通过文本相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料数据进行分类,生成各类别相似问题语料;结果输出模块,用于输出各类别相似问题语料。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的相似问题生成方法。本专利技术的目的之四在于提供存储专利技术目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的相似问题生成方法。相比现本文档来自技高网
...

【技术保护点】
1.一种相似问题生成方法,其特征在于,包括以下步骤:/n获取交互语料文本数据;/n抽取若干所述交互语料文本数据用于问题标注,形成问题文本语料数据;/n预处理所述问题文本语料数据和未标注的所述交互语料文本数据;/n利用预处理后的所述问题文本语料数据训练原始机器学习模型,生成问题识别模型;/n利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料;/n通过文本相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料进行分类,生成各类别相似问题语料;/n输出各类别相似问题语料。/n

【技术特征摘要】
1.一种相似问题生成方法,其特征在于,包括以下步骤:
获取交互语料文本数据;
抽取若干所述交互语料文本数据用于问题标注,形成问题文本语料数据;
预处理所述问题文本语料数据和未标注的所述交互语料文本数据;
利用预处理后的所述问题文本语料数据训练原始机器学习模型,生成问题识别模型;
利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料;
通过文本相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料进行分类,生成各类别相似问题语料;
输出各类别相似问题语料。


2.如权利要求1所述的相似问题生成方法,其特征在于,获取交互语料文本数据,具体包括:
获取交互语料数据,判断所述交互语料的数据类型;
若所述交互语料数据的数据类型为文本数据,则将所述交互语料数据作为所述交互语料文本数据;
若所述交互语料数据的数据类型为语音数据,则对所述交互语料数据进行语音转译和文本纠错,将语音转译和文本纠错后的交互语料数据作为所述交互语料文本数据。


3.如权利要求1所述的相似问题生成方法,其特征在于,结合行业客服话术数据库对抽取的若干所述交互语料文本数据进行问题标注。


4.如权利要求1所述的相似问题生成方法,其特征在于,预处理所述问题文本语料数据和未标注的所述交互语料文本数据,具体包括:
对所述问题文本语料数据和未标注的所述交互语料文本数据分别进行分词和停用词过滤。


5.如权利要求1-4任一项所述的相似问题生成方法,其特征在于,所述原始机器学习模型为有监督的机器学习模型,利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别,得到问题语料之后,还包括:
标注所述问题语料,利用标注后的所述问题语料迭代训练所述问题识别模型。


6.如权利要求5所述的相似问题生成方法,其特征在于,所述文本相似度算法为余弦相似度算法,通过所述余弦相似度算法计算所述问题语料的相似度,并根据预设阈值和相似度计算结果对所述问题语料进行分类,生成各类别相似问题语料,具体包括如下步骤:
将所述问题语料进行向量化处理,得到问题句向量集合;
从所述向量化问题句集合中随机抽取一个问题句向量,作为问题类别的中心向量;...

【专利技术属性】
技术研发人员:王伟凯钱艳邱霞霞安毫亿朱鹏飞
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1