相似问题生成方法、装置、设备及介质制造方法及图纸

技术编号：24251990 阅读：34 留言：0更新日期：2020-05-22 23:48

本发明专利技术公开了一种相似问题生成方法，涉及自然语言处理技术领域，旨在通过标注部分交互语料数据训练问题识别模型，通过问题识别模型识别问题并计算问题相似度，从而完成相似问题分类，进而实现生成相似问题，该方法包含以下步骤：获取交互语料文本数据；标注部分交互语料文本数据，形成问题文本语料数据；利用预处理后的所述问题文本语料数据训练原始机器学习模型，生成问题识别模型；利用所述问题识别模型对未标注的交互语料文本数据进行问题识别，形成问题语料；通过文本相似度算法计算问题语料的相似度，以生成各类别相似问题语料；输出各类别相似问题语料。本发明专利技术还公开了一种相似问题生成装置、电子设备和计算机存储介质。

Generation methods, devices, equipment and media of similar problems

全部详细技术资料下载

【技术实现步骤摘要】
相似问题生成方法、装置、设备及介质
本专利技术涉及自然语言处理
，尤其涉及一种相似问题生成方法、装置、设备及介质。
技术介绍
目前的智能客服机器人技术，主要是基于机器学习算法实现意图识别。而机器学习算法需要提供大量已知类别的相似语料用于训练，故在智能客服机器人构建初期需要准备大量的标注数据。在现有的智能客服机器人构建过程中，一般通过人工标注的方式得到大量的标注数据用作相似语料，存在周期长，标注成本高等问题。因此如何在智能客服机器人构建初期自动化的获取相关相似语料数据就显得尤为关键。在现有技术中，中国专利CN109033390A公开了一种自动生成相似问句的方法和装置，所述方法包括获取初始问句；根据所述初始问句生成拓展问句；判断拓展问句是否为相似问句，并根据判断结果标记出相似问句。该方法利用计算机自动生成相似问句，节省了人工标注相似问句所耗费的人力，能够降低机器人客服的成本。但是上述方法在实际应用时采用深度学习模型，因此在进行深度学习模型训练时需要大量标注的训练语料，存在获取训练数据困难的问题；而通过模型输出的语句...

【技术保护点】
1.一种相似问题生成方法，其特征在于，包括以下步骤：/n获取交互语料文本数据；/n抽取若干所述交互语料文本数据用于问题标注，形成问题文本语料数据；/n预处理所述问题文本语料数据和未标注的所述交互语料文本数据；/n利用预处理后的所述问题文本语料数据训练原始机器学习模型，生成问题识别模型；/n利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别，得到问题语料；/n通过文本相似度算法计算所述问题语料的相似度，并根据预设阈值和相似度计算结果对所述问题语料进行分类，生成各类别相似问题语料；/n输出各类别相似问题语料。/n

【技术特征摘要】
1.一种相似问题生成方法，其特征在于，包括以下步骤：
获取交互语料文本数据；
抽取若干所述交互语料文本数据用于问题标注，形成问题文本语料数据；
预处理所述问题文本语料数据和未标注的所述交互语料文本数据；
利用预处理后的所述问题文本语料数据训练原始机器学习模型，生成问题识别模型；
利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别，得到问题语料；
通过文本相似度算法计算所述问题语料的相似度，并根据预设阈值和相似度计算结果对所述问题语料进行分类，生成各类别相似问题语料；
输出各类别相似问题语料。

2.如权利要求1所述的相似问题生成方法，其特征在于，获取交互语料文本数据，具体包括：
获取交互语料数据，判断所述交互语料的数据类型；
若所述交互语料数据的数据类型为文本数据，则将所述交互语料数据作为所述交互语料文本数据；
若所述交互语料数据的数据类型为语音数据，则对所述交互语料数据进行语音转译和文本纠错，将语音转译和文本纠错后的交互语料数据作为所述交互语料文本数据。

3.如权利要求1所述的相似问题生成方法，其特征在于，结合行业客服话术数据库对抽取的若干所述交互语料文本数据进行问题标注。

4.如权利要求1所述的相似问题生成方法，其特征在于，预处理所述问题文本语料数据和未标注的所述交互语料文本数据，具体包括：
对所述问题文本语料数据和未标注的所述交互语料文本数据分别进行分词和停用词过滤。

5.如权利要求1-4任一项所述的相似问题生成方法，其特征在于，所述原始机器学习模型为有监督的机器学习模型，利用所述问题识别模型对未标注的所述交互语料文本数据进行问题识别，得到问题语料之后，还包括：
标注所述问题语料，利用标注后的所述问题语料迭代训练所述问题识别模型。

6.如权利要求5所述的相似问题生成方法，其特征在于，所述文本相似度算法为余弦相似度算法，通过所述余弦相似度算法计算所述问题语料的相似度，并根据预设阈值和相似度计算结果对所述问题语料进行分类，生成各类别相似问题语料，具体包括如下步骤：
将所述问题语料进行向量化处理，得到问题句向量集合；
从所述向量化问题句集合中随机抽取一个问题句向量，作为问题类别的中心向量；...

【专利技术属性】
技术研发人员：王伟凯，钱艳，邱霞霞，安毫亿，朱鹏飞，
申请(专利权)人：杭州远传新业科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人