一种训练文本相似度模型的方法和系统技术方案

技术编号：24708145 阅读：66 留言：0更新日期：2020-06-30 23:59

本说明书实施例公开了一种训练文本相似度模型的方法及系统，该方法包括：获取多组训练数据，多组训练数据中的一组包括：第一文本、第二文本和第三文本，第二文本和第三文本为用户输入的询问内容，第一文本为知识库中对应于第二文本和第三文本的问题；其中，第二文本为与第一文本匹配的用户反馈好评的文本，第三文本为与第一文本不匹配的用户反馈差评的文本；基于多组训练数据调整文本相似度模型的参数进而优化损失函数，得到训练后的文本相似度模型；其中，损失函数基于第一相似度和第二相似度的相对关系确定；第一相似度为文本相似度模型基于第一文本和第二文本计算的相似度，第二相似度为文本相似度模型基于第一文本与第三文本计算的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种训练文本相似度模型的方法和系统
本说明书涉及计算机
，特别涉及一种训练文本相似度模型的方法和系统。
技术介绍
随着互联网和人工智能等领域的不断发展，客服机器人在客户服务中扮演了重要的角色。用户输入问题后，客服机器人可以根据问题从预先整理的知识库中确定答案。通常，客服机器人是根据问题与知识库中的知识点的文本语义相似度确定答案。然而，若知识库整理过程中出现了错误，例如，将问题A的答案与问题B组成了知识点，若将该答案反馈给与问题B语义相似的用户时，会严重影响用户的体验。因此，亟需一种可以从知识库更加准确地确定用户问题的方法。
技术实现思路
本说明书实施例的一个方面提供一种训练文本相似度模型的方法。所述训练文本相似度模型的方法包括：获取多组训练数据，所述多组训练数据中的一组包括：第一文本、第二文本和第三文本，所述第二文本和所述第三文本为用户输入的询问内容，所述第一文本为知识库中对应于所述第二文本和所述第三文本的问题；其中，所述第二文本为与所述第一文本匹配的所述用户反馈好评的文本，所述第三文本为与所述第一...

【技术保护点】
1.一种训练文本相似度模型的方法，包括：/n获取多组训练数据，所述多组训练数据中的一组包括：第一文本、第二文本和第三文本，所述第二文本和所述第三文本为用户输入的询问内容，所述第一文本为知识库中对应于所述第二文本和所述第三文本的问题；其中，所述第二文本为与所述第一文本匹配的所述用户反馈好评的文本，所述第三文本为与所述第一文本不匹配的所述用户反馈差评的文本；/n基于所述多组训练数据调整文本相似度模型的参数进而优化损失函数，得到训练后的文本相似度模型；其中，所述损失函数基于第一相似度和第二相似度的相对关系确定；所述第一相似度为所述文本相似度模型基于所述第一文本和所述第二文本计算的相似度，所述第二相似...

【技术特征摘要】
1.一种训练文本相似度模型的方法，包括：
获取多组训练数据，所述多组训练数据中的一组包括：第一文本、第二文本和第三文本，所述第二文本和所述第三文本为用户输入的询问内容，所述第一文本为知识库中对应于所述第二文本和所述第三文本的问题；其中，所述第二文本为与所述第一文本匹配的所述用户反馈好评的文本，所述第三文本为与所述第一文本不匹配的所述用户反馈差评的文本；
基于所述多组训练数据调整文本相似度模型的参数进而优化损失函数，得到训练后的文本相似度模型；其中，所述损失函数基于第一相似度和第二相似度的相对关系确定；所述第一相似度为所述文本相似度模型基于所述第一文本和所述第二文本计算的相似度，所述第二相似度为所述文本相似度模型基于所述第一文本与所述第三文本计算的相似度。

2.如权利要求1所述的方法，所述方法还包括：
获取所述用户输入的询问内容；
基于所述询问内容从所述知识库中召回至少一个候选问题，以及所述至少一个候选问题对应的答案；
将所述询问内容和所述至少一个候选问题输入所述训练后的文本相似度模型，输出所述询问内容与所述至少一个候选问题之间的相似度；
基于所述相似度从所述至少一个候选问题中确定至少一个目标问题，并将所述至少一个目标问题对应的答案作为所述询问内容的答案。

3.如权利要求1所述的方法，所述相对关系包括：
所述第二相似度与所述第一相似度的差，再加上固定值。

4.如权利要求1所述的方法，所述文本相似度模型包括向量化模型和相似度计算模型；
其中，所述向量化模型用于对输入的所述第一文本、所述第二文本和所述第三文本进行向量化表示；
所述相似度计算模型基于向量化后的所述第一文本、所述第二文本和所述第三文本计算所述第一相似度和所述第二相似度。

5.如权利要求4所述的方法，所述向量化模型由WordEmbedding和BiLSTM构成，所述第一文本、所述第二文本和所述第三文本分别依次经过WordEmbedding和BiLSTM生成对应的向量。

6.如权利要求4所述的方法，所述文本相似度模型为BERT模型。

7.如权利要求4所述的方法，所述相似度计算模型为ESIM模型。

8.一种训练文本相似度模型的系统，包括：
第一获取模块，用于获取多组训练数据，所述多组训练数据中的一组包括：第一文本、第二文本和第三文本，所述第二文本和所述第三文本为用户输入的询问内容，所述第一文本为知识库中对应于所述第二文本和所述...

【专利技术属性】
技术研发人员：杨明晖，崔恒斌，陈晓军，陈显玲，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人