基于语义相似度叠加模型的问题匹配方法组成比例

技术编号：38619276 阅读：12 留言：0更新日期：2023-08-31 18:24

为了解决现有技术中文本或语义匹配效率低或准确性差的问题，提供一种基于语义相似度叠加模型的问题匹配方法，包括以下步骤：首先将数据库的所有标准问题分别输入SIF词袋模型和预训练好的Bert模型中；接受用户输入的问题，将其分词后输入进SIF词袋模型中，得到用户输入问题的句向量；将用户输入问题的句向量同数据库问题的句向量作相似度计算，得到相似度计算结果；判断相似度计算结果的最高相似度是否高于预设的阈值，如高于此阈值则直接返回相似度最大的问题ID，设定好的对应标准问题的标准答案。本发明专利技术创造性的采用了SIF词袋模型和Bert预训练模型叠加，加快预测速度，使得模型在平均匹配所需时间大幅下降。在平均匹配所需时间大幅下降。在平均匹配所需时间大幅下降。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义相似度叠加模型的问题匹配方法

[0001]本专利技术属于自然语言处理
，尤其是在家政维修服务中所涉及的一种基于语义相似度叠加模型的问题匹配方法。

技术介绍

[0002]文本匹配是指利用某个文本的信息内容去匹配与它相似的其他文本作为返回结果，是自然语言处理领域的一个方向。本专利技术所应用场景在与家政维修服务中智能机器人客服，尤其是涉及到中文的智能问答领域，在这一领域中其涉及到中国千家万户可能产生的问答，因此信息处理量大。
[0003]现有技术中常借用Bert预训练模型进行处理，借用Bert模型中的Transformer结构，可以更好地捕捉句子和文本之间的上下关系。参考附图1中罗列的现有技术语义匹配示意图，其首先将数据库的所有标准问题都输入预训练好的Bert模型中，得到数据库问题的句向量矩阵；然后接收用户输入的问题，同样将其输入进预训练好的Bert模型中，得到用户输入问题的句向量，得到句向量的方法有很多种，最常用的做法是取CLS当作句向量；其次将用户输入问题的句向量同数据库问题的句向量矩阵作相似度计算，主要算法有余弦相似度和欧式距离等，得到其相似度计算结果；最后返回相似度最大的问题ID，后端作逻辑判断返回设定好的对应标准问题的标准答案。
[0004]这种匹配方式虽然能够智能化运行，但却存在以下问题：
[0005]第一，采用这种模式，用户输入问题要进入叠加的所有模型中计算句向量，再要用户输入问题要和数据库中所有的问题做相似度计算，如此导致时间消耗大，且时间复杂度的瓶颈往往取决于时间消耗...

【技术保护点】

【技术特征摘要】
1.基于语义相似度叠加模型的问题匹配方法，其特征在于：包括以下步骤：步骤S100：首先将数据库的所有标准问题分别输入SIF词袋模型和预训练好的Bert模型中，分别得到数据库问题的句向量矩阵1和句向量矩阵2；步骤S200：接受用户输入的问题，将其分词后输入进SIF词袋模型中，得到用户输入问题的句向量1；步骤S300：将用户输入问题的句向量1同数据库问题的句向量1作相似度计算，得到相似度计算结果1；步骤S400：判断相似度计算结果1的最高相似度是否高于预设的阈值，如高于此阈值则直接返回相似度最大的问题ID，设定好的对应标准问题的标准答案；步骤S500：如最高相似度小于预设阈值，则再将用户输入问题输入进Bert模型中，得到用户问题句向量2；步骤S600：在句向量矩阵2中，取相似度计算结果1中相似度最高的256个问题，其它问题不作匹配；步骤S700：将用户输入问题的句向量2同数据库问题的句向量2作相似度计算，得到相似度计算结果2；步骤S800：返回相似度最大的问题ID，后端作...

【专利技术属性】
技术研发人员：王国伟，朱红坤，贺光华，李奇隆，
申请(专利权)人：重庆川南环保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人