一种语句相似度计算方法及装置制造方法及图纸

技术编号:17007368 阅读:41 留言:0更新日期:2018-01-11 03:46
本发明专利技术实施例公开了一种语句相似度计算方法及装置,方法包括:根据第一预设规则进行分词处理,分别得到两个语句的第一分词向量和第二分词向量;根据第二预设规则,计算得到第一分词向量和第二分词向量中各个分词的权重,并根据权重,分别计算得到第一分词向量的第一模和第二分词向量的第二模;根据第一分词向量和第二分词向量中相同的目标分词的权重,计算第一分词向量和第二分词向量的目标分词内积;根据第一模、第二模和目标分词内积,计算得到第一语句和第二语句的相似度。本发明专利技术实施例通过对语句进行分词处理,并为每个分词计算权重,根据权重计算得到两个语句的相似度,避免了大量人工经验配置计算公式,且准确率较高,计算速度较快。

【技术实现步骤摘要】
一种语句相似度计算方法及装置
本专利技术实施例涉及计算机
,具体涉及一种语句相似度计算方法及装置。
技术介绍
随着计算机自动化和智能化的发展,用户对计算机的自动搜索技术提出了较高的要求,尤其在智能机器人领域,对智能机器人的自动搜索结果的要求更高。而用户输入的语句和搜索结果语句的相似度计算是搜索技术的核心问题。基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验的质量。现有技术中的语句相似度计算方法主要是采用基于向量空间模型(VSM,Vectorspacemodel)方法和基于语义向量的相似度计算,其中,基于VSM方法的相似度计算需要大量人工经验配置计算公式,而基于语义向量的相似度计算的算法准确率难以掌握,算法迭代时间较长。在实现本专利技术实施例的过程中,专利技术人发现现有的语句相似度计算方法需要大量人工经验配置计算公式,且准确率难以掌握,算法迭代时间较长。
技术实现思路
由于现有的语句相似度计算方法需要大量人工经验配置计算公式,且准确率难以掌握,算法迭代时间较长的问题,本专利技术提出一种语句相似度计算方法及装置。第一方面,本专利技术实施例提出一种语句相似度计算方法,包括:根据第一本文档来自技高网...
一种语句相似度计算方法及装置

【技术保护点】
一种语句相似度计算方法,其特征在于,包括:根据第一预设规则对第一语句和第二语句进行分词处理,得到所述第一语句的第一分词向量和所述第二语句的第二分词向量;根据第二预设规则,计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,并根据所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,分别计算得到所述第一分词向量的第一模和所述第二分词向量的第二模;获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;根据所述第一模、所述第二模和所述目标分词内积,计算得到所述第一语句和所述第二语句...

【技术特征摘要】
1.一种语句相似度计算方法,其特征在于,包括:根据第一预设规则对第一语句和第二语句进行分词处理,得到所述第一语句的第一分词向量和所述第二语句的第二分词向量;根据第二预设规则,计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,并根据所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,分别计算得到所述第一分词向量的第一模和所述第二分词向量的第二模;获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;根据所述第一模、所述第二模和所述目标分词内积,计算得到所述第一语句和所述第二语句的相似度。2.根据权利要求1所述的方法,其特征在于,所述根据第一预设规则对第一语句和第二语句进行分词处理,得到所述第一语句的第一分词向量和所述第二语句的第二分词向量之前,还包括:获取所述第一语句和所述第二语句,其中,所述第二语句为所述第一语句的召回语句,所述召回语句为根据所述第一语句经搜索引擎搜索得到的语句。3.根据权利要求2所述的方法,其特征在于,所述根据第二预设规则,计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,并根据所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,分别计算得到所述第一分词向量的第一模和所述第二分词向量的第二模,进一步包括:根据第二预设规则,计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重;对所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重分别进行归一化处理;根据所述第一分词向量中各个分词的归一化后的权重和所述第二分词向量中各个分词的归一化后的权重,分别计算得到所述第一分词向量的第一模和所述第二分词向量的第二模。4.根据权利要求3所述的方法,其特征在于,所述根据第二预设规则,计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,进一步包括:将所述第一分词向量中各个分词的权重设置为相等;根据第一预设值、第二预设值、第三预设值、当前分词在所述第一分词向量中出现的次数和当前分词在所述第二分词向量中出现的次数,计算当前分词在所述第二分词向量中的权重。5.根据权利要求4所述的方法,其特征在于,所述计算得到所述第一分词向量中各个分词的权重和所述第二分词向量中各个分词的权重,进一步包括:根据所述第二分词向量中各个分词的权重,判断获知所述第二分词向量中各个分词的权重之和大于第四预设值。6.根据权利要求2-5任一所述的方法,其特征在于,所述根据所述第一模、所述第...

【专利技术属性】
技术研发人员:郭祥郭瑞雷宇
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1