【技术实现步骤摘要】
一种语句相似度计算方法及装置
本专利技术实施例涉及计算机
,具体涉及一种语句相似度计算方法及装置。
技术介绍
随着计算机自动化和智能化的发展,用户对计算机的自动搜索技术提出了较高的要求,尤其在智能机器人领域,对智能机器人的自动搜索结果的要求更高。而用户输入的语句和搜索结果语句的相似度计算是搜索技术的核心问题。基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验的质量。现有技术中的语句相似度计算方法主要是采用基于向量空间模型(VSM,Vectorspacemodel)方法和基于整句语义表示的相似度计算,其中,基于VSM方法的相似度计算需要大量人工经验配置计算公式,而基于整句语义表示的相似度计算的算法需要大量标注语料和人工经验。在实现本专利技术实施例的过程中,专利技术人发现现有的语句相似度计算方法需要大量标注语料和人工经验,且准确率难以掌握。
技术实现思路
由于现有的语句相似度计算方法需要大量标注语料和人工经验,且准确率难以掌握的问题,本专利技术提出一种语句相似度计算方法及装置。第一方面,本专利技术实施例提出一种语句相似度计算方法,包括:获取第一语句和第二语句;对 ...
【技术保护点】
一种语句相似度计算方法,其特征在于,包括:获取第一语句和第二语句;对所述第一语句和所述第二语句进行分词处理,得到所述第一语句和所述第二语句分词后的若干个词语;根据所述第一语句中每个词语分别和所述第二语句中的每个词语的相似度,得到第一矩阵;根据所述第一矩阵和预设规则,计算得到所述第一语句和所述第二语句的相似度。
【技术特征摘要】
1.一种语句相似度计算方法,其特征在于,包括:获取第一语句和第二语句;对所述第一语句和所述第二语句进行分词处理,得到所述第一语句和所述第二语句分词后的若干个词语;根据所述第一语句中每个词语分别和所述第二语句中的每个词语的相似度,得到第一矩阵;根据所述第一矩阵和预设规则,计算得到所述第一语句和所述第二语句的相似度。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语句中每个词语分别和所述第二语句中的每个词语的相似度,得到第一矩阵,进一步包括:根据所述第一语句和所述第二语句中的词语顺序,分别计算所述第一语句中每个词语和所述第二语句中的每个词语的相似度,并根据所述相似度,建立所述第一矩阵。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一矩阵和预设规则,计算得到所述第一语句和所述第二语句的相似度,进一步包括:建立第二矩阵,根据所述第一矩阵中行和列对应的词语之间的距离,计算得到所述第二矩阵中第一行和第一列中各单元的值;根据所述第二矩阵中第一行和第一列中各单元的值,计算得到所述第二矩阵中第m行第n列的值a[m][n],所述值a[m][n]为所述第一语句和所述第二语句的相似度;其中,所述第二矩阵为m×n的矩阵,所述第一矩阵为(m-1)×(n-1)的矩阵。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二矩阵中第一行和第一列中各单元的值,计算得到所述第二矩阵中第m行第n列的值a[m][n],进一步包括:选择所述第一矩阵第i行中最小的相似度为Wi和所述第一矩阵第j列中最小的相似度为Wj;计算第一参考值v1=a[i-1][j]+Wi、第二参考值v2=a[i][j-1]+Wi+1和第三参考值v3=a[i-1][j-1]+W[i][j];所述W[i][j]为所述第一矩阵第i行第j列的值;若所述第一矩阵第i+1行和第j+1列对应的词语相同,则所述第二矩阵第i行第j列a[i][j]的值为0,否则所述第二矩阵第i行第j列a[i][j]的值为所述第一参考值、所述第二参考值和所述第三参考值中最小的值;其中,当i=m且j=n时,a[i][j]的值为a[m][n]。5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述第一语句中每个词语分别和所述第二语句中的每个词语的相似度,得到第一矩阵进一步包括:根据word2vec或GloVe或...
【专利技术属性】
技术研发人员:郭祥,郭瑞,雷宇,
申请(专利权)人:北京智能管家科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。