语句相似度的计算、搜索处理方法及装置制造方法及图纸

技术编号:11207846 阅读:66 留言:0更新日期:2015-03-26 16:30
本发明专利技术提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,上述计算方法包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括:接收查询语句;根据所述查询语句获取至少一个搜索结果条目;通过上述通过计算机实现的语句相似度的计算方法,分别计算所述查询语句与所述搜索结果条目的语义相似度;根据计算的语义相似度的值对所述搜索结果条目进行排序;发送经过排序的搜索结果条目。本发明专利技术能够根据语句的语义计算出更准确的语句相似度,并提供更准确的搜索结果。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,上述计算方法包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括:接收查询语句;根据所述查询语句获取至少一个搜索结果条目;通过上述通过计算机实现的语句相似度的计算方法,分别计算所述查询语句与所述搜索结果条目的语义相似度;根据计算的语义相似度的值对所述搜索结果条目进行排序;发送经过排序的搜索结果条目。本专利技术能够根据语句的语义计算出更准确的语句相似度,并提供更准确的搜索结果。【专利说明】语句相似度的计算、搜索处理方法及装置
本专利技术涉及信息处理技术,尤其涉及一种通过计算机实现的语句相似度的计算、 搜索处理方法及装置。
技术介绍
用户输入的查询语句和搜索网页的标题的相似度计算是搜索技术的核心问题点。 基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验质量。现有技术中相似度计 算方法主要是采用基于词袋(bag-of-words)的方法,只是简单地考虑单个或者若干个词 的直接匹配,并没有考虑这些词组合起来的真正的语义是怎样的。 然而,现有技术只考虑词的级别的匹配,无法区分开语句之间的语义不匹配的问 题。在两句话字面类似、而含义完全不同的情况下,计算的相似度也非常高。例如如图1所 示,对于"日本收购的中国企业"这个查询语句,采用现有技术搜索出的前7个结果中,就有 6个是字面相似(红色箭头标出,语义含义都是类似于"中国收购日本企业"),而语义完全 相反的网页。从而导致提供了错误的搜索结果,严重影响用户体验。
技术实现思路
本专利技术的目的在于,提供一种通过计算机实现的语句相似度的计算、搜索处理方 法及装置,能够根据语句的语义计算出更准确的语句相似度,并提供更准确的搜索结果。 根据本专利技术的一方面,本专利技术提供一种通过计算机实现的语句相似度的计算方 法,包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一 依存树以及第二依存树;根据第一依存树以及第二依存树计算第一语句与第二语句的语义 相似度。 根据本专利技术的另一方面,本专利技术提供一种搜索处理方法,包括:接收查询语句;根 据查询语句获取至少一个搜索结果条目;通过上述通过计算机实现的语句相似度的计算方 法,分别计算查询语句与搜索结果条目的语义相似度;根据计算的语义相似度的值对搜索 结果条目进行排序;发送经过排序的搜索结果条目。 根据本专利技术的另一方面,本专利技术提供一种通过计算机实现的语句相似度的计算装 置,包括:语句获取单元,用于获取第一语句和第二语句;依存分析单元,用于分别对第一 语句和第二语句进行依存分析,得到第一依存树以及第二依存树;第一语义相似度计算单 元,用于根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。 根据本专利技术的另一方面,本专利技术提供一种搜索处理装置,包括:查询语句接收单 元,用于接收查询语句;搜索单元,用于根据查询语句获取至少一个搜索结果条目;语义相 似度计算单元,用于通过上述通过计算机实现的语句相似度的计算装置,分别计算查询语 句与搜索结果条目的语义相似度;排序单元,用于根据计算的语义相似度的值对搜索结果 条目进行排序;搜索结果条目发送单元,用于发送经过排序的搜索结果条目。 本专利技术实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装 置,通过根据两个语句的依存树计算两个语句的语义相似度,得到更准确的语句相似度数 据;通过上述语句相似度的计算方法分别计算查询语句与搜索结果条目的语义相似度,根 据计算的语义相似度的值对搜索结果条目进行排序,从而提供更准确的搜索结果。 【专利附图】【附图说明】 图1为采用现有技术进行搜索的搜索结果示意图; 图2为本专利技术示例性实施例的通过计算机实现的语句相似度的计算方法的流程 图; 图3为本专利技术优选实施例的通过计算机实现的语句相似度的计算方法的流程图; 图4为本专利技术优选实施例的两个语句的依存树与语义结构的示意图; 图5为本专利技术示例性实施例的搜索处理方法的流程图; 图6为本专利技术示例性实施例的通过计算机实现的语句相似度的计算装置的逻辑 框图; 图7为本专利技术优选实施例的通过计算机实现的语句相似度的计算装置的逻辑框 图; 图8为本专利技术示例性实施例的搜索处理装置的逻辑框图。 【具体实施方式】 本专利技术提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,从 计算查询语句和网页标题的相似度这一视角出发,基于依存关系来计算查询语句和网页标 题的相似度,从而得到更准确的语句相似度,更好地区分开字面类似而含义完全不同的查 询语句和网页标题;另一方面,根据计算的语义相似度的值对搜索结果条目进行排序,从而 提供更准确的搜索结果。 进一步地,本专利技术还在根据依存关系来计算语义相似度的基础上,增加了语义角 色关系相似度作为计算语义相似度的元素,更全面地衡量语句之间的语义相似度,从而使 计算的语句相似度更加准确。 下面结合附图对本专利技术实施例提供的通过计算机实现的语句相似度的计算、搜索 处理方法及装置进行详细描述。 图2为本专利技术示例性实施例的通过计算机实现的语句相似度的计算方法的流程 图。 参照图2,在步骤S210,获取第一语句和第二语句。 以网页搜索结果与查询词的匹配为例,所述第一语句和第二语句可以分别是查询 语句和任一搜索结果条目的网页标题。 在步骤S220,分别对第一语句和第二语句进行依存分析,得到第一依存树以及第 二依存树。在本实施例中,在步骤S220,可以通过移进归约算法对第一语句和第二语句进行 依存分析。以"我爱中国"这句话为例,经过依存分析后得到的依存树可以表示为: 【权利要求】1. 一种通过计算机实现的语句相似度的计算方法,其特征在于,所述方法包括: 获取第一语句和第二语句; 分别对第一语句和第二语句进行依存分析,得到第一依存树W及第二依存树; 根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的语义相似 度。2. 根据权利要求1所述的方法,其特征在于,所述根据所述第一依存树W及第二依存 树计算所述第一语句与所述第二语句之间的语义相似度的处理包括: 根据所述第一依存树W及第二依存树,分别计算两者的语义主干依存关系弧之间的主 干语义相似度W及两者的非语义主干依存关系弧之间的非主干语义相似度; 根据所述主干语义相似度与所述非主干语义相似度计算所述第一语句与所述第二语 句之间的语义相似度。3. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 根据所述第一依存树W及所述第二依存树,分别对所述第一语句和第二语句进行语义 角色标注,得到第一语义结构和第二语义结构。4. 根据权利要求3所述的方法,其特征在于,所述根据所述第一依存树W及第二依存 树计算所述第一语句与所述第二语句的语义相似度的处理包括: 根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的依存关系 相似度; 根据所述第一语义结构和第二语义结构计算本文档来自技高网
...

【技术保护点】
一种通过计算机实现的语句相似度的计算方法,其特征在于,所述方法包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴先超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1