语句相似度的计算、搜索处理方法及装置制造方法及图纸

技术编号：11207846 阅读：66 留言：0更新日期：2015-03-26 16:30

本发明专利技术提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置，上述计算方法包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括：接收查询语句；根据所述查询语句获取至少一个搜索结果条目；通过上述通过计算机实现的语句相似度的计算方法，分别计算所述查询语句与所述搜索结果条目的语义相似度；根据计算的语义相似度的值对所述搜索结果条目进行排序；发送经过排序的搜索结果条目。本发明专利技术能够根据语句的语义计算出更准确的语句相似度，并提供更准确的搜索结果。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置，上述计算方法包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括：接收查询语句；根据所述查询语句获取至少一个搜索结果条目；通过上述通过计算机实现的语句相似度的计算方法，分别计算所述查询语句与所述搜索结果条目的语义相似度；根据计算的语义相似度的值对所述搜索结果条目进行排序；发送经过排序的搜索结果条目。本专利技术能够根据语句的语义计算出更准确的语句相似度，并提供更准确的搜索结果。【专利说明】语句相似度的计算、搜索处理方法及装置
本专利技术涉及信息处理技术，尤其涉及一种通过计算机实现的语句相似度的计算、搜索处理方法及装置。
技术介绍
用户输入的查询语句和搜索网页的标题的相似度计算是搜索技术的核心问题点。基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验质量。现有技术中相似度计算方法主要是采用基于词袋（bag-of-words)的方法，只是简单地考虑单个或者若干个词的直接匹配，并没有考虑这些词组合起来的真正的语义是怎样的。然而，现有技术只考虑词的级别的匹配，无法区分开语句之间的语义不匹配的问题。在两句话字面类似、而含义完全不同的情况下，计算的相似度也非常高。例如如图1所示，对于"日本收购的中国企业"这个查询语句，采用现有技术搜索出的前7个结果中，就有 6个是字面相似（红色箭头标出，语义含义都是...

【技术保护点】
一种通过计算机实现的语句相似度的计算方法，其特征在于，所述方法包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴先超，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人