搜索结果筛选方法与装置制造方法及图纸

技术编号:10824757 阅读:93 留言:0更新日期:2014-12-26 13:30
本发明专利技术提供了一种搜索结果筛选方法与装置,其中,搜索结果筛选方法包括:分别将查询词在网页库中和知识库中进行查询,获得相对应的网页文档和实体对象;其中,所述网页库中存储全网中的网页文档,所述知识库中存储全网中的实体对象;将各所述实体对象与各所述网页文档分别进行关联匹配;根据每个实体对象在各所述网页文档中关联匹配的对应匹配度,将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记,标记为所述实体对象对应的目标页面;根据所述目标页面对应的所述实体对象的标记,对各所述网页文档进行筛选,得到每个所述实体对象对应的所述目标页面。通过本发明专利技术,满足了同一行业类别中细分的需求,加快了信息搜索的效率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种搜索结果筛选方法与装置,其中,搜索结果筛选方法包括:分别将查询词在网页库中和知识库中进行查询,获得相对应的网页文档和实体对象;其中,所述网页库中存储全网中的网页文档,所述知识库中存储全网中的实体对象;将各所述实体对象与各所述网页文档分别进行关联匹配;根据每个实体对象在各所述网页文档中关联匹配的对应匹配度,将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记,标记为所述实体对象对应的目标页面;根据所述目标页面对应的所述实体对象的标记,对各所述网页文档进行筛选,得到每个所述实体对象对应的所述目标页面。通过本专利技术,满足了同一行业类别中细分的需求,加快了信息搜索的效率。【专利说明】搜索结果筛选方法与装置
本专利技术涉及数据处理领域,特别是涉及一种搜索结果筛选方法与装置。
技术介绍
目前,当用户在搜索引擎输入一些有歧义的查询词时,由于现有的主流搜索引擎 都是基于文本匹配的方法将所有可能的结果返回给用户,在得到的搜索结果中排前的往往 只包含热门的网页文档。以"苹果"为例,苹果本身是一个客观实体的名称,它可能是一家 "公司",也可能是一部"电影",还可能是一种"水果"。当输入"苹果"在现有的搜索引擎中 时,搜索结果中往往将这三种网页文档按既定的顺序展示,如第一位展示"公司"对应的网 页文档,第二位展示"电影"对应的网页文档等;或者将不同类别的网页文档混杂在一起,统 一按点击量混合展示。 有的搜索引擎会根据网页文档所在的站点类别进行一些简单的分类,但是这些分 类对应的标签往往都是预定义的,并且是和用户输入的查询词无关的分类,此时用户在获 取自己感兴趣的某一网页文档时会比较困难,需要自己逐条去甄别。例如,用户查询作为 "水果"的"苹果"的成熟周期时,现有的搜索引擎中,会将与"苹果"有关的公司、电影等众 多网页文档排在了搜索结果的前几页,需要用户不断地自行区分各网页文档的内容,翻页 查找需要的关于"水果"的搜索结果。 因此,现有的搜索系统对歧义查询返回的结果往往不加分类展现,或者只是根据 网页文档所属站点的类别进行一些固定类别的分类,分类标签不能根据查询词的不同进行 动态细化,给用户在定位自己感兴趣的目标信息时带来了不便,往往需要自行甄别或者添 加更多的关键字进行二次查询,降低了信息搜索的效率。
技术实现思路
本专利技术提供了一种搜索结果筛选方法与装置,以解决现有技术对查询返回的结果 往往不加分类展现,或者只是根据网页所属站点的类别进行一些固定类别的分类,分类标 签不能根据查询词的不同进行动态细化,给用户查询带来了不便的问题。 为了解决上述问题,本专利技术公开了一种搜索结果筛选方法,包括:分别将查询词在 网页库中和知识库中进行查询,获得相对应的网页文档和实体对象;其中,所述网页库中存 储全网中的网页文档,所述知识库中存储全网中的实体对象;将各所述实体对象与各所述 网页文档分别进行关联匹配;根据每个实体对象在各所述网页文档中关联匹配的对应匹配 度,将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记,标记为所述实体对 象对应的目标页面;根据所述目标页面对应的所述实体对象的标记,对各所述网页文档进 行筛选,得到每个所述实体对象对应的所述目标页面。优选地,所述将各所述实体对象与各 所述网页文档分别进行关联匹配的步骤包括:对获得的各所述网页文档和各所述实体对象 进行向量分析,分别生成所述查询词对应的网页库向量和知识库向量;根据所述网页库向 量和所述知识库向量,对各所述网页文档与各实体对象进行相似度匹配。 优选地,所述对获得的各所述网页文档和各所述实体对象进行向量分析,分别生 成所述查询词对应的网页库向量和知识库向量的步骤包括:对各所述网页文档和各所述实 体对象对应的文本分别进行分词处理,得到分词集合;分别获取所述分词集合中,每个分词 在所述网页文档和所述实体对象对应的文本中的词频信息和权重信息;分析所述每个分词 的词频信息和权重信息,分别生成所述查询词对应的网页库向量和知识库向量。 优选地,所述对各所述网页文档和各所述实体对象对应的文本分别进行分词处 理,得到分词集合的步骤包括:对各所述网页文档和各所述实体对象对应的文本分别进行 分词处理,得到对应的网页分词集合和实体分词集合;获取在所述网页分词集合和所述实 体分词集合中均存在的分词作为最终的所述分词集合。 优选地,所述根据所述网页库向量和所述知识库向量对各所述网页文档与各实体 信息进行相似度匹配的步骤包括:根据所述网页库向量和所述知识库向量的向量内积,对 各所述网页文档和各所述实体对象分别进行相似度匹配。 优选地,在将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记时, 以各所述实体对象为单位,判断每个实体对象与各所述网页文档之间的相似度匹配结果是 否满足设定阈值;若是,则将满足所述设定阈值的相似度匹配结果对应的各所述网页文档 分别标记为对应所述实体对象的目标页面。 优选地,在所述分别将查询词在网页库中和知识库中进行查询的步骤之前,还包 括:对所述查询词进行第一预处理,生成包括关键词的查询字符串,以根据所述查询字符串 在所述网页库中进行查询;以及,对所述查询词进行第二预处理,生成查询词对应的包括实 体对象的实体名和/或实体属性的SQL语句,以根据所述SQL语句在所述知识库中进行查 询。 优选地,在对所述查询词进行第二预处理时,对所述查询词进行分词,对得到的实 体名和/或实体属性进行语义分析,根据语义分析的结果确定文法结构后进行查询语句转 换,从而生成查询词对应的SQL语句。 优选地,所述根据所述目标页面对应的所述实体对象的标记,对各所述网页文档 进行筛选时,获取被用户选中的所述实体对象的对应标记,将带有所述标记的目标页面进 行优先展示。 为了解决上述问题,本专利技术还公开了一种搜索结果筛选装置,包括:查询模块,用 于分别将查询词在网页库中和知识库中进行查询,获得相对应的网页文档和实体对象;其 中,所述网页库中存储全网中的网页文档,所述知识库中存储全网中的实体对象;匹配模 块,用于将各所述实体对象与各所述网页文档分别进行关联匹配;确定模块,用于根据每个 实体对象在各所述网页文档中关联匹配的对应匹配度,将所述匹配度满足设定匹配规则的 各所述网页文档分别进行标记,标记为所述实体对象对应的目标页面;分类模块,用于根据 所述目标页面对应的所述实体对象的标记,对各所述网页文档进行筛选,得到每个所述实 体对象对应的所述目标页面。 优选地,所述匹配模块包括:生成模块,用于对获得的各所述网页文档和各所述实 体对象进行向量分析,分别生成所述查询词对应的网页库向量和知识库向量;相似度匹配 模块,用于根据所述网页库向量和所述知识库向量对各所述网页文档与各实体信息进行相 似度匹配。 优选地,所述确定模块,用于以各所述实体对象为单位,判断每个实体对象与各所 述网页文档之间的相似度匹配结果是否满足设定阈值;若是,则将满足所述设定阈值的相 似度匹配结果对应的各所述网页文档分别标记为对应所述实体对象的目标页面。 优选地,所述搜索结果筛选装置还包括:预处理模块,用于对所述查询词进行本文档来自技高网
...
搜索结果筛选方法与装置

【技术保护点】
一种搜索结果筛选方法,其特征在于,包括:分别将查询词在网页库中和知识库中进行查询,获得相对应的网页文档和实体对象;其中,所述网页库中存储全网中的网页文档,所述知识库中存储全网中的实体对象;将各所述实体对象与各所述网页文档分别进行关联匹配;根据每个实体对象在各所述网页文档中关联匹配的对应匹配度,将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记,标记为所述实体对象对应的目标页面;根据所述目标页面对应的所述实体对象的标记,对各所述网页文档进行筛选,得到每个所述实体对象对应的所述目标页面。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋前程张友书余浩张阔
申请(专利权)人:北京搜狗信息服务有限公司北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1