一种用于基于查询序列簇提取核心关键词的方法与设备技术

技术编号:5428746 阅读:263 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是提供一种用于基于查询序列簇提取核心关键词的方法与提取设备。其中,提取设备获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果,并从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。与现有技术相比,本发明专利技术获得了输入该查询序列簇中的查询序列的用户的搜索需求,还可以根据该核心关键词为用户提供更为贴切的搜索建议或者更为相关的搜索结果等,使得用户获得更好的搜索体验。进一步地,当词库中未包括该核心关键词,则该核心关键词将可以作为新词加入词库,以进行各项应用。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,尤其涉及一种用于基于查询序列簇提取核心 关键词的技术。
技术介绍
现有的分词技术大多数利用词典、或者语义分析等对句子或者片段进行切分,但 是,词典中包括的词的数量有限,并且互联网中新词层出不穷,词典更新的速度远远低于互 联网中新词更新的速度,从而使得按照词典分词无法满足实际需要。而根据语义分析进行 句子或者片段的切分,由于涉及机器学习,并且语言表达方式的多样化和互联网中网络语 言的口语化,使得通过语义分析分词的结果也不尽如人意。当网络中出现大量相同的用户点击的搜索结果的搜索需求时,这些搜索需求往往 反映的是相同的主题,但是由于搜索用户表达方式的不同,通过语义分析很多时候不能得 到正确反映这一搜索需求的核心关键词,同时,这种大量相同的用户点击的搜索结果的搜 索需求往往也是当时的热点,因此,该搜索需求对应的核心关键词,还可能是词典中没有的 新词,这就导致也无法根据词典从这些搜索需求中提取相应的核心关键词。因此,如何从对应于相同的用户点击的搜索结果的搜索需求中提取相应的核心关 键词,成为目前急需解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于本文档来自技高网...

【技术保护点】
一种计算机实现的用于基于查询序列簇提取核心关键词的方法,其中,该方法包括以下步骤:a获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应至少一个相同的用户点击的搜索结果;b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。

【技术特征摘要】
1.一种计算机实现的用于基于查询序列簇提取核心关键词的方法,其中,该方法包括 以下步骤a获取查询序列簇,其中,所述查询序列簇包括多个查询序列,其中每个查询序列对应 至少一个相同的用户点击的搜索结果;b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。2.根据权利要求1所述的方法,其中,所述步骤b还包括bl从所述查询序列簇中的每个查询序列中,提取与所述每个查询序列相对应的切分块;b2根据所述切分块,按照预定筛选规则,获取与所述查询序列簇相对应的核心关键词。3.根据权利要求2所述的方法,其中,所述步骤1^2中的所述预定筛选规则包括以下至 少任一项-所述切分块在所述查询序列簇中的出现频次超过第一阈值; -所述切分块在所述查询序列簇中的覆盖比例超过第二阈值; -所述切分块的组词概率超过第三阈值; -如果所述切分块中包括停留字,则筛除所述切分块。4.根据权利要求2或3所述的方法,其中,所述步骤bl还包括-根据所述查询序列簇的统计相关信息,从所述查询序列簇中的每个查询序列中,提取 与所述每个查询序列相对应的切分块。5.根据权利要求4所述的方法,其中,所述步骤bl还包括-根据所述查询序列簇中每个基本粒度词的统计检索量,与所述查询序列簇中由所述 每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次,获得所述统计 相关信息。6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括 c对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。7.根据权利要求6所述的方法,其中,所述步骤c还包括-结合预定过滤规则,对所述核心关键词在预设词库中进行匹配查询,以获得目标新词。8.根据权利要求7所述的方法,其中,所述预定过滤规则包括以下至少任一项 -所述核心关键词的粒度超过第四阈值;-所述核心关键词的关联词集合的信息熵超过第五阈值; -所述核心关键词的紧密度低于第六阈值。9.根据权利要求8所述的方法,其中,所述预定过滤规则还包括所述核心关键词的关 联词集合的信息熵超过第五阈值;其中,所述关联词集合的选择基于以下至少任一项-所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值; -当所述关联词集合中关联词的个数低于第八阈值时,不对所述关联词集合获取信息熵。10.根据权利要求1至9中任一项所述的方法,其中,所述步骤a还包括-获取对应至少一个相同的用户点击的搜索结果的多个查询序列,以得到所述查询序列簇。11.一种用于基于查询序列簇提取核心关键词的提取设备,其中,该提取...

【专利技术属性】
技术研发人员:张超忻舟王强
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1