一种寻址类查询词的挖掘方法及系统技术方案

技术编号:20520780 阅读:38 留言:0更新日期:2019-03-08 23:31
本发明专利技术提供了一种寻址类查询词的挖掘方法及系统,该方法包括:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。根据本发明专利技术提供的技术方案,能够自动挖掘生成寻址类查询词集合,提高寻址类Bad Case挖掘召回率。

A Method and System for Mining Address Query Words

The invention provides a method and a system for mining addressing query words. The method includes: normalizing the domain URLs of the same domain name recorded in the user's click log, generating the corresponding domain name, generating the query words set of the main domain name according to the query words corresponding to the domain URLs, cutting the query words in the query words set, and statistical obtaining. The number of occurrences of the participle determines that the longest participle in the participle with the most occurrences is the core word corresponding to the main domain name, and that the query word set contains the core word and the query word with the highest number of queries is the addressing query word corresponding to the main domain name. According to the technical scheme provided by the invention, the addressing query word set can be automatically generated by mining, and the recall rate of the addressing Bad Case mining can be improved.

【技术实现步骤摘要】
一种寻址类查询词的挖掘方法及系统
本专利技术涉及互联网领域的搜索技术,尤其涉及一种寻址类查询词的挖掘方法及系统。
技术介绍
搜索引擎的查询词可以分为寻址类查询词、信息类查询词和事务类查询词。按照AndreiBroder的研究,这三种查询词的比例分别是:12.3%、62%和25.7%。寻址类查询词指的是用户需要查询某个网站地址时提供的查询词,例如,淘宝网、蘑菇街、中国平安官方网站等,对于这类查询词用户的搜索需求非常明确,就是希望找到对应的官方网站地址,因此搜索引擎需要将对应的官方网站地址放在搜索结果的靠前位置,如前三位。但是,实际情况下中会出现如下官方网站地址没有排到首位而不能满足用户搜索需求的情况:1、官方网站地址没有出现在搜索结果的第一位;2、官方网站地址没有出现在首页;3、官方网站地址没有被搜索引擎收录;4、出现虚假的官方网站地址;上述情况称为搜索引擎的寻址类BadCase,寻址类BadCase指的是用户的查询词是寻址类查询词,但是搜索引擎没有给出对应的官方网站地址或者给出的官方网站地址在搜索结果中比较靠后,从而导致搜索引擎对于寻址类查询词给出的搜索结果不能满足用户需求。目前,寻址类BadCase的挖掘方法是一种半自动的挖掘方法,需要人工提供寻址类查询词集合和对应的官方网站地址,然后自动抓取集合中寻址类查询词的搜索结果,判断对应的官方网站地址是否在搜索结果中、是否排在比较靠前的位置等。这种挖掘方法的缺点是:寻址类查询词集合需要人工配置,浪费人力且效率较低,配置的寻址类查询词的数量有限,导致寻址类BadCase挖掘召回率较低,从而导致搜索结果不能满足用户需求,需要用户的频繁操作,搜索效率较低,同样给搜索引擎增加负担。寻址类BadCase挖掘召回率指的是从一个集合中找出真正寻址类BadCase的比例,例如,实际中存在有100个寻址类BadCase,利用上述方法只能找到其中的60个寻址类BadCase,则寻址类BadCase挖掘召回率为60%。
技术实现思路
本专利技术提供了一种寻址类查询词的挖掘方法及系统,能够自动挖掘生成寻址类查询词集合,提高寻址类BadCase挖掘召回率。本专利技术的具体技术方案如下:根据本专利技术一优选实施例,一种寻址类查询词的挖掘方法,包括:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。上述方法中,该方法还包括:依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。上述方法中,所述对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名具体包括:以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。上述方法中,所述依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。上述方法中,所述对查询词集合中的查询词进行切词具体包括:依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。上述方法中,确定主域名对应的寻址类查询词的方法为:从主域名的查询词集合中提取包含所述核心词的查询词;依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;确定所述核心词和提取的查询词为主域名对应的寻址类查询词。上述方法中,该方法还包括:判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词;或,将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。上述方法中,判断查询词以切词为粒度的编辑距离之前,该方法还包括:在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。上述方法中,如果查询词对应存在两个以上以切词为粒度的编辑距离,则所述查询词以切词为粒度的编辑距离为两个以上以切词为粒度的编辑距离中最小的编辑距离。一种寻址类查询词的挖掘系统,包括:主域名生成单元、核心词生成单元、寻址类查询词生成单元;其中,主域名生成单元,用于对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合;核心词生成单元,用于对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的分词中最长的分词为所述主域名对应的核心词;寻址类查询词生成单元,用于确定所述查询词集合中包含所述核心词且被查询次数最高的查询词为所述主域名对应的寻址类查询词。上述系统中,该系统还包括:日志提取单元,用于依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;主域URL生成单元,用于依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。上述系统中,所述主域名生成单元对用户点击日志中记录的域名相同的主域URL进行归一化处理生成对应的主域名具体包括:以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。上述系统中,所述主域名生成单元依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。上述系统中,所述核心词生成单元对查询词集合中的查询词进行切词具体包括:依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。上述系统中,所述寻址类查询词生成单元确定主域名对应的寻址类查询词具体包括:从主域名的查询词本文档来自技高网
...

【技术保护点】
1.一种寻址类查询词的挖掘方法,其特征在于,该方法包括:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合,其中,主域URL为网站主页的URL,主域名为主域URL中的域名;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的一个以上分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的一个以上查询词为所述主域名对应的寻址类查询词。

【技术特征摘要】
1.一种寻址类查询词的挖掘方法,其特征在于,该方法包括:对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名,并依据所述主域URL对应的查询词生成所述主域名的查询词集合,其中,主域URL为网站主页的URL,主域名为主域URL中的域名;对所述查询词集合中的查询词进行切词,并统计得到的分词的出现次数,确定出现次数最多的一个以上分词中最长的分词为所述主域名对应的核心词;确定所述查询词集合中包含所述核心词且被查询次数最高的一个以上查询词为所述主域名对应的寻址类查询词。2.根据权利要求1所述的方法,其特征在于,该方法还包括:依据预设的时间区间参数从用户点击日志中提取最近的用户点击日志,并依据预设的字段序号从提取的用户点击日志中获取查询词和点击的URL;依据预设的主域URL格式对所述点击的URL进行筛选,得到点击的URL中的主域URL。3.根据权利要求1所述的方法,其特征在于,所述对用户点击日志中记录的域名相同的主域URL进行归一化处理,生成对应的主域名具体包括:以域名作为关键字对主域URL进行分类处理,将域名相同的主域URL归为一类;依据预设的一个主域URL格式对每类主域URL下的主域URL进行归一化处理,对应每类主域URL生成一个主域名。4.根据权利要求1所述的方法,其特征在于,所述依据主域URL对应的查询词生成所述主域名的查询词集合具体包括:提取每类主域URL下每个主域URL对应的查询词,并统计每种查询词的被查询次数,对提取的查询词进行去重处理;利用处理后得到的查询词及每种查询词的被查询次数生成查询词集合,确定所述查询词集合为所述主域名的查询词集合。5.根据权利要求1所述的方法,其特征在于,所述对查询词集合中的查询词进行切词具体包括:依据预设的切词粒度对主域名对应的查询词集合中的每个查询词进行切词处理,对应每个查询词生成一个以上分词;所述切词粒度是以词组或具有完整意义的字为粒度的切词粒度。6.根据权利要求1所述的方法,其特征在于,确定主域名对应的寻址类查询词的方法包括:从主域名的查询词集合中提取包含所述核心词的查询词;依据被查询次数由高到低的顺序对提取出的查询词进行排序,提取其中排名靠前的一个以上查询词;确定提取的查询词为主域名对应的寻址类查询词;确定主域名对应的寻址类查询词的方法进一步包括:将所述核心词确定为主域名对应的寻址类查询词。7.根据权利要求1所述的方法,其特征在于,该方法还包括:判断主域名的查询词集合中除主域名对应的寻址类查询词以外的查询词以切词为粒度的编辑距离;所述查询词以切词为粒度的编辑距离包括:查询词与核心词之间以切词为粒度的编辑距离、查询词与寻址类查询词之间以切词为粒度的编辑距离;当所述查询词以切词为粒度的编辑距离小于预设的编辑距离阈值时,确定所述查询词为主域名的扩展寻址类查询词,其中,以切词为粒度是以切词结果为词组或具有完整意义的字为粒度的粒度;或,将所述核心词与预设的分词后缀进行组合生成寻址类查询词,确定生成的寻址类查询词为主域名的扩展寻址类查询词。8.根据权利要求7所述的方法,其特征在于,判断查询词以切词为粒度的编辑距离之前,该方法还包括:在主域名的查询词集合中将寻址类查询词筛除,对筛除后保留的查询词依据预设的切词粒度进行切词,对应每个查询词得到一个以上分词。9.根据权利要求7所述的方法,其特征在于,如果查询词对应存在两个以上以切词为粒度的编辑距离,则所述查询词以切词为粒度的编辑距离为两个以上以切词为粒度的编辑距离中最小的编辑距离。10.一种寻址类查询词的挖掘系统,其特征在于,该系统包括:主域名生成单元、核心词生成单元、寻址类查询词生成单元;其中,主域名生成单元,用于对用户点击日志中记录的域名相同的主...

【专利技术属性】
技术研发人员:阮星华
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1