一种搜索词的提取方法及装置制造方法及图纸

技术编号:9462810 阅读:76 留言:0更新日期:2013-12-19 00:03
本发明专利技术涉及一种搜索词提取方法,其包括:提供待提取搜索词的文档Doci;从文档Doci中提取搜索词;计算搜索词的主题相关性;以及根据搜索词的主题相关性对搜索词进行过滤。上述搜索词提取方法可以解决现有技术中搜索词主题漂移、词义太过宽泛的问题。此外,本发明专利技术还提供一种搜索词提取装置。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种搜索词提取方法,其包括:提供待提取搜索词的文档Doci;从文档Doci中提取搜索词;计算搜索词的主题相关性;以及根据搜索词的主题相关性对搜索词进行过滤。上述搜索词提取方法可以解决现有技术中搜索词主题漂移、词义太过宽泛的问题。此外,本专利技术还提供一种搜索词提取装置。【专利说明】一种搜索词的提取方法及装置
本专利技术涉及网络搜索技术,尤其涉及一种搜索词的提取方法及装置。
技术介绍
用户在浏览新闻、微博、博客时,在聊天时,在网上购物时,都时刻有搜索的需求。所谓情境搜索,就是理解用户意图,挖掘用户需求,让搜索更加智能化、生活化。以用户在浏览网页为例进行说明,如果能直接在网页中提供最符合用户需求的搜索链接,用户可以直接点击链接继续浏览而无须手动输入搜索词进行搜索,这无疑会极大的提升用户的浏览体验。现有技术中也进行了相关的探索与实践,大体上来说,现有的搜索词提供方式具有以下三种:一、在生成数据时,由数据生成者手工设定搜索词。例如:在blog中,用户写完blog后。自己添加一些标签词,作为搜索词。在新闻发布时,由编辑手动添加关键词,作为搜索词。然而,此种方法中,数据生成者配置的关键词有限,而且很多用户不配置任何关键词。另外,数据生成者配置的关键词,并不一定是其他用户感兴趣的搜索词。二、通过一个固定的词表,从文章中匹配词表词汇,作为搜索词。例如:参阅图1,(某门户新闻网站的“相关推荐”,就是通过匹配用户的历史查询记录词表,作为搜索词。然而在此种方法中,由于设定的词表往往有限,并且单纯的基于用户查询记录词表的方法,往往通过文章中个别词汇,直接去记录中进行匹配实现。这样,很容易产生主题漂移,即推荐词汇跟文章主题无关。以图1中为例,简历就完全与文章主题无关。三、基于词频统计的方法,通过对文章分词,提取其中关键词,作为搜索词。例如:参阅图2,某科技栏目网站文章开头的关键词就是根据文章正文采用词频统计的方法得来。然而,此方法过于简单,很容易提取到一些泛词,出现频次过高,但是又没有价值的词。并且,提取到的词汇,往往语义很宽泛,搜索结果不可控,不适合做搜索词。以图2中所示为例,PC、硬盘的含义都太过于广泛,无法反应文章主题。此外,以上三种方法中,同样的页面,对所有用户都推荐相同的搜索词,没有考虑用户的差异化和个体兴趣。
技术实现思路
有鉴于此,有必要提供一种搜索词的提取方法及装置,来解决现有技术中搜索词主题漂移、词义太过宽泛的问题。进一步地,还有必要提供一种搜索词的提取方法及装置,其可以针对不同用户、用户群进行个性化定制,例搜索词最大程度匹配用户、用户群的个人兴趣。以上所述的搜索词的提取方法是通过以下技术方案实现的:一种搜索词提取方法,包括:步骤一、提供待提取搜索词的文档Doci ;步骤二、从文档Doci中提取搜索词(WdDWd2PuJcU ;步骤三、计算搜索词的主题相关性;以及步骤四、根据搜索词的主题相关性对搜索词进行过滤。作为上述搜索词提取方法的进一步改进,步骤三包括:计算搜索词的基本主题相关性;计算搜索词的领域相关性;以及计算搜索词的语义相关性;主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到。作为上述搜索词提取方法的进一步改进,基本主题相关性是根据词频一反转文件步页率(Term Frequency-1nverse Document Frequency, TF-1DF)计算。作为上述搜索词提取方法的进一步改进,领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算。作为上述搜索词提取方法的进一步改进,计算该领域相关性时根据以下公式计算?【权利要求】1.一种搜索词提取方法,包括: 提供待提取搜索词的文档Doci ; 从文档Doci中提取搜索词; 计算所述搜索词的主题相关性; 根据搜索词的主题相关性对所述搜索词进行过滤。2.如权利要求1所述的搜索词提取方法,其特征在于,步骤三包括: 计算搜索词的基本主题相关性; 计算搜索词的领域相关性;以及 计算搜索词的语义相关性; 所述主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到。3.如权利要求2所述的搜索词提取方法,其特征在于,所述基本主题相关性是根据词频一反转文件频率(Term Frequency-1nverse Document Frequency, TF-1DF)计算。4.如权利要求2所述的搜索词提取方法,其特征在于,所述领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算。5.如权利要求4所述的搜索词提取方法,其特征在于,计算该领域相关性时根据以下公式计算: 6.如权利要求2所述的搜索词提取方法,其特征在于,所述语义相关性根据所述搜索词的上下文相关性计算得到。7.如权利要求6所述的搜索词提取方法,其特征在于,计算该语义相关性时根据以下公式计算:8.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括: 对所述文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展,所述扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型。9.如权利要求8所述的搜索词提取方法,其特征在于,还包括:根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展,并根据所述扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。10.如权利要求9所述的搜索词提取方法,其特征在于,所述用户历史查询记录为一个时间片段内的查询记录,且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。11.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括根据用户对搜索词的点击率以及点击搜索词后访问的文档与所述文档Doci的主题相关性对所述搜索词进行过滤。12.如权利要求11所述的搜索词提取方法,其特征在于,所述搜索词的点击率 13.如权利要求12所述的搜索词提取方法,其特征在于,所述点击搜索词后访问的文档Docx与所述文档Doci的主题相关性 14.如权利要求13所述的搜索词提取方法,其特征在于,过滤后的搜索词W4须使得Wdj = arg max (入 *P (CTRZDoci, Wdj) + (1-入)*P (ExperZDoci, Wdj))成立,即使用户点击率与文档相关性的加权结果最大化,其中,特征参数、是从历史记录中学习得到。15.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括对所述搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对所述搜索词进行过滤。16.一种搜索词提取装置,其特征在于,包括: 读入模块,用于读入待提取搜索词的文档Doci ; 提取模块,用于从文档Doci中提取搜索词; 计算模块,用于计算所述搜索词的主题相关性; 过滤模块,用于根据搜索词的主题相关性对所述搜索词进行过滤。17.如权利要求16所述的搜索词提取装置,其特征在于,计算模块包括: 基本主题相关性计算单元,用于计算搜索词的基本主题相关性; 领域相关性计算单元,用于计算搜索词的领域相关性; 语义相关性计算单元,用本文档来自技高网
...
一种搜索词的提取方法及装置

【技术保护点】
一种搜索词提取方法,包括:提供待提取搜索词的文档Doci;从文档Doci中提取搜索词;计算所述搜索词的主题相关性;根据搜索词的主题相关性对所述搜索词进行过滤。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘怀军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1