一种信息检索方法及其装置制造方法及图纸

技术编号:8453094 阅读:153 留言:0更新日期:2013-03-21 17:35
本发明专利技术公开了一种信息检索方法及其装置,其中,方法包括:对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;S2、创建倒排索引表,将各策略词在各信息文件中的权重记录在倒排索引表中;S3、当接收到用户检索请求时,提取该检索请求中的特征词;S4、依据各特征词与用户的行为特征的相关性,分别计算各特征词的权重;S5、获取候选信息文件分别计算各候选信息件的总得分;S6、依据总得分对候选信息文件进行排序,将排序在前的候选信息文件推送给用户。本发明专利技术使信息文件的推送到更加准确的定位目标受众,使信息文件的推送更有针对性。

【技术实现步骤摘要】

本专利技术涉及信息处理
,尤其涉及一种信息检索方法及其装置、系统。
技术介绍
近年来,互联网已成为广告行业的一个重要的媒体途径。许多大的门户网站或搜索引擎网站都提供了投放广告的平台。这些广告投放平台大都基于搜索引擎的原理,根据用户访问浏览器页面的行为对用户进行分类,并根据广告主的投放策略在互联网上选择目标受众来定向投放广告。广告投放系统中最重要的模块是广告搜索模块,它根据其他模块提取的表征用户兴趣和特征的关键字、分类等信息,寻找期望对该类用户进行广告投放的最匹配广告,并返回该条广告给投放的其他模块,以最终将该广告展示到用户访问的页面上。图I是现有技术中搜索引擎技术的方法流程图,如图I所示,搜索引擎技术对用户各查询词不做区分,只依赖于各查询词在某文档中出现的频率,以及各查询词在文档集中出现的频率来计算查询词和文档的相关性得分,并根据得分对文档进行排序,以返回最有价值的文档。在广告投放系统中,表征用户特征的各查询词通常有高低之分,例如,一个用户通常拥有多个兴趣组,并属于多种分类,但根据用户近期的访问行为可以对其各个兴趣的高低进行区分,因此如果简单采用搜索引擎系统的评分算法,则无法准确的描述广告的目标受众的特征。此外搜索引擎通常不对文档中各关键词进行区分,即使区分,也只是对文档的不同域信息赋以不同的权重,并没有详细区分文档中各关键词,而在广告投放系统中,广告中的各关键词通常为广告主绑定的策略信息和竞价关键词,这些信息都有高低之分,例如,某个广告主更关心对某一类用户进行广告投放,他可能会付给该竞价词较高的价格,因此简单的使用搜索引擎的技术无法准确地给出广告主对广告信息的描述。
技术实现思路
为了解决采用搜索引擎技术来实现广告投放系统的不足,本专利技术提出了一种信息检索方法,包括步骤SI、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中;步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户。进一步地,步骤SI中按照预设的评分标准获取各策略词在各信息文件中的权重具体为依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。进一步地,所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。进一步地,所述分别计算各特征词的权重具体包括获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。进一步地,步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为候选信息文件D与用户查询中所有特征词 Q的相关性总得分等于权利要求1.一种信息检索方法,其特征在于,包括 步骤SI、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重; 步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中; 步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分; 步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户。2.如权利要求1所述的信息检索方法,其特征在于,步骤SI中按照预设的评分标准获取各策略词在各信息文件中的权重具体为 依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。3.如权利要求1或2所述的信息检索方法,其特征在于,所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为 依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。4.如权利要求3所述的信息检索方法,其特征在于,所述分别计算各特征词的权重具体包括 获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。5.如权利要求4所述的信息检索方法,其特征在于,步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为候选信息文件D与用户查询中所有特征词Q的相关性总得分等于6.一种信息检索装置,设于服务端,其特征在于,包括如下单元 倒排索引表创建单元,用于预先对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重,在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中; 筛选单元,用于当收到客户端发送的特征词时,依据所述倒排索引表创建单元预先创建的倒排索引表,将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件; 打分单元,用于分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分; 排序单元,用于依据所述总得分对所述候选信息文件进行排序; 文件推送单元,用于将排序在前的候选信息文件推送给所述客户端。7.如权种要求6所述的信息检索装置,其特征在于,所述倒排索引表创建单元按照预设的评分标准获取各策略词在各信息文件中的权重具体为 依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。8.如权利要求6或7所述的信息检索装置,其特征在于,所述筛选单元还用于对所述提取的特征词计算权重,包括依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信本文档来自技高网
...

【技术保护点】
一种信息检索方法,其特征在于,包括:步骤S1、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中;步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:北京亿赞普网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1