一种信息检索的方法和系统技术方案

技术编号:9276468 阅读:100 留言:0更新日期:2013-10-24 23:30
本发明专利技术公开了一种信息检索的方法和系统,方法包括:基于检索串(query)的扩展对基础检索串分析(QA)词表进行二次映射过程,生成二级映射的QA词表;其中,基础QA词表包括高频query到关键词的映射,二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行二级映射的QA词表的查找,得到该检索串命中的关键词,并提取该关键词对应的互联网发布信息作为检索结果。通过本发明专利技术,能够提高信息检索结果对互联网发布信息的覆盖率。

【技术实现步骤摘要】
一种信息检索的方法和系统
本专利技术涉及互联网
,尤其涉及一种信息检索的方法和系统。
技术介绍
在现有的信息检索发布系统中,按照传统网页搜索的检索方法、即按照检索串(query)中多个核心语素的“与”操作进行检索,例如:某个检索串包含A、B、C这三个核心语素,那么按照传统网页搜索的检索方法,即是按照A、B、C的“与”操作进行检索,也就是能同时匹配到A、B、C这三个核心语素的互联网发布信息才会被检索出来,作为检索结果。上述检索方法会导致大量的匹配无结果,因此,目前的做法是扩展匹配端,在离线情况下按照一定的时间窗口从用户检索日志(querylog)中筛选出高频query(即出现频率高于一定阈值的query);通过语义分析服务模块,获取这些query的网页搜索结果并分析其特征;同时对每一个筛选的query,通过整合各query扩展结果和关键词扩展,生成最初的关键词候选列表,该列表中包括用于匹配query的关键词。然后,query关键词映射子系统为每一对query和关键词计算各种用于衡量两者相关度的特征,包括各种文本相似度、语义相似度等。最后,对每一对query和关键词及其各种特征,进行相关度预测,按照相关度得分对候选关键词筛选和排序,得到query的最终关键词映射表,即QA(QueryAnalysis,检索串分析)词表。其中,QA词表是指query到关键词的hash(哈希)词表,该词表的左键为一定的时间窗口内的querylog所统计出来的高频query,右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列,即QA词表维护的是高频query与关键词的映射关系。在检索端进行query分析并匹配互联网发布信息时,会从QA词表中查找query所对应的关键词,然后在关键词-互联网发布信息索引中找到相应的互联网发布信息作为检索结果。然而,在现有的检索方法和系统中,query只有精确命中QA词表,才能匹配出相应的关键词,并未充分利用query之间的相关性,从而导致检索结果对互联网发布信息的覆盖率较低。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种信息检索的方法和系统,以充分利用query之间的相关性,提高信息检索结果对互联网发布信息的覆盖率。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供了一种信息检索的方法,该方法包括:基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。较佳的,所述query的扩展具体为:依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。较佳的,所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。较佳的,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。较佳的,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。较佳的,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。较佳的,该方法进一步包括:根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。本专利技术还提供了一种信息检索的系统,该系统包括:二级映射词表生成模块,用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;信息检索模块,用于根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。较佳的,所述二级映射词表生成模块进一步用于,依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。较佳的,所述二级映射词表生成模块进一步用于,对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一本文档来自技高网
...
一种信息检索的方法和系统

【技术保护点】
一种信息检索的方法,其特征在于,该方法包括:基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。

【技术特征摘要】
1.一种信息检索的方法,其特征在于,该方法包括:基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果;所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。2.根据权利要求1所述信息检索的方法,其特征在于,所述query的扩展具体为:依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。3.根据权利要求1所述信息检索的方法,其特征在于,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。4.根据权利要求3所述信息检索的方法,其特征在于,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。5.根据权利要求1至4任一项所述信息检索的方法,其特征在于,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。6.根据权利要求5所述信息检索的方法,其特征在于,该方法进一步包括:根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;如果未匹配到所述基础QA词表中的高频query,则进行所述...

【专利技术属性】
技术研发人员:姚伶伶赫南王迪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1