信息检索的方法、装置与计算设备制造方法及图纸

技术编号:14693626 阅读:71 留言:0更新日期:2017-02-23 16:33
本发明专利技术提出一种信息检索的方法、装置与计算设备,方法包括:接收查询语句,查询语句包括模糊关键词,模糊关键词为包含匹配符的词;确定第一部分关键词,第一部分关键词为模糊关键词中除匹配符之外的部分;根据第一索引与第一部分关键词,获取第一完整关键词,第一完整关键词包含第一部分关键词,第一索引包括键值部分与属性值部分,键值部分存储的信息与属性值部分存储的信息具有对应关系,键值部分存储第一部分关键词,属性值部分存储第一完整关键词;根据第二索引与第一完整关键词,获取第一文档,第一文档为第一完整关键词所在的文档,第二索引包括第一完整关键词与第一文档之间的对应关系。本发明专利技术能够提高模糊搜索场景下信息检索的效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,并且更具体地,涉及一种信息检索的方法、装置与计算设备
技术介绍
信息检索系统用于根据用户的输入的查询语句,检索出用户所需的相关内容。信息检索系统的大致检索流程为:对用户输入的查询语句做分词处理,然后进行停用词过滤处理,将停用词过滤处理后的关键词与索引文件进行关键词匹配,获取对应的文档,然后对这些文档打分,输出得分最高的N个文档返回给用户。模糊搜索的场景指的是,当用户不记得完整查询词ABC的时候,他会输入模糊词AB*,然后希望能够查出包含ABC的文档。为了支持模糊搜索的场景,现有的信息检索方案一般是通过模糊词(例如AB*)遍历索引文件中的关键词,以找到模糊词所匹配的关键词,然后根据匹配的关键词以及索引文件获取对应的文档。由于,需要通过模糊词遍历索引文件的关键词,导致信息检索的耗时较大,检索效率较低。
技术实现思路
本专利技术提出一种信息检索的方法、装置与计算设备,能够有效提高模糊搜索场景中信息检索的效率。第一方面,提供了一种信息检索的方法,所述方法包括:接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。在本方案中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能快速地找到部分关键词对应的完整关键词,相比于现有技术,本专利技术能够提高模糊搜索场景下信息检索的整体效率。应理解,第一索引的键值部分存储的部分关键词1对应于属性值部分存储的完整关键词1,第一索引的键值部分存储的部分关键词2对应于属性值部分存储的完整关键词2。还应理解,第一索引中的每个部分关键词可以对应一个或多个完整关键词。为了便于描述与理解,本文均以一个完整关键词为例进行描述,但并不对本专利技术的保护范围造成限定。结合第一方面,在第一方面的第一种可能的实现方式中,所述方法还包括:根据语料数据集获取完整关键词集合;对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。在本方案中,通过建立包括部分关键词与完整关键词之间的对应关系的第一索引,从而使得在信息检索时,根据第一索引快速地获取部分关键词对应的完整关键词,从而能够提高模糊搜索场景下信息检索的整体效率。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述确定第三完整关键词,包括:基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;所述根据第一索引与所述第一部分关键词,获取第一完整关键词,包括:根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述方法还包括:根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;所述方法还包括:根据所述第一索引、所述第一部分关键词以及所述第一完整关键词,获取所述第一部分关键词与所述第一完整关键词的相关性参数;根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。在本方案中,基于部分关键词与完整关键词之间的相关性参数确定完整关键词所在文档的打分,从而能够提高模糊搜索场景下信息检索的检索结果的相关性。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述确定所述第二部分关键词与所述第三完整关键词的相关性参数,包括:根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。结合第一方面的第三种或第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述方法还包括:获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数、以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;所述方法还包括:根据所述第一索引与所述第一完整关键词,获取所述第一完整关键词对应的第二文档数目;所述根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分,包括:根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述生成所述第一索引,包括:根据下列信息,生成所述第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。结合第一方面的第一种至第六种可能的实现方式中任一种可能的实现方式,在第一方面的第七种可能的实现方式中,所述第二完整关键词为所述完整关键词本文档来自技高网...
信息检索的方法、装置与计算设备

【技术保护点】
一种信息检索的方法,其特征在于,包括:接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。

【技术特征摘要】
1.一种信息检索的方法,其特征在于,包括:接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据语料数据集获取完整关键词集合;对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。3.根据权利要求2所述的方法,其特征在于,所述确定第三完整关键词,包括:基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;所述根据第一索引与所述第一部分关键词,获取第一完整关键词,包括:根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;所述方法还包括:根据所述第一索引、所述第一部分关键词以及所述第一完整关键词,获取所述第一部分关键词与所述第一完整关键词的相关性参数;根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。5.根据权利要求4所述的方法,其特征在于,所述确定所述第二部分关键词与所述第三完整关键词的相关性参数,包括:根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;所述方法还包括:根据所述第一索引与所述第一完整关键词,获取所述第一完整关键词对应的第二文档数目;所述根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分,包括:根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。7.根据权利要求6所述的方法,其特征在于,所述生成所述第一索引,包括:根据下列信息,生成所述第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。8.根据权利要求2-7中任一项所述的方法,其特征在于,所述第二完整关键词为所述完整关键词集合中字符长度大于或等于阈值L的完整关键词。9.根据权利要求2-8中任一项所述的方法,其特征在于,所述根据语料数据集获取完整关键词集合,包括:根据所述语料数据集与覆盖率,获取所述完整关键词集合,所述完整关键词集合中包括的完整关键词的数量小于所述语料数据集中包括的完整关键词的数量。10.一种信息检索的装置,其特征在于,包括:输入模块,用于接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;处理模块,用于根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;所述处理模块还用于,根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;所述处理模块还用于,根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。11.根据权利要求10所述的装置,其特征在于,所述处理模块还用于,根据语料数据集获取完整关键词集合;对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。12.根据权利要求11所述的装置,其特征在于,所述处理模块具体用于,基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;所述处理模块具体用于,根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;所述处理模块具体用于,根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。13.根据权利要求12所述的装置,其特征在于,所述处理模块还用于,根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;所述处理模块具体...

【专利技术属性】
技术研发人员:周文礼
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1