一种信息检索结果排序方法、计算机设备和存储介质技术

技术编号:26066020 阅读:18 留言:0更新日期:2020-10-28 16:38
本发明专利技术适用于信息检索技术领域,提供了一种信息检索结果排序方法,包括标注训练数据、文本特征抽取、训练学习函数等步骤,本发明专利技术的有益效果是:根据与查询相关信息,如点击数据、网页的锚文本和PageRank得分等,将这些信息融入到特征模型中,并使用学习排序技术自动构建排名模型,在信息检索、自然语言处理和数据挖掘等领域具有广阔的应用前景。

【技术实现步骤摘要】
一种信息检索结果排序方法、计算机设备和存储介质
本专利技术涉及信息检索
,尤其涉及一种信息检索结果排序方法、计算机设备和存储介质。
技术介绍
在信息检索领域,传统的排序方法是通过构造一个排序函数实现,一般按照相关度进行排序。比较典型的是搜索引擎中一条查询,将返回一个相关的文档,然后根据检索关键字和文档之间的相关度进行排序,再返回给用户。而随着影响相关度的因素变多,使用传统排序方法变得困难。传统的排序方法很难融合多种信息,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。基于此,本申请提出了一种信息检索结果排序方法、计算机设备和存储介质。
技术实现思路
本专利技术实施例的目的在于提供一种信息检索结果排序方法、计算机设备和存储介质,旨在解决
技术介绍
中提出的技术问题。本专利技术实施例是这样实现的,一种信息检索结果排序方法,包括以下步骤:标注训练数据寻找与查询相关的文档,并对文档进行相关度排序;具体的,文本特征抽取确定文档的特征数量,将所述文档转换成特征向量,形成包含有特征向量和相关度的训练实例;训练学习函数定义Q={q1,q2,L,qm}为查询集,qi为第i个查询,D为与查询集Q相关的文档集,其中,Di={di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档,Y={1,2,L,1}是相关度集,其中,yi={yi,1,yi,2,L,yi,ni}为与qi查询相关的文档相关度集;由此可得原始训练集为特征向量由每个查询文档对(qi,di,j),i=1,2,L,m;j=1,2,,ni生成,为特征函数;Xi={xi,1,xi,2,Lxi,ni},设定训练数据集x∈X且以训练局部排序模型f(q,d)=f(x),将分数赋予给定的查询文档对(q,d),对训练数据集S'输出分数列表;依据分数列表对文档集Di定义排名表Rankinglistπi,通过下标做双向映射,以πi表示所有文档在文档集Di内的可能映射,πi(j)代表第j个文档在πi中的排序,排序方式通过f(qi,di)对查询qi选择一个排序映射πi∈∏i和文档集Di;使用包含有新查询和新文档的的测试集,创建特征向量xm+1,使用排序模型进行训练,根据打分进行排序,得到πm+1;排序模型的性能评估;评估模型检测模型MAP。作为本专利技术进一步的技术方案:所述排序模型的性能评估的步骤为:排序模型的性能评估通过比较排序模型输出的排名列表和作为基本事实给出的排名列表来进行,给定查询qi和相关文档Di,设πi是Di上的排名列表,yi是Di的相关度,以DCG来衡量排名列表,则位置k处的DCG为:式中,G为增益函数,D为损失函数,πi(j)为di,j在πi中的位置。作为本专利技术再进一步的技术方案:评估模型检测模型MAP的步骤为:设相关性的等级分为两个级别为1和0,给定查询qi、相关文档Di、Di的排序集合πi,相关文档Di的相关度集yi,给定查询qi的平均精度为:重复测量精度直到定位,对所得结果进行进一步平均,得到MAP。本专利技术实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述信息检索结果排序方法的步骤。本专利技术实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述信息检索结果排序方法的步骤。与现有技术相比,本专利技术的有益效果是:根据与查询相关信息,如点击数据、网页的锚文本和PageRank得分等,将这些信息融入到特征模型中,并使用学习排序技术自动构建排名模型,在信息检索、自然语言处理和数据挖掘等领域具有广阔的应用前景。附图说明图1为一种信息检索结果排序方法的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合具体实施例对本专利技术的具体实现进行详细描述。如图1所示,本专利技术一个实施例中,一种信息检索结果排序方法,包括以下步骤:标注训练数据寻找与查询相关的文档,并对文档进行相关度排序;具体的,相关度可以从1分到5分为3个档次,1代表微弱相关,5代表最相关,其他数值代表相关性在两者之间,而且相关度的可以通过人工标注或者利用用户点击记录来模拟人工打分机制;文本特征抽取确定文档的特征数量,将所述文档转换成特征向量X,根据前述的相关度Y,形成包含有特征向量和相关度的训练实例(X,Y),比较常用的特征包括:查询词的词频信息、查询词的IDF信息、文档长度、网页的入链数量、网页的出链数量、pageRank值、URL松度、査询词的Proximity值等;训练学习函数定义Q={q1,q2,L,qm}为查询集,qi为第i个查询,D为与查询集Q相关的文档集,其中,Di={di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档,Y={1,2,L,1}是相关度集,其中,yi={yi,1,yi,2,L,yi,ni}为与qi查询相关的文档相关度集;由此可得原始训练集为特征向量由每个查询文档对(qi,di,j),i=1,2,L,m;j=1,2,,ni生成,为特征函数;Xi={xi,1,xi,2,Lxi,ni},设定训练数据集x∈X且以训练局部排序模型f(q,d)=f(x),将分数赋予给定的查询文档对(q,d),对训练数据集S'输出分数列表;依据分数列表对文档集Di定义排名表Rankinglistπi,通过下标做双向映射,以πi表示所有文档在文档集Di内的可能映射,πi(j)代表第j个文档在πi中的排序,排序方式通过f(qi,di)对查询qi选择一个排序映射πi∈∏i和文档集Di;使用包含有新查询和新文档的的测试集,创建特征向量xm+1,使用排序模型进行训练,根据打分进行排序,得到πm+1;排序模型的性能评估通过比较排序模型输出的排名列表和作为基本事实给出的排名列表来进行,给定查询qi和相关文档Di,设πi是Di上的排名列表,yi是Di的相关度,以DCG来衡量排名列表,则位置k处的DCG为:式中,G为增益函数,D为损失函数,πi(j)为di,j在πi中的位置;评估模型检测模型MAP,作为目标检测模型性能统计量,设相关性的等级分为两个级别为1和0,给定查询qi、相关文档Di、Di的排序集合πi,相关文档Di的相关度集yi,给定查询qi的平均精度为:重复测量精度直到定位,对所得本文档来自技高网...

【技术保护点】
1.一种信息检索结果排序方法,其特征在于,包括以下步骤:/n标注训练数据/n寻找与查询相关的文档,并对文档进行相关度排序;/n文本特征抽取/n确定文档的特征数量,将所述文档转换成特征向量,形成包含有特征向量和相关度的训练实例;/n训练学习函数/n定义Q={q

【技术特征摘要】
1.一种信息检索结果排序方法,其特征在于,包括以下步骤:
标注训练数据
寻找与查询相关的文档,并对文档进行相关度排序;
文本特征抽取
确定文档的特征数量,将所述文档转换成特征向量,形成包含有特征向量和相关度的训练实例;
训练学习函数
定义Q={q1,q2,L,qm}为查询集,qi为第i个查询,D为与查询集Q相关的文档集,其中,Di={di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档,Y={1,2,L,1}是相关度集,其中,yi={yi,1,yi,2,L,yi,ni}为与qi查询相关的文档相关度集;
由此可得原始训练集为特征向量由每个查询文档对(qi,di,j),i=1,2,L,m;j=1,2,,ni生成,为特征函数;
Xi={xi,1,xi,2,Lxi,ni},设定训练数据集x∈X且以训练局部排序模型f(q,d)=f(x),将分数赋予给定的查询文档对(q,d),对训练数据集S'输出分数列表;
依据分数列表对文档集Di定义排名表Rankinglistπi,通过下标做双向映射,以πi表示所有文档在文档集Di内的可能映射,πi(j)代表第j个文档在πi中的排序,排序方式通过f(qi,di)对查询qi选择一个排序映射πi∈∏i和文档集Di;
使用包含有新查询和新文档的的测试集,创建特征向量xm+1,使用排序模型进行训练,根据打分进行排序,得到πm+1;<...

【专利技术属性】
技术研发人员:黎阳申义侯颖刘大伟王涛
申请(专利权)人:威海天鑫现代服务技术研究院有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1