一种信息检索结果排序方法、计算机设备和存储介质技术

技术编号：26066020 阅读：18 留言：0更新日期：2020-10-28 16:38

本发明专利技术适用于信息检索技术领域，提供了一种信息检索结果排序方法，包括标注训练数据、文本特征抽取、训练学习函数等步骤，本发明专利技术的有益效果是：根据与查询相关信息，如点击数据、网页的锚文本和PageRank得分等，将这些信息融入到特征模型中，并使用学习排序技术自动构建排名模型，在信息检索、自然语言处理和数据挖掘等领域具有广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息检索结果排序方法、计算机设备和存储介质
本专利技术涉及信息检索
，尤其涉及一种信息检索结果排序方法、计算机设备和存储介质。
技术介绍
在信息检索领域，传统的排序方法是通过构造一个排序函数实现，一般按照相关度进行排序。比较典型的是搜索引擎中一条查询，将返回一个相关的文档，然后根据检索关键字和文档之间的相关度进行排序,再返回给用户。而随着影响相关度的因素变多，使用传统排序方法变得困难。传统的排序方法很难融合多种信息，比如向量空间模型以tf*idf作为权重构建相关度函数，就很难利用其他信息，并且如果模型中参数比较多，也会使得调参非常困难，而且很可能会出现过拟合现象。基于此，本申请提出了一种信息检索结果排序方法、计算机设备和存储介质。
技术实现思路
本专利技术实施例的目的在于提供一种信息检索结果排序方法、计算机设备和存储介质，旨在解决
技术介绍
中提出的技术问题。本专利技术实施例是这样实现的，一种信息检索结果排序方法，包括以下步骤：标注训练数据寻找与查询相关的文档，并对文档进行相关度排序；具体的，文本特征抽取确定文档的特征数量，将所述文档转换成特征向量，形成包含有特征向量和相关度的训练实例；训练学习函数定义Q＝{q1,q2,L,qm}为查询集，qi为第i个查询，D为与查询集Q相关的文档集，其中，Di＝{di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档，Y＝{1,2,L,1}是...

【技术保护点】
1.一种信息检索结果排序方法，其特征在于，包括以下步骤：/n标注训练数据/n寻找与查询相关的文档，并对文档进行相关度排序；/n文本特征抽取/n确定文档的特征数量，将所述文档转换成特征向量，形成包含有特征向量和相关度的训练实例；/n训练学习函数/n定义Q＝{q

【技术特征摘要】
1.一种信息检索结果排序方法，其特征在于，包括以下步骤：
标注训练数据
寻找与查询相关的文档，并对文档进行相关度排序；
文本特征抽取
确定文档的特征数量，将所述文档转换成特征向量，形成包含有特征向量和相关度的训练实例；
训练学习函数
定义Q＝{q1,q2,L,qm}为查询集，qi为第i个查询，D为与查询集Q相关的文档集，其中，Di＝{di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档，Y＝{1,2,L,1}是相关度集，其中，yi＝{yi,1,yi,2,L,yi,ni}为与qi查询相关的文档相关度集；
由此可得原始训练集为特征向量由每个查询文档对(qi,di,j),i＝1,2,L,m；j＝1,2,,ni生成，为特征函数；
Xi＝{xi,1,xi,2,Lxi,ni}，设定训练数据集x∈X且以训练局部排序模型f(q,d)＝f(x)，将分数赋予给定的查询文档对(q,d)，对训练数据集S'输出分数列表；
依据分数列表对文档集Di定义排名表Rankinglistπi，通过下标做双向映射，以πi表示所有文档在文档集Di内的可能映射，πi(j)代表第j个文档在πi中的排序，排序方式通过f(qi,di)对查询qi选择一个排序映射πi∈∏i和文档集Di；
使用包含有新查询和新文档的的测试集，创建特征向量xm+1，使用排序模型进行训练，根据打分进行排序，得到πm+1；<...

【专利技术属性】
技术研发人员：黎阳，申义，侯颖，刘大伟，王涛，
申请(专利权)人：威海天鑫现代服务技术研究院有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人