【技术实现步骤摘要】
一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型
本专利技术涉及文本信息检索
,特别涉及一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型。
技术介绍
随着互联网和智能科技的不断发展,信息检索不再只有个人电脑终端(PC)搜索,用户越来越多的依赖移动设备来搜索他们需要的信息以及服务。信息检索模型的好坏直接影响到信息检索的结果。因此,信息检索模型不仅具有重要的理论意义,而且蕴含巨大的社会价值。本专利技术主要研究ad-hoc任务中的给定查询之下的文档排名,即查询和文档之间的相关性分析。信息检索模型是信息检索的主要研究内容。目前的信息检索包括布尔模型、向量空间模型、概率模型、语言模型等。这些模型提出的主要目的是通过数学或者其他语言工具去对信息检索中的查询和文档及其匹配程度进行抽象描述。Ad-hoc是一种经典的检索任务,其中用户通过查询指定用户的信息需求,该查询启动搜索(由信息系统执行)以查找可能与用户相关的文档。ad-hoc信息检索任务中的一个核心问题就是如何学习一个通用的函数,该函数可以 ...
【技术保护点】
1.一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,包括如下步骤:/n(1)根据topic构建语料集,语料集的总样本是N个topic,其中每个topic包含一个查询和一系列文档;/n(2)从(1)的语料集中,随机选取80%*N个topic作为训练集和剩余的20%*N个topic作为测试集,并分别对训练集和测试集进行预处理;/n(3)对预处理之后的查询和文档构建Match-Transformer模型;/n(4)将训练集查询和文档的表示输入到Match-Transformer模型,并利用多层感知机计算文档的得分;/n(5)通过Learning-to-R ...
【技术特征摘要】
1.一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,包括如下步骤:
(1)根据topic构建语料集,语料集的总样本是N个topic,其中每个topic包含一个查询和一系列文档;
(2)从(1)的语料集中,随机选取80%*N个topic作为训练集和剩余的20%*N个topic作为测试集,并分别对训练集和测试集进行预处理;
(3)对预处理之后的查询和文档构建Match-Transformer模型;
(4)将训练集查询和文档的表示输入到Match-Transformer模型,并利用多层感知机计算文档的得分;
(5)通过Learning-to-Rank算法对训练后的Match-Transformer模型进行参数更新;
(6)将测试集数据输入到训练后的Match-Transformer模型中计算出每个topic的最后返回文档排名得分;
(7)将Match-Transformer模型在测试集上的评价结果输出。
2.根据权利要求1所述的一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,所述步骤(3)中Match-Transformer模型构建方法,包括如下步骤:
3.1运...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。