【技术实现步骤摘要】
一种全局交互与贪心选择相结合的搜索结果多样化系统
本专利技术涉及智能搜索领域,尤其涉及一种全局交互与贪心选择相结合的搜索结果多样化系统。
技术介绍
相关统计数据证明用户在使用搜索引擎时倾向于提交短查询,为了解决短查询所带来的歧义性问题,搜索引擎需要对搜索结果进行多样化排序。对于给定的查询和初始排序文档序列,一个多样化模型应当对文档序列进行多样化重排序,使得重排序之后排在前面位置的文档能够尽可能多地覆盖不同的用户意图。目前主流的多样化排序方法,按照如何衡量文档的多样性,可以分为隐式多样化方法和显式多样化方法:隐式多样化方法按照候选文档相对于已选中的文档是否具有新颖性,即是否与已选中的文档尽可能不相似来判定文档是否具有多样性,显式多样化方法则显式地衡量文档对不同的用户意图(通常用子话题表示)的覆盖程度,一个具有多样性的文档应该覆盖了此前已选中文档序列没有覆盖的用户意图。而按照如何拟定多样化排序函数,则可以分为启发式(非监督式)和学习式(监督式)方法,启发式方法依赖于人工提取的多样化特征与排序函数,而学习式方法则利用机器学习模型, ...
【技术保护点】
1.一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:系统由输入单元、面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元组成,所述输入单元用于输入用户提交的搜索查询关键词和经过初始的相关性排序,未经多样化的搜索结果,并将其输入所述面向搜索结果多样化任务的全局交互-贪心选择算法,并由所述输出单元用于输出经过多样化重排序的搜素结果;/n所述面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元采用基于全局交互-贪心选择的搜索结果多样化框架,该框架通过自注意力网络与循环神经网络的并列结构,使得文档全局交互与文档选择两种特征并列地在搜索结果多样化排序中发挥效 ...
【技术特征摘要】
1.一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:系统由输入单元、面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元组成,所述输入单元用于输入用户提交的搜索查询关键词和经过初始的相关性排序,未经多样化的搜索结果,并将其输入所述面向搜索结果多样化任务的全局交互-贪心选择算法,并由所述输出单元用于输出经过多样化重排序的搜素结果;
所述面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元采用基于全局交互-贪心选择的搜索结果多样化框架,该框架通过自注意力网络与循环神经网络的并列结构,使得文档全局交互与文档选择两种特征并列地在搜索结果多样化排序中发挥效用,具体地,所述基于自注意力网络编码器的文档全局交互结构输入文档序列和子话题的向量表征,返回每一个文档和子话题的编码器生成表示向量,文档的表示向量表征文档相对于其他文档的新颖性,子话题的表示向量用于生成子话题权重;所述基于循环神经网络的贪心选择结构,输入当前已选文档序列对应的上下文向量和候选文档向量,返回候选文档的贪心选择表示向量;将所述文档表示向量、所述子话题表示向量、文档相对查询的相关性特征参数,和文档相对于子话题由文档对子话题的相关性参数生成的覆盖得分首尾相连,生成文档的全体特征向量,将该特征向量输入线性排序学习函数,生成最终的文档多样化排序评分;然后选择当前最佳的搜索结果文档,将其加入到已选文档序列中,并使用新的已选文档序列生成新的上下文向量并重新初始化文档选择组件,继续从候选文档中选择最佳文档,这一过程将不断重复,直至所有候选文档都已被选中为止。
2.如权利要求1所述的一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:
所述自注意力网络编码器的具体实现方式为:输入一个由文档向量组成的文档序列D,此处D={d1,...,dm},即长度为m的文档序列,共包含m个文档向量,建立缩放点积注意力函数作为自注意力网络的核心节点,表示如下:
此处Q,K,V分别为注意力函数中的查询、键、值向量,Q表示的“查询”是注意力函数内部的概念,完整的自注意力网络编码器结构,包含一个多层的自注意力网络,每一层引入多头注意力机制,即将输入的文档向量映射到h个不同的子空间中,然后利用每一个头分别捕获自注意力特征,该机制可以表示如下:
其中WH是在训练过程中学习的参数,输入矩阵D′为全体文档序列对应的文档向量组成的矩阵,在输入矩阵中引入额外的位置编码即在每一层间引入残差连接的前馈神经网络,以及Dropout机制,如下所示:
SelfAttnEnc(D)=LN(Henc+Dp(FF(Henc)))
Henc=LN(D′+Dp(MHAenc(D′)))
式中,FF表示前馈神经网络,Dp(·)表示Dropout层,LN(·)表示层归一化(LayerNormalization)操作,编码器生成全体文档序列的上下文相关表示向量,并连接成矩阵即每一个文档的表示向量都可以用作文档的新颖性特征表示。
3.如权利要求2所述的一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:所述子话题权重的生成方法为:对于给定的子话题序列Q={q1,…,qn},同样将其输入至编码器中,返回得到对应的子话题表征向量...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。