一种基于深度相关性匹配的局部引文推荐系统及方法技术方案

技术编号:25396863 阅读:32 留言:0更新日期:2020-08-25 23:01
本发明专利技术公开了一种基于深度相关性匹配的局部引文推荐系统及方法,使用预训练的多层语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富的问题。本发明专利技术解决了深度语义匹配方法中存在语义模糊的问题。并对引文上下文和候选论文内容建立交互矩阵学习,解决了文本长度差异较大导致传统模型推荐效果较大的影响。本发明专利技术创新性的提出了构建作者网络,解决了传统局部引文推荐方法中使用特征单一的问题,将最具影响力和相关性的作者信息融入到模型中,充分的将作者特征与相关性特征相结合。本发明专利技术使用相同的MLP网络对每一个相关性特征进行学习,有效了减少了神经网络参数,减少的模型过拟合的可能性。

【技术实现步骤摘要】
一种基于深度相关性匹配的局部引文推荐系统及方法
本专利技术属于电子信息
,涉及一种基于深度相关性匹配的局部引文推荐系统及方法。
技术介绍
引用相关研究成果是研究者在撰写学术文献时的重要环节,研究者需要从文献借鉴其研究思路或者将其作为最新研究进展加以描述。研究者在撰写学术文献时往往需要引用大量的参考文献来支撑自己的观点,并且不同学科之间所需的引文数量差异巨大,特别是一些相对较成熟的学科,有时甚至需要深度挖掘出所有相关的参考文献,这必然会耗费研究者大量的精力。如何迅速地在质量参差不齐的学术资源中快速找到合适的相关文献来供科研人员进行优化选择则是目前面临的一大挑战。因此,通过研究局部引文推荐算法,将引文句本身或者由引文句和其前后若干句所组成的引文上下文,来为论文提供所需要添加和引用文献则成为了目前的关键。现有的局部引文推荐主要分为基于主题模型、基于翻译模型以及基于深度语义匹配的方法。其中,基于主题模型的方法通过提取引文上下文中的主题,然后给每一个主题推荐最合适的引文,最后将推荐的引文与各个引文句进行匹配。这类方法一般采取迭代算法进行模型训练,往往需要较长的训练时间,所以不适用于在动态更新的数据集中做引文推荐;基于翻译模型将引文上下文和引证文献看成两种不同的“语言”,然后使用最大似然估计来计算它们之间翻译的概率,这种方法存在引文与目标文档使用词汇不一致问题,导致模型性能较差。而基于深度语义匹配的方法使用深度神经网络自动捕获单词、短语和句子的相似性,推理引文上下文和目标文档之间两端文本的语义关系,从而进行全局匹配,这种方法已成为目前局部引文推荐的主流方法,虽然取得了很多成就,但是目前由于存在文本长度差异较大而导致语义模糊、文献信息没有得到充分利用等问题,这在很大程度上影响到局部引文推荐的性能。
技术实现思路
本专利技术的目的在于解决现有技术中的问题,提供一种基于深度相关性匹配的局部引文推荐系统及方法。为达到上述目的,本专利技术采用以下技术方案予以实现:一种基于深度相关性匹配的局部引文推荐系统,包括:上下文交互特征的提取与表示模块,用于对引文上下文和候选文档句子生成文本高级表示向量,然后使用BiLSTM模型学习文本向量中的上下文信息,最后利用注意力机制实现对引文上下文和候选文档的特征交互提取,以及对相关性特征进行表示;影响力与作者特征的融合表示模块,用于利用预训练模型Word2vec对作者信息进行词嵌入表示,使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习,提取最具影响力和相关性的作者特征表示;局部引文推荐模块,用于利用全连接网络对相关性特征和作者特征进行分层学习,然后在线性层对特征联合学习,完成局部引文推荐任务。本专利技术还公开了一种基于深度相关性匹配的局部引文推荐方法,包括以下步骤:阶段0:数据预处理步骤0:将文献数据集中的引文上下文和文献内容使用Word2vec工具进行词嵌入表示,对句子中所有单词利用IDF值加权后求平均得到句向量;步骤1:将生成的引文上下文和论文内容句子向量,计算余弦相似度得到TOP100篇相似文献生成候选集;阶段1:相关性特征表示学习步骤2:嵌入层是模型的基础层,采用预训练的语言模型BERT作为单词嵌入工具;使用BERT模型输入格式表示为“[CLS]上下文[SEP]”;通过BERT的多头自注意力机制计算引文上下文和论文内容的初级表示:其中,表示句子中第i个单词的输入,BERTg表示全局交互表示学习阶段所使用的语言模型,表示句子中第i个单词通过BERT生成的嵌入表示;步骤3:在获取引文上下文和候选文献内容的嵌入表示之后,将其输入到Bi-LSTM层中获取句子的序列信息,使用预训练词向量作为残差e(ti)结合Bi-LSTM编码的词向量;步骤4:使用注意力机制对引文上下文和候选文献之间的每一个单词进行交互,计算单词之间的匹配度,挖掘句子之间的关系,给定一个含有m个词的候选文献d=(d1,...,dm),首先计算每个引文上下文词qi相对于所有论文di的内积注意力分数,如下所示:ai,j=sofmax(c(qi)Tc(dj);d1,...,dm)(3)步骤5:对论文di的上下文编码进行加权求和,根据注意分数加权,将引文上下文qi相对于论文文档d的每一个di产生基于注意力的表示向量dqi,如下所示:dqi=∑jai,jc(dj)(4)步骤6:使用L2正则化后的dqi与L2正则化后的引文上下文qi进行Hadamard运算,得到每一个qi维度固定的上下文感知编码φH(qi),如下所示:步骤7:将引文上下文所有词的IDF值与φh(qi)进行拼接,如下所示:e(qi)=[φH(qi);idf(qi)](6)阶段2:作者特征表示学习步骤8:使用word2vec模型将引文上下文和候选文献的作者特征表示为词嵌入,使用Word2vec模型输入格式表示为“[CLS]上下文[SEP]”;给定一个维度为g的引文上下文作者向量其包含t名引文上下文作者,定义如下:步骤9:利用CNN模型学习作者特征之间关联信息;给定上具有一维卷积的长期依赖关系;CNN中卷积核为其中h是卷积窗口的大小,产生特征向量如下所示:其中,ReLU是非线性激活函数max(0,x),使用最大池化(max-pooling)提取最大特征,为了捕捉更复杂的关系,该过程被重复多次与不同权重的卷积核进行卷积操作;步骤10:将引文上下文作者表示向量(Aq)和候选文献作者表示向量(Ad)分别输入到CNN模型中,使用公式8产生的特征向量进行拼接:阶段3:特征联合学习步骤11:使用相同的MLP网络独立地计算步骤7产生每一个相关性向量e(qi)的分数,同时将步骤10产生的作者向量f(A)输入到MLP网络中计算分数,最终将这些MLP层输出聚合到线性层中得出相关得分rel(q,d),公式如下所示:rel(q,d)=linear(MLP(e(qi)),MLP(f(A)))(10)。本专利技术进一步的改进在于:所述步骤3中,如果和是单词ti的双向LSTM左右两边最后一层隐藏层状态,上下文编码公式如下所示:其中,c(t)是上下文编码层的输出。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过引文上下文和候选文献内容的相关性交互和引入作者之间的信息,克服了现有技术在实验局部引文推荐中缺点与不足;本专利技术使用预训练的多层语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富,无法解决一词多义的问题;并利用BiLSTM模型对单词进行学习解决文本中缺乏上下文序列信息的问题。本专利技术提出了基于注意力机制的深度相关性匹配,解决了深度语义匹配方法中存在语义模糊的问题。并对引文上下文和候选论文内容建立交互矩阵学习,解决了文本长度差异较大导致传统模型推荐效果较大的影响。本专利技术创本文档来自技高网
...

【技术保护点】
1.一种基于深度相关性匹配的局部引文推荐系统,其特征在于,包括:/n上下文交互特征的提取与表示模块,用于对引文上下文和候选文档句子生成文本高级表示向量,然后使用BiLSTM模型学习文本向量中的上下文信息,最后利用注意力机制实现对引文上下文和候选文档的特征交互提取,以及对相关性特征进行表示;/n影响力与作者特征的融合表示模块,用于利用预训练模型Word2vec对作者信息进行词嵌入表示,使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习,提取最具影响力和相关性的作者特征表示;/n局部引文推荐模块,用于利用全连接网络对相关性特征和作者特征进行分层学习,然后在线性层对特征联合学习,完成局部引文推荐任务。/n

【技术特征摘要】
1.一种基于深度相关性匹配的局部引文推荐系统,其特征在于,包括:
上下文交互特征的提取与表示模块,用于对引文上下文和候选文档句子生成文本高级表示向量,然后使用BiLSTM模型学习文本向量中的上下文信息,最后利用注意力机制实现对引文上下文和候选文档的特征交互提取,以及对相关性特征进行表示;
影响力与作者特征的融合表示模块,用于利用预训练模型Word2vec对作者信息进行词嵌入表示,使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习,提取最具影响力和相关性的作者特征表示;
局部引文推荐模块,用于利用全连接网络对相关性特征和作者特征进行分层学习,然后在线性层对特征联合学习,完成局部引文推荐任务。


2.一种基于深度相关性匹配的局部引文推荐方法,其特征在于,包括以下步骤:
阶段0:数据预处理
步骤0:将文献数据集中的引文上下文和文献内容使用Word2vec工具进行词嵌入表示,对句子中所有单词利用IDF值加权后求平均得到句向量;
步骤1:将生成的引文上下文和论文内容句子向量,计算余弦相似度得到TOP100篇相似文献生成候选集;
阶段1:相关性特征表示学习
步骤2:嵌入层是模型的基础层,采用预训练的语言模型BERT作为单词嵌入工具;使用BERT模型输入格式表示为“[CLS]上下文[SEP]”;通过BERT的多头自注意力机制计算引文上下文和论文内容的初级表示:



其中,表示句子中第i个单词的输入,BERTg表示全局交互表示学习阶段所使用的语言模型,表示句子中第i个单词通过BERT生成的嵌入表示;
步骤3:在获取引文上下文和候选文献内容的嵌入表示之后,将其输入到Bi-LSTM层中获取句子的序列信息,使用预训练词向量作为残差e(ti)结合Bi-LSTM编码的词向量;
步骤4:使用注意力机制对引文上下文和候选文献之间的每一个单词进行交互,计算单词之间的匹配度,挖掘句子之间的关系,给定一个含有m个词的候选文献d=(d1,...,dm),首先计算每个引文上下文词qi相对于所有论文di的内积注意力分数,如下所示:
ai,j=sofmax(c(qi)Tc(dj);d1,...,dm)(3)...

【专利技术属性】
技术研发人员:饶元王雷鹏赵永强卞秦豫
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1