一种基于深度相关性匹配的局部引文推荐系统及方法技术方案

技术编号：25396863 阅读：32 留言：0更新日期：2020-08-25 23:01

本发明专利技术公开了一种基于深度相关性匹配的局部引文推荐系统及方法，使用预训练的多层语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富的问题。本发明专利技术解决了深度语义匹配方法中存在语义模糊的问题。并对引文上下文和候选论文内容建立交互矩阵学习，解决了文本长度差异较大导致传统模型推荐效果较大的影响。本发明专利技术创新性的提出了构建作者网络，解决了传统局部引文推荐方法中使用特征单一的问题，将最具影响力和相关性的作者信息融入到模型中，充分的将作者特征与相关性特征相结合。本发明专利技术使用相同的MLP网络对每一个相关性特征进行学习，有效了减少了神经网络参数，减少的模型过拟合的可能性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度相关性匹配的局部引文推荐系统及方法
本专利技术属于电子信息
，涉及一种基于深度相关性匹配的局部引文推荐系统及方法。
技术介绍
引用相关研究成果是研究者在撰写学术文献时的重要环节，研究者需要从文献借鉴其研究思路或者将其作为最新研究进展加以描述。研究者在撰写学术文献时往往需要引用大量的参考文献来支撑自己的观点，并且不同学科之间所需的引文数量差异巨大，特别是一些相对较成熟的学科，有时甚至需要深度挖掘出所有相关的参考文献，这必然会耗费研究者大量的精力。如何迅速地在质量参差不齐的学术资源中快速找到合适的相关文献来供科研人员进行优化选择则是目前面临的一大挑战。因此，通过研究局部引文推荐算法，将引文句本身或者由引文句和其前后若干句所组成的引文上下文，来为论文提供所需要添加和引用文献则成为了目前的关键。现有的局部引文推荐主要分为基于主题模型、基于翻译模型以及基于深度语义匹配的方法。其中，基于主题模型的方法通过提取引文上下文中的主题，然后给每一个主题推荐最合适的引文，最后将推荐的引文与各个引文句进行匹配。这类方法一般采取迭代算法进行模型训练，往往需要较长的训练时间，所以不适用于在动态更新的数据集中做引文推荐；基于翻译模型将引文上下文和引证文献看成两种不同的“语言”，然后使用最大似然估计来计算它们之间翻译的概率，这种方法存在引文与目标文档使用词汇不一致问题，导致模型性能较差。而基于深度语义匹配的方法使用深度神经网络自动捕获单词、短语和句子的相似性，推理引文上下文和目标文档之间两端文本的语义关系，从而进行...

【技术保护点】
1.一种基于深度相关性匹配的局部引文推荐系统，其特征在于，包括：/n上下文交互特征的提取与表示模块，用于对引文上下文和候选文档句子生成文本高级表示向量，然后使用BiLSTM模型学习文本向量中的上下文信息，最后利用注意力机制实现对引文上下文和候选文档的特征交互提取，以及对相关性特征进行表示；/n影响力与作者特征的融合表示模块，用于利用预训练模型Word2vec对作者信息进行词嵌入表示，使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习，提取最具影响力和相关性的作者特征表示；/n局部引文推荐模块，用于利用全连接网络对相关性特征和作者特征进行分层学习，然后在线性层对特征联合学习，完成局部引文推荐任务。/n

【技术特征摘要】
1.一种基于深度相关性匹配的局部引文推荐系统，其特征在于，包括：
上下文交互特征的提取与表示模块，用于对引文上下文和候选文档句子生成文本高级表示向量，然后使用BiLSTM模型学习文本向量中的上下文信息，最后利用注意力机制实现对引文上下文和候选文档的特征交互提取，以及对相关性特征进行表示；
影响力与作者特征的融合表示模块，用于利用预训练模型Word2vec对作者信息进行词嵌入表示，使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习，提取最具影响力和相关性的作者特征表示；
局部引文推荐模块，用于利用全连接网络对相关性特征和作者特征进行分层学习，然后在线性层对特征联合学习，完成局部引文推荐任务。

2.一种基于深度相关性匹配的局部引文推荐方法，其特征在于，包括以下步骤：
阶段0：数据预处理
步骤0：将文献数据集中的引文上下文和文献内容使用Word2vec工具进行词嵌入表示，对句子中所有单词利用IDF值加权后求平均得到句向量；
步骤1：将生成的引文上下文和论文内容句子向量，计算余弦相似度得到TOP100篇相似文献生成候选集；
阶段1：相关性特征表示学习
步骤2：嵌入层是模型的基础层，采用预训练的语言模型BERT作为单词嵌入工具；使用BERT模型输入格式表示为“[CLS]上下文[SEP]”；通过BERT的多头自注意力机制计算引文上下文和论文内容的初级表示：

其中，表示句子中第i个单词的输入，BERTg表示全局交互表示学习阶段所使用的语言模型，表示句子中第i个单词通过BERT生成的嵌入表示；
步骤3：在获取引文上下文和候选文献内容的嵌入表示之后，将其输入到Bi-LSTM层中获取句子的序列信息，使用预训练词向量作为残差e(ti)结合Bi-LSTM编码的词向量；
步骤4：使用注意力机制对引文上下文和候选文献之间的每一个单词进行交互，计算单词之间的匹配度，挖掘句子之间的关系，给定一个含有m个词的候选文献d＝(d1,...,dm)，首先计算每个引文上下文词qi相对于所有论文di的内积注意力分数，如下所示：
ai,j＝sofmax(c(qi)Tc(dj)；d1,...,dm)(3)...

【专利技术属性】
技术研发人员：饶元，王雷鹏，赵永强，卞秦豫，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人