【技术实现步骤摘要】
一种基于神经机器翻译技术的局部引文推荐方法及系统
本专利技术涉及一种信息检索
,尤其涉及一种基于神经机器翻译的局部引文推荐方法及系统。
技术介绍
随着互联网技术的快速发展,每年都会出版大量新的科研文章,如何从海量文献中快速查找出自己需要的文献成了一大难度。局部引文推荐可以帮助在给定一段上下文的前提下,快速构建在语义和内容上智能模型,帮助你快速从海量文献中找到与你的研究领域相关的可供借鉴的文献或者直接为您推荐可供引用的文献,这为你在科研工作中节省了大量寻找相关文献的时间。局部引文推荐在科研工作中起到了不可忽视的作用。近年来,许多科研工作者对此展开了研究。大体分为两类,一是全局引文推荐,即为独立的文章推荐引文;二是为文章中一段上下文文本推荐引文。所使用研究方法一般有基于文本相似度的方法、基于主题模型的方法、基于翻译模型的方法、基于协同过滤的方法、基于深度学习的方法以及一些其他方法。神经机器翻译是2014年由谷歌提出的一套编码器-解码器框架,在机器翻译问题上取得了长足的进展。
技术实现思路
本专利技术要解决的技术问题为提供一种基于神经机器翻译技术的局部引文推荐方法,来提高引文上下文和引文文章标题的翻译准确性。一种基于神经机器翻译技术的局部引文推荐方法,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近; ...
【技术保护点】
1.一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;S4、将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。
【技术特征摘要】
1.一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;S4、将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。2.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,步骤S1具体包括:提取所有英文的引文上下文并去除无效符号,保留单词数在设定范围内的引文上下文并进行词形还原;统计词频,保留排名前设定名次的词汇,其他词汇以<UNK>替换,不足设定范围内的单词则扩充<PAD>,并根据引文上下文提取被引文章标题并进行类似的清洗操作。3.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,步骤S2具体包括:S21、根据词窗口大小将句子划分成多个输入词与输出词相对的形式;S22、将所有的词转换为相当于词表大小的0-1向量;S23、构建神经网络,包含一个输入层,隐藏层,输出层;S24、在跳字模型中加入负采样反向传递误差,词嵌入矩阵处的权重矩阵就是最后得出的词向量表示。4.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,所述步骤S3具体为:构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架对引文上下文进行语义表征的学习,在理解语义的基础上从候选词表中挖掘解码出种子标题,形成一种以语义内容为衔接的种子标题构造模型;构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架具体为:编码器由一个双向门控循环单元网络构成,在每一时刻t接收输入序列的第t个词的向量表示并得到隐藏层状态h<t>,通过注意力机制与输出层的隐藏层状态作用得到输入的每个词的翻译权重,进一步获得最终的上下文向量并送入解码器解码出单词;编码器GRU单元的公式表示如下:Gu=sigmod(Wu[h<t-1>,x<t>]+bu)Gr=sigmod(Wr[h<t-1>,x<t>]+br)其中Gu为更新门,Gr为重置门,为更新隐藏层变量,C<t>为流向下一时刻的隐藏层变量,h<t>表示h时刻的隐藏层变量,x<t>表示t时刻的输入,bu、br、bc表示偏置,sigmod、tanh是激活函数W[u,r,c]是权重参数。注意力机制解码部分过程如下:在解码器解码第t个词时,需计算解码器t时刻隐藏层状态s<t>,t-1时刻解码出的单词y&...
【专利技术属性】
技术研发人员:赵姝,王鑫,刘洋,陈洁,段震,张燕平,
申请(专利权)人:安徽大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。