当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于神经机器翻译技术的局部引文推荐方法及系统技术方案

技术编号:20025847 阅读:52 留言:0更新日期:2019-01-06 04:41
本发明专利技术公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。

【技术实现步骤摘要】
一种基于神经机器翻译技术的局部引文推荐方法及系统
本专利技术涉及一种信息检索
,尤其涉及一种基于神经机器翻译的局部引文推荐方法及系统。
技术介绍
随着互联网技术的快速发展,每年都会出版大量新的科研文章,如何从海量文献中快速查找出自己需要的文献成了一大难度。局部引文推荐可以帮助在给定一段上下文的前提下,快速构建在语义和内容上智能模型,帮助你快速从海量文献中找到与你的研究领域相关的可供借鉴的文献或者直接为您推荐可供引用的文献,这为你在科研工作中节省了大量寻找相关文献的时间。局部引文推荐在科研工作中起到了不可忽视的作用。近年来,许多科研工作者对此展开了研究。大体分为两类,一是全局引文推荐,即为独立的文章推荐引文;二是为文章中一段上下文文本推荐引文。所使用研究方法一般有基于文本相似度的方法、基于主题模型的方法、基于翻译模型的方法、基于协同过滤的方法、基于深度学习的方法以及一些其他方法。神经机器翻译是2014年由谷歌提出的一套编码器-解码器框架,在机器翻译问题上取得了长足的进展。
技术实现思路
本专利技术要解决的技术问题为提供一种基于神经机器翻译技术的局部引文推荐方法,来提高引文上下文和引文文章标题的翻译准确性。一种基于神经机器翻译技术的局部引文推荐方法,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;S4、将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。作为上述技术方案的优选方案,步骤S1具体包括:提取所有英文的引文上下文并去除无效符号,保留单词数在设定范围内的引文上下文并进行词形还原;统计词频,保留排名前设定名次的词汇,其他词汇以<UNK>替换,不足设定范围内的单词则扩充<PAD>,并根据引文上下文提取被引文章标题并进行类似的清洗操作。作为上述技术方案的优选方案,步骤S2具体包括:S21、根据词窗口大小将句子划分成多个输入词与输出词相对的形式;S22、将所有的词转换为相当于词表大小的0-1向量;S23、构建神经网络,包含一个输入层,隐藏层,输出层;S24、在跳字模型中加入负采样反向传递误差,词嵌入矩阵处的权重矩阵就是最后得出的词向量表示。作为上述技术方案的优选方案,所述步骤S3具体为:构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架对引文上下文进行语义表征的学习,在理解语义的基础上从候选词表中挖掘解码出种子标题,形成一种以语义内容为衔接的种子标题构造模型;构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架具体为:编码器由一个双向门控循环单元网络构成,在每一时刻t接收输入序列的第t个词的向量表示并得到隐藏层状态h<t>,通过注意力机制与输出层的隐藏层状态作用得到输入的每个词的翻译权重,进一步获得最终的上下文向量并送入解码器解码出单词;编码器GRU单元的公式表示如下:Gu=sigmod(Wu[h<t-1>,x<t>]+bu)Gr=sigmod(Wr[h<t-1>,x<t>]+br)其中Gu为更新门,Gr为重置门,为更新隐藏层变量,C<t>为流向下一时刻的隐藏层变量,h<t>表示h时刻的隐藏层变量,x<t>表示t时刻的输入,bu、br、bc表示偏置,sigmod、tanh是激活函数W[u,r,c]是权重参数。注意力机制解码部分过程如下:在解码器解码第t个词时,需计算解码器t时刻隐藏层状态s<t>,t-1时刻解码出的单词y<t-1>,t时刻编码器传入的上下文向量c<t>,其中解码器t时刻隐藏层状态st可由如下公式得到:S<t>=g(y<t-1>,s<t-1>,c<t>其中t时刻传入的上下文变量c<t>由编码器的隐藏层变量h<t>和每个编码词汇与该解码词汇的翻译注意力决定,公式如下:其中是向量类型的注意力,表示编码器第个词对解码器全部词的翻译注意力,可由如下公式得到:其中标量类型的注意力,表示编码器第个词对解码器第t个词的翻译注意力,可由如下公式得到:其中vT,W[s,h]为参数权重;循环以上过程,直到解码出全部的单词,即为种子标题。作为上述技术方案的优选方案,步骤S4具体为:S41、计算全部解码候选词汇表中的词汇的两两相似度,建立词库相似度搜索字典集;S42、对种子标题和待被引文章列表库中的文章标题进行分词,根据词库相似度搜索字典集中相似度逐词计算种子标题与每篇待被引文章标题的相似度;S43、累加步骤S42中的计算结果作为种子标题与该文章的相似度;S44、对步骤S43得出的相似度结果进行排序,形成文献推荐列表。本专利技术还提供一种基于神经机器翻译技术的局部引文推荐系统,应用于上述的方法,包括:引文清洗模块,用于将输入的引文上下文处理成编码器-解码器框架所要求的标准输入语料形式;文章扩充模块,用于在现有文章列表库基础上动态扩充待引文章列表库,利用网络爬虫技术,及时爬取相关文献检索平台最新的公开文章,使得引文上下文的待引文章列表库更加完备,全面;候选词更新模块,在待引文章列表库得到更新后重新计算词频,动态更新解码器解码种子标题时的候选词列表;引文推荐模块,计算得出在给定引文上下文前提下的推荐文章列表。作为上述技术方案的优选方案,引文清洗模块具体用于:去除引文上下文中的无效符号并将引文上下文中未出现在词表中的词汇替换为<UNK>,不足设定范围内的单词则补齐<PAD>,超过设定范围的单词则进行截断操作并对所有词进行词形还原,之后用预训练好的词向量模型将全部词汇转换为词向量。作为上述技术方案的优选方案,文章扩充模块中,利用网络爬虫技术爬取相关检索平台最新的公开文章,对原始数据集进行引文提取、词形还原、词频统计等数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库,动态扩充和维护待引文章列表库。作为上述技术方案的优选方案,候选词更新模块中,在待引文章列表库得到更新后,对最新本文档来自技高网...

【技术保护点】
1.一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;S4、将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。

【技术特征摘要】
1.一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,包括以下步骤:S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;S4、将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。2.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,步骤S1具体包括:提取所有英文的引文上下文并去除无效符号,保留单词数在设定范围内的引文上下文并进行词形还原;统计词频,保留排名前设定名次的词汇,其他词汇以<UNK>替换,不足设定范围内的单词则扩充<PAD>,并根据引文上下文提取被引文章标题并进行类似的清洗操作。3.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,步骤S2具体包括:S21、根据词窗口大小将句子划分成多个输入词与输出词相对的形式;S22、将所有的词转换为相当于词表大小的0-1向量;S23、构建神经网络,包含一个输入层,隐藏层,输出层;S24、在跳字模型中加入负采样反向传递误差,词嵌入矩阵处的权重矩阵就是最后得出的词向量表示。4.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,所述步骤S3具体为:构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架对引文上下文进行语义表征的学习,在理解语义的基础上从候选词表中挖掘解码出种子标题,形成一种以语义内容为衔接的种子标题构造模型;构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架具体为:编码器由一个双向门控循环单元网络构成,在每一时刻t接收输入序列的第t个词的向量表示并得到隐藏层状态h<t>,通过注意力机制与输出层的隐藏层状态作用得到输入的每个词的翻译权重,进一步获得最终的上下文向量并送入解码器解码出单词;编码器GRU单元的公式表示如下:Gu=sigmod(Wu[h<t-1>,x<t>]+bu)Gr=sigmod(Wr[h<t-1>,x<t>]+br)其中Gu为更新门,Gr为重置门,为更新隐藏层变量,C<t>为流向下一时刻的隐藏层变量,h<t>表示h时刻的隐藏层变量,x<t>表示t时刻的输入,bu、br、bc表示偏置,sigmod、tanh是激活函数W[u,r,c]是权重参数。注意力机制解码部分过程如下:在解码器解码第t个词时,需计算解码器t时刻隐藏层状态s<t>,t-1时刻解码出的单词y&...

【专利技术属性】
技术研发人员:赵姝王鑫刘洋陈洁段震张燕平
申请(专利权)人:安徽大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1