跨领域关键词提取方法技术

技术编号:21432206 阅读:29 留言:0更新日期:2019-06-22 11:55
本发明专利技术公开了一种跨领域关键词提取方法,包括:构建基于主题的对抗神经网络,其使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。该方法可实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。

【技术实现步骤摘要】
跨领域关键词提取方法
本专利技术涉及迁移学习和关键词提取领域,尤其涉及一种跨领域关键词提取方法。
技术介绍
关键词提取是一种从文本中自动提取高度概括文章内容的短语的任务。已有的关键词提取方法通常分为有监督和无监督两大类。有监督方法把关键词提取当成一个分类任务,从文本中得到的候选短语被分为关键短语和非关键短语。虽然有监督的关键词提取方法效果比较好但需要大量的有标签数据来训练一个鲁棒的模型。同时当有标签数目比较少时,可以使用无监督的关键词提取方法:基于图的排序方法,聚类方法,语言模型方法。然而,无监督的关键词提取方法的效果并不如用充分有标签数据训练的有监督方法。此外,现有的大部分有监督和无监督的关键词提取方法都集中在单领域关键词提取,无法实现跨领域关键词的提取。
技术实现思路
本专利技术的目的是提供一种跨领域关键词提取方法,可以实现无标签或少量标签的目标领域的关键词提取,并具有较好的提取效果。本专利技术的目的是通过以下技术方案实现的:一种跨领域关键词提取方法,包括:构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。由上述本专利技术提供的技术方案可以看出,利用基于主题的对抗神经网络模型类进行跨领域关键词提取,可以实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种跨领域关键词提取方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种跨领域关键词提取方法,主要包括:构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。为了便于理解,下面结合附图1对上述方案做详细的介绍。一、数据爬取与数据预处理。1、数据爬取。从若干不同领域中爬取一定量的文本数据;所述文本数据包括:论文的题目、摘要和/或对应的关键词。示例性的,可以根据中国计算机学会推荐国际学术会议和期刊目录选取了三个不同的领域:数据挖掘领域,语言与软件领域,计算机图形学领域。然后,依据这三个领域的国际学术会议和期刊爬取了对应的论文题目、摘要以及对应的关键词(如果有关键词的话)。2、数据预处理。1)对于爬取到的论文的题目和摘要,将二者拼接在一起作为一个文本;2)对文本内容进行分词处理,把文本中的数字统一用数字0代替;3)构建词向量所用的词表,选择词频数大于等于设定值(例如,设为15)的所有单词来构建词表,对源领域和目标领域的文本均采用上述方式进行预处理,源领域文本与目标领域文本对应的词表分别记为x与x′(x与x′均可理解为一个样本)。若还爬取到了关键词,则直接输入至关键词标注器进行关键词标注。二、构建基于主题的对抗神经网络。本专利技术实施例中,所构建的基于主题的对抗神经网络主要包括如下四个部分:基于主题的编码器,领域判别器,目标领域的双向解码器,关键词标注器。1、基于主题的编码器。所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块。1)双向长短期记忆网络(BiLSTM)。对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是源领域文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e1,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:最终向量ei的隐向量表示为:LSTM细胞单元为:ii=σ(Wxiei+Whihi-1+bi)fi=σ(Wxfei+Whfhi-1+bf)oi=σ(Wxoei+Whohi-1+bo)hi=oi⊙φ(ci)其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数,是相应门的权重、偏置Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′。2)主题注意力机制模块双向长短期记忆网络只考虑局部上下文的语义关系。然而关键词与文中的全局主题信息有关,因此,使用来考虑文本中每个词与主题的联系:首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;然后,衡量隐向量hi与主题向量z相关性的门ti:ti=tanh(Wzhi+Uzz+bz)上式中,Wz、Uz、bz是参数矩阵;基于主题的特征向量表示如下:从而得到源领域文本对应的词表x所对应的主题特征向量序列对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列2、领域判别器本专利技术实施例中,为了解决两个领域数据分布不一致的问题,通过带有对抗损失函数的领域判别器来学习领域无关的特征连接两个不同的领域。将判别器的参数表示为θd,基于主题的编码器的参数表示为θenc。在训练的过程中,领域判别器优化θd的参数来最小化判别器的损失函数来正确的区分出源领域和目标领域的特征表示。相反地,优化基于主题的编码器的参数θenc来最大化领域判别器的损失函数以降低判别器的准确率。最终这个对抗训练使得基于主题的编码器学到的主题特征向量序列(即,hz与hz′)是领域无关的,可以更好地泛化到其它领域。因为卷积神经网络已经展示出了它在序列分类任务中有效性,本专利技术实施例中,带有对抗损失函数的领域判别器使用卷积神经网络来实现。以主题特征向量序列hz为例进行说明,卷积神经网络地输入是基于主题的编码器输出的主题特征向量序列其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下:q=f(Wq*hz+bq)其中,*是卷积操作,表示参数偏置,f是非线性的激活函数,可使用ELU激活函数;最后,使用时间上的最大值池化操作来取它的最大值:以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小本文档来自技高网...

【技术保护点】
1.一种跨领域关键词提取方法,其特征在于,包括:构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。

【技术特征摘要】
1.一种跨领域关键词提取方法,其特征在于,包括:构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。2.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块;其中:对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e2,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:最终向量ei的隐向量表示为:LSTM细胞单元为:ii=σ(Wxiei+Whihi-1+bi)fi=σ(Wxfei+Whfhi-1+bf)oi=σ(Wxoei+Whohi-1+bo)hi=oi⊙φ(ci)其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数是相应门的权重、偏置,Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,i∈[1,n];对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′;之后,使用主题注意力机制模块来考虑文本中每个词与主题的联系:首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;然后,衡量隐向量hi与主题向量z相关性的门ti:ti=tanh(Wzhi+Uzz+bz)上式中,Wz、Uz、bz是参数矩阵;基于主题的特征向量表示如下:从而得到源领域文本对应的词表x所对应的主题特征向量序列对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列3.根据权利要求2所述的一种跨领域关键词提取方法,其特征在于,引入对抗学习来确保基于主题的编码器学习到的特征与领域无关,其通过带有对抗损失函数的领域判别器来实现;所述带有对抗损失函数的领域判别器使用卷积神经网络来实现;卷积神经网络输入基于主题的编码器输出的主题特征向量序列其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下:q=f(Wq*hz+bq)其中,*是卷积操作,f是非线性的激活函数;最后,使用时间上的最大值池化操作来取它的最大值:以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到向量序列的多个特征;对主题特征向量序列hz′做相同的处理,得到多个特征;在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:其中,是源领域的有标签样本数目,是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,是预测的第j个样本的领域标签的概率,dj是正确的领域标签。4.根据权利要求3所述的一种跨领域关键词提取方法,其特征在于,引入双向自编码...

【专利技术属性】
技术研发人员:陈恩红王亚楠刘淇秦川徐童王怡君熊辉
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1