基于半监督的敏感舆情短语生成方法技术

技术编号:31793302 阅读:18 留言:0更新日期:2022-01-08 10:52
本发明专利技术涉及基于半监督的敏感舆情短语生成方法,本发明专利技术首先利用无监督方法对数据进行伪标注并预训练一个短语生成模型;另外,为了更好的让模型学习到某领域主题相关的敏感短语,进一步提出结合词嵌入表征和词袋表征的主题建模方法,提取敏感的潜在主题特征;最后结合短语生成模型和主题模型,基于少量标注数据进行微调,得到敏感舆情短语生成模型。在构建的敏感舆情数据集和KP20k数据上的实验表明,本发明专利技术的方法相比基础模型在F1@5值上提高3%。3%。3%。

【技术实现步骤摘要】
基于半监督的敏感舆情短语生成方法


[0001]本专利技术涉及基于半监督的敏感舆情短语生成方法模型,属于自然语言处理


技术介绍

[0002]敏感舆情短语生成任务是从某领域相关的敏感舆情中生成能够表征其关键信息的短语,对于快速发现和处置敏感舆情有着重要的作用,同时也可以为进一步的敏感舆情推荐、检索等任务提供技术支撑。
[0003]对于某领域中的短语生成任务来讲,主要面临两个问题:1、标注数据过少,导致监督学习难以得到很好的效果,相对于需要大量标注良好的有监督方法,无监督方法确实可以得到需要的关键短语,但抽取的短语并没有完整的语义,使得无监督方法常常不能取得很好的效果。2、如何获取到有关的领域中的内容,真实标签定位于相关领域的总结信息和局部信息中,而抽取短语不能获取到相关的领域特征。为此,本专利技术提出一种基于半监督和主题融入的方法分别解决领域问题中的标注数据过少和难以进行聚焦的问题。

技术实现思路

[0004]本方明提供基于半监督的敏感舆情短语生成方法,用于解决领域问题中的标注数据过少和难以进行聚焦的问题、短语生成质量不高的问题。
[0005]本专利技术的技术方案是:基于半监督的敏感舆情短语生成方法,所述方法包括:
[0006]结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征;
[0007]利用无监督方法对数据进行伪标注并预训练一个短语生成模型;
[0008]最后结合短语生成模型和主题模型,基于少量标注数据进行微调,利用梯度下降算法训练参数,由此构建基于半监督的敏感舆情短语生成方法模型。
[0009]作为本专利技术的进一步方案,所述结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征具体包括:
[0010]Step1.1、将文本x
seq
输入到一个能联系上下文的编码矩阵中,使用self

attention 的网络结构进行编码:
[0011][0012]Step1.2、利用多头注意力机制将多个自注意力连接起来:
[0013]multiHead(Q,K,V)=concat(head1,

,head
h
)W
O
[0014][0015]其中,softmax为归一化操作,connect表示拼接操作,其中,softmax为归一化操作,connect表示拼接操作,其中
[0016]Step1.3、为防止丢失原文本语义,对于输出的结果进行残差连接:
[0017]A
seq
=residualConnect(a_x
d
,x
seq
)
[0018]Step1.4、将文本的词袋输入x
bow
经过多层感知机MLP进行编码:
[0019]A
bow
=MLP(x
bow
)
[0020]Step1.5、将A
bow
和A
seq
进行拼接得到输入的整体表示A,将A作为VAE模块的输入,寻找数据的潜在分布;具体来说,令A作为VAE的输入,代表推断网络的输出,即潜在表示;VAE模型假设输入数据在潜在表示下的后验概率近似满足高斯分布,即 q(z|h)~N(z;μ,σ2I),μ,σ2分别是高斯分布的均值和方差;另一方面,VAE假设z满足标准高斯先验,即p(z)~N(0,I),在生成阶段,通过采样z~q(z|A)对样本进行重构,为使重构数据尽可能接近原始数据,VAE在最大化p(A)的同时,最小化训练得到的后验概率q(z|A)与其理论变分概率p(z|A)之间的误差;
[0021][0022]通过不断的最小化Loss值,将得到融入词嵌入表征和词袋表征的主题模型,利用文本的重参数z表示文本的潜在的主题表征与在文本解码时进行操作。
[0023]作为本专利技术的进一步方案,所述利用无监督方法对数据进行伪标注并预训练一个短语生成模型具体包括:
[0024]Step2.1、使用一个双向门控递归单元Bi

GRU模型作为编码端,将文本进行编码,对于文本x
seq
经过一个双向的网络进行编码,从而能模拟词语之间的时序关系,并将两个方向得到的结果进行拼接得到输出,输出包含两个部分:整体的文本编码H和网络记忆模块M:
[0025]H=Bi

GRU(x
seq
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0026]其中文本编码H,表示最终时刻文本编码的隐状态,网络记忆模块M=<h
i
>,用于记录每一个时刻的隐藏状态;
[0027]Step2.2、在解码时,通过注意力机制查询记忆模型中与舆情文本相关的特征内容进行关注,使用一个GRU网络对上下文向量进行解码,并通过一个条件语言模型生成一个变长的特征向量y=(y
t
):
[0028]P
g
(y|x)=∏
j=1
P
g
(y
j
|M,z)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0029]其中z为潜在的主题表征,P
g
为一个单词词汇分布,表示在预测过程中预测第j 个单词的概率;
[0030]Step2.3、在解码端使用单层的GRU网络中,包含一个s={s
k
}状态机制,s
k
为k时刻的隐藏状态:
[0031]s
j
=GRU([u
j
;z],s
j
‑1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0032]其中GRU表示单层的GRU网络,u
j
是第j个词嵌入编码的输入,s
j
‑1是前一个隐藏状态,;是一个拼接操作;
[0033]Step2.4、将设计的记忆单元模块M通过注意力的方式进行对编码器中的特征信息进行学习,从而获取到上下文表征向量c:
[0034]c=exp(f(h,s,z))/∑exp(f(h,s,z))
·
M
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0035]其中h为编码层隐藏状态,s为解码器的隐藏状态,z为融合表征的重参数,f表示度量词语与词语之间的时序关系:
[0036]f(h,s,z)=v
·
tanh(W[h;s;z]+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0037]v,W,b均是可以学习的参数;
[0038]Step2.5、结合复制网络,其允许从源输入中直接对关键字进行提取,复制机制复
制概率表示:
[0039]P...

【技术保护点】

【技术特征摘要】
1.基于半监督的敏感舆情短语生成方法,其特征在于,所述方法包括:结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征;利用无监督方法对数据进行伪标注并预训练一个短语生成模型;最后结合短语生成模型和主题模型,基于少量标注数据进行微调,利用梯度下降算法训练参数,由此构建基于半监督的敏感舆情短语生成方法模型。2.根据权利要求1所示的基于半监督的敏感舆情短语生成方法,其特征在于,所述结合词嵌入表征和词袋表征构建主题模型,用于提取敏感的潜在主题特征具体包括:Step1.1、将文本x
seq
输入到一个能联系上下文的编码矩阵中,使用self

attention的网络结构进行编码;Step1.2、利用多头注意力机制将多个自注意力连接起来;Step1.3、为防止丢失原文本语义,对于输出的结果进行残差连接:A
seq
=residualConnect(a_x
d
,x
seq
)Step1.4、将文本的词袋输入x
bow
经过多层感知机MLP进行编码:A
bow
=MLP(x
bow
)Step1.5、将A
bow
和A
seq
进行拼接得到输入的整体表示A,将A作为VAE模块的输入,寻找数据的潜在分布;具体来说,令A作为VAE的输入,代表推断网络的输出,即潜在表示;VAE模型假设输入数据在潜在表示下的后验概率近似满足高斯分布,即q(z|h)~N(z;μ,σ2I),μ,σ2分别是高斯分布的均值和方差;另一方面,VAE假设z满足标准高斯先验,即p(z)~N(0,I),在生成阶段,通过采样z~q(z|A)对样本进行重构,为使重构数据尽可能接近原始数据,VAE在最大化p(A)的同时,最小化训练得到的后验概率q(z|A)与其理论变分概率p(z|A)之间的误差;通过不断的最小化Loss值,将得到融入词嵌入表征和词袋表征的主题模型,利用文本的重参数z表示文本的潜在的主题表征与在文本解码时进行操作。3.根据权利要求1所示的基于半监督的敏感舆情短语生成方法,其特征在于,所述利用无监督方法对数据进行伪标注并预训练一个短语生成模型具体包括:Step2.1、使用一个双向门控递归单元Bi

GRU模型作为编码端,将文本进行编码,对于文本x
seq
经过一个双向的网络进行编码,从而能模拟词语之间的时序关系,并将两个方向得到的结果进行拼接得到输出,输出包含两个部分:整体的文本编码H和网络记忆模块M:H=Bi

GRU(x
seq
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中文本编码H,表示最终时刻文本编码的隐状态,网络记忆模块M=<h
i
>,用于记录每一个时刻的隐藏状态;Step2.2、在解码时,通过注意力机制查询记忆模型中与舆情文本相关的特征内容进行关注,使用一个GRU网络对上下文向量进行解码,并通过一个条件语言模型生成一个变长的特征向量y=(y
t
):P
g
(y|x)=∏
j=1
P
g
(y
j
|M,...

【专利技术属性】
技术研发人员:余正涛赵周颖张泽锋黄于欣郭军军
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1