【技术实现步骤摘要】
基于多任务稀疏共享学习的论辩挖掘系统及方法
[0001]本专利技术属于自然语言处理
,尤其涉及一种基于多任务稀疏共享学习的论辩挖掘系统及方法。能够自动地学习多个任务的稀疏共享结构,并利用各自任务特定的子网络进行联合训练,有效避免多任务学习的负迁移现象。
技术介绍
[0002]论辩挖掘旨在从非结构化的文本中提取论点并判断其类型与逻辑关系的研究领域,最终目的是将非结构化的文本数据转化为可供计算机处理的结构化数据。论辩挖掘任务一般可分为以下四个子任务:(1)从输入文本中提取带有论辩性的文本片段或句子,称为论点部件。(2)对提取的论点部件进行分类,一般可将这些单元分为“主张”和“前提”。(3)识别论点部件之间是否存在逻辑关系。(4)对存在的逻辑关系进行分类,通常分为支持关系和反对关系。
[0003]早期,绝大多数研究着重于某个子任务展开研究,仅针对单个子任务进行建模训练,而忽略了子任务间的关联信息,导致系统性能较低。
[0004]目前,论辩挖掘三个子任务联合建模研究的工作相对较少,大多是采用基于流水线或者深度神 ...
【技术保护点】
【技术特征摘要】
1.一种基于多任务稀疏共享学习的论辩挖掘系统,其特征在于,包括:编码器模块,用于使用双向长短时记忆神经网络学习上下文信息,以提取上下文信息的文本单词词向量;双路注意力编码模块,用于使用自注意力和外部注意力并行对词向量进行特征提取,获得不同角度的单词语义关注度,强化单词之间的关系建模;稀疏共享学习模块,用于对获得句子向量的编码模块进行多任务学习,为不同任务生成任务特定的稀疏参数矩阵,以解决多任务学习负迁移影响,并获得句子级编码表示;多任务标签输出模块,用于使用任务特定的分类器完成不同任务的分类结果预测。2.根据权利要求1所述的基于多任务稀疏共享学习的论辩挖掘系统,其特征在于:所述编码器模块根据数据集构造的词典从glove静态预训练词向量文档中获得词嵌入矩阵;输入文本的单词经过词嵌入矩阵获得单词的词向量,之后利用双向LSTM对历史上下文进行编码;编码器公式如下:i
t
=σ(W
(i)
x
t
+I
(i)
h
t
‑1+b
i
)f
t
=σ(W
(f)
x
t
+I
(f)
h
t
‑1+b
f
)o
t
=σ(W
(o)
x
t
+I
(o)
h4‑1+b
o
)u
t
=tanh(W
(n)
x
t
+I
(n)
h
t
‑1+b
n
)c
t
=i
t
⊙
u
t
+f
t
⊙
c
t
‑1h
t
=o
t
⊙
tanh(c
t
)其中x
t
为t时刻输入的句子上第t个单词词向量,σ表示sigmoid激活函数,W和I表示权重矩阵,b表示偏差向量,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,在每个时间步都会输出隐藏层状态h
t
,其中遗忘门f
t
,记忆门i
t
与输出门o
t
由上个时刻的隐藏层状态h
t
‑1和当前输入x
t
计算出来,最后将前向和后向LSTM的隐藏层单元和连接为作为输出,以获得两个单词上下文信息。3.根据权利要求2所述的基于多任务稀疏共享学习的论辩挖掘系统,其特征在于:所述双路注意力编码模块融合两种不同角度的注意力机制,分别为多头自注意力机制和引入标题信息的外部注意力机制;所述多头自注意力机制为每个输入词向量产生一个向量,该向量在其邻近向量上加权求和,其中权重由单词之间的关系或连通性决定;多头自注意力机制的定义公式如下:MultiHead(Q,K,V)=Concat(head1,......,head
n
)其中Q、K、V表示向量矩阵,分别是query,key,value的简写,对于自注意力机制,Q、K、V都是来自于同一个待编码的输入向量;其中,注意力具体计算公式如下:其中Z是归一化因子,通过q
t
这个query与各个k
s
内积,使用softmax得到qt与各个vs的相似度,然后加权求和,得到最终的词向量表示h
t
;其中因子起调节作用,用于使内积不
至于太大;对于所述引入标题信息的外部注意力机制,先将标题的词向量经过双向LSTM进行编码:h
i
=BiLSTM(s
i
,h
t
‑1)其中输入s
i
为文章标题句子中第i个单词词向量,每个单词经过BiLSTM编码后都会生成一个向量,选择句子最后一个单词的词向量作为整个句子的表示u
t
=h
n
,n为标题长度;将标题句子向量与编码层隐藏层输出的文档词向量进行相似度计算,最后获得引入标题信息的注意力加权向量,计算公式如下:u
i
=tanh(W
s
x
i
+b
s
)s
i
=a
i
·
x
i
其中x代表输入句子的第i个单词,将输入词向量先经过全连接层和非线性函数tanh得到单词的隐藏层向量u
i
,接着分别...
【专利技术属性】
技术研发人员:廖祥文,魏冬春,吴君毅,翁钰晨,郑鹏程,
申请(专利权)人:福州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。