基于定义、语法并融合协同注意力的论辩挖掘方法及系统技术方案

技术编号：37722819 阅读：12 留言：0更新日期：2023-06-02 00:24

本发明专利技术提出基于定义、语法并融合协同注意力的论辩挖掘系统，包括：编码器模块，用于使用双向LSTM学习上下文信息；特征提取模块，用于使用堆叠的BiLSTMs、序列自注意机制和辅助softmax层对词向量进行特征提取，作为针对消失梯度问题的隐式辅助；梯度反转调节模块，用于使用梯度反转层来捕获类不变的特征；平行协同注意力定义对齐模块，用于使用基于残差融合粗粒度并行协同注意力的机制来发现输入文本关于主张和非主张的定义准则的不同关联特征；注意力正交投影学习与输出模块，用于通过注意正交投影层合并类不变特征和输入文本关于主张定义准则及非主张定义准则的特征，并经过softmax激活函输出分类结果；本发明专利技术能够高效地利用语法和关于主张的定义来进行主张检测。地利用语法和关于主张的定义来进行主张检测。地利用语法和关于主张的定义来进行主张检测。

全部详细技术资料下载

【技术实现步骤摘要】
基于定义、语法并融合协同注意力的论辩挖掘方法及系统

[0001]本专利技术涉及论辩挖掘数据处理
，尤其是基于定义、语法并融合协同注意力的论辩挖掘方法及系统。

技术介绍

[0002]论辩挖掘一直是自然语言处理所面临的重大挑战。论辩挖掘的主要内容有分割议论文和非议论文、检测主张和解析论辩组件等。主张检测的主要任务是检测包含主张的句子。主张检测是论辩挖掘的基础工作，同时也可用于虚假新闻检测。
[0003]主张检测技术近年来发展迅速。目前对主张检测的相关研究主要有：
[0004](1)基于情感和词元语法衍生的监督学习方法，该方法局限于机器学习方法，但它为该领域未来的工作奠定了基础。
[0005](2)无监督语料库范围主张检测方法，该方法导出一个声明语句作为查询，然后检索语料库中包含与主题相关的主张的先验概率大大增强的语句，再使用简单的启发式方法对句子进行排序，从而形成一个无监督的语料库范围的主张检测系统。但该系统泛化性比较差。
[0006](3)基于词性和依赖性主张检测方法，通过合并语言编码器和上下文编码器利用了语义和潜在的句法特征。
[0007]现有方法虽然取得不错的成效，但尚未有一种方法能够高效地利用语法和关于主张的定义来进行主张检测。

技术实现思路

[0008]本专利技术提出基于定义、语法并融合协同注意力的论辩挖掘方法及系统，能够高效地利用语法和关于主张的定义来进行主张检测。
[0009]本专利技术采用以下技术方案。
[0010]基于定义、语...

【技术保护点】

【技术特征摘要】
1.基于定义、语法并融合协同注意力的论辩挖掘系统，可用于检测包含主张的句子，其特征在于：所述系统包括：编码器模块：用于使用双向长短时记忆神经网络LSTM学习上下文信息，以提取上下文信息的文本单词的词向量；特征提取模块：用于使用堆叠的BiLSTMs、序列自注意机制和辅助softmax层对词向量进行特征提取：作为针对消失梯度问题的隐式辅助，提升网络的低级特征的准确度；梯度反转调节模块：用于使用梯度反转层GRL来捕获类不变特征，即类之间共享的通用特征；平行协同注意力定义对齐模块：用于使用基于残差融合粗粒度并行协同注意力的机制来发现输入文本关于主张和非主张的定义准则的不同关联特征；注意力正交投影学习与输出模块：用于通过注意正交投影层合并类不变特征和输入文本关于主张定义准则及非主张定义准则的特征，并经过softmax激活函输出分类结果。2.基于定义、语法并融合协同注意力的论辩挖掘方法，使用基于定义、语法并融合协同注意力的论辩挖掘系统，其特征在于：所述方法利用特征投影、基于融合协同注意力的定义对齐和梯度反转的结合，利用上下文的语法和语义信息进行主张检测；所述方法中，编码器模块根据数据集构造的词典，利用词嵌入方法获得词嵌入矩阵；输入文本的单词经过词嵌入矩阵获得单词的词向量，之后利用双向长短时记忆神经网络LSTM，即双向LSTM对历史上下文进行编码；词嵌入公式如下：络LSTM，即双向LSTM对历史上下文进行编码；词嵌入公式如下：其中θ是向量集，Δ是所有嵌入层次结构和依赖关系的集合，R(x)是与x无关的随机标记的集合。使用黎曼梯度下降优化训练损失函数L；双向LSTM使用的编码器公式如下：i
t
＝σ(W
(i)
x
t
+I
(i)
h
t
‑1+b
i
)
ꢀꢀꢀꢀ
公式三；f
t
＝σ(W
(f)
x
t
+I
(f)
h
t
‑1+b
f
)
ꢀꢀꢀꢀ
公式四；o
t
＝σ(W
(o)
x
t
+I
(o)
h4‑1+b
o
)
ꢀꢀꢀꢀ
公式五；u
t
＝tanh(W
(n)
x
t
+I
(n)
h
t
‑1+b
n
)
ꢀꢀꢀꢀ
公式六；c
t
＝i
u
⊙
u
t
+f
t
⊙
c
t
‑1ꢀꢀꢀꢀ
公式七；h
t
＝o
t
⊙
tanh(c
t
)
ꢀꢀꢀꢀ
公式八；其中x
t
为t时刻输入的句子上第t个单词的词向量，σ表示sigmoid激活函数，W和I表示权重矩阵，b表示偏差向量，通过对双向LSTM的细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，在每个时间步都会输出隐藏层状态h
t
，其中遗忘门f
t
，记忆门i
t
与输出门o
t
由上个时刻的隐藏层状态h
t
‑1和当前输入x
t
计算出来，最后将前向和后向LSTM的隐藏层单元和连接为作为输出，以获得两个单词上下文信息。
3.根据权利要求2所述的基于定义、语法并融合协同注意力的论辩挖掘方法，其特征在于：所述特征提取模块由堆叠的BiLSTMs组成，通过序列自注意机制处理其隐藏单元，再通过一个辅助softmax层优化特征提取模块，用于针对消失梯度问题的隐式辅助，提升网络低级特征的准确度。4.根据权利要求3所述的基于定义、语法并融合协同注意力的论辩挖掘方法，其特征在于：所述梯度反转调节模块接收特征提取模块中最后一个BiLSTM层输出的向量作为输入，使用梯度反转层GRL来捕获类不变的特征，梯度反转层中正向传播和向后传播分别由两个相反的方程定义，具体为：GRL(x)＝x
ꢀꢀꢀꢀ
公式九；5.根据权利要求2所述的基于定义、语法并融合协同注意力的论辩挖掘方法，其特征在于：所述平行协同注意力定义对齐模块通过基于残差融合粗粒度并行协同注意力的机制来发现输入文本关于主张和非主张的定义准则的...

【专利技术属性】
技术研发人员：廖祥文，郑鹏程，刘翀凌，陈泓敏，陈迎迎，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人