一种联合多种注意力的最大化句法信息的作者归属方法技术

技术编号:34975935 阅读:37 留言:0更新日期:2022-09-21 14:17
本发明专利技术公开了一种联合多种注意力的最大化句法信息的作者归属方法,包括获取未知作者的文本信息数据,对文本信息数据进行预处理,得到字符原始数据和句法原始数据,并分别嵌入得到字符嵌入向量和标签嵌入向量;从字符嵌入向量中提取字符2

【技术实现步骤摘要】
一种联合多种注意力的最大化句法信息的作者归属方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种联合多种注意力的最大化句法信息的作者归属方法。

技术介绍

[0002]作者归属是指在一组可能的作者中识别未知文本的作者,其应用范围包括剽窃检测和法医语言学。统计学作者归属背后的关键概念是,测量文本特征可以区分不同作者撰写的文本。这些特征包括作者之间内容差异的指标,如词袋,以及反映作者独特写作模式的文体特征,如使用标点符号、表情符号、空白等。
[0003]社交媒体作为一种主要沟通方式的出现,对法医调查能够接触到长篇文字(即信件和电子邮件)的传统假设提出了挑战。最近的应用方法集中在对成千上万的作者进行大规模的作者归属,但在预测过程中是很昂贵的,这在在线场景中是一个缺陷。此外,除了文体信息,词级的主题信息也被证明与作者身份的确定有关。
[0004]深度学习研究在很大程度上忽略了作者归属,相反,相关工作专注于塑造作者的风格。Kiros等人根据风格等属性对词嵌入进行条件化,并预测作者的年龄、性别和行业。Zhu等人通过减去“风格”将图像说明转换为书籍句子。但他们都致力于塑造作者风格,并未重视作者归属。最先进的作者归属算法在实际应用中必须处理可能有数千个候选作者和每个作者有限数量的示例,但在计算之间的成对距离时需要CPU天数进行预测特征子集。同时,字符n

gram已被证明是最成功的特征,但并未深入探究。Potthast等人比较了小型数据集上的传统方法,但是并未深入探究深度学习方法的作用。
[0005]随着深度学习的发展,越来越多的神经网络模型应用在作者归属任务上。Ruder等人将卷积神经网络应用于大规模的作者归属,其目的是在许多候选作者中确定一个未知文本的作者,其动机是处理字符级信号和区分大量类别的能力,同时与最先进的方法相比,做出快速预测。他们对基于卷积神经网络的方法进行了广泛的评估,这些方法利用了单词和字符通道,并与最先进的方法进行了比较,对传统的方法提出了新的看法。但他们只使用了字符特征,并未使用字符n

grams特征。Shrestha等人提出了一个模型,使用卷积神经网络在字符n

grams上进行推文的作者归属。他们还提出了一种策略,通过确定输入文本片段在预测分类中的重要性来提高模型的可解释性。实验评估表明,文本卷积神经网络的表现具有竞争性,能够超过以前的方法。他们使用了字符n

grams特征,但是只使用了单一特征,这并不能完全代表写作风格。Hu等人提出了一个新颖的基于嵌入的框架,称为DeepStyle,它利用用户帖子的多视图表示和三元损失目标函数来学习用户的写作风格,然后使用聚合函数将单个用户的帖子嵌入合并到用户的风格嵌入。他们认为不同用户的风格嵌入应该在嵌入空间中彼此相距甚远,从而区分出用户的写作风格。虽然DeepStyle提取了多种特征,但是只使用了浅层次的特征,并未挖掘深层次的特征。Zhang等人提出了一个Syntax

CNN模型,将句子的语法分析树编码为可学习的分布式表示,所提出的语法编码方案可证明是信息无损的。具体来说,为句子中的每个单词构造一个嵌入向量,对与该单词对应的语法树中
的路径进行编码。Syntax

CNN模型使用句法成分树提取句子的句法特征,解决了大多数方法使用浅层次特征的问题,但是当面对短文本的作者归属问题时,句法路径的长度会影响提取的句法特征的质量。同时,目前的大多数方法只使用注意力机制作为模型的一小部分,并未深入探究注意力机制在作者归属中的作用。
[0006]综上所述,目前的方法存在着使用单一特征、使用多种浅层次的特征或提取的深层次的特征易受影响等问题。

技术实现思路

[0007]针对现有技术中的上述不足,本专利技术提供了一种联合多种注意力的最大化句法信息的作者归属方法。
[0008]为了达到上述专利技术目的,本专利技术采用的技术方案为:
[0009]一种联合多种注意力的最大化句法信息的作者归属方法,包括以下步骤:
[0010]S1、获取未知作者的文本信息数据,对文本信息数据进行预处理,得到字符原始数据和句法原始数据,并分别嵌入得到字符嵌入向量和标签嵌入向量;
[0011]S2、从字符嵌入向量中提取字符2

grams特征图,并采用最大池化方法构建内容特征向量;
[0012]S3、从标签嵌入向量中提取句法信息特征,并分别计算不同单词之间的注意力系数,构建句法特征向量;
[0013]S4、将内容特征向量和句法特征向量拼接得到文本风格特征,根据文本风格特征预测文本信息数据的作者归属。
[0014]可选地,步骤S2具体包括:
[0015]采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数,得到添加注意力系数的字符特征向量;
[0016]采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2

grams特征图;
[0017]采用最大池化方法从每个字符2

grams特征图中选取特征图最大值,并将选取的特征图串联,构建内容特征向量。
[0018]可选地,所述采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数,得到添加注意力系数的字符特征向量,表示为:
[0019][0020]其中,h
i1
为第i1个添加注意力系数的字符特征向量,k
j1
,q
j1
,v
j1
为字符嵌入向量中所有向量的注意力系数,()为全连接操作,N为字符嵌入向量中的向量总数。
[0021]可选地,所述采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2

grams特征图,表示为:
[0022][0023]其中,f
i2
为2

grams特征图,W
i2
为过滤矩阵,为卷积操作,X
i2
为添加注意力系数
的字符特征向量,i2为向量序号,w
i2
为过滤矩阵的窗口大小,b
i2
为偏置向量。
[0024]可选地,步骤S3具体包括:
[0025]根据文本信息数据构建句法成分树,将句法成分树编码为分布式表示向量;
[0026]根据文本信息数据中单词的依赖关系构建句法依赖树,对句法依赖树中各个节点按顺序编号,提取句法依赖树的结构特征,得到单词的邻接矩阵;
[0027]将标签嵌入向量、分布式表示向量及单词的邻接矩阵进行拼接,并采用多个平行的单层卷积神经网络提取包含句法特征的单词嵌入向量;
[0028]采用分层的注意力网络分别计算各个句法特征的单词嵌入向量中的标签注意力系数,并对各个句法特征的单词嵌入向量添加对应的标签注意力系数,得到最终的单词嵌入向量;
[0029本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,包括以下步骤:S1、获取未知作者的文本信息数据,对文本信息数据进行预处理,得到字符原始数据和句法原始数据,并分别嵌入得到字符嵌入向量和标签嵌入向量;S2、从字符嵌入向量中提取字符2

grams特征图,并采用最大池化方法构建内容特征向量;S3、从标签嵌入向量中提取句法信息特征,并分别计算不同单词之间的注意力系数,构建句法特征向量;S4、将内容特征向量和句法特征向量拼接得到文本风格特征,根据文本风格特征预测文本信息数据的作者归属。2.根据权利要求1所述的一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,步骤S2具体包括:采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数,得到添加注意力系数的字符特征向量;采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2

grams特征图;采用最大池化方法从每个字符2

grams特征图中选取特征图最大值,并将选取的特征图串联,构建内容特征向量。3.根据权利要求2所述的一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,所述采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数,得到添加注意力系数的字符特征向量,表示为:其中,h
i1
为第i1个添加注意力系数的字符特征向量,k
j1
,q
j1
,v
j1
为字符嵌入向量中所有向量的注意力系数,()为全连接操作,N为字符嵌入向量中的向量总数。4.根据权利要求2所述的一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,所述采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2

grams特征图,表示为:其中,f
i2
为2

grams特征图,W
i2
为过滤矩阵,为卷积操作,X
i2
为添加注意力系数的字符特征向量,i2为向量序号,w
i2
为过滤矩阵的窗口大小,b
i2
为偏置向量。5.根据权利要求1所述的一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,步骤S3具体包括:根据文本信息数据构建句法成分树,将句法成分树编码为分布式表示向量;根据文本信息数据中单词的依赖关系构建句法依赖树,对句法依赖树中各个节点按顺序编号,提取句法依赖树的结构特征,得到单词的邻接矩阵;将标签嵌入向量、分布式表示向量及单词的邻接矩阵进行拼接,并采用多个平行的单
层卷积神经网络提取包含句法特征的单词嵌入向量;采用分层的注意力网络分别计算各个句法特征的单词嵌入向量中的标签注意力系数,并对各个句法特征的单词嵌入向量添加对应的标签注意力系数,得到最终的单词嵌入向量;采用双向长短时记忆从单词嵌入向量中提取句法信息,并采用图注意力网络计算句法成分树中不同邻接点的注意力系数,得到节点特征向量;将所有的节点特征向量相加,得到句法特征向量。6.根据权利要求5所述的一种联合多种注意力的最大化句法信息的作者归属方法,其特征在于,所述采用分层的注意力网络分别计算各个句法特征的单词嵌入向量中的标签注意力系数,并对各个句法特征的单词嵌入向量添加对应的标签注意力系数,得到最终的单词嵌入向量,具体包括:将各个句法特征的单词嵌入...

【专利技术属性】
技术研发人员:邵杰刘建博佘磊阿卜杜拉
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1