一种联合多种注意力的最大化句法信息的作者归属方法技术

技术编号：34975935 阅读：37 留言：0更新日期：2022-09-21 14:17

本发明专利技术公开了一种联合多种注意力的最大化句法信息的作者归属方法，包括获取未知作者的文本信息数据，对文本信息数据进行预处理，得到字符原始数据和句法原始数据，并分别嵌入得到字符嵌入向量和标签嵌入向量；从字符嵌入向量中提取字符2

全部详细技术资料下载

【技术实现步骤摘要】
一种联合多种注意力的最大化句法信息的作者归属方法

[0001]本专利技术涉及自然语言处理
，具体涉及一种联合多种注意力的最大化句法信息的作者归属方法。

技术介绍

[0002]作者归属是指在一组可能的作者中识别未知文本的作者，其应用范围包括剽窃检测和法医语言学。统计学作者归属背后的关键概念是，测量文本特征可以区分不同作者撰写的文本。这些特征包括作者之间内容差异的指标，如词袋，以及反映作者独特写作模式的文体特征，如使用标点符号、表情符号、空白等。
[0003]社交媒体作为一种主要沟通方式的出现，对法医调查能够接触到长篇文字(即信件和电子邮件)的传统假设提出了挑战。最近的应用方法集中在对成千上万的作者进行大规模的作者归属，但在预测过程中是很昂贵的，这在在线场景中是一个缺陷。此外，除了文体信息，词级的主题信息也被证明与作者身份的确定有关。
[0004]深度学习研究在很大程度上忽略了作者归属，相反，相关工作专注于塑造作者的风格。Kiros等人根据风格等属性对词嵌入进行条件化，并预测作者的年龄、性别和行业。Zhu等人通过减去“风格”将图像说明转换为书籍句子。但他们都致力于塑造作者风格，并未重视作者归属。最先进的作者归属算法在实际应用中必须处理可能有数千个候选作者和每个作者有限数量的示例，但在计算之间的成对距离时需要CPU天数进行预测特征子集。同时，字符n
‑
gram已被证明是最成功的特征，但并未深入探究。Potthast等人比较了小型数据集上的传统方法，但是并未深入探究深度学习方法的作用。...

【技术保护点】

【技术特征摘要】
1.一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，包括以下步骤：S1、获取未知作者的文本信息数据，对文本信息数据进行预处理，得到字符原始数据和句法原始数据，并分别嵌入得到字符嵌入向量和标签嵌入向量；S2、从字符嵌入向量中提取字符2
‑
grams特征图，并采用最大池化方法构建内容特征向量；S3、从标签嵌入向量中提取句法信息特征，并分别计算不同单词之间的注意力系数，构建句法特征向量；S4、将内容特征向量和句法特征向量拼接得到文本风格特征，根据文本风格特征预测文本信息数据的作者归属。2.根据权利要求1所述的一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，步骤S2具体包括：采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数，得到添加注意力系数的字符特征向量；采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2
‑
grams特征图；采用最大池化方法从每个字符2
‑
grams特征图中选取特征图最大值，并将选取的特征图串联，构建内容特征向量。3.根据权利要求2所述的一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，所述采用一个自注意力层获取字符嵌入向量中所有向量的注意力系数，得到添加注意力系数的字符特征向量，表示为：其中，h
i1
为第i1个添加注意力系数的字符特征向量，k
j1
，q
j1
，v
j1
为字符嵌入向量中所有向量的注意力系数，()为全连接操作，N为字符嵌入向量中的向量总数。4.根据权利要求2所述的一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，所述采用多个平行的单层卷积神经网络对添加注意力系数的字符特征向量提取字符2
‑
grams特征图，表示为：其中，f
i2
为2
‑
grams特征图，W
i2
为过滤矩阵，为卷积操作，X
i2
为添加注意力系数的字符特征向量，i2为向量序号，w
i2
为过滤矩阵的窗口大小，b
i2
为偏置向量。5.根据权利要求1所述的一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，步骤S3具体包括：根据文本信息数据构建句法成分树，将句法成分树编码为分布式表示向量；根据文本信息数据中单词的依赖关系构建句法依赖树，对句法依赖树中各个节点按顺序编号，提取句法依赖树的结构特征，得到单词的邻接矩阵；将标签嵌入向量、分布式表示向量及单词的邻接矩阵进行拼接，并采用多个平行的单
层卷积神经网络提取包含句法特征的单词嵌入向量；采用分层的注意力网络分别计算各个句法特征的单词嵌入向量中的标签注意力系数，并对各个句法特征的单词嵌入向量添加对应的标签注意力系数，得到最终的单词嵌入向量；采用双向长短时记忆从单词嵌入向量中提取句法信息，并采用图注意力网络计算句法成分树中不同邻接点的注意力系数，得到节点特征向量；将所有的节点特征向量相加，得到句法特征向量。6.根据权利要求5所述的一种联合多种注意力的最大化句法信息的作者归属方法，其特征在于，所述采用分层的注意力网络分别计算各个句法特征的单词嵌入向量中的标签注意力系数，并对各个句法特征的单词嵌入向量添加对应的标签注意力系数，得到最终的单词嵌入向量，具体包括：将各个句法特征的单词嵌入...

【专利技术属性】
技术研发人员：邵杰，刘建博，佘磊，阿卜杜拉，
申请(专利权)人：四川省人工智能研究院宜宾，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人