一种基于自注意力网络的企业文件密点标注方法技术

技术编号:32902947 阅读:31 留言:0更新日期:2022-04-07 11:53
本发明专利技术公开了一种基于自注意力网络的企业文件密点标注方法,属于涉及自然语言处理中的语义理解领域。针对解决目前文件起草后仍需依靠人工经验识别及关键字逐一筛查识别的低效问题,人工定密带有主观性,定密标准不统一、不规范的问题。本发明专利技术步骤如下:1)获取需要进行密点标注的文本;2)将文本D

【技术实现步骤摘要】
一种基于自注意力网络的企业文件密点标注方法


[0001]本专利技术涉及自然语言处理中的语义理解领域。

技术介绍

[0002]定密是一项知识性、规范性很强的工作,要做好定密工作,首先要根据企业秘密信息的保密范围明确定密依据。目前的定密方式主要根据公司的《涉密事项范围目录》提取出所有文件材料名作为“企业秘密事项”范围,再逐一确定密级、保密期限和知悉范围。但这种定密方式难以做到精准有效,对于同一事项中的涉密信息点(即“密点”)和非涉密信息点、低密级密点和高密级密点之间的界限无法进行详细划分,导致定密范围过宽、密级偏高,或该定密不定、不该定密乱定的情况,不利于信息资源合理利用。同时,面对海量的企业文件,单纯地凭借人工进行密点标注,不仅费时费力,其划分标准更受到人为主观意识的影响。因此,从传统人工定密向精准智能“密点化”定密方式转变,进行更精准地自动定密,是企业保密管理工作中需要迫切解决的重要问题。然而,目前国内外对于企业文件智能定密的研究主要集中在文本密级分类上,对文本中的密点进行标注却鲜有研究。

技术实现思路

[0003]本专利技术为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力网络的企业文件密点标注方法,具体步骤如下:1)获取需要进行密点标注的文本;2)将文本D
i
的内容以逗号、句号或者分号进行分割,分成一系列子序列S
n
;基于条件随机场和长短期记忆网络将子序列S
n
分为词的序列W
m
;3)通过图卷积神经网络学习词的向量表示并将向量表示嵌入词的序列W
m
中;4)通过自注意力神经网络处理得到最终的分类结果;所述的自注意力神经网络的输入为词嵌入层,执行的步骤如下:1)计算词的位置嵌入信息,公式如下:P
(p,2i)
=sin(p/10000
2i/d
)P
(p,2i+1)
=cos(p/10000
2i/d
)获得,其中P代表位置嵌入信息,p代表词语在句子中的位置,表示嵌入的位置的维度,2i表示偶数的维度,2i+1表示奇数的维度。2)将单词的词嵌入和位置嵌入信息相加,就可以得到单词的表示向量;所述的自注意力神经网络还包括编码器和解码器,所述的编码器包含6个相同的单元,每个单元由两个子单元组成,分别是多头自注意力机制和全连接反馈网络组成,且两个子单元之间加入残差连接和归一化单元;经过解码器中的多头注意力机制和层归一化操作,将编码器的输出送入一个全连接层,包含两个线性变换和一个非线性激活函数——线性整流单元,再经过softmax层,输出最终的分类结果。2.根据权利要求1所述的基于自注意力网络的企业文件密点标注方法,其特征在于,步骤2)中基于条件随机场和长短期记忆网络的训练方法如下:首先,将语料库中的文本中的每一个字根据词嵌入矩阵进行向量化表示;然后,将每个向量化的文本向量输入双向长短期记忆网络;最后,每个长短期记忆网络单元的输出利用条件随机场进行建模,得到分词的结果。3.根据权利要求1所述的基于自注意力网络的企业文件密点标...

【专利技术属性】
技术研发人员:董添李广杨振宇张博于波王巍
申请(专利权)人:国网吉林省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1