一种智能辅助定密系统中使用的语句编码方法技术方案

技术编号:23400484 阅读:33 留言:0更新日期:2020-02-22 12:42
本发明专利技术公开了一种智能辅助定密系统中使用的语句编码方法,该方法包括步骤如下:S1、文本数据预处理,并转换为字id列表;S2、字id列表经过两个不同的字向量层处理后得到两个不同的字向量列表A和B;S3、不同字向量列表分别输入深度循环神经网络层和卷积神经网络层分别获得第一个编码句向量及第二个编码句向量;从而同一训练批次的多个语句经过上述过程构成两个不同的句向量矩阵;S4、将S3所得到两个不同的句向量矩阵横向拼接,从而得到最终的编码句向量矩阵。本申请采用的语句编码方法将循环神经网络层和卷积神经网络层应用在编码分析、组合处理过程中,有效提高了语句编码方法的安全性和可靠性。

A method of statement coding used in the intelligent assistant classified system

【技术实现步骤摘要】
一种智能辅助定密系统中使用的语句编码方法
本专利技术属于数据信息处理和分析方法
,具体是针对在文本文件进行计算机辅助定密过程中,根据输入的文本数据信息进行语句编码的方法,即智能辅助定密系统中使用的语句编码方法。
技术介绍
保密工作在国家安全、企业发展、个人生活因私信息等方面起着关键作用。特别是在涉及国家案件的技术研发中,涉密文档的密级对不同的审阅权限有着严格的限定。确定不同信息的是否属于国家秘密,为不同级别的信息确定密级是保密工作高效实现的基础。现有的密级标准分为“绝密”、“机密”、“秘密”三级。“绝密”是最重要的国家秘密,泄露会使国家的安全和利益遭受特别严重的损害;“机密”是重要的国家秘密,泄露会使国家的安全和利益遭受严重的损害;“秘密”是一般的国家秘密,泄露会使国家的安全和利益遭受损害。机关、单位对国家秘密事项确定密级时,根据情况确定其保密期限。现有的密级确定过程。随着电子技术的发展密级文件逐渐由纸件存储模式过渡到电子文件的模式,而密级的确定也逐渐由人为审阅定级,逐渐过渡到计算机辅助定密的操作。不管是人为确定密级还是计算辅助确定密级,确定密级的核心还是进行密级文件中关键语言、文字的确定、分析。在人为密级确定中,通常是本领域人员对文件进行通篇阅读,从中分解出涉密的文字和内容,再根据这些内容的重要性予以密级。随着技术的发展,如何避免涉密文件更少的被他人接触和阅读,减少涉密内容的暴露人群是维护文件秘密的首选。计算机辅助定密能够减少密级文件的阅读人群,有效的缩小了密级文件的暴露范围,在密级文件的定密上已经取得了应用。例如专利201510613516.8就公开了一种通过计算机实现辅助定密的方法和装置。在计算机辅助定密的过程中,需要筛选涉密主题,通过主体的计算机比对进行密级分类。由于在定密主题的局限性,这种方式在定密的准确性较低。随着大数据技术的发展、机器学习方法的广泛利用,利用机器学习的方式实现密级确定模型的训练和完善不仅能够实现定密的高效性和安全性,而且密级确定的准确性随着定密文件的增加而不断提升。本申请的核心就是将机器学习、分析技术通过神经网络构架的方式融入计算机辅助定密方法中,为智能辅助定密系统提供高质量的语句编码信息,进而实现准确高效定密的目的。该方法有效克服了传统定密方法的密级文件暴露行为,批量输入密级文件的电子数据信息,将语句信息转为高质量的编码向量,有效提升了辅助定密系统的准确性和安全性。
技术实现思路
本申请的专利技术目的在于利用涉密文件的电子数据文本,对数据文本进行拆分、编码利用神经网络层进行语句的向量构建获得语句向量的编码。该编码矩阵在在辅助定密系统中能够被高效使用、分析从而获得准确的定密结果。为实现上述辅助定密系统中输入信息的语句编码准确性和安全性,保证后续定密过程安全、可靠,本申请提出了一种智能辅助定密系统中使用的语句编码方法,该方法步骤如下:S1、文本数据预处理,将长文本分割为语句列表,并将该语句列表转换为字id列表;S2、将S1所得到的字id列表分别输入两个不同的字向量层,将语句中的每个字转换为字向量,得到每个语句的两个不同的字向量列表A和B;S3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层:字向量列表A经过深度神经网络层得到第一个编码句向量;字向量列表B经过卷积神经网络层后输入最大值池化层得到第二个编码句向量;从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵;S4、将S3所得到两个不同的句向量矩阵横向拼接,从而得到最终的编码语句向量矩阵。上述语句编码方法中,经过语句转换而成的id列表经过了两个不同的字向量层处理成为两个字向量列表,在分布经过不同的神经网络层的处理后进行语句向量矩阵横向拼接获得最终的编码语句向量矩阵。这种语句编码方式可以对同一语句可以实现不同方法的独立处理,再经过最终合成,提高了编码生成过程中的安全性,更适合文本定密系统的使用。上述步骤S1中文本数据预处理方法步骤为:S11、获取大量公开的中文文本数据,将中文文本数据输入语句分割器进行单句切分,得到语句列表,并按照原文的先后顺序进行存储;S12、将S11所得的语句列表中的每个语句进行单个字符分割,同时过滤标点、英文、特殊符号等非汉字字符,将每个语句分割为纯汉字的字符列表;S13、根据S12所述汉字字符列表统计字频,按照字频由高到低的顺序构建字典,字在字典的位置序号即为其id值;S14、根据S13所述的字典和S12所述的字符列表,将每个句子转为id值列表。上述文本数据预处理方法中通过语句分割器的使用、存储、字符过滤、字频统计排序建立id及id列表对应,可以完整保留需要编码的每条文本数据中的语句信息,完善了语句信息的采集过程。上述步骤S2中所述的字向量层由字向量矩阵和查询层组成,字向量矩阵的行数为字典的大小,列数为字向量维度大小,查询层根据输入的字id值获取对应行数的字向量。该方法中实现了字向量矩阵的建立和变换过程,从而将id的编码列表转换成为了向量。上述步骤S3所述的深度循环神经网络层的主要结构是GRU(GatedRecurrentUnit)循环神经网络层,GRU结构的神经元主要由更新门和重置门构成,其计算公式为:zt=σ(Wz·[ht-1,xt])rt=σ(Wr·[ht-1,xt])ht=(1-zt)*ht-1+zt*tanh(W·[rt*ht-1,xt])上述计算公式中,zt为更新门的输出值,Wz为更新门的参数矩阵,rt为重置门的输出值,Wr为重置门的参数矩阵,ht为GRU神经元的输出值,W为GRU神经元的输出参数矩阵,ht-1为上一时刻GRU神经元的输出值,xt为当前时刻GRU神经元的输入值,σ为sigmoid激活函数,tanh是tanh激活函数;卷积神经网络层主要由多个不同大小的卷积核构成,从句子开头至结尾方向进行一维卷积操作。上述循环神经网络将时间序列数据之间存在的时间关联性和整体逻辑特性实现了整合,该深度学习模型利用历史数据的时间依赖关系来分析数据特征,是传统神经网络的升级和发展。本申请还可以利用S3所得到的两个不同的语句向量矩阵进行模型训练,其具体过程为:将S3所述的两个不同的语句向量矩阵相乘,得到同一批次中句子之间的相似度得分矩阵,该矩阵计算公式为:上述公式中,m为矩阵的行数,n为矩阵的列数,a1n为第一个句子的第一个句向量的第n个向量值,b1n为第一个句子的第二个句向量的第n个向量值,am为第m个句子的第一个句向量,bm为第m个句子的第二个句向量;将上述相似度得分矩阵与预先确定的相似度标签矩阵计算多分类交叉熵损失值,通过反向传播算法更新网络的权重以训练深度循环神经网络层和卷积神经网络层,经过大量公开中文语料数据集上不断迭代训练,得到训练好的网络层模型。该机器学习的实现,保证了网络层模型的实施更新和发展,保证了语句编码的准确性和安全性。在前述步骤中的多分类交叉熵损失值的计算采用多分类交叉熵损失函数本文档来自技高网
...

【技术保护点】
1.一种智能辅助定密系统中使用的语句编码方法,其特征在于,该方法包括步骤如下:/nS1、文本数据预处理,将长文本分割为语句列表,并将该语句列表转换为字id列表;/nS2、将S1所得到的字id列表分别输入两个不同的字向量层,将语句中的每个字转换为字向量,得到每个语句的两个不同的字向量列表A和B;/nS3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层:字向量列表A经过深度神经网络层得到第一个编码句向量;字向量列表A经过卷积神经网络层后输入最大值池化层得到第二个编码句向量;从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵;/nS4、将S3所得到两个不同的语句向量矩阵横向拼接,从而得到最终的编码语句向量矩阵。/n

【技术特征摘要】
1.一种智能辅助定密系统中使用的语句编码方法,其特征在于,该方法包括步骤如下:
S1、文本数据预处理,将长文本分割为语句列表,并将该语句列表转换为字id列表;
S2、将S1所得到的字id列表分别输入两个不同的字向量层,将语句中的每个字转换为字向量,得到每个语句的两个不同的字向量列表A和B;
S3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层:字向量列表A经过深度神经网络层得到第一个编码句向量;字向量列表A经过卷积神经网络层后输入最大值池化层得到第二个编码句向量;从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵;
S4、将S3所得到两个不同的语句向量矩阵横向拼接,从而得到最终的编码语句向量矩阵。


2.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法,其特征在于,步骤S1中文本数据预处理方法包括以下步骤:
S11、获取大量公开的中文文本数据,将中文文本数据输入语句分割器进行单句切分,得到语句列表,并按照原文的先后顺序进行存储;
S12、将S11所得的语句列表中的每个语句进行单个字符分割,同时过滤标点、英文、特殊符号等非汉字字符,将每个语句分割为纯汉字的字符列表;
S13、根据S12所述汉字字符列表统计字频,按照字频由高到低的顺序构建字典,字在字典的位置序号即为其id值;
S14、根据S13的所述字典和S12所述的字符列表,将每个句子转为id值列表。


3.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法,其特征在于,步骤S2中所述的字向量层由字向量矩阵和查询层组成,字向量矩阵的行数为字典的大小,列数为字向量维度大小,查询层根据输入的字id值获取对应行数的字向量。


4.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法,其特征在于,步骤S3所述的深度循环神经网络层的主要结构是GRU(GatedRecurrentUnit)循环神经网络层,GRU结构的神经元主要由更新门和重置门构成,其计算公式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
ht=(1-zt)*ht-1+zt*...

【专利技术属性】
技术研发人员:张小亮
申请(专利权)人:北京万里红科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1