一种智能辅助定密系统中使用的语句编码方法技术方案

技术编号：23400484 阅读：33 留言：0更新日期：2020-02-22 12:42

本发明专利技术公开了一种智能辅助定密系统中使用的语句编码方法，该方法包括步骤如下：S1、文本数据预处理，并转换为字id列表；S2、字id列表经过两个不同的字向量层处理后得到两个不同的字向量列表A和B；S3、不同字向量列表分别输入深度循环神经网络层和卷积神经网络层分别获得第一个编码句向量及第二个编码句向量；从而同一训练批次的多个语句经过上述过程构成两个不同的句向量矩阵；S4、将S3所得到两个不同的句向量矩阵横向拼接，从而得到最终的编码句向量矩阵。本申请采用的语句编码方法将循环神经网络层和卷积神经网络层应用在编码分析、组合处理过程中，有效提高了语句编码方法的安全性和可靠性。

A method of statement coding used in the intelligent assistant classified system

全部详细技术资料下载

【技术实现步骤摘要】
一种智能辅助定密系统中使用的语句编码方法
本专利技术属于数据信息处理和分析方法
，具体是针对在文本文件进行计算机辅助定密过程中，根据输入的文本数据信息进行语句编码的方法，即智能辅助定密系统中使用的语句编码方法。
技术介绍
保密工作在国家安全、企业发展、个人生活因私信息等方面起着关键作用。特别是在涉及国家案件的技术研发中，涉密文档的密级对不同的审阅权限有着严格的限定。确定不同信息的是否属于国家秘密，为不同级别的信息确定密级是保密工作高效实现的基础。现有的密级标准分为“绝密”、“机密”、“秘密”三级。“绝密”是最重要的国家秘密，泄露会使国家的安全和利益遭受特别严重的损害；“机密”是重要的国家秘密，泄露会使国家的安全和利益遭受严重的损害；“秘密”是一般的国家秘密，泄露会使国家的安全和利益遭受损害。机关、单位对国家秘密事项确定密级时，根据情况确定其保密期限。现有的密级确定过程。随着电子技术的发展密级文件逐渐由纸件存储模式过渡到电子文件的模式，而密级的确定也逐渐由人为审阅定级，逐渐过渡到计算机辅助定密的操作。不管是人为确定密级还是计算辅助确定密级，确定密级的核心还是进行密级文件中关键语言、文字的确定、分析。在人为密级确定中，通常是本领域人员对文件进行通篇阅读，从中分解出涉密的文字和内容，再根据这些内容的重要性予以密级。随着技术的发展，如何避免涉密文件更少的被他人接触和阅读，减少涉密内容的暴露人群是维护文件秘密的首选。计算机辅助定密能够减少密级文件的阅读人群，有效的缩小了密级文件的暴露范围，在密级文件的定密上已经取...

【技术保护点】
1.一种智能辅助定密系统中使用的语句编码方法，其特征在于，该方法包括步骤如下：/nS1、文本数据预处理，将长文本分割为语句列表，并将该语句列表转换为字id列表；/nS2、将S1所得到的字id列表分别输入两个不同的字向量层，将语句中的每个字转换为字向量，得到每个语句的两个不同的字向量列表A和B；/nS3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层：字向量列表A经过深度神经网络层得到第一个编码句向量；字向量列表A经过卷积神经网络层后输入最大值池化层得到第二个编码句向量；从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵；/nS4、将S3所得到两个不同的语句向量矩阵横向拼接，从而得到最终的编码语句向量矩阵。/n

【技术特征摘要】
1.一种智能辅助定密系统中使用的语句编码方法，其特征在于，该方法包括步骤如下：
S1、文本数据预处理，将长文本分割为语句列表，并将该语句列表转换为字id列表；
S2、将S1所得到的字id列表分别输入两个不同的字向量层，将语句中的每个字转换为字向量，得到每个语句的两个不同的字向量列表A和B；
S3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层：字向量列表A经过深度神经网络层得到第一个编码句向量；字向量列表A经过卷积神经网络层后输入最大值池化层得到第二个编码句向量；从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵；
S4、将S3所得到两个不同的语句向量矩阵横向拼接，从而得到最终的编码语句向量矩阵。

2.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法，其特征在于，步骤S1中文本数据预处理方法包括以下步骤：
S11、获取大量公开的中文文本数据，将中文文本数据输入语句分割器进行单句切分，得到语句列表，并按照原文的先后顺序进行存储；
S12、将S11所得的语句列表中的每个语句进行单个字符分割，同时过滤标点、英文、特殊符号等非汉字字符，将每个语句分割为纯汉字的字符列表；
S13、根据S12所述汉字字符列表统计字频，按照字频由高到低的顺序构建字典，字在字典的位置序号即为其id值；
S14、根据S13的所述字典和S12所述的字符列表，将每个句子转为id值列表。

3.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法，其特征在于，步骤S2中所述的字向量层由字向量矩阵和查询层组成，字向量矩阵的行数为字典的大小，列数为字向量维度大小，查询层根据输入的字id值获取对应行数的字向量。

4.根据权利要求1所述的智能辅助定密系统中使用的语句编码方法，其特征在于，步骤S3所述的深度循环神经网络层的主要结构是GRU(GatedRecurrentUnit)循环神经网络层，GRU结构的神经元主要由更新门和重置门构成，其计算公式为：
zt＝σ(Wz·[ht-1,xt])
rt＝σ(Wr·[ht-1,xt])
ht＝(1-zt)*ht-1+zt*...

【专利技术属性】
技术研发人员：张小亮，
申请(专利权)人：北京万里红科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人