基于语义特征的计算机辅助密点标注方法及系统技术方案

技术编号:39576889 阅读:11 留言:0更新日期:2023-12-03 19:28
本发明专利技术提供了一种基于语义特征的计算机辅助密点标注方法及系统,所述方案包括:根据预设密点库中已标注密点句以及预先训练的

【技术实现步骤摘要】
基于语义特征的计算机辅助密点标注方法及系统


[0001]本专利技术属于文件加密
,尤其涉及一种基于语义特征的计算机辅助密点标注方法及系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术

[0003]精准定密是开展好保密管理各项工作的前提和基础,如何做好涉密文件的定密工作是当前保密工作亟待解决的问题

目前,文件密级的确定多以人工定密方式为主,定密承办人根据工作经验和本业务行业领域相关定密依据范围,对涉密文件泄密后可能对国家安全和利益造成的损害程度进行自由裁量后,对涉密文件进行预定密,然后经定密责任人审批确定

然而,通过人工方式进行文件密级的确定,不仅效率低下,而且定密准确率不高

同时,人工方式定密还存在定密尺度把握困难,定密工作经验无法积累传承的问题

[0004]一个文件是否涉密以及该文件的密级是由文件所包含的具体涉密内容来决定的

文件中具体决定一个事项具备国家秘密本质属性的关键内容称为密点,一般表现为文字

数据

图表等

对涉密文件的密点内容标注密级称为密点标注

而目前涉密文件的密级标志的方式其实是对文件内容进行全文整体密级标注,而没有对文件的具体涉密内容进行密级标注,缺少对文件包含的密点信息内容的有效保护

[0005]现在技术方案采用
word2vec
对指定行业领域内的语料进行词向量模型训练,得到词向量库,然后利用该词向量库将密点库中所有的密点句转化成密点句向量,形成密点句向量数据库

接下来,对待进行密点标注的文本进行分句等预处理,将每个句子转化成待标密点句向量,最后,对待进行密点标注的文本中形成的每个句向量和密点句向量数据库中的每个句向量进行余弦相似度计算,每个句子按照相似度计算结果进行排序,得到匹配度最高的密点句
。Word2vec
词向量技术虽然可以从大量的语料中学习到语义信息,但其学习到的是词语的向量表达,要获得句向量,常采用的是句子中所有词向量进行加权平均求得句向量,这种方法存在一个很大的缺陷:没有考虑到句子的语序和词语之间的关联性,同时也没有考虑到单词的重要性

此外,词向量技术也存在着难以解决一词多义的问题,对于长文本的表示中,容易出现词义漂移的问题


技术实现思路

[0006]本专利技术为了解决上述问题,提供了一种基于语义特征的计算机辅助密点标注方法及系统,所述方案充分考虑密点标定的特殊场景,考虑了句子的语序和词语之间的关联性,同时考虑单词的重要性;故通过获取行业领域训练语料训练
SimCSE
模型,通过该模型利用对比学习思想,在考虑对齐性和一致性的基础上进行权衡,有效解决模型表示的退化问题,并提升向量分布的一致性;同时,还通过该模型确保正样本的对齐,从而获得具有高度语义一致性和丰富语义信息的文本表示向量;通过这些向量可直接用于余弦相似度计算,来用
于句子的语义信息密点标注,以进一步提高定密准确性

[0007]根据本专利技术实施例的第一个方面,提供了一种基于语义特征的计算机辅助密点标注方法,包括:
[0008]根据预设密点库中已标注密点句以及预先训练的
SimCSE
模型,构建密点句向量数据库;
[0009]对待进行密点标注的文本进行预处理,获得待进行密点标注文本的待标密点句向量集合;
[0010]计算待标密点句向量集合中每个待标密点句向量与密点句向量数据库中每个密点句向量的相似度;
[0011]基于所述相似度的大小,选择与每个待标密点句向量相似度满足预设规则的密点句向量,以密点句向量对应的密点属性作为待标密点句向量的密点属性

[0012]进一步的,所述
SimCSE
模型的训练,具体为:获取当前行业领域训练语料,并利用获取的语料对
SimCSE
模型进行无监督训练和有监督微调

[0013]进一步的,所述预设密点库基于已进行密点标注文件中的密点句进行构建,所述密点库中的样本包括密点句及其对应的密点属性;
[0014]或,所述密点属性包括密级

保密期限

定密依据以及定密人

[0015]进一步的,所述根据预设密点库中已标注密点句以及预先训练的
SimCSE
模型,构建密点句向量数据库,具体为:对于预设密点库中的每条密点句,将其输入预先训练的
SimCSE
模型,获得对应的密点句向量,形成密点句向量数据库

[0016]进一步的,所述预设规则,具体为
:
当存在相似度为1时,选择密点库中相似度为1的密点句及其密级属性;
[0017]当全部相似度均大于0小于1,按照所检索到的已标密点句的相似度大小进行排序,并将满足预设要求的一条或多条返回给定密人,由定密人确定待标密点句完全匹配的已标密点句;
[0018]若全部相似度均为0,将无匹配结果信息发送定密人

[0019]进一步的,当无匹配结果时,表明在密点库中没有和该待标密点句相匹配的已标密点句,则由定密人判别当前待标密点句的密点属性,并将标注后的密点句添加入预设密点库中

[0020]进一步的,所述相似度采用向量间的余弦相似度获得

[0021]根据本专利技术实施例的第二个方面,提供了一种基于语义特征的计算机辅助密点标注系统,包括:
[0022]密点句向量数据库构建单元,其用于根据预设密点库中已标注密点句以及预先训练的
SimCSE
模型,构建密点句向量数据库;
[0023]预处理单元,其用于对待进行密点标注的文本进行预处理,获得待进行密点标注文本的待标密点句向量集合;
[0024]相似度计算单元,其用于计算待标密点句向量集合中每个待标密点句向量与密点句向量数据库中每个密点句向量的相似度;
[0025]密点标注单元,其用于基于所述相似度的大小,选择与每个待标密点句向量相似度满足预设规则的密点句向量,以密点句向量对应的密点属性作为待标密点句向量的密点
属性

[0026]根据本专利技术实施例的第三个方面,提供了一种电子设备,包括存储器

处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于语义特征的计算机辅助密点标注方法

[0027]根据本专利技术实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于语义特征的计算机辅助密点标注方法

[0028]与现有技术相比,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语义特征的计算机辅助密点标注方法,其特征在于,包括:根据预设密点库中已标注密点句以及预先训练的
SimCSE
模型,构建密点句向量数据库;对待进行密点标注的文本进行预处理,获得待进行密点标注文本的待标密点句向量集合;计算待标密点句向量集合中每个待标密点句向量与密点句向量数据库中每个密点句向量的相似度;基于所述相似度的大小,选择与每个待标密点句向量相似度满足预设规则的密点句向量,以密点句向量对应的密点属性作为待标密点句向量的密点属性
。2.
如权利要求1所述的一种基于语义特征的计算机辅助密点标注方法,其特征在于,所述
SimCSE
模型的训练,具体为:获取当前行业领域训练语料,并利用获取的语料对
SimCSE
模型进行无监督训练和有监督微调
。3.
如权利要求1所述的一种基于语义特征的计算机辅助密点标注方法,其特征在于,所述预设密点库基于已进行密点标注文件中的密点句进行构建,所述密点库中的样本包括密点句及其对应的密点属性;或,所述密点属性包括密级

保密期限

定密依据以及定密人
。4.
如权利要求1所述的一种基于语义特征的计算机辅助密点标注方法,其特征在于,所述根据预设密点库中已标注密点句以及预先训练的
SimCSE
模型,构建密点句向量数据库,具体为:对于预设密点库中的每条密点句,将其输入预先训练的
SimCSE
模型,获得对应的密点句向量,形成密点句向量数据库
。5.
如权利要求1所述的一种基于语义特征的计算机辅助密点标注方法,其特征在于,所述预设规则,具体为
:
当存在相似度为1时,选择密点库中相似度为1的密点句及其密级...

【专利技术属性】
技术研发人员:何迪原范金平王凯涛
申请(专利权)人:南京中孚信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1