【技术实现步骤摘要】
一种确定涉密文本的方法和装置
本公开涉及自然语言处理
,尤其涉及一种确定涉密文本的方法和装置。
技术介绍
文件是否涉密以及该文件的密级是由文件所包含的具体涉密内容决定的,文件中具体的涉密内容称为密点。相关技术中,对涉密文本的确定多由人工完成。人工定密主观性较强,所依据的定密标准不够统一,不同领域,不同的单位定密标准往往差别很大,导致定密结果不准确。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种确定涉密文本方法和装置。根据本公开实施例的第一方面,提供一种确定涉密文本的方法,包括:从文本中获取包含涉密关键词及其上下文信息的子文本;根据所述子文本,确定所述涉密关键词之间的依存关系;将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。在一种可能的实现方式中,所述涉密关键词被设置为按照如下方式确定,包括:获取文本中的词语;将所述词语与预设的涉密关键词库中涉密关键词进行匹配;若匹配成功,则将所述词语确定为涉密关键词。在一种可能的实现方式中,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;将所述同义词与所述涉密关键词进行匹配。在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种: ...
【技术保护点】
1.一种确定涉密文本的方法,其特征在于,包括:/n从文本中获取包含涉密关键词及其上下文信息的子文本;/n根据所述子文本,确定所述涉密关键词之间的依存关系;/n将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。/n
【技术特征摘要】
1.一种确定涉密文本的方法,其特征在于,包括:
从文本中获取包含涉密关键词及其上下文信息的子文本;
根据所述子文本,确定所述涉密关键词之间的依存关系;
将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。
2.根据权利要求1所述的方法,其特征在于,所述涉密关键词被设置为按照如下方式确定,包括:
获取文本中的词语;
将所述词语与预设的涉密关键词库中涉密关键词进行匹配;
若匹配成功,则将所述词语确定为涉密关键词。
3.根据权利要求2所述的方法,其特征在于,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:
若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;
将所述同义词与所述涉密关键词进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述同义词语转换模型包括下述中的至少一种:
音变模型、形变模型、错别字模型和繁体字模型。
5.根据权利要求1所述的方法,其特征在于,从文本中获取包含涉密关键词及其上下文信息的子文本,包括:
确定所述文本中的涉密关键词;
将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。
6.根据权利要求1所述的方法,其特征在于,根据所述子文本,确定所述涉密关键词之间的依存关系,包括:
将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。
7.根据权利要求1所述的方法,其特征在于,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:
所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,
所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。
8.根据权利要求1所述的方法,其特征在于,在所述从文本中获取包含涉密关键词及其上下文信息的子文本之前还包括:
在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。
9.根据权利要求1所述的方法,其特征在于,所述依存关系包括下述中的至少一种:
主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。
10.根据权利要求1所述的方法,其特征在于,所述涉密信息规则库包括多个技术领域的涉密信息规则库,在所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息设置规则库中的涉密关键词的关联依存关系进行匹配之前,还包括:
根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。
11.根据权利要求1所述的方法,其特征在于,所述涉密信息规则库被设置为按照下述方式生成:
将同一技术领域的多个预设的涉密文本进行数据合并;
从合并后的数据中提取所述涉密文本中的涉密关键词;
分析并存储所述涉密关键词之间的依存关系。
12.一种确定涉密文本的装置,其特征在于,包括:
获取模块,用于从文本中获取包含涉密关键词及其上下文信息...
【专利技术属性】
技术研发人员:李昊达,高欣,刘兵,杨雨婷,陈旭,
申请(专利权)人:军工保密资格审查认证中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。