安全文本的处理方法和装置、存储介质及电子装置制造方法及图纸

技术编号:33027932 阅读:24 留言:0更新日期:2022-04-15 09:03
本申请公开了一种安全文本的处理方法和装置、存储介质及电子装置,上述方法包括:获取目标数量的安全文本的文本内容,其中,所述目标数量大于第一预设阈值;确定文本内容的文本特征,并根据文本特征建立文本内容的文本层次结构,其中,所述文本层次结构中包括有多个结点,其中每一个结点包含了文本内容的一行或多行文本内容,以及一行或多行文本内容的行高;获取文本层次结构中的每一个结点对应的文本内容的分隔符,并根据每一个结点的分隔符对每一个结点的文本内容进行分句,以得到文本层次结构中所有结点的候选句子;并从所有结点的候选句子提取出具有真实语义的目标文本,并将目标文本输入到语言识别模型中。标文本输入到语言识别模型中。标文本输入到语言识别模型中。

【技术实现步骤摘要】
安全文本的处理方法和装置、存储介质及电子装置


[0001]本申请涉及通信领域,具体而言,涉及一种安全文本的处理方法和装置、存储介质及电子装置。

技术介绍

[0002]相关技术中,随着互联网技术的发展,网络安全也越发得到重视;现有技术一般通过使用BERT等语言模型提取特征,再将提取到的特征输入一个训练后的序列标注模型,从而预测相关单词,而在此之前,为了达到更好的效果,需要先在与处理阶段将文本中具有实际语义的完整句子提取出来,从而减少输入模型的噪音。
[0003]而安全文本中包含了大量的对语言理解无效的内容,例如图标、代码片段等信息;同时大多数APT报告以PDF格式发布,难以通过现有工具和方法获得干净的文本,会对后续的文本抽取任务效果造成负面影响;而且安全文本中蕴含着大量的信息,如果能够对其中的威胁相关信息进行自动化提取,并生成结构化的威胁情报,对于安全态势的感知具有重要意义。
[0004]经过检索发现,现有技术公开了:
[0005]1、一种面向文本数据的威胁情报知识图谱构建方法,其设计要点在于从安全文本中自动提取关键信息,并构建威胁情报知识图谱;
[0006]2、文本预处理方法、分类方法、装置及设备,其设计要点在于对长文本中的核心内容进行和拼接,从而更好地用于语言模型的训练;
[0007]3、一种基于机器学习的中文商业文本预处理方法,其设计要点在于综合使用多种机器学习算法,对商业文本进行预处理,解决中文商业问答系统由于文本预处理不足导致系统答非所问,应答情景有限的问题;
[0008]由上述内容可以发现,方法1仅仅对威胁情报的提取方法进行了说明,并未说明文本的预处理方法;而方法2和3分别是对长文本和中文商业文本的预处理,这两种文本属于噪音较低的文本,处理相对容易,因此,这两种方法也难以用于安全文本;综上,现有方法中并不存在针对安全文本的预处理方法,即现有技术中并不存在能够很好解决安全文本噪音过大的问题。
[0009]针对相关技术中,安全文本噪音过大,不利于后续文本抽取等问题,尚未提出有效的解决方案。

技术实现思路

[0010]本申请实施例提供了一种安全文本的处理方法和装置、存储介质及电子装置,以至少解决相关技术中,安全文本噪音过大,不利于后续文本抽取的问题。
[0011]根据本申请实施例的一个实施例,提供了一种安全文本的处理方法,包括:获取目标数量的安全文本的文本内容,其中,所述目标数量大于第一预设阈值;确定所述文本内容的文本特征,并根据所述文本特征建立所述文本内容的文本层次结构,其中,所述文本层次
结构中包括有多个结点,所述多个结点中的每一个结点包含了所述文本内容的一行或多行文本内容,以及所述一行或多行文本内容的行高;获取所述文本层次结构中的每一个结点对应的文本内容的分隔符,并根据所述每一个结点的分隔符对所述每一个结点的文本内容进行分句,以得到所述文本层级结构中所有结点的候选句子;从所述所有结点的候选句子提取出具有真实语义的目标文本,并将所述目标文本输入到语言识别模型中。
[0012]在一个示例性实施例中,根据所述文本特征建立所述文本内容的文本层次结构的过程中,所述方法包括:对于所述多行文本内容的任一行文本内容,确定所述任一行文本内容的第一行高;比较所述第一行高和所述任一行文本内容的上一行文本内容的结点的第二行高;根据比较结果确定是否在所述文本层级结构中新建子结点。
[0013]在一个示例性实施例中,确定所述任一行文本内容的第一行高,包括:确定所述任一行文本内容中所有字符的行高;从所述所有字符的行高中确定出现次数最多的行高,并将所述出现次数最多的行高作为所述第一行高。
[0014]在一个示例性实施例中,根据比较结果确定是否在所述文本层级结构中新建子结点,包括:在所述第一行高大于所述第二行高的情况下,在所述文本层级结构上向上查找除所述任一行文本内容的结点和上一行文本内容的结点之外的其他结点,以从所述其他结点中确定目标结点的第三行高大于所述第一行高,为所述目标结点新建子结点,并将所述任一行文本内容存储在所述目标结点新建的子结点中;在所述第一行高等于所述第二行高的情况下,将所述任一行文本内容存储到所述上一行文本内容的结点;在所述第一行高小于所述第二行高的情况下,为所述任一行文本内容的结点新建子结点,并将所述任一行文本内容存储在所述任一行文本内容的结点新建的子结点中。
[0015]在一个示例性实施例中,获取所述文本层次结构中的每一个结点对应的文本内容的分隔符之前,所述方法还包括:按照以下方式获取所述文本层级结构中所有结点的文本内容:遍历所述所有结点,以确定所有结点中出现次数最多的第四行高,将所述第四行高所对应的文本内容作为所述所有结点的文本内容的正文;将大于所述第四行高的第五行高所对应的文本内容作为所述所有结点的文本内容的标题。
[0016]在一个示例性实施例中,按照以下方式获取所述文本层级结构中所有结点的文本内容之后,所述方法还包括以下至少之一:从所述所有结点的文本内容中确定小于所述第四行高的结点,删除所述小于所述第四行高的结点对应的文本内容;通过第一正则表达式从所述所有结点的文本内容中确定被截断的英文文本,将被截断的英文文本进行拼接,得到拼接后的英文文本,其中,在语言知识库中查找到所述拼接后的文本内容的情况下,确定所述拼接后的英文文本为一个单词。
[0017]在一个示例性实施例中,从所述所有结点的候选句子提取出具有真实语义的目标文本,包括:确定所述所有结点的所有候选句子的困惑度;将困惑度大于第二预设阈值的候选句子从所述所有候选句子中删除,得到候选句子集合;从所述候选句子集合中提取出具有真实语义的目标文本。
[0018]在一个示例性实施例中,将困惑度大于第二预设阈值的候选句子从所述所有候选句子中删除,得到候选句子集合之后,所述方法还包括:在所述候选句子集合中存在英文句子的情况下,根据所述英文句子中的空格字符对所述英文句子进行分词,得到多个词语;在所述多个词语的数量小于第三预设阈值的情况下,确定所述英文句子不是具有真实语义的
句子;在所述多个词语的数量大于第三预设阈值的情况下,确定具有真实语义的单词在所述多个词语中的占比;在所述占比大于第四预设阈值的情况下,确定所述英文句子是具有真实语义的句子。
[0019]在一个示例性实施例中,从所述所有结点的候选句子提取出具有真实语义的目标文本的过程中,所述方法还包括:确定所述候选句子中不具备真实语义的字符串;按照所述字符串的类型将所述不具备真实语义的字符串替换为具有真实语义的单词;根据所述具有真实语义的单词更新所述候选句子。
[0020]根据本申请实施例的另一个实施例,还提供了一种安全文本的处理装置,包括:获取模块,用于获取目标数量的安全文本的文本内容,其中,所述目标数量大于第一预设阈值;确定模块,用于确定所述文本内容的文本特征,并根据所述文本特征建立所述文本内容的文本层次结构,其中,所述文本层次结构中包括有多个结点,所述多个结点中的每一个结点包含了所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种安全文本的处理方法,其特征在于,包括:获取目标数量的安全文本的文本内容,其中,所述目标数量大于第一预设阈值;确定所述文本内容的文本特征,并根据所述文本特征建立所述文本内容的文本层次结构,其中,所述文本层次结构中包括有多个结点,所述多个结点中的每一个结点包含了所述文本内容的一行或多行文本内容,以及所述一行或多行文本内容的行高;获取所述文本层次结构中的每一个结点对应的文本内容的分隔符,并根据所述每一个结点的分隔符对所述每一个结点的文本内容进行分句,以得到所述文本层级结构中所有结点的候选句子;从所述所有结点的候选句子提取出具有真实语义的目标文本,并将所述目标文本输入到语言识别模型中。2.根据权利要求1所述的安全文本的处理方法,其特征在于,根据所述文本特征建立所述文本内容的文本层次结构的过程中,所述方法包括:对于所述多行文本内容的任一行文本内容,确定所述任一行文本内容的第一行高;比较所述第一行高和所述任一行文本内容的上一行文本内容的结点的第二行高;根据比较结果确定是否在所述文本层级结构中新建子结点。3.根据权利要求2所述的安全文本的处理方法,其特征在于,确定所述任一行文本内容的第一行高,包括:确定所述任一行文本内容中所有字符的行高;从所述所有字符的行高中确定出现次数最多的行高,并将所述出现次数最多的行高作为所述第一行高。4.根据权利要求2所述的安全文本的处理方法,其特征在于,根据比较结果确定是否在所述文本层级结构中新建子结点,包括:在所述第一行高大于所述第二行高的情况下,在所述文本层级结构上向上查找除所述任一行文本内容的结点和上一行文本内容的结点之外的其他结点,以从所述其他结点中确定目标结点的第三行高大于所述第一行高,为所述目标结点新建子结点,并将所述任一行文本内容存储在所述目标结点新建的子结点中;在所述第一行高等于所述第二行高的情况下,将所述任一行文本内容存储到所述上一行文本内容的结点;在所述第一行高小于所述第二行高的情况下,为所述任一行文本内容的结点新建子结点,并将所述任一行文本内容存储在所述任一行文本内容的结点新建的子结点中。5.根据权利要求1所述的安全文本的处理方法,其特征在于,获取所述文本层次结构中的每一个结点对应的文本内容的分隔符之前,所述方法还包括:按照以下方式获取所述文本层级结构中所有结点的文本内容:遍历所述所有结点,以确定所有结点中出现次数最多的第四行高,将所述第四行高所对应的文本内容作为所述所有结点的文本内容的正文;将大于所述第四行高的第五行高所对应的文本内容作为所述所有结点的文本内容的标题。6.根据权利要求5所述的安全文本的处理方法,其特征在于,按照以下方式获取所述文本层级结构中所有结点的文本内容之后,所述方法还包括以下至少之一:
从所述所有结点的文本内容中确定小于所述第四...

【专利技术属性】
技术研发人员:王沁心孙志亮黄鹏殷俊罗亮
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1