安全文本的处理方法和装置、存储介质及电子装置制造方法及图纸

技术编号：33027932 阅读：24 留言：0更新日期：2022-04-15 09:03

本申请公开了一种安全文本的处理方法和装置、存储介质及电子装置，上述方法包括：获取目标数量的安全文本的文本内容，其中，所述目标数量大于第一预设阈值；确定文本内容的文本特征，并根据文本特征建立文本内容的文本层次结构，其中，所述文本层次结构中包括有多个结点，其中每一个结点包含了文本内容的一行或多行文本内容，以及一行或多行文本内容的行高；获取文本层次结构中的每一个结点对应的文本内容的分隔符，并根据每一个结点的分隔符对每一个结点的文本内容进行分句，以得到文本层次结构中所有结点的候选句子；并从所有结点的候选句子提取出具有真实语义的目标文本，并将目标文本输入到语言识别模型中。标文本输入到语言识别模型中。标文本输入到语言识别模型中。

全部详细技术资料下载

【技术实现步骤摘要】
安全文本的处理方法和装置、存储介质及电子装置

[0001]本申请涉及通信领域，具体而言，涉及一种安全文本的处理方法和装置、存储介质及电子装置。

技术介绍

[0002]相关技术中，随着互联网技术的发展，网络安全也越发得到重视；现有技术一般通过使用BERT等语言模型提取特征，再将提取到的特征输入一个训练后的序列标注模型，从而预测相关单词，而在此之前，为了达到更好的效果，需要先在与处理阶段将文本中具有实际语义的完整句子提取出来，从而减少输入模型的噪音。
[0003]而安全文本中包含了大量的对语言理解无效的内容，例如图标、代码片段等信息；同时大多数APT报告以PDF格式发布，难以通过现有工具和方法获得干净的文本，会对后续的文本抽取任务效果造成负面影响；而且安全文本中蕴含着大量的信息，如果能够对其中的威胁相关信息进行自动化提取，并生成结构化的威胁情报，对于安全态势的感知具有重要意义。
[0004]经过检索发现，现有技术公开了：
[0005]1、一种面向文本数据的威胁情报知识图谱构建方法，其设计要点在于从安全文本中自动提取关键信息，并构建威胁情报知识图谱；
[0006]2、文本预处理方法、分类方法、装置及设备，其设计要点在于对长文本中的核心内容进行和拼接，从而更好地用于语言模型的训练；
[0007]3、一种基于机器学习的中文商业文本预处理方法，其设计要点在于综合使用多种机器学习算法，对商业文本进行预处理，解决中文商业问答系统由于文本预处理不足导致系统答非所问，应答情景有限的问题；
...

【技术保护点】

【技术特征摘要】
1.一种安全文本的处理方法，其特征在于，包括：获取目标数量的安全文本的文本内容，其中，所述目标数量大于第一预设阈值；确定所述文本内容的文本特征，并根据所述文本特征建立所述文本内容的文本层次结构，其中，所述文本层次结构中包括有多个结点，所述多个结点中的每一个结点包含了所述文本内容的一行或多行文本内容，以及所述一行或多行文本内容的行高；获取所述文本层次结构中的每一个结点对应的文本内容的分隔符，并根据所述每一个结点的分隔符对所述每一个结点的文本内容进行分句，以得到所述文本层级结构中所有结点的候选句子；从所述所有结点的候选句子提取出具有真实语义的目标文本，并将所述目标文本输入到语言识别模型中。2.根据权利要求1所述的安全文本的处理方法，其特征在于，根据所述文本特征建立所述文本内容的文本层次结构的过程中，所述方法包括：对于所述多行文本内容的任一行文本内容，确定所述任一行文本内容的第一行高；比较所述第一行高和所述任一行文本内容的上一行文本内容的结点的第二行高；根据比较结果确定是否在所述文本层级结构中新建子结点。3.根据权利要求2所述的安全文本的处理方法，其特征在于，确定所述任一行文本内容的第一行高，包括：确定所述任一行文本内容中所有字符的行高；从所述所有字符的行高中确定出现次数最多的行高，并将所述出现次数最多的行高作为所述第一行高。4.根据权利要求2所述的安全文本的处理方法，其特征在于，根据比较结果确定是否在所述文本层级结构中新建子结点，包括：在所述第一行高大于所述第二行高的情况下，在所述文本层级结构上向上查找除所述任一行文本内容的结点和上一行文本内容的结点之外的其他结点，以从所述其他结点中确定目标结点的第三行高大于所述第一行高，为所述目标结点新建子结点，并将所述任一行文本内容存储在所述目标结点新建的子结点中；在所述第一行高等于所述第二行高的情况下，将所述任一行文本内容存储到所述上一行文本内容的结点；在所述第一行高小于所述第二行高的情况下，为所述任一行文本内容的结点新建子结点，并将所述任一行文本内容存储在所述任一行文本内容的结点新建的子结点中。5.根据权利要求1所述的安全文本的处理方法，其特征在于，获取所述文本层次结构中的每一个结点对应的文本内容的分隔符之前，所述方法还包括：按照以下方式获取所述文本层级结构中所有结点的文本内容：遍历所述所有结点，以确定所有结点中出现次数最多的第四行高，将所述第四行高所对应的文本内容作为所述所有结点的文本内容的正文；将大于所述第四行高的第五行高所对应的文本内容作为所述所有结点的文本内容的标题。6.根据权利要求5所述的安全文本的处理方法，其特征在于，按照以下方式获取所述文本层级结构中所有结点的文本内容之后，所述方法还包括以下至少之一：
从所述所有结点的文本内容中确定小于所述第四...

【专利技术属性】
技术研发人员：王沁心，孙志亮，黄鹏，殷俊，罗亮，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人