非结构化内容相似度确定方法、装置和电子设备制造方法及图纸

技术编号:32973408 阅读:30 留言:0更新日期:2022-04-09 11:44
本发明专利技术提供了一种非结构化内容相似度确定方法、装置和电子设备,对从非结构化内容中得到的提取内容进行归一化,得到归一化内容;基于从归一化内容中提取的指定特征为归一化内容设置标签,对设置标签的归一化内容进行语义相似度匹配得到第一匹配结果;基于归一化内容的上下文相关性,对设置有标签的归一化内容进行度量融合的关系计算,得到关系度量信息;根据关系度量信息进行上下文相似度匹配得到第二匹配结果;根据归一化内容、归一化内容设置的标签和关系度量信息,对非结构化内容进行内容相似度匹配得到第三匹配结果。该方式综合利用内容分析的多维度方法,对非结构化内容进行相似度匹配,可以使各维度方法进行优势互补,提升了分析的准确度。提升了分析的准确度。提升了分析的准确度。

【技术实现步骤摘要】
非结构化内容相似度确定方法、装置和电子设备


[0001]本专利技术涉及网络安全
,尤其是涉及一种非结构化内容相似度确定方法、装置和电子设备。

技术介绍

[0002]在内容分析领域逐渐发展起规则化、统计方法及人工智能方法,依据语义规则的专家知识,行业知识对内容进行规则化分析,依据数学统计模型进行内容的主题判断,依据人工智能进行内容局部特征,全局特征的综合分析分类等方法,内容分析的方法逐步成熟可用。
[0003]在企业生产经营活动中,伴随业务数据的采集、传输、存储、处理、交换、销毁,具有敏感信息的文件随着业务流程在数据生存的整个周期产生多种版本,对存量文件的数据采集、识别以及数据的内容分析历来是一个难点和重点,特别对非结构化内容,通常存在标记不足,存放随机,面临泄露等安全问题,在诸如数据分级分类、文档溯源检测、内容泄密检测等业务场景,急需对非结构化内容中的敏感信息进行相似度计算,以避免安全问题的发生。

技术实现思路

[0004]本专利技术的目的在于提供一种非结构化内容相似度确定方法、装置和电子设备,以从多维度确定非结构本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种非结构化内容相似度确定方法,其特征在于,所述方法包括:对非结构化内容进行内容提取,得到提取内容;对所述提取内容进行归一化处理,得到归一化内容;提取所述归一化内容中的指定特征,基于所述指定特征为所述归一化内容设置标签;对设置有标签的归一化内容进行语义相似度匹配,得到第一匹配结果;基于所述归一化内容的上下文相关性,对所述设置有标签的归一化内容进行度量融合的关系计算,得到关系度量信息;根据所述关系度量信息进行上下文相似度匹配,得到第二匹配结果;其中,所述上下文相关性包括词频、序列特征和长距离结构模式;根据所述归一化内容、所述归一化内容设置的标签和所述关系度量信息,对所述非结构化内容进行内容相似度匹配,得到第三匹配结果。2.根据权利要求1所述的方法,其特征在于,所述非结构化内容包括文本、图片、音视频、信息流和加密状况中的一种或多种;所述对非结构化内容进行内容提取,得到提取内容的步骤,包括:通过预设提取方式中的一种或多种,对所述非结构化内容进行内容提取,得到所述提取内容;其中,所述预设提取方式包括内嵌提取、加密检测、文本提取、元数据提取、音频抽取、视频抽帧、缩略图生成、PDF生成和OCR处理。3.根据权利要求1或2所述的方法,其特征在于,所述对所述提取内容进行归一化处理,得到归一化内容的步骤,包括:通过内容定义解析工具或者预设框架,对所述提取内容进行模型定义,以使所述提取内容采用模型中的规范格式进行归一化表示,将归一化表示的所述提取内容确定为所述归一化内容。4.根据权利要求1所述的方法,其特征在于,所述提取所述归一化内容中的指定特征,基于所述指定特征为所述归一化内容设置标签的步骤,包括:基于预设的特征提取算法,从所述归一化内容中提取出所述指定特征;其中,所述指定特征包括内容实体、关键词、主题、关系信息和属性信息;根据提取到的所述指定特征,为所述归一化内容设置至少一个标签。5.根据权利要求1所述的方法,其特征在于,所述基于所述归一化内容的上下文相关性,对所述设置有标签的归一化内容进行度量融合的关系计算,得到关系度量信息的步骤之后,所述方法还包括:根据预设量化方法和指定策略,生成所述设置有标签的归一化内...

【专利技术属性】
技术研发人员:孙强郑传义朱岩曲志峰徐国龙
申请(专利权)人:中孚信息股份有限公司中孚安全技术有限公司北京中孚泰和科技发展股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1