System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,具体是一种基于特征向量的数据存储和索引的方法及装置。
技术介绍
1、在当前全球数据呈现爆发性增长和海量集聚的背景下,保障介于国家秘密与一般信息之间的敏感非秘数据,即重要数据的安全,已经成为国家数据安全的焦点和挑战。而面对海量、复杂且格式不一致的数据时,识别数据类型是一项具有挑战性的任务。
2、特征提取是行业重要数据发现与监管的技术基础。由于行业数据内容模态多样、存储形式复杂,实际场景中重要数据发现对特征提取算法的可解释性也有一定要求。因此,如何针对各类行业专用文件设计可解释性高的特征提取算法并建库,是一种极为关键的技术。
技术实现思路
1、本申请的目的在于提供一种基于特征向量的数据存储和索引的方法及装置,以实现对行业数据的清晰化管理。
2、为实现上述目的,本申请公开了以下技术方案:
3、第一方面,本申请提供了一种基于特征向量的数据存储和索引的方法,该方法包括数据存储和数据索引;
4、所述数据存储包括以下步骤:
5、构建行业重要数据的特征比对库,所述特征比对库用于存储行业重要数据对应的特征集合,所述特征集合包括对应于显式特征的命名实体集合和对应于隐式特征的隐式特征集合;
6、对于具有显式特征的文档或数据,通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或数据的重要等级后,将该文档或数据和对应的重要等级存储于数据库中;
...【技术保护点】
1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;
2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:
3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:
4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:
5.根据权利要求4所述的基于特征向量的数据存储和索引的方法,其特征在于,对于隐式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:
6.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,所述的通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或
7.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,所述的通过索引算法处理的向量,并与输入同样类型的文件进行对比,评估被输入的数据的重要等级,具体包括:
8.一种基于特征向量的数据存储和索引的装置,适用于如权利要求1-7任意一项所述的基于特征向量的数据存储和索引的方法,其特征在于,包括特征比对库、数据库和索引模块;
...【技术特征摘要】
1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;
2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:
3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:
4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:
5.根据权利要求4所述的基于特征向量的数据存储和索引的方法,...
【专利技术属性】
技术研发人员:李明,温智轩,胡舜,戴永林,黄文喜,田新军,彭家明,梁友,
申请(专利权)人:广州芳禾数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。