一种基于特征向量的数据存储和索引的方法及装置制造方法及图纸

技术编号:41137861 阅读:21 留言:0更新日期:2024-04-30 18:08
本申请公开了一种基于特征向量的数据存储和索引的方法及装置,涉及数据处理技术领域。该方法包括数据存储和数据索引。该装置适用于该基于特征向量的数据存储和索引的方法。本申请的基于特征向量的数据存储和索引的方法及装置,能够实现待测试的文档或数据的重要性评估,并以毫秒级别完成评估的过程,从技术的层面出发,使用基于向量相似度匹配的方式,快速识别输入的数据或文档的重要等级,提高了任务完成效率。

【技术实现步骤摘要】

本申请涉及数据处理,具体是一种基于特征向量的数据存储和索引的方法及装置


技术介绍

1、在当前全球数据呈现爆发性增长和海量集聚的背景下,保障介于国家秘密与一般信息之间的敏感非秘数据,即重要数据的安全,已经成为国家数据安全的焦点和挑战。而面对海量、复杂且格式不一致的数据时,识别数据类型是一项具有挑战性的任务。

2、特征提取是行业重要数据发现与监管的技术基础。由于行业数据内容模态多样、存储形式复杂,实际场景中重要数据发现对特征提取算法的可解释性也有一定要求。因此,如何针对各类行业专用文件设计可解释性高的特征提取算法并建库,是一种极为关键的技术。


技术实现思路

1、本申请的目的在于提供一种基于特征向量的数据存储和索引的方法及装置,以实现对行业数据的清晰化管理。

2、为实现上述目的,本申请公开了以下技术方案:

3、第一方面,本申请提供了一种基于特征向量的数据存储和索引的方法,该方法包括数据存储和数据索引;

4、所述数据存储包括以下步骤:

5、构建行业重要数据本文档来自技高网...

【技术保护点】

1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;

2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练...

【技术特征摘要】

1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;

2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

5.根据权利要求4所述的基于特征向量的数据存储和索引的方法,...

【专利技术属性】
技术研发人员:李明温智轩胡舜戴永林黄文喜田新军彭家明梁友
申请(专利权)人:广州芳禾数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1