System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于特征向量的数据存储和索引的方法及装置制造方法及图纸_技高网

一种基于特征向量的数据存储和索引的方法及装置制造方法及图纸

技术编号:41137861 阅读:4 留言:0更新日期:2024-04-30 18:08
本申请公开了一种基于特征向量的数据存储和索引的方法及装置,涉及数据处理技术领域。该方法包括数据存储和数据索引。该装置适用于该基于特征向量的数据存储和索引的方法。本申请的基于特征向量的数据存储和索引的方法及装置,能够实现待测试的文档或数据的重要性评估,并以毫秒级别完成评估的过程,从技术的层面出发,使用基于向量相似度匹配的方式,快速识别输入的数据或文档的重要等级,提高了任务完成效率。

【技术实现步骤摘要】

本申请涉及数据处理,具体是一种基于特征向量的数据存储和索引的方法及装置


技术介绍

1、在当前全球数据呈现爆发性增长和海量集聚的背景下,保障介于国家秘密与一般信息之间的敏感非秘数据,即重要数据的安全,已经成为国家数据安全的焦点和挑战。而面对海量、复杂且格式不一致的数据时,识别数据类型是一项具有挑战性的任务。

2、特征提取是行业重要数据发现与监管的技术基础。由于行业数据内容模态多样、存储形式复杂,实际场景中重要数据发现对特征提取算法的可解释性也有一定要求。因此,如何针对各类行业专用文件设计可解释性高的特征提取算法并建库,是一种极为关键的技术。


技术实现思路

1、本申请的目的在于提供一种基于特征向量的数据存储和索引的方法及装置,以实现对行业数据的清晰化管理。

2、为实现上述目的,本申请公开了以下技术方案:

3、第一方面,本申请提供了一种基于特征向量的数据存储和索引的方法,该方法包括数据存储和数据索引;

4、所述数据存储包括以下步骤:

5、构建行业重要数据的特征比对库,所述特征比对库用于存储行业重要数据对应的特征集合,所述特征集合包括对应于显式特征的命名实体集合和对应于隐式特征的隐式特征集合;

6、对于具有显式特征的文档或数据,通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或数据的重要等级后,将该文档或数据和对应的重要等级存储于数据库中;p>

7、对于具有隐式特征的文档或数据,通过索引算法处理的向量,并与输入同样类型的文件进行对比,评估被输入的数据的重要等级后,将该文档或数据和对应的重要等级存储于数据库中;

8、所述数据索引包括以下步骤:

9、将所需查询的目标输入后,获取该目标对应的字段规则,由命名实体识别算法反向处理获得该目标对应的向量数据,或通过所述索引算法将该目标转换成向量数据;

10、将得到的向量数据在向量数据库中转化为高效的索引结构,使所述向量数据库中与该目标的向量数据相似的向量被定位和检索;

11、计算被定位和检索到的向量与输入的目标对应的向量数据之间的距离,确认与该输入的目标对应的向量数据最接近的向量,并基于该向量返回所述数据库中的相关结果。

12、作为优选,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

13、通过命名实体算法对包含有重要数据目录的数据进行训练,提取重要数据的命名实体特征集合,将其嵌入到词空间,并训练出不同行业的不同主题的命名实体辨别算法。

14、作为优选,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

15、以与训练过程使用相同规则的命名实体集合并将其转化成向量的形式将数据或文档存储于所述数据库中。

16、作为优选,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

17、通过深度学习的方式,提取已标注的文档或数据对应的数据特征。

18、作为优选,对于隐式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

19、以被提取到的数据特征的形式将数据或文档存储于所述数据库中。

20、作为优选,所述的通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或数据的重要等级,具体包括:

21、输入的文档或数据的判别结果为能使用符合命名规则进行识别;

22、将该文档或数据转化为与重要数据规则相应的命名实体结合表示方式,然后再其转化成该文档的命名实体向量,将该命名实体向量与所述向量数据库进行特征对比,快速匹配该命名实体向量对应的所属行业、主题以及对应的重要性程度。

23、作为优选,所述的通过索引算法处理的向量,并与输入同样类型的文件进行对比,评估被输入的数据的重要等级,具体包括:

24、输入的文档或数据的判别结果为不能使用符合命名规则进行识别;

25、通过特征提取方式,该文档或数据转化成隐式特征向量,将该隐式特征向量与所述特征对比库中的隐式特征集合进行对比,输出结果后确认该隐式特征向量对应的所属行业、主题以及对应的重要性程度。

26、第二方面,本申请提供了一种基于特征向量的数据存储和索引的装置,适用于如上所述的基于特征向量的数据存储和索引的方法,包括特征比对库、数据库和索引模块;

27、所述特征比对库配置为:用于存储行业重要数据对应的特征集合,所述特征集合包括对应于显式特征的命名实体集合和对应于隐式特征的隐式特征集合;

28、所述数据库用于存储文档或数据,其中,对于具有显式特征的文档或数据,通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或数据的重要等级后,将该数据或文档和对应的重要等级存储于所述数据库中;对于具有隐式特征的文档或数据,通过索引算法处理的向量,并与输入同样类型的文件进行对比,评估被输入的数据的重要等级后,将该数据或文档和对应的重要等级存储于所述数据库中;

29、所述索引模块用于基于输入的所需查询的目标,在所述数据库中检索相关的结果,所述的检索相关的结果具体包括:

30、将所需查询的目标输入后,获取该目标对应的字段规则,由命名实体识别算法反向处理获得该目标对应的向量数据,或通过所述索引算法将该目标转换成向量数据;

31、将得到的向量数据在向量数据库中转化为高效的索引结构,使所述向量数据库中与该目标的向量数据相似的向量被定位和检索;

32、计算被定位和检索到的向量与输入的目标对应的向量数据之间的距离,确认与该输入的目标对应的向量数据最接近的向量,并基于该向量返回所述数据库中的相关结果。

33、有益效果:本申请的基于特征向量的数据存储和索引的方法及装置,能够实现待测试的文档或数据的重要性评估,并以毫秒级别完成评估的过程,从技术的层面出发,使用基于向量相似度匹配的方式,快速识别输入的数据或文档的重要等级,提高了任务完成效率。

本文档来自技高网...

【技术保护点】

1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;

2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

5.根据权利要求4所述的基于特征向量的数据存储和索引的方法,其特征在于,对于隐式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

6.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,所述的通过命名实体识别算法处理的重要数据的字段规则,与输入由同样词空间处理的文档-向量进行对比,根据向量相似度,评估被输入的文档或数据的重要等级,具体包括:

7.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,所述的通过索引算法处理的向量,并与输入同样类型的文件进行对比,评估被输入的数据的重要等级,具体包括:

8.一种基于特征向量的数据存储和索引的装置,适用于如权利要求1-7任意一项所述的基于特征向量的数据存储和索引的方法,其特征在于,包括特征比对库、数据库和索引模块;

...

【技术特征摘要】

1.一种基于特征向量的数据存储和索引的方法,其特征在于,该方法包括数据存储和数据索引;

2.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于显式特征,基于所述命名实体识别算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

3.根据权利要求2所述的基于特征向量的数据存储和索引的方法,其特征在于,对于显式特征,所述的将该文档或数据和对应的重要等级存储于数据库中具体包括:

4.根据权利要求1所述的基于特征向量的数据存储和索引的方法,其特征在于,该方法还包括:对于隐式特征,基于所述索引算法对行业重要数据的提取进行训练,训练过程包括以下步骤:

5.根据权利要求4所述的基于特征向量的数据存储和索引的方法,...

【专利技术属性】
技术研发人员:李明温智轩胡舜戴永林黄文喜田新军彭家明梁友
申请(专利权)人:广州芳禾数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1