System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于数据安全领域,具体涉及一种数据识别方法、装置、电子设备及存储介质。
技术介绍
1、随着数据经济的蓬勃发展,数据成为了各行各业的关键生产要素。各行各业的数据亦随行业的发展呈爆炸式增长,为了对大规模的数据进行有效的管理,能够从海量数据中找出数据共性并进行分类的数据识别技术应运而生。由于不同的行业的业务系统中,数据的存储方式都不相同,例如,同一个定义的数据在不同业务系统中的属性名不同,现有的数据识别技术无法区分出不同业务系统中属性名不同但定义相同的数据,其数据识别的准确率较低。
技术实现思路
1、鉴于此,本申请的目的在于提供一种数据识别方法、装置、电子设备及存储介质,以改善现有数据识别方法存在的数据识别不准确的问题。
2、本申请的实施例是这样实现的:
3、第一方面,本申请实施例提供了一种数据识别方法,所述方法包括:
4、获取待识别数据集,所述待识别数据集包含与目标实体相关的数据;利用预先训练好的数据识别模型识别出所述待识别数据集中与目标实体相关的数据;其中,所述数据识别模型为成功识别出与目标实体相关的数据的多个初始数据识别模型融合得到,不同初始数据识别模型为基于不同指定业务系统中与所述目标实体相关的数据训练得到。
5、本申请实施例中,利用成功识别出与目标实体相关的数据的多个初始数据识别模型融合得到的数据识别模型,来识别待识别数据集中与目标实体相关的数据,由于数据识别模型为基于多个初始数据识别模型融合得到,且不同的初始数据识别模型为
6、结合第一方面实施例的一种可能的实施方式,在利用预先训练好的数据识别模型识别出所述待识别数据集中与目标实体相关的数据之前,所述方法还包括:利用多个初始数据识别模型分别对所述目标实体相关的第一数据集进行识别,将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到所述数据识别模型。
7、本申请实施例中,为了提升数据识别模型在待识别数据集中识别出与目标实体相关的数据的准确性,先利用多个数据识别模型对目标实体相关的第一数据集进行识别,筛选出能够成功识别出第一数据集的多个初始数据识别模型,将筛选出的多个初始数据识别模型进行融合,从而得到的数据识别模型对识别出与目标实体相关的数据的准确性更高。
8、结合第一方面实施例的一种可能的实施方式,所述方法还包括:确定不能识别出所述第一数据集的至少一个初始数据识别模型所能够识别的数据对应的实体。
9、本申请实施例中,通过确定出不能识别出第一数据集的至少一个初始数据模型所能够识别的数据对应的实体,在后续若需要对所能识别的实体相关数据进行识别的情况下,直接采用对应的初始数据识别模型进行识别,无需重新训练新的模型。
10、结合第一方面实施例的一种可能的实施方式,获取所述多个初始数据识别模型,包括:获取多组第二数据集;其中,每组第二数据集为指定业务系统中与所述目标实体相关的数据集,不同第二数据集对应不同的指定业务系统;利用所述多组第二数据集对同一初始模型进行训练,得到所述多个初始数据识别模型。
11、本申请实施例中,通过获取不同业务系统中与目标实体相关的多组第二数据集,再分别利用获取到的多组第二数据集对初始模型进行训练,从而可以得到基于不同指定业务系统中与目标实体相关的数据训练得到的多个初始数据识别模型,后续再以此得到数据识别模型时,可以提高数据识别模型对目标实体相关的数据的识别准确性。
12、结合第一方面实施例的一种可能的实施方式,获取多组第二数据集,包括:分别确定所述目标实体在每个指定业务系统中所定义的实体名以及与每个实体名相对应的多个属性名;基于所述目标实体在相应的指定业务系统中的实体名以及对应的多个属性名,分别在每个指定业务系统中提取出与所述实体名对应的所述多个属性名下的多个数据,得到所述多组第二数据集。
13、本申请实施例中,由于目标实体在不同的指定业务系统中定义的实体名不同,通过分别确定目标实体在每个指定业务系统中的实体名以及与每个实体名相对应的多个属性名,在每个指定业务系统中提取出与实体名对应的多个属性名下的多个数据,能够更加高效地从不同指定业务系统中提取出与目标实体相关的第二数据集,这样使得后续训练得到的初始数据识别模型能够学习不同指定业务系统中的属性。
14、结合第一方面实施例的一种可能的实施方式,将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到所述数据识别模型,包括:将所述多个初始数据识别模型中的系数分别乘以相同的权重进行融合,得到所述数据识别模型。
15、本申请实施例中,能够成功识别出第一数据集的初始数据识别模型表征能够识别出与目标实体相关的数据的初始数据模型,为每个能够识别出与目标实体相关的数据的初始数据模型中的系数分别乘以相同的权重进行融合,所得到的数据识别模型受到每个初始数据识别模型的影响都较为均衡,进而使得得到的数据识别模型的识别与目标实体相关的数据的准确性更高。
16、第二方面,本申请实施例还提供了一种数据识别方法,所述方法包括:利用多个初始数据识别模型分别对目标实体相关的第一数据集进行识别,其中,不同初始数据识别模型为基于不同指定业务系统中与目标实体相关的数据训练得到;将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到数据识别模型;其中,所述数据识别模型用于识别出待识别数据集中的与所述目标实体相关的数据。
17、本申请实施例中,为了提升数据识别模型在待识别数据集中识别出与目标实体相关的数据的准确性,先利用多个数据识别模型对目标实体相关的第一数据集进行识别,筛选出能够成功识别出第一数据集的多个初始数据识别模型,将筛选出的多个初始数据识别模型进行融合,从而得到的数据识别模型对识别出与目标实体相关的数据的准确性更高。
18、第三方面,本申请实施例还提供了一种数据识别装置,所述装置包括:获取模块,用于获取待识别数据集,所述待识别数据集包含与目标实体相关的数据;处理模块,用于利用预先训练好的数据识别模型识别出所述待识别数据集中与目标实体相关的数据;其中,所述数据识别模型为多个成功识别出与目标实体相关的数据的初始数据识别模型融合得到,每个初始数据识别模型为基于不同指定业务系统中与所述目标实体相关的数据训练得到。
19、第四方面,本申请实施例还提供了一种数据识别装置,所述装置包括:识别模块,用于利用多个初始数据识别模型分别对目标实体相关的第一数据集进行识别,其中,不同初始数据识别模型为基于不同指定业务系统中与目标实体相关的数据训练得到;融合模块,用于将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到数据识别模型;其中,所述数据识别本文档来自技高网...
【技术保护点】
1.一种数据识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在利用预先训练好的数据识别模型识别出所述待识别数据集中与目标实体相关的数据之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2或3所述的方法,其特征在于,获取所述多个初始数据识别模型,包括:
5.根据权利要求4所述的方法,其特征在于,获取多组第二数据集,包括:
6.根据权利要求2所述的方法,其特征在于,将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到所述数据识别模型,包括:
7.一种数据识别方法,其特征在于,所述方法包括:
8.一种数据识别装置,其特征在于,所述装置包括:
9.一种数据识别装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器以及与所述至少一个处理器连接的存储器,所述至少一个处理器用于调用所述存储器中存储的计算机程序,以执行如权利要求1-6中任一项所述的方法,
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-6中任一项所述的方法,或者,执行如权利要求7所述的方法。
...【技术特征摘要】
1.一种数据识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在利用预先训练好的数据识别模型识别出所述待识别数据集中与目标实体相关的数据之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2或3所述的方法,其特征在于,获取所述多个初始数据识别模型,包括:
5.根据权利要求4所述的方法,其特征在于,获取多组第二数据集,包括:
6.根据权利要求2所述的方法,其特征在于,将能够成功识别出所述第一数据集的多个初始数据识别模型进行融合,得到所述数据识别模型,包括:
<...【专利技术属性】
技术研发人员:牛俊燕,
申请(专利权)人:北京天融信网络安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。