System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理领域,尤其涉及数据检测方法。
技术介绍
1、在当前信息时代,大量的数据以非结构化形式存在,包括文本、音频、视频、图像等。这些数据中可能包含了许多敏感信息,例如个人隐私、商业机密等。因此,如何高效而准确地检测非结构化数据中的敏感信息成为了一项重要的技术挑战。
2、相关的数据检测技术方案中,通过关键词匹配或机器学习的方法进行数据检测,然而,这些方法只能针对特定类型的非结构化数据进行检测,针对其他类型的非结构化数据检测准确度较低,因此,数据检测准确度较低。
技术实现思路
1、本专利技术提供了一种数据检测方法,以提高数据检测准确度。
2、根据本专利技术的一方面,提供了一种数据检测方法,该方法包括:
3、获取待检测数据,并依据预先设定的数据划分规则,确定与所述待检测数据相对应的至少一个待处理数据;
4、对所述至少一个待处理数据进行特征提取,得到与所述待检测数据相对应的特征数据;
5、对于每个待处理数据,基于所述待处理数据中各数据之间的关联关系,确定与所述待处理数据相对应的目标检测单位,并基于所述目标检测单位更新所述特征数据;
6、基于预先训练得到的数据检测模型对所述特征数据进行数据检测,得到与所述特征数据相对应的预测结果;
7、基于所述预测结果,确定所述待检测数据的目标数据;
8、其中,所述数据检测模型包括第一特征提取层和标注层,所述第一特征提取层对应于transformer
9、进一步的,基于所述待处理数据中各数据之间的关联关系,确定与所述待处理数据相对应的目标检测单位,并基于所述目标检测单位更新所述特征数据,包括:
10、基于所述待处理数据中各数据之间的关联关系,以及所述数据与所述待处理数据之间的相对位置关系,确定与所述数据相对应的标记数据;
11、对所述标记数据与所述特征数据进行拼接处理,更新所述特征数据。
12、进一步的,所述待处理数据包括文本数据,所述特征数据包括与所述文本数据相对应的向量数据,所述向量数据包括词向量、句向量和位置向量。
13、进一步的,在得到所述特征数据之后,该方法还包括:
14、确定所述待处理数据相对应的数据长度,并将所述数据长度写入所述特征数据中。
15、进一步的,所述依据预先设定的数据划分规则,确定与所述待检测数据相对应的至少一个待处理数据,包括:
16、基于所述数据检测模型的输入数据的最大维度,对所述待检测数据进行划分,得到与所述待检测数据相对应的至少一个待处理数据。
17、进一步的,所述数据检测模型还包括第二特征提取层,所述第一特征提取层的输入数据为所述第二特征提取层的输出数据,所述基于预先训练得到的数据检测模型对所述特征数据进行数据检测,得到与所述特征数据相对应的预测结果,包括:
18、基于所述第二特征提取层对所述特征数据进行特征提取,得到待处理特征数据;
19、基于所述第一特征提取层对所述待处理特征数据进行处理,得到与所述待处理特征数据相对应的目标特征数据;
20、基于所述条件随机场对所述目标特征数据进行标注,得到预测结果,其中,所述预测结果包括与各数据相对应的目标实体和所述目标实体的位置信息。
21、进一步的,所述第二特征提取层包括bert编码层,所述基于所述第二特征提取层对所述特征数据进行特征提取,得到待处理特征数据,包括:
22、基于所述bert编码层对所述特征数据进行位置编码,得到与所述特征数据相对应的序列向量,更新所述特征数据。
23、进一步的,所述基于所述第一特征提取层对所述待处理特征数据进行处理,得到与所述待处理特征数据相对应的目标特征数据,包括:
24、基于多头注意力机制,对所述待处理特征数据进行处理,以得到所述目标特征数据。
25、进一步的,该方法还包括:
26、构建训练样本集,以基于所述训练样本集中的每个训练样本来训练所述数据检测模型,
27、所述构建训练样本集和验证样本集,包括:
28、获取多个测试数据集,其中,所述数据集包括病例数据集和中文数据集;
29、对于所述测试数据集中的每个测试数据,确定与所述测试数据相对应的样本数据;其中,所述样本数据包括与所述样本数据相对应的样本特征数据、样本标记和样本数据长度;
30、将所述样本数据作为所述训练样本中的输入样本;
31、确定与每个测试数据相对应的标签,所述标签包括所述测试数据中包含标准数据和所述标准数据相对应的位置信息;
32、基于各输入样本和相应的标签,确定所述训练样本集中的训练样本。
33、进一步的,所述基于所述训练样本集中的每个训练样本来训练所述数据检测模型,包括:
34、对于各训练样本,将当前训练样本中的输入样本输入至所述数据检测模型中,得到待处理预测数据;
35、基于所述待处理预测数据以及所述当前训练样本中标准数据,确定损失值,以基于所述损失值对所述数据检测模型中的模型参数进行修正;
36、将所述数据检测模型中的损失函数收敛作为训练目标,得到所述数据检测模型。
37、本专利技术实施例的技术方案,获取待检测数据,并依据预先设定的数据划分规则,确定与所述待检测数据相对应的至少一个待处理数据;对所述至少一个待处理数据进行特征提取,得到与所述待检测数据相对应的特征数据;对于每个待处理数据,基于所述待处理数据中各数据之间的关联关系,确定与所述待处理数据相对应的目标检测单位,并基于所述目标检测单位更新所述特征数据;基于预先训练得到的数据检测模型对所述特征数据进行数据检测,得到与所述特征数据相对应的预测结果;基于所述预测结果,确定所述待检测数据的目标数据;其中,所述数据检测模型包括第一特征提取层和标注层,所述第一特征提取层对应于transformer层,所述标注层对应于条件随机场。解决数据检测准确度较低的问题,提高数据检测准确度。
38、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种数据检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据中各数据之间的关联关系,确定与所述待处理数据相对应的目标检测单位,并基于所述目标检测单位更新所述特征数据,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述待处理数据包括文本数据,所述特征数据包括与所述文本数据相对应的向量数据,所述向量数据包括词向量、句向量和位置向量。
4.根据权利要求1-3中任一所述的方法,其特征在于,在得到所述特征数据之后,还包括:
5.根据权利要求1所述的方法,其特征在于,所述依据预先设定的数据划分规则,确定与所述待检测数据相对应的至少一个待处理数据,包括:
6.根据权利要求1所述的方法,其特征在于,所述数据检测模型还包括第二特征提取层,所述第一特征提取层的输入数据为所述第二特征提取层的输出数据,
7.根据权利要求6所述的方法,其特征在于,所述第二特征提取层包括Bert编码层,
8.根据权利要求6所述的方法,其特征在于,所述基于所述第一特征提取层对所述待处理特征
9.根据权利要求1所述的方法,其特征在于,
10.根据权利要求9所述的方法,其特征在于,所述基于所述训练样本集中的每个训练样本来训练所述数据检测模型,包括:
...【技术特征摘要】
1.一种数据检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据中各数据之间的关联关系,确定与所述待处理数据相对应的目标检测单位,并基于所述目标检测单位更新所述特征数据,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述待处理数据包括文本数据,所述特征数据包括与所述文本数据相对应的向量数据,所述向量数据包括词向量、句向量和位置向量。
4.根据权利要求1-3中任一所述的方法,其特征在于,在得到所述特征数据之后,还包括:
5.根据权利要求1所述的方法,其特征在于,所述依据预先设定的数据划分规则,确定与所述待检测数据相对应的...
【专利技术属性】
技术研发人员:吴少智,金峰,刘欣刚,苏涵,冯承霖,张立澄,
申请(专利权)人:电子科技大学长三角研究院衢州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。