System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据处理,特别涉及一种生成数据标签规则的方法及装置。
技术介绍
1、近几年,随着大数据技术的发展,数据爆炸式增长,如何优化处理和分析的过程,提高对数据的处理和分析效率,是目前技术人员较为关注的话题。
2、而在数据处理和分析的过程中,对数据进行标签化是一项关键的步骤,通过对数据进行标签化,可以大大提高数据处理的效率和准确性。然而,现有的数据标签规则的生成方法往往需要人工操作,较常见的方式为人工纯手动编写sql语句的方式生成数据标签规则,进一步完成数据打标签操作,不仅费时费力,而且容易出错。因此,开发一种能够自动生成准确、高效的数据标签规则的方法和技术,对于提高数据处理的效率和准确性具有重要意义。
3、因此,如何根据数据的特征,通过自动化流程自动生成准确、高效的数据标签规则,减少人工操作的复杂性和错误率,进而提高数据标签的效率和准确性,是大数据处理
亟待解决的问题之一。
技术实现思路
1、本专利技术旨在至少一定程度上解决上述技术中的技术问题。为此,本专利技术的目的在于提供一种生成数据标签规则的方法及装置,通过对原始数据进行特征提取,根据特征提取结果对原始数据进行分类得到若干个分类数据集,对分类数据集进行预处理,根据预处理后的数据集类型生成对应的数据标签规则,从而实现了根据数据的特征,通过自动化流程自动生成准确、高效的数据标签规则,减少人工操作的复杂性和错误率,进而提高数据标签的效率和准确性的技术效果。
2、本专利技术提供一种生成
3、获取若干个原始数据;其中,原始数据包括:文本数据、图像数据、音频数据和视频数据;
4、对若干个原始数据进行特征提取,得到对应的若干个原始数据特征;
5、根据若干个原始数据特征,对若干个原始数据进行分类,根据分类结果确定若干个分类数据集;其中,每个分类数据集中包含若干个类型相同的原始数据;
6、对每个分类数据集中的数据进行数据预处理,得到对应的若干个预处理数据集;
7、确定每个预处理数据集的数据集类型,根据该数据集类型,生成该预处理数据集中包含的数据对应的数据标签规则。
8、优选的,生成数据标签规则的方法,对若干个原始数据进行特征提取,得到对应的若干个原始数据特征,包括:
9、通过若干个历史原始数据和对应的包含内容对预设神经网络模型进行训练,得到预设内容识别模型;
10、将若干个原始数据输入预设内容识别模型中,得到每个原始数据对应的原始数据特征;其中,原始数据特征包括:仅包含文本内容、仅包含图像内容、既包含图像内容又包含文本内容、仅包含声音内容及既包含图像内容又包含声音内容。
11、优选的,生成数据标签规则的方法,根据若干个原始数据特征,对若干个原始数据进行分类,根据分类结果确定若干个分类数据集,包括:
12、将原始数据特征为仅包含文本内容的原始数据确定为文本数据,若干个文本数据组成文本分类数据集;
13、将原始数据特征为仅包含图像内容以及既包含图像内容又包含文本内容的原始数据确定为图像数据,若干个图像数据组成图像分类数据集;
14、将原始数据特征为仅包含声音内容的原始数据确定为音频数据,若干个音频数据组成音频分类数据集;
15、将原始数据特征为既包含图像内容又包含声音内容的原始数据确定为视频数据,若干个视频数据组成视频分类数据集。
16、优选的,生成数据标签规则的方法,对每个分类数据集中的数据进行数据预处理,得到对应的若干个预处理数据集,包括:
17、对文本分类数据集中包含的所有文本数据按照首字母从a-z的顺序进行排序,将首字母相同的文本数据分为一组,每组从第一个文本数据开始,依次将每个文本数据与所在组中排在该文本数据之后的所有文本数据进行内容匹配,当确定匹配到的内容完全相同时,将其中一个文本数据从文本分类数据集中删除,去除文本分类数据集中的重复文本,得到预处理文本数据集;
18、对图像分类数据集中包含的图像进行图像去重处理,得到预处理图像数据集;
19、通过预设音频去重算法对音频分类数据集进行去重操作,去除音频分类数据集中的重复音频,得到预处理音频数据集;
20、对视频分类数据集中包含的视频进行视频去重处理,得到预处理视频数据集;
21、预处理文本数据集、预处理图像数据集、预处理音频数据集和预处理视频数据集组成预处理数据集。
22、优选的,生成数据标签规则的方法,对图像分类数据集中包含的图像进行图像去重处理,得到预处理图像数据集,包括:
23、将预处理图像数据集中的所有图像缩小到预设尺寸,得到缩小图像集;
24、按照缩小图像集中的图像先后顺序,选取缩小图像集中的一张图像作为待处理图像,获取待处理图像中的像素点的像素值;
25、统计待处理图像中每一个像素值出现的次数,确定待处理图像对应的像素分布情况,根据像素分布情况确定待处理图像中每一个像素值对应的出现概率;
26、根据待处理图像中每一个像素值对应的出现概率和预设系数确定待处理图像的图像判断值;
27、将待处理图像作为第一处理图像,对第一处理图像进行离散余弦变换,得到对应的变换矩阵,计算变换矩阵中所有元素值的元素均值;
28、判断第一处理图像对应的变换矩阵中各元素值与元素均值的关系,当元素值大于元素均值时,将元素值修改为1;当元素值小于等于元素均值时,将元素值修改为0;
29、将进行了元素值修改的矩阵作为第一处理图像对应的哈希矩阵,通过预设矩阵扫描方式对哈希矩阵进行扫描,将扫描结果作为第一处理图像对应的哈希值;其中,哈希值的表示为二进制;
30、确定预设长度分割参数和预设宽度分割参数,根据预设长度分割参数和预设宽度分割参数对待处理图像进行图像分割,得到若干张子图像;
31、对若干张子图像均进行与第一处理图像相同的哈希值获取操作,得到对应的若干个子哈希值;
32、将第一处理图像对应的哈希值与若干个子哈希值相加,得到待处理图像对应的哈希值;
33、对缩小图像集中的所有图像进行以上操作,得到每张图像对应的图像判断值和哈希值;将待处理图像之后的所有图像作为比较图像,对待处理图像与每张比较图像进行图像判断,确定是否存在待处理图像的目标重复图像;如果存在,则对待处理图像和目标重复图像的灰度值进行拉普拉斯滤波处理,获得待处理图像和目标重复图像的梯度值,将待处理图像与目标重复图像的梯度值进行对比,将梯度值较小的图像从图像分类数据集中删除,进行图像去重处理,对缩小图像集中的所有图像进行以上操作,将完成图像去重处理的缩小图像集中的图像放大到原始尺寸,所有恢复到原始尺寸的图像组成预处理图像数据集。
34、优选的,生成数据标签规则的方法,对待处理图像与每张比较图像进行图像判断,确定是否存在待处理图像的目标重复图像本文档来自技高网...
【技术保护点】
1.一种生成数据标签规则的方法,其特征在于,包括:
2.如权利要求1所述的生成数据标签规则的方法,其特征在于,对若干个原始数据进行特征提取,得到对应的若干个原始数据特征,包括:
3.如权利要求2所述的生成数据标签规则的方法,其特征在于,根据若干个原始数据特征,对若干个原始数据进行分类,根据分类结果确定若干个分类数据集,包括:
4.如权利要求3所述的生成数据标签规则的方法,其特征在于,对每个分类数据集中的数据进行数据预处理,得到对应的若干个预处理数据集,包括:
5.如权利要求4所述的生成数据标签规则的方法,其特征在于,对图像分类数据集中包含的图像进行图像去重处理,得到预处理图像数据集,包括:
6.如权利要求5所述的生成数据标签规则的方法,其特征在于,对待处理图像与每张比较图像进行图像判断,确定是否存在待处理图像的目标重复图像,包括:
7.如权利要求4所述的生成数据标签规则的方法,其特征在于,对视频分类数据集中包含的视频进行视频去重处理,得到预处理视频数据集,包括:
8.如权利要求4所述的生成数据标签
9.如权利要求8所述的生成数据标签规则的方法,其特征在于,在确定每个预处理数据集的数据集类型,根据该数据集类型,生成该预处理数据集中包含的数据对应的数据标签规则后,还包括:
10.一种生成数据标签规则的装置,其特征在于,包括:
...【技术特征摘要】
1.一种生成数据标签规则的方法,其特征在于,包括:
2.如权利要求1所述的生成数据标签规则的方法,其特征在于,对若干个原始数据进行特征提取,得到对应的若干个原始数据特征,包括:
3.如权利要求2所述的生成数据标签规则的方法,其特征在于,根据若干个原始数据特征,对若干个原始数据进行分类,根据分类结果确定若干个分类数据集,包括:
4.如权利要求3所述的生成数据标签规则的方法,其特征在于,对每个分类数据集中的数据进行数据预处理,得到对应的若干个预处理数据集,包括:
5.如权利要求4所述的生成数据标签规则的方法,其特征在于,对图像分类数据集中包含的图像进行图像去重处理,得到预处理图像数据集,包括:
6.如权利要求5所述的生成数据标...
【专利技术属性】
技术研发人员:王广武,吴毅君,黄河,
申请(专利权)人:深圳市马博士网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。