System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及一种训练样本数据生成方法、系统、电子设备及介质。
技术介绍
1、目前,深度学习在自然语言处理、计算机视觉等多个方面已取得了巨大的成功。由于深度学习通常需要大量的训练数据,而训练数据的收集经常是比较困难的,因此利用训练样本数据生成方法来扩充训练样本是一种经常用到的方法。
2、在深度学习降噪任务中,通常需要对数据进行互相独立的多次采集,每次采集到的数据记为d,且有d=s+n,其中s为无噪声的真实信号,n为采集到的噪声,噪声n中每个元素都独立同分布且与真实信号s无关。
3、现有技术中,在完成互相独立的多次数据采集后,深度学习模型的输入、输出通常有以下两种数据构造方式:
4、a、将单次采集的带噪声数据作为模型的输入数据,将多次采集的数据进行平均,并将平均后数据作为模型的输出数据;
5、b、将单次采集的带噪声数据作为模型的输入数据,将另一次采集的数据作为模型的输出数据。其中,这两次采集的数据信号相同,噪声互相独立,这种方法通常被称为noise2noise去噪方法;
6、如果对数据进行了多次采集,且多次采集的数据中的噪声是相互独立的,那么可以在任意两次采集的数据间随机交换部分数据值,以构造新的数据集。该训练样本数据生成方法适用于上述a、b两种数据构造方式,通过执行m次训练样本数据生成处理,可使得训练样本集增大m倍。
7、但是,在使用现有技术过程中,专利技术人发现现有技术中至少存在如下问题:
8、在理想情况下,多次采集的数据中的
技术实现思路
1、本专利技术旨在至少在一定程度上解决上述技术问题,本专利技术提供了一种训练样本数据生成方法、系统、电子设备及介质。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种训练样本数据生成方法,包括:
4、获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据;
5、计算两个初始时域样本数据之间的数据差值,将所述数据差值划分为n块区域,获取n块区域的区域平均值,并根据n块区域的区域平均值得到其中的最小区域平均值及最大区域平均值;其中,n为大于2的自然数;
6、根据所述最小区域平均值及所述最大区域平均值得到频域交换比例;
7、根据所述频域交换比例,从任一所述初始频域样本数据的频域范围中提取得到所有指定频率,并将该所有指定频率组成频率集合;
8、从所述频率集合提取一真子集,并根据所述真子集中的指定频率对两个初始频域样本数据分别进行频率交换处理,得到与两个初始频域样本数据对应的两个处理后频域样本数据;
9、根据两个处理后频域样本数据得到两个处理后时域样本数据,并将该两个处理后时域样本数据记为新样本数据。
10、本专利技术可以避免生成与真实数据显著不同的数据,使得训练样本的质量得以提升。具体地,本专利技术在实施过程中,先获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据;然后计算两个初始时域样本数据之间的数据差值,将所述数据差值划分为n块区域,获取n块区域的区域平均值,并根据n块区域的区域平均值得到其中的最小区域平均值及最大区域平均值;再根据所述最小区域平均值及所述最大区域平均值得到频域交换比例,以根据所述频域交换比例,从任一所述初始频域样本数据的频域范围中提取得到所有指定频率,并将该所有指定频率组成频率集合;随后从所述频率集合提取一真子集,并根据所述真子集中的指定频率对两个初始频域样本数据分别进行频率交换处理,得到与两个初始频域样本数据对应的两个处理后频域样本数据;最后根据两个处理后频域样本数据得到两个处理后时域样本数据,并将该两个处理后时域样本数据记为新样本数据。在此过程中,本专利技术根据所述最小区域平均值及所述最大区域平均值得到频域交换比例,并通过一由指定频率组成的频率集合中提取的真子集,对初始频域样本数据的特定区域进行频率数据交换,而非在初始频域样本数据的图像域进行数据交换,使得本专利技术具备更强的鲁棒性,可避免生成不自然的数据,相对现有技术而言,本专利技术得到的训练样本数据的质量更佳。
11、在一个可能的设计中,获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
12、获取多次采集的初始时域样本数据;
13、从多次采集的初始时域样本数据中随机抽取其中任意两次采集的初始时域样本数据;
14、对抽取的两次采集的初始时域样本数据通过fft变换到频域空间,得到两次采集的初始频域样本数据。
15、在一个可能的设计中,获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
16、通过磁共振成像处理获取多次采集的初始频域样本数据;
17、从多次采集的初始频域样本数据中随机抽取其中任意两次采集的初始频域样本数据;
18、对抽取的两次采集的初始频域样本数据通过ifft变换处理,得到两次采集的初始时域样本数据。
19、在一个可能的设计中,获取n块区域的区域平均值,包括:
20、根据n块区域中的所有点坐标,得到n块区域的中心点坐标;其中,任一块区域的中心点坐标为当前区域的所有点坐标的平均值;
21、分别计算n块区域的区域平均值;其中,任一区域的区域平均值为:
22、式中,x为当前区域di中任一点的坐标,z(x)表示在坐标x处z的取值,abs()表示绝对值符号,|di|表示当前区域di中的元素个数。
23、在一个可能的设计中,根据所述最小区域平均值及所述最大区域平均值得到频域交换比例,包括:
24、根据所述最小区域平均值及所述最大区域平均值得到中间值;
25、给定一值域为[0,1]的函数,并将所述中间值作为该函数的自变量,将该函数的函数值设定为频域交换比例。
26、在一个可能的设计中,所述频率集合ф中的指定频率为满足下式条件的频率:
27、abs(k)≥abs(kmax*(1-b));
28、式中,abs()表示绝对值符号,k为指定频率,kmax为当前初始频域样本数据中的最大频率,b为频域交换比例。
29、在一个可能的设计中,将两个初始频域样本数据分别记为fx和fy,所述频率集合ф中的指定频率从初始频域样本数据fx的频率范围中提取得到;对应地,两个处理后频域样本数据包括与初始频域样本数据fx对应的处理后频域样本数据和与初始频域样本数据fy对应的处理后频域样本数据,其中,与初始频域样本数据fx对应的处理后频域样本数据为:
30、
31、式中,k为初始频域样本数据本文档来自技高网...
【技术保护点】
1.一种训练样本数据生成方法,其特征在于:包括:
2.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
3.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
4.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取n块区域的区域平均值,包括:
5.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:根据所述最小区域平均值及所述最大区域平均值得到频域交换比例,包括:
6.根据权利要求5所述的一种训练样本数据生成方法,其特征在于:所述频率集合中的指定频率为满足下式条件的频率:
7.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:将两个初始频域样本数据分别记为FX和FY,所述频率集合中的指定频率从初始频域样本数据FX的频率范围中提取得到;对应地,两个处理后频域样本数据包括与初始频域样本数据FX对应的处理后频域样本数据和与初始频域样本数据
8.一种训练样本数据生成系统,其特征在于:用于实现如权利要求1至7中任一项所述的训练样本数据生成方法;所述训练样本数据生成系统包括:
9.一种电子设备,其特征在于:包括:
10.一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,其特征在于:所述计算机程序指令被配置为运行时执行如权利要求1至7中任一项所述的训练样本数据生成方法的操作。
...【技术特征摘要】
1.一种训练样本数据生成方法,其特征在于:包括:
2.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
3.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取两次采集得到的初始时域样本数据及其对应的初始频域样本数据,包括:
4.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:获取n块区域的区域平均值,包括:
5.根据权利要求1所述的一种训练样本数据生成方法,其特征在于:根据所述最小区域平均值及所述最大区域平均值得到频域交换比例,包括:
6.根据权利要求5所述的一种训练样本数据生成方法,其特征在于:所述频率集合中的指定频率为满足下式条件的频率:
7.根据权...
【专利技术属性】
技术研发人员:侯文魁,罗海,王超,王世杰,廉信,赵卓然,聂航宇,解运浩,胡剑雄,黄正源,张浩杰,秦旺,谭万聪,许莹,
申请(专利权)人:无锡鸣石峻致医疗科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。