数据集优化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29055020 阅读:13 留言:0更新日期:2021-06-26 06:25
本申请提供一种数据集优化方法、装置、电子设备及存储介质,涉及数据处理技术领域。所述方法包括:从数据集中提取相关特征,相关特征至少包括第一特征和第二特征;对相关特征进行时间序列化处理,以获得相关特征的指定影响序列,指定影响序列包括第一影响序列即第一特征波动序列和第一特征趋势序列,第二影响序列即第二特征波动序列和第二特征趋势序列,将其分别切分为短时间序列;对短时间序列进行关联分析,以确定第一影响序列中的序列和第二影响序列中的序列在时间条件下的相关性。该方法能够提高数据分析的精确度,并且从影响具体时间段以及相互影响等多角度体现两个时间序列间的相关性。的相关性。的相关性。

【技术实现步骤摘要】
数据集优化方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,具体而言,涉及一种数据集优化方法、装置、电子设备及存储介质。

技术介绍

[0002]在数据分析领域,通常会用去波动分析方法(Detrended Cross-Correlation Analysis)对金融等领域的数据进行相关性分析,但去波动分析方法进行数据分析获得的相关性结果通常只能表示某一数据对另一数据的波动或趋势的影响,无法准确判定某一数据的变化对另一数据的影响时间等,存在相关性分析准确性较低的问题。

技术实现思路

[0003]有鉴于此,本申请实施例的目的在于提供一种数据集优化方法、装置、电子设备及存储介质,以改善现有技术中存在的相关性结果通常只能表示某一数据对另一数据的波动或趋势的影响,无法准确判定某一数据的变化对另一数据的影响时间等,导致相关性分析准确性较低的问题。
[0004]本申请实施例提供了一种数据集优化方法,所述方法包括:从数据集中提取相关特征,所述相关特征至少包括第一特征和第二特征;对所述相关特征进行时间序列化处理,以获得所述相关特征的指定影响序列,所述指定影响序列包括第一影响序列和第二影响序列,所述第一影响序列包括第一特征波动序列和第一特征趋势序列,所述第二影响序列包括第二特征波动序列和第二特征趋势序列;将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列;对所述短时间序列进行关联分析,以确定所述第一影响序列中的序列和所述第二影响序列中的序列在时间条件下的相关性。
[0005]在上述实现方式中,通过对第一特征波动序列、第一特征趋势序列、第二特征波动序列和第二特征趋势序列进行短时间序列切分,进行关联分析,确定在短时间序列的每个影响期中第一特征波动序列和第一特征趋势序列对第二特征波动序列和第二特征趋势序列的影响,以及第二特征波动序列和第二特征趋势序列的影响对第一特征波动序列和第一特征趋势序列的影响,从而体现了在不同影响期中,第一影响序列和第二影响序列中各特征的相关性,从而提高了相关性分析的准确性。
[0006]可选地,所述对所述相关特征进行时间序列化处理,以获得所述相关特征的指定影响序列,包括:确定指定时段;基于时间先后顺序,对所述指定时段的所述第一特征和所述第二特征进行均值和方差处理,获得基于所述第一特征时间序列的所述第一特征波动序列和所述第一特征趋势序列,以及基于所述第二特征时间序列的所述第二特征波动序列和所述第二特征趋势序列。
[0007]在上述实现方式中,对第一特征和第二特征按照时间先后顺序的数据进行均值和方差处理,以引入波动和趋势元素,从而使后续相关性分析更加准确。
[0008]可选地,所述将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列,包括:通过滑动窗口将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列。
[0009]在上述实现方式中,通过滑动窗口进行短时间序列切分,多角度划分整个长周期时间序列为短周期时间序列进行后续相关性分析,从而能够从影响期的角度判定相关性,提高了相关分析的准确度。
[0010]可选地,所述通过滑动窗口将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列,包括:设定所述滑动窗口大小;通过所述滑动窗口,在每个影响期将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为所述短时间序列,所述每个影响期为指定间隔时长。
[0011]在上述实现方式中,通过滑动窗口进行短时间序列切分,多角度划分整个长周期时间序列为短周期时间序列进行后续相关性分析,并将指定间隔时长设置为单个影响期,从而能够从影响期的角度判定相关性,提高了相关分析的准确度。
[0012]可选地,所述对所述短时间序列进行关联分析,包括:对每次所述滑动窗口切分的所述短时间序列进行去趋势交叉相关性分析;统计所述去趋势交叉相关性分析产生的相关性系数大于0的概率值;将所述每个影响期的所述概率值添加至结果集中,所述结果集表示所述第一影响序列中每个序列在所述每个影响期对所述第二影响序列中每个序列的影响概率值,以及第二影响序列中每个序列在所述每个影响期对所述第一影响序列中每个序列的影响概率值。
[0013]在上述实现方式中,基于去趋势交叉相关性分析的概率值进行第一影响序列和第二影响序列在波动序列和趋势序列上的相互影响,体现了多个时间序列的相关性分析结果,提高了分析准确性。
[0014]可选地,所述去趋势交叉相关性分析采用多维度的去波动相关性分析方法。
[0015]在上述实现方式中,多维度的去波动相关性分析方法基于滑动窗口的引入对相关性分析序列进行多角度的分析,将整个长周期时间序列划分成短周期时间序列做相关性分析,能够从分析结果判定影响周期。
[0016]可选地,所述数据集为贷款业务数据集,所述第一特征为贷款人的情绪值,所述第二特征为贷款利率。
[0017]在上述实现方式中,通过获取预设定影响期中的最有效影响期,使构造贷款人情绪与贷款利率的数据集特征提供依据,从而准确在不同的影响期预测贷款利率和贷款人情绪波动之间的影响关系,提高了贷款预测模型准确度。
[0018]本申请实施例还提供了一种数据集优化装置,所述装置包括:特征提取模块,用于从数据集中提取相关特征,所述相关特征至少包括第一特征和第二特征;序列化模块,用于对所述相关特征进行时间序列化处理,以获得所述相关特征的指定影响序列,所述指定影响序列包括第一影响序列和第二影响序列,所述第一影响序列包括第一特征波动序列和第一特征趋势序列,所述第二影响序列包括第二特征波动序列和第二特征趋势序列;切分模块,用于将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述
第二特征趋势序列分别切分为短时间序列;分析模块,用于对所述短时间序列进行关联分析,以确定所述第一影响序列中的序列和所述第二影响序列中的序列在时间条件下的相关性。
[0019]在上述实现方式中,通过对第一特征波动序列、第一特征趋势序列、第二特征波动序列和第二特征趋势序列进行短时间序列切分,进行关联分析,确定在短时间序列的每个影响期中第一特征波动序列和第一特征趋势序列对第二特征波动序列和第二特征趋势序列的影响,以及第二特征波动序列和第二特征趋势序列的影响对第一特征波动序列和第一特征趋势序列的影响,从而体现了在不同影响期中,第一影响序列和第二影响序列中各特征的相关性,从而提高了相关性分析的准确性。
[0020]可选地,所述序列化模块具体用于:确定指定时段;基于时间先后顺序,对所述指定时段的所述第一特征和所述第二特征进行均值和方差处理,获得所述第一特征波动序列和所述第一特征趋势序列,以及所述第二特征波动序列和所述第二特征趋势序列。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集优化方法,其特征在于,所述方法包括:从数据集中提取相关特征,所述相关特征至少包括第一特征和第二特征;对所述相关特征进行时间序列化处理,以获得所述相关特征的指定影响序列,所述指定影响序列包括第一影响序列和第二影响序列,所述第一影响序列包括第一特征波动序列和第一特征趋势序列,所述第二影响序列包括第二特征波动序列和第二特征趋势序列;将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列;对所述短时间序列进行关联分析,以确定所述第一影响序列中的序列和所述第二影响序列中的序列在时间条件下的相关性。2.根据权利要求1所述的方法,其特征在于,所述对所述相关特征进行时间序列化处理,以获得所述相关特征的指定影响序列,包括:确定指定时段;基于时间先后顺序,对所述指定时段的所述第一特征和所述第二特征进行均值和方差处理,获得所述第一特征波动序列和所述第一特征趋势序列,以及所述第二特征波动序列和所述第二特征趋势序列。3.根据权利要求1所述的方法,其特征在于,所述将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列,包括:通过滑动窗口将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列。4.根据权利要求3所述的方法,其特征在于,所述通过滑动窗口将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为短时间序列,包括:设定所述滑动窗口的大小;通过所述滑动窗口,在每个影响期将所述第一特征波动序列、所述第一特征趋势序列、所述第二特征波动序列和所述第二特征趋势序列分别切分为所述短时间序列,所述每个影响期为指定间隔时长。5.根据权利要求3所述的方法,其特征在于,所述对...

【专利技术属性】
技术研发人员:宋超陈佛林高斌
申请(专利权)人:成都新希望金融信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1