一种业务数据提取方法、装置及存储介质制造方法及图纸

技术编号:30098142 阅读:18 留言:0更新日期:2021-09-18 09:02
本说明书实施例涉及大数据技术领域,具体公开了一种业务数据提取方法、装置及存储介质,所述方法包括:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源根据所述业务数据集所包含的数据源数量确定异常数据检测方式;利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。利用本说明书各个实施例,可以提高业务产品的业务特征数据提取的准确性,进而提高相应业务产品的交易动态分析的准确性。交易动态分析的准确性。交易动态分析的准确性。

【技术实现步骤摘要】
一种业务数据提取方法、装置及存储介质


[0001]本说明书涉及大数据
,特别地,涉及一种业务数据提取方法、装置及存储介质。

技术介绍

[0002]随着全球金融市场的不断发展,外汇即期、外汇远期、利率掉期、利率远期、债券期货等业务产品的交易频率和交易总量不断增多,各业务产品的业务数据的数量、类型以及来源也越来越复杂,使得如何基于海量且来源复杂的业务数据对业务产品的交易动态进行准确分析,成为亟待解决的技术问题。
[0003]目前通常通过先从海量的业务数据中选取与交易动态分析关联性较强的业务数据,再基于该部分业务数据进一步优选可以表征产品交易动态的业务特征数据,进而基于该业务特征数据进行产品交易动态的分析。但上述过程,通常依赖人工经验执行,所提取的业务特征数据准确性较难保证,进而较难保证产品交易动态分析的准确性。

技术实现思路

[0004]本说明书实施例的目的在于提供一种业务数据提取方法、装置及存储介质,可以提高业务产品的业务特征数据提取的准确性,进而提高相应业务产品的交易动态分析的准确性。
[0005]本说明书提供一种业务数据提取方法、装置及存储介质是包括如下方式实现的:
[0006]一种业务数据提取方法,应用于服务器,所述方法包括:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;根据所述业务数据集所包含的数据源数量确定异常数据检测方式;利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
[0007]另一方面,本说明书实施例提供一种业务数据提取装置,应用于服务器,所述装置包括:数据获取模块,用于从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;检测方式确定模块,用于根据所述业务数据集所包含的数据源数量确定异常数据检测方式;异常数据检测模块,用于利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;特征数据提取模块,用于基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
[0008]另一方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意一个或者多个实施例所述方法的步骤。
[0009]本说明书一个或多个实施例提供的业务数据提取方法、装置及存储介质,通过提取至少一个数据源下的业务数据,再针对业务数据来源复杂多变的情况,根据所述业务数
据集所包含的数据源数量确定异常数据检测方式,以基于相应的异常数据检测方式执行异常数据检测,提高异常数据检测的准确性,降低对正常业务数据的误伤。之后,可以基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据,以提高业务特征数据提取的准确性,进而可以提高相应业务产品的交易动态分析的准确性。
附图说明
[0010]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0011]图1为本说明书提供的服务器的模块结构示意图;
[0012]图2为本说明书提供的异常数据检测方式的确定流程示意图;
[0013]图3为本说明书提供的多数据源对应的异常数据检测流程示意图;
[0014]图4为本说明书提供的单一数据源对应的异常数据检测流程示意图;
[0015]图5为本说明书提供的业务数据提取方法的实施流程示意图;
[0016]图6为本说明书提供的业务数据提取装置的模块结构示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
[0018]本说明书提供的一个场景示例中,所述业务数据提取方法可以应用于服务器,所述服务器可以是指单个服务器或者多个服务器组成的服务器集群。如图1所示,所述服务器中可以配置有业务数据获取单元1、异常数据检测单元2、业务特征数据提取单元3、提取结果验证单元4、缺失数据估计单元5。
[0019]业务数据获取单元1主要用于将原始业务数据基于时间排序从业务系统中提取出来,存储至业务数据快照表中。所述原始业务数据指的是从不同数据源处获得的业务数据。业务系统可以对应至少一个数据源。如,所述数据源可以是指不同的开源业务系统,也可以是指金融机构内部的业务系统。若某些业务数据不能从任何系统直接获得,也可通过手工导入的方式输入至业务数据快照表中。所述业务数据快照表的表结构举例如表1所示。
[0020]表1
[0021]特征值属性属性值交易时间交易发生的实际时间业务产品代码业务产品的唯一标识符ASK价格产品卖方出价BID价格产品买方询价
MID价格中间价数据源具体数据供应商名称
[0022]可以基于预设时间区间以及预设数据量要求,从业务系统中提取指定业务产品对应的业务数据。
[0023]一些实施方式中,所述预设时间区间如可以包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间。所述参考时间可以是指所需提取业务数据的时间。如业务人员需要提取时间T下某业务产品的最优交易价格,则该时间T即可设置为参考时间。
[0024]例如,可以根据参考时间(T)、时间区间(ΔT1,ΔT2)来选取业务数据。其中,ΔT1定义了参考时间(T)之前的时间区间,可以描述为第一时间区间。ΔT2定义了参考时间(T)之后的时间区间,可以描述为第二时间区间。时间区间的长度如可以根据业务产品的流动性决定。所述业务产品的流动性取决于该业务产品交易量的大小,交易量越大,流动性越高。业务产品的流动性越高,同一时间区间内该业务产品可获得的业务数据就越多。在获取同样业务数据量的情况下,流动性越高的业务产品的时间区间设定的可以越小。当然,也可以基于其他因素来设定时间区间,或者也可以固定时间区间的长度。通过设置时间区间进行业务数据的选取,可以进一步选取有效的业务数据,提高业务特征数据提取的准确性及效率。
[0025]所述预设数据量要求可以包括第一子时间区间的第一基准数据总量、第一子时间区间中每个数据源的基准数据量、第二子时间区间的第一基准数据总量等。基准数据总量或基准数据量用于表征用于数据分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种业务数据提取方法,其特征在于,应用于服务器,所述方法包括:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;根据所述业务数据集所包含的数据源数量确定异常数据检测方式;利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。2.根据权利要求1所述的方法,其特征在于,基于预设时间区间从业务系统中获取指定业务产品对应的业务数据;其中,所述预设时间区间至少包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间。3.根据权利要求2所述的方法,其特征在于,基于预设数据量要求从所述业务系统中获取指定业务产品对应的业务数据,所述预设数据量要求至少包括第一子时间区间的第一基准数据总量、第一子时间区间中每个数据源的基准数据量、第二子时间区间的第一基准数据总量。4.根据权利要求2所述的方法,其特征在于,所述根据所述业务数据集所包含的数据源数量确定异常数据检测方式,包括:在所述业务数据集中的业务数据数量大于等于第一指定值的情况下,根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式,包括:在所述第一子时间区间所包含的数据源数量大于第二指定值的情况下,执行多数据源的异常数据检测方式;在所述第一子时间区间所包含的数据源数量小于等于第二指定值的情况下,执行单一数据源的异常数据检测方式。6.根据权利要求5所述的方法,其特征在于,执行多数据源的异常数据检测方式对所述业务数据集进行异常数据检测,包括:获取所述业务数据集在参考时间及第一子时间区间下的业务数据对应的数据源数量,作为目标数据源数量:并获取所述业务数据集中各数据源最靠近参考时间的一条业务数据,组成业务数据队列;在所述目标数据源数量大于第三指定值的情况下,采用格鲁普斯检测方法对所述业务数据队列进行异常数据检测;在所述目标数据源数量小于等于第三指定值的情况下,采用迪克逊检测方法对所...

【专利技术属性】
技术研发人员:刘颖迪袁旻忞刘远庄琴
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1