因子聚类方法与装置、设备与存储介质制造方法及图纸

技术编号:17486850 阅读:22 留言:0更新日期:2018-03-17 10:58
本发明专利技术提供一种因子聚类方法和装置、设备与存储介质,所述方法包括:从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;将所述子样本按同一特征量进行归集;计算所述多个子样本的因子参数值;归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;将所述同类因子按定义参数值进行聚类,生成多个聚类因子。采用本发明专利技术因子聚类方法和系统生成初级策略,减少了初级策略生成量及相应的回测运算,进一步减少系统资源的负担,降低了策略运算时间,提高了策略生成效率。

Factor clustering method and device, equipment and storage medium

The present invention provides a method and apparatus, cluster device and storage medium, the method comprises the following steps: extracting a plurality of data samples from multiple data samples, with a characteristic quantity of each sample contains the data for the sub sample time disjoint data set; the sub samples according to the same feature the amount of imputation; factor parameter calculation of the plurality of sub sample values; the collection of similar factors are the same features of quantum samples, and according to the same factor parameter sort; the same factor according to the definition of parameter values by clustering to generate multiple clustering factor. By adopting the factor clustering method and the primary strategy generated by the system, the primary strategy generation and the corresponding back calculation operation are reduced, which further reduces the burden of the system resources, reduces the operation time of the strategy, and improves the efficiency of policy generation.

【技术实现步骤摘要】
因子聚类方法与装置、设备与存储介质
本专利技术涉及金融领域,尤其涉及金融数据处理领域中关于因子聚类方法装置、设备和存储介质。技术背景随着理财观念的不断普及,越来越多的投资理财产品应运而生,如基金、债券、股票以及保险等金融产品逐渐在金融市场中发展成熟,投资理财也不再是富人们的专利,普通百姓也改变了传统的理财观念,而不只是选择把资金存放在银行。但是对于普通百姓,尤其是对于那些没有经济金融专业背景的人们来说,纷繁复杂的投资理财产品常常会让他们感到不知所措,从而只能盲目地跟风。此外,购买理财产品时,首先需要读懂产品说明书,包括说明书中产品投资方向、风险等级以及相应的附加条款,而通常各种金融产品说明书上的用词术语都比较专业,投资者如不具备一定的知识基础则很容易被忽悠,这就需要该领域的专业人士来为这些投资者进行相关方面的投资指导和规划。针对上述问题,目前市面上已经出现了不少量化交易投资理财的平台,为个人或者企业投资者在制定投资策略、理财规划等方面提供了许多数据分析和建议。现有的量化交易策略大多数经过金融工程师编写产生,并通过回测历史数据进行甄别策略好坏的方法,这种方法所产生的策略耗时耗力,并且大多数都是无效策略。还有一种方法是通过定义多因子进行因子有效性检验,然后进行人工考察判别因子的有效性,此种方法也需要有经验的人员,效率低下,难以适应瞬息多变的市场。总之,若能提供一种基于自动因子聚类的量化策略生成方法,用于产生较好的模板,减少大量数据参与策略生成和运算,降低计算机运算时间,将极大提高工作效率,让策略快速落地。
技术实现思路
本专利技术提供一种因子聚类方法,用以解决现有技术中策略生成运算时间长,效率低的问题。为解决上述问题,本专利技术公开了一种因子聚类方法,适于在因子聚类设备中执行,包括以下步骤:从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;将所述子样本按同一特征量进行归集;计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量、形状或者形态的特征值;归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;将所述同类因子按定义参数值进行聚类,生成多个聚类因子。在所述将所述子样本按同一特征量进行归集步骤后,所述计算所述多个子样本的因子参数值步骤前,还包括:将相同特征量的子样本进行排列的步骤。所述将相同特征量的子样本进行排列的步骤,具体包括:将所述相同特征量的子样本以起始时间先后为优先顺序排列,以所述数据样本排序为次优顺序排列。本专利技术一种因子聚类方法,还包括策略生成步骤,对所述聚类因子进行排列组合生成多个策略,所述策略至少包含一个所述聚类因子。本专利技术还提供了一种因子聚类装置,适于驻留在因子聚类设备中,该装置包括以下模块:数据提取模块,用于从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;特征量归集模块,用于将所述子样本按同一特征量进行归集;计算模块,用于计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量、形状或者形态的特征值;同类因子归集排序模块,用于归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;因子聚类模块,用于将所述同类因子按定义参数值进行聚类,生成多个聚类因子。所述子样本排列模块具体用于将所述相同特征量的子样本以起始时间先后为优先顺序排列,以所述数据样本排序为次优顺序排列。本专利技术还提供了一种因子聚类设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行因子聚类方法中的任一方法的指令。本专利技术还提供了一种计算机存储介质,所述存储介质存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由因子聚类设备执行时,使得所述因子聚类设备执行因子聚类方法中的任一方法。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过对因子按定义范围聚类,对聚类因子进行排列组合生成初级策略,减少了初级策略生成量及相应的回测运算,进一步减少系统资源的负担,降低了策略运算时间,提高了策略生成效率。附图说明说明书附图图1是本专利技术因子聚类方法流程图。图2是本专利技术因子聚类装置构架图。图3是本专利技术因子聚类设备框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术可用于众多通用或专用的计算机系统环境或配置中如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算机环境等。本专利技术因子聚类方法,适用但不局限于证券交易市场中的股票、期货、外汇、期权等交易品种。数据样本可从公共平台获取,用户可根据需要选定金融数据样本标的或某时间区域的金融数据样本标的。本专利技术在量化交易平台上经用户定义由计算机自动执行指令完成因子聚类、聚类因子经排列组合生成多个初级策略,以该初级策略作为模板进行回测优化生成交易策略。实施例一参考图1,示出了本专利技术一种因子聚类方法实施例一的流程图,以股票因子聚类为例,本实施例可理解为本专利技术应用于实际中的一个具体案例,包括以下步骤:步骤101,从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合。在本实施例中,多个数据样本为用户定义的某时间段的多支股票的行情数据,数据样本包括但不限于股票的开盘价、收盘价、最高价、最低价、成交量等特征量,上述数据样本可从数据公共服务平台或共享平台获取。从每支股票数据样本的各特征量中抽取一个或多个子样本,从每支股票的同一特征量中抽取的子样本为时间不相交的数据集合,并至少抽取一个样本。具体地,在公共平台上获取A、B、C三支股票前一年的行情数据作为数据样本,从A股票前一年数据中的开盘价中随机抽取时间不相交的若干时间段数据集合,比如第1周,第20周,第48周,第52周开盘价的数据子样本,以上1周时间段内的开盘价为一个子样本数据,上述时间段的长短可随机定义,并不一定需要相同。同样地,抽取A股票收盘价、最高价、最低价、成交量等行情数据的若干时间段数据,组成A股票的行情数据子样本集合。依此步骤获得股票B、C的行情数据子样本集合,不同股票的相同特征量的时间段可自定义抽取,可选相同时间段数据或不同时间段数据,但至少抽取一个子样本。从样本中抽取少量数据作为子样本,大大降低了计算机系统的运算量,减少系统资源的负担。步骤102,将子样本按同一特征量进行归集。将步骤101抽取的ABC三支股票的行情数据子样本集合按相同特征量进行归集,如归集ABC股票开盘价的数据子样本、收盘价的数据子样本、最高价的数据子样本、最低价的数据子样本、成交量的数据子样本,获得多个不同特征量的行情数据子样本集合。可选地,本专利技术在将行情数据子样本集合按同一特征量进行归集步骤后,还包括将相同特征量的子样本进行排列的步骤。通过排序可以根据用户定义的排序的范围进行有效的因子归集,大大提高归本文档来自技高网...
因子聚类方法与装置、设备与存储介质

【技术保护点】
因子聚类方法,适于在因子聚类设备中执行,其特征在于,包括以下步骤:从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;将所述子样本按同一特征量进行归集,所述特征量包括但不限于开盘价、收盘价、最高价、最低价、成交量;计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量,形状或者形态的特征值;归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

【技术特征摘要】
1.因子聚类方法,适于在因子聚类设备中执行,其特征在于,包括以下步骤:从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;将所述子样本按同一特征量进行归集,所述特征量包括但不限于开盘价、收盘价、最高价、最低价、成交量;计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量,形状或者形态的特征值;归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;将所述同类因子按定义参数值进行聚类,生成多个聚类因子。2.如权利要求1所述的因子聚类方法,其特征在于,所述的因子的统计量,包括但不限于平均值、方差、标准差、最高值、最低值、中间值。3.如权利要求1所述的因子聚类方法,其特征在于,所述的因子的形状或者形态的特征值通过计算相似度描述。4.如权利要求3所述的因子聚类方法,其特征在于,所述因子的形状或者形态的特征值相似度计算方法包括:设定多组标准形态,所述形态包括K线图反应的最高价、开盘价、收盘价和最低价;计算各子样本形态与所述多组标准形态的相似度,所述相似度计算方法包括欧氏距离。5.如权利要求1所述的因子聚类方法,其特征在于,在所述将所述子样本按同一特征量进行归集步骤后,所述计算所述多个子样本的因子参数值步骤前,还包括:将相同特征量的子样本进行排列的步骤。6.如权利要求5所述的因子聚类方法,其特征在于,所述将相同特征量的子样本进行排列的步骤,具体包括...

【专利技术属性】
技术研发人员:李贵
申请(专利权)人:上海宽全智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1