一种数据分析方法及装置制造方法及图纸

技术编号:29676097 阅读:20 留言:0更新日期:2021-08-13 21:58
本发明专利技术公开了一种数据分析方法及装置,包括;获取包含历史数据的训练集:对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析,解决了机器学习在数据因果分析中遇到的样本数量少、时变的数据分布和高复杂度的数据不能有效的分析的问题。

【技术实现步骤摘要】
一种数据分析方法及装置
本申请涉及人工智能
,具体涉及一种数据分析方法,同时涉及一种数据分析装置。
技术介绍
已有的机器学习算法对样本数量少、时变的数据分布和高复杂度的问题并不能有效的解决。比如在论文NIPS2018《Idiosyncrasiesandchallengesofdatadrivenlearninginelectronictrading》(数据驱动的学习在电子交易中的特质和难题)中讨论了随着复杂度的提升,学习空间会变得很大以致于难以识别。其次,机器学习对于小数据集进行预测十分困难,为了消除对模型质量的干扰,通常需要大量的监督学习。
技术实现思路
为解决上述问题,本申请提供一种数据分析方法,包括:获取包含历史数据的训练集;对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。优选的,将所述训练集中的数据进行分类,包括:计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。优选的,对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据,包括:定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。优选的,获取所述包含重要特征的数据中与特征向量相同的数据,包括:获取包含重要特征的数据训练集中,各个分类下数据的特征向量;去除所述包含重要特征的训练集中,各个分类下数据中包含无关特征向量的数据。优选的,通过输出的包含各个重要特征的数据,构成所述数据对应的特征树,包括:通过对训练集进行重复多次的训练,获得每个重要特征对应的数据;将多个重要特征的数据,根据各个数据特征的关系,构建所述数据对应的特征树。优选的,所述特征树的每个节点的特征用一个与向量x维度相同的向量描述。优选的,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析:包括:将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);将输入向量x与向量集进行内积,如果内积为0,则f(x)=1。如果内积为1,则f(x)=0。本申请同时提供一种数据分析装置,包括:训练集获取单元,用于获取包含历史数据的训练集;特征树构成单元,用于对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;数据分析单元,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。优选的,特征树构成单元,包括:非重要特征去除子单元,用于定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;重要特征数据获取子单元,由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。优选的,数据分析单元,包括:预测函数构建子单元,用于将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);分析子单元,用于将输入向量x与向量集进行内积,如果内积为0,则f(x)=1,如果内积为1,则f(x)=0。附图说明图1是本申请实施例提供的一种数据分析方法的流程示意图;图2是本申请实施例涉及的数据分析方法应用领域示例图;图3是本申请实施例涉及的数据集构建的示意图;图4是本申请实施例涉及的比特的叠加示意图;图5是本申请实施例涉及的搜索可逆变换A去除位置信息的示意图;图6是本申请实施例涉及的构造特征树示意图;图7是本申请实施例提供的一种数据分析装置示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。本申请提供一种数据分析方法,方法流程图如图1所示。下面对本申请实施例提供的方法进行详细说明。步骤S101,获取包含历史数据的训练集。本申请提供的技术方案是由大的数据集来预测小的数据集合。这类预测问题在很多领域都会遇到,例如天气预报中可以根据一周内某地气压随时间变化来预测当天是否下雨(降水前后中通常气压会降低)。复杂的情况例如通过股票一周的变化判断买入还是卖出;围棋的局部如何应对落子等等,如图2所示。如图3所示,小的方块代表小数据集(时间宽度设为),下面取为{0,1}。不同的小方块代表不同时刻。在小方块对应的大方块中,是以为分界,时间上往前的大数据集。大数据集就为训练集。如果设为1天,那么在历史数据中每天都会对应一个范围的数据。步骤S102,对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树。对训练集进行训练,目的在于获取训练数据对应的特征树,特征树是由多个重要特征构成的,也可以是由单个特征组成的,其中单个特征的提取不需要对数据进行分类,而多个特征的提取需要先对数据进行分类,但在实际应用中,通常都是同时提取多个特征,所以,在本申请实施例中,以提取多个特征为例,具体提取流程如下:首先,将训练集中的数据进行分类,计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。通过对数据进行分类,可以减少单次搜索的空间,由于在维度不变的线性变换下,熵几乎不变,所以取熵作为分类的标志。在概率论中,如果事件A与事件B无关,那么。对于任意特征C,设有二进制字符串作为训练集合。在下面描述中,下角表i表示训练集中的第i个向量,括号(j)表示该向量中的第j个分量/比特。分类先对归一化处理,公式为:再计算熵<本文档来自技高网...

【技术保护点】
1.一种数据分析方法,其特征在于,包括:/n获取包含历史数据的训练集;/n对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;/n将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。/n

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:
获取包含历史数据的训练集;
对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。


2.根据权利要求1所述的方法,其特征在于,将所述训练集中的数据进行分类,包括:
计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。


3.根据权利要求1所述的方法,其特征在于,对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据,包括:
定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。


4.根据权利要求1所述的方法,其特征在于,获取所述包含重要特征的数据中与特征向量相同的数据,包括:
获取包含重要特征的数据训练集中,各个分类下数据的特征向量;
去除所述包含重要特征的训练集中,各个分类下数据中包含无关特征向量的数据。


5.根据权利要求1所述的方法,其特征在于,通过输出的包含各个重要特征的数据,构成所述数据对应的特征树,包括:
通过对训练集进行重复多次的训练,获得每个重要特征对应的数据;
将多个重要特征的数据,根据各个数据特征的关系,构建所述数据对应的特征树。


6.根据权利要求1或5所述的方法,其特征在于,所述特征树的每个节点的特征用一个与向量x维度相同的向...

【专利技术属性】
技术研发人员:文凯马寅郭普拓
申请(专利权)人:北京玻色量子科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1