数据分析方法和系统技术方案

技术编号:7155096 阅读:174 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于鉴别输入数据和一个或多个条件之间的关系的数据分析。分析这种数据的一个方法是通过使用神经网络,神经网络是非线性统计数据建模工具,神经网络的结构可基于在训练阶段中通过网络的信息而变化。影响神经网络的已知问题是:当网络的容量明显超过所需参数时在过复杂或超特化系统中出现的过训练问题。本发明专利技术提供一种利用神经网络分析数据的方法,所述神经网络具有减轻与现有技术相关的问题的受约束结构。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种分析数据的方法,并且特别地涉及使用人工神经网络(ANN)来分析数据并识别输入数据和一个或多个条件之间的关系。
技术介绍
人工神经网络(ANN)或“神经网络”是包含相互连接的一组神经元的数学模型或计算模型,该数学模型或计算模型能够处理信息,以便对输入和输出之间的关系进行建模或者发现数据中的模式。因此,神经网络可以被看作一种非线性统计数据建模工具并且通常为能够基于在训练阶段流过网络的外部或内部信息来改变其结构的自适应系统。网络中的连接的强度或权重在训练期间可以更改,以便生成期望的信号流。可以构造各种类型的神经网络。例如,前馈神经网络是最简单类型的ANN中的一种,在前馈神经网络中信息仅沿一个方向移动,并且递归网络为具有双向数据流动的模型。 可使用许多其它神经网络类型。前馈网络的一种特殊变型是多层感知器,所述多层感知器使用具有非线性激活函数的三层或多层神经元(节点),并且多层感知器比单层感知器模型更强大之处在于多层感知器能够判别非线性可分的数据。在学习阶段训练神经网络的能力使得网络的各个节点/神经元之间的加权函数能被改变,使得网络能够用于对输入数据进行处理或分类。各种不同的学习模型可以用于训练神经网络,例如“监督学习”,在监督学习中,与一个或多个结果或条件相关的一组实施例数据用于训练网络,使得网络能够例如对于任何给定的输入数据来预测结果。因此,监督学习可以被看作输入数据和一个或多个结果之间的映射关系的推理。训练一个人工神经网络可包含将网络输出与期望输出进行比较,并且利用两个输出之间的误差来调节网络的节点之间的权重。在一种学习模型中,可定义代价函数C,并且训练可包括改变节点权重,直到不再能使函数C进一步最小化。通过这种方式,可以获得输入数据和结果或一系列结果之间的关系。代价函数的实施例可以为C = E , 此处(X,y)为从某分布D取得的数据对。在一个应用中,可以用来自从健康的患者以及从患有癌症的患者所取到的组织的基因表达数据来训练神经网络。在这个实施例中网络的训练可判别出为癌症的生物标记的基因或基因组。训练的网络可用于基于组织样本的分析结果来预测给定人患癌症的可能性。可使用人工神经网络的另一个
是气象学,例如,在一段时间内一系列地点处的温度或压力数据可用于确定在给定时间、给定地点发生降雨的可能性。使用人工神经网络的已知问题是当网络的容量显著超过所需自由参数时在过复杂或超特化系统中出现过训练问题。该问题可能导致神经网络建议特定参数是重要的,而实际上特定参数不重要。这是由于具有较高重要性的一组参数的判别以及参数的错误检测引起的。当对未见数据/情况进行分类时,这些参数可能具有较差的性能。本专利技术的一个目的是提供一种利用克服或基本减轻上述问题的神经网络来分析数据的方法。专利技术概述根据本专利技术的第一个方案,提供一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括如下步骤接收被分类成一个或多个预定类别的条件的输入数据; 使用输入数据训练人工神经网络,所述人工神经网络包括输入层,所述输入层具有设置为接收输入数据的一个或多个输入节点;隐含层,所述隐含层包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点;以及输出层,所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重连接至所述隐含层的节点;确定输入数据和一个或多个条件之间的关系,其中所述人工神经网络具有受约束结构,其中,(i)隐含层内的隐含节点的数量受约束;并且(ii)节点之间的连接的初始权重受限制。本专利技术提供一种分析方法,所述分析方法强调输入数据中的尤其对于预测是否可得到给定结果有用的那些参数。换句话说,与现有技术系统相比,本专利技术的方法有效地增大了各种输入参数之间的差别或“对照”,从而识别出从预测能力的观点看最相关的参数。本专利技术提供一种利用人工神经网络来确定输入数据和一个或多个条件之间的关系的方法。本专利技术中使用的ANN具有受约束结构,其中,ANN的隐含层内的节点的数量受约束,并且其中节点之间的连接的初始权重受限制。因此,本专利技术的方法提出了一种与现有技术的普通教导相反地运行的ANN结构。 在现有技术系统中,隐含层的大小在所使用的处理系统的约束最大化,而在本专利技术中使结构有意受约束以便增加网络的预测能力的有效性和高维系统内的相关和非相关的标记之间的对照。与已知系统相比较,本专利技术提供的优点在于,提高了对于识别的标记的预测性能,并且由根据本专利技术的方法所识别的那些标记与系统内的基本处理相关。优选地,为了使本专利技术的预测有效性最大化,隐含节点的数量在两个至五个的范围内。更优选地,隐含节点的数量设定为两个。优选地,节点之间的连接的初始权重具有在0. 01至0. 5的范围内的标准差。注意的是,降低标准差使得人工神经网络的预测性能较差。提升标准差减少了对网络的约束。更优选地,节点之间的连接的初始权重具有0. 1的标准差。方便的是,输入数据包括被分类成一个或多个条件(例如,癌性或健康)的数据对 (例如,基因或基因表达数据)。在基因数据的实施例中,那么基因可以被看作参数和作为相关参数值的表达数据。此外,输入数据可以被分组成多个样本,每个样本具有等同选择的数据对(例如,基因和基因表达数据可以细分多个个体的条件-健康/癌性)。神经网络的训练可以方便地包括在每个样本中选择特定参数(即,每个样本中的相同参数),并且然后使用与所选择参数相关联的参数值来训练网络。可为所选择参数记录网络的性能,并且然后可依次为样本中的每个参数重复该过程。本专利技术的第一个方案的确定步骤可包括针对已知条件对每个选择参数的记录性能进行分级,并且然后可以选出最佳表现参数。一旦已经确定多个样本中的最佳表现参数,那么进一步的选择步骤可包括将该最佳表现参数与剩余参数中的一个配对。然后,可以使用与一对所选择参数相关的参数值进一步训练网络并且记录网络的性能。如之前所述,最佳表现参数随后可以依次与剩余参数中的每一个配对。然后,可以重复选择、训练和记录步骤,依次将一个参数添加到已知最佳表现参数中,直到不获得性能的进一步实质的增加。方便的是,注意的是输入数据可以被分组成多个样本,每个样本具有等同选择的数据对,每个数据对被分类成一个或多个条件并且包括参数和相关的参数值,并且本专利技术的第一个方案的训练和确定步骤可包括在输入数据内选择参数,使用对应的参数值来训练人工神经网络并且记录人工神经网络的性能;对于输入数据内的每个参数重复;确定输入数据中的最佳表现参数;以及重复选择、重复和确定,每次重复将剩余参数中的一个添加到最佳表现参数组合中,直到人工神经网络的性能不再提高。在根据本专利技术的一个实施方案的方法的一个应用中,参数可表示基因,并且参数值可表示基因表达数据。在另一应用中,参数可表示蛋白质,并且参数值可表示活性函数。在根据本专利技术的一个实施方案的方法的其它应用中,参数可表示气象参数,例如给定地点处的温度或降雨量,并且参数值可表示相关的温度值或降雨量值。然而,注意的是,根据本专利技术的方法可应用于存在在一段之间内在不同状态下出现的大量相互作用因素的任何复杂系统。根据本专利技术的第二个方案,提供一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括接收被本文档来自技高网
...

【技术保护点】
1.一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括下列步骤:接收被分类成一个或多个预定类别的条件的输入数据;使用所述输入数据来训练人工神经网络,所述人工神经网络包括:输入层,其具有设置为接收输入数据的一个或多个输入节点;隐含层,其包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至所述输入层的所述一个或多个节点;以及输出层,其具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重的连接连接至所述隐含层的节点;确定所述输入数据和所述一个或多个条件之间的关系,其中,所述人工神经网络具有如下受约束结构:(i)所述隐含层内隐含节点的数量受约束;以及(ii)节点之间的连接的初始权重受限制。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:G·巴尔
申请(专利权)人:诺丁汉特伦特大学
类型:发明
国别省市:GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1