一种获取外周血基因模型训练数据的方法及装置制造方法及图纸

技术编号:17407496 阅读:33 留言:0更新日期:2018-03-07 05:10
本发明专利技术实施例提供的一种获取外周血基因模型训练数据的方法及装置,所述方法包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。所述装置执行上述方法。本发明专利技术实施例提供的获取外周血基因模型训练数据的方法及装置,通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据,不仅能够避免外周血基因表达绝对值在应用方面的限制,还能够对训练数据进行有效的降维,从而合理地获取到作为外周血基因模型的训练数据。

A method and device for obtaining the training data of the peripheral blood gene model

【技术实现步骤摘要】
一种获取外周血基因模型训练数据的方法及装置
本专利技术实施例涉及外周血基因
,具体涉及一种获取外周血基因模型训练数据的方法及装置。
技术介绍
近年来,生物标志物联检在肿瘤的早期诊断中的应用研究得到很大重视。当机体发生病变甚至是癌变时,干扰了正常的机体代谢,会影响外周血中各细胞组分比例的变化,还会改变红细胞、白细胞和血小板等细胞的基因表达水平。通过分析可以查找出哪些基因的表达与机体病变相关,这些基因就成为了研究肿瘤的潜在标志物。目前,较普遍的研究方式是通过比较几例或者几十例病人/正常对照的血液转录组,通过差异表达分析鉴定出一组在肿瘤病人和正常人外周血中差异表达的基因作为候选标志物,但通常差异表达的基因有很多,而受限于检测成本用于临床的标志物数量又不能太多,因此从差异表达的基因中人为选出候选标志物很可能不能代表真正群体中的情况,现有技术通过构建外周血基因模型,能够较为合理地选择候选标志物,但是由于采用的是外周血基因的绝对表达水平,而绝对的基因表达水平受标准化技术、不同批次、不同数据平台的影响很大,在应用方面的受到限制,而且现有技术的外周血基因模型需要很多外周血基因作为模型的训练数据,缺少对训练数据有效的降维方法,无法进行临床应用。因此,如何避免外周血基因表达绝对值在应用方面的限制,并对训练数据进行有效的降维,从而合理地获取到作为外周血基因模型的训练数据,成为亟须解决的问题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种获取外周血基因模型训练数据的方法及装置。第一方面,本专利技术实施例提供一种获取外周血基因模型训练数据的方法,所述方法包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。第二方面,本专利技术实施例提供一种获取外周血基因模型训练数据的装置,所述装置包括:获取单元,用于获取采样样本的外周血基因表达量;转换单元,用于根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;提取单元,用于根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。第三方面,本专利技术实施例提供另一种获取外周血基因模型训练数据的装置,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。本专利技术实施例提供的获取外周血基因模型训练数据的方法及装置,通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据,不仅能够避免外周血基因表达绝对值在应用方面的限制,还能够对训练数据进行有效的降维,从而合理地获取到作为外周血基因模型的训练数据。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例获取外周血基因模型训练数据的方法流程示意图;图2为本专利技术实施例基于数据集GSE16443的模型分类效果图;图3为本专利技术实施例基于数据集GSE11545的模型分类效果图;图4为本专利技术实施例获取外周血基因模型训练数据的装置结构示意图;图5为本专利技术实施例提供的装置实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例获取外周血基因模型训练数据的方法流程示意图,如图1所示,本专利技术实施例提供的一种获取外周血基因模型训练数据的方法,包括以下步骤:S1:获取采样样本的外周血基因表达量。具体的,装置获取采样样本的外周血基因表达量。基因表达(geneexpression)是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。外周血基因表达量是基因表达的量化数值。S2:根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值。具体的,装置根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值。可以根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值:其中,Gi为一个外周血基因表达量对应的数值、Gj为另一个外周血基因表达量对应的数值、Gij为Gi和Gj对应的相对值。举例说明如下:采样样本1的外周血基因表达量有10个,分别为a、b、c、d、e、f、g、h、i、j。将这些外周血基因表达量两两组合可以得到45对相对值(去重复),这些相对值由数值0或1组成,需要说明的是:可以通过构建矩阵来表示多个采样样本的外周血基因表达量,该矩阵的列表示不同的采样样本,该矩阵的行表示两个外周血基因表达量对应的一个相对值,以一个样本为例:a与b-j依次两两组合,对应的相对值依次为:[011000111]T其中ab对应上述向量的第一个“0”、ac对应上述向量的第二个“1”等等,不再赘述。在上述向量的最后一个数值后,还可以将b与c-j依次两两组合,并获取对应的相对值,依次类推,可以组成45行。S3:根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。具体的,装置根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。将上述的相对值输入sklearn模块,sklearn模块的输出结果可以是每个相对值对应的分数值,将分数值按照数值大小顺序依次排列,选择前N个分数值对应的相对值作为上述相对值中的第一候选相对值,举例说明如下:将分数值按照数值大小顺序依次排列,选择前10(N=10)个分数值对应的相对值作为上述相对值中的第一候选相对值。还可以是:获取所有分数值的个数;根据所有分数值的个数和预设比值(可根据实际情况自主设置),获取第一候选相对值的个数M;在所有分数值中选择数值较大的M个分数值对应的相对值作为上述相对值中的第一候选相对值,举例说明如下:获取所有分数值的个数(参照上述举例为45个);预设比值可选为20%,45×20%=9,即第一候选相对值的个数M=9;在这45个分数值中选择数本文档来自技高网...
一种获取外周血基因模型训练数据的方法及装置

【技术保护点】
一种获取外周血基因模型训练数据的方法,其特征在于,包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。

【技术特征摘要】
1.一种获取外周血基因模型训练数据的方法,其特征在于,包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。2.根据权利要求1所述的方法,其特征在于,所述根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值,包括:根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值:其中,Gi为一个外周血基因表达量对应的数值、Gj为另一个外周血基因表达量对应的数值、Gij为Gi和Gj对应的相对值。3.根据权利要求1或2所述的方法,其特征在于,所述根据预设规则,提取所述相对值中的目标相对值,包括:将所述相对值输入sklearn模块,并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值;采用弹性网络对所述第一候选相对值进行降维,并将降维后的第一候选相对值作为所述相对值中的第二候选相对值;采用逻辑斯蒂回归模型对所述第二候选相对值进行二次降维,并将二次降维后的第二候选相对值作为所述相对值中的目标相对值。4.根据权利要求3所述的方法,其特征在于,所述输出结果包括每个相对值对应的分数值,相应地;所述并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值,包括:将所有分数值按照数值大小顺序依次排列;选择前N个分数值对...

【专利技术属性】
技术研发人员:方向东杨亚东张韬
申请(专利权)人:中国科学院北京基因组研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1