一种获取外周血基因模型训练数据的方法及装置制造方法及图纸

技术编号:17407496 阅读:58 留言:0更新日期:2018-03-07 05:10
本发明专利技术实施例提供的一种获取外周血基因模型训练数据的方法及装置,所述方法包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。所述装置执行上述方法。本发明专利技术实施例提供的获取外周血基因模型训练数据的方法及装置,通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据,不仅能够避免外周血基因表达绝对值在应用方面的限制,还能够对训练数据进行有效的降维,从而合理地获取到作为外周血基因模型的训练数据。

A method and device for obtaining the training data of the peripheral blood gene model

【技术实现步骤摘要】
一种获取外周血基因模型训练数据的方法及装置
本专利技术实施例涉及外周血基因
,具体涉及一种获取外周血基因模型训练数据的方法及装置。
技术介绍
近年来,生物标志物联检在肿瘤的早期诊断中的应用研究得到很大重视。当机体发生病变甚至是癌变时,干扰了正常的机体代谢,会影响外周血中各细胞组分比例的变化,还会改变红细胞、白细胞和血小板等细胞的基因表达水平。通过分析可以查找出哪些基因的表达与机体病变相关,这些基因就成为了研究肿瘤的潜在标志物。目前,较普遍的研究方式是通过比较几例或者几十例病人/正常对照的血液转录组,通过差异表达分析鉴定出一组在肿瘤病人和正常人外周血中差异表达的基因作为候选标志物,但通常差异表达的基因有很多,而受限于检测成本用于临床的标志物数量又不能太多,因此从差异表达的基因中人为选出候选标志物很可能不能代表真正群体中的情况,现有技术通过构建外周血基因模型,能够较为合理地选择候选标志物,但是由于采用的是外周血基因的绝对表达水平,而绝对的基因表达水平受标准化技术、不同批次、不同数据平台的影响很大,在应用方面的受到限制,而且现有技术的外周血基因模型需要很多外周血基因作为模型的训练数据本文档来自技高网...
一种获取外周血基因模型训练数据的方法及装置

【技术保护点】
一种获取外周血基因模型训练数据的方法,其特征在于,包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。

【技术特征摘要】
1.一种获取外周血基因模型训练数据的方法,其特征在于,包括:获取采样样本的外周血基因表达量;根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值;根据预设规则,提取所述相对值中的目标相对值,并将所述目标相对值作为外周血基因模型的训练数据。2.根据权利要求1所述的方法,其特征在于,所述根据预设算法,将每两个外周血基因表达量分别对应的数值转换为一个相对值,包括:根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值:其中,Gi为一个外周血基因表达量对应的数值、Gj为另一个外周血基因表达量对应的数值、Gij为Gi和Gj对应的相对值。3.根据权利要求1或2所述的方法,其特征在于,所述根据预设规则,提取所述相对值中的目标相对值,包括:将所述相对值输入sklearn模块,并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值;采用弹性网络对所述第一候选相对值进行降维,并将降维后的第一候选相对值作为所述相对值中的第二候选相对值;采用逻辑斯蒂回归模型对所述第二候选相对值进行二次降维,并将二次降维后的第二候选相对值作为所述相对值中的目标相对值。4.根据权利要求3所述的方法,其特征在于,所述输出结果包括每个相对值对应的分数值,相应地;所述并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值,包括:将所有分数值按照数值大小顺序依次排列;选择前N个分数值对...

【专利技术属性】
技术研发人员:方向东杨亚东张韬
申请(专利权)人:中国科学院北京基因组研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1