一种基因网络表达状态的二值化观测方法及系统技术方案

技术编号:37334640 阅读:19 留言:0更新日期:2023-04-21 23:13
本发明专利技术公开一种基因网络表达状态的二值化观测方法及系统,涉及生命科学领域的细胞基因表达量测定技术领域,方法包括:根据基因字典和被测细胞的基因维度确定随机测量矩阵,进而确定随机测量矩阵对应的多组基因名称组;针对所述随机测量矩阵对应的每组基因名称组,采用T7分别定制正值引物和负值引物,并分别进行标记,得到对应的正值标记引物和负值标记引物;采用正值标记引物对正值基因名称小组对应的基因数据进行扩增,采用负值标记引物对负值基因名称小组对应的基因数据进行扩增,以得到综合基因扩增数据,对其进行标记观测得到基因观测数据;根据基因观测数据和基因字典计算被测细胞的基因表达量。本发明专利技术提高了基因表达量测量稳定性。测量稳定性。测量稳定性。

【技术实现步骤摘要】
一种基因网络表达状态的二值化观测方法及系统


[0001]本专利技术涉及生命科学领域的细胞基因表达量测定
,特别是涉及一种基因网络表达状态的二值化观测方法及系统。

技术介绍

[0002]随着生命科学技术的进步,基于基因表达量对细胞状态进行研究,能够得到更加精确的数据结果。目前存在的获取基因表达量的常见方法是通过基因测序匹配细胞中所有的RNA序列,进而统计出相同的基因片段,通过数据处理得到基因的表达量;此外,常用的还有PCR,qPCR,数字PCR的方法,通过对细胞内的全部RNA进行测量,最终获得相对定量或绝对定量的基因表达量。
[0003]在使用基因测序(NGS等)的方式获取基因表达量的过程中,需要使用特定的仪器或将样本邮寄到公司测量;并且,获得的测序数据需要通过算法转换为对应的基因表达量。而上述过程中,获取基因表达量将花费数周时间,具有较高的成本。在使用常用的PCR和qPCR仪器时,一般只能配备96孔板或384孔板,传统基因测序和PCR方法均无法在使用单个孔板进行实验,即无法在一台PCR仪器中同时获得基因表达谱所需基因维度的基因数据,大大提升了实验的时间和成本。
[0004]同时,目前存在一些对于基因进行降维观测的理论方式,可以快速获取细胞中部分基因的表达量,如神经网络降维方式,通过部分基因测量结合早期分析数据和生物学关系,推断剩余基因表达谱等。上述方式可以在理论层面上降低采样率,但是目前存在的降维方式,均存在数据可信度低、设计试验方案流程复杂、无法同时保留基因数据的线性信息与非线性信息、成本较高等问题,限制了上述方法在实际中的应用场景。

技术实现思路

[0005]本专利技术的目的是提供一种基因网络表达状态的二值化观测方法及系统,降低基因表达测量出错率,提高基因表达量的测量稳定性。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种基因网络表达状态的二值化观测方法,包括:
[0008]根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是对样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;
[0009]根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;
[0010]针对所述随机测量矩阵对应的每组基因名称组,采用T7分别定制正值引物和负值引物;所述正值引物对应所述正值基因名称小组,所述负值引物对应所述负值基因名称小组;
[0011]对所述正值引物和所述负值引物分别进行标记,以得到对应的正值标记引物和负值标记引物;
[0012]采用所述正值标记引物对所述正值基因名称小组对应的基因数据进行扩增,采用所述负值标记引物对所述负值基因名称小组对应的基因数据进行扩增,以得到综合基因扩增数据;
[0013]对所述综合基因扩增数据进行标记观测,以得到基因观测数据;所述基因观测数据包括正值观测数据和负值观测数据;
[0014]根据所述基因观测数据和所述基因字典,计算所述被测细胞的基因表达量。
[0015]可选地,所述根据基因字典和被测细胞的基因维度,确定随机测量矩阵,具体包括:
[0016]根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵;
[0017]根据被测细胞的基因维度确定被测细胞的多维度基因测序数据;
[0018]将所述被测细胞的多维度基因测序数据输入至基因字典,以得到稀疏参考测量矩阵;
[0019]将所述初步随机矩阵与所述稀疏参考测量矩阵进行偏差计算,得到偏差结果;
[0020]当所述偏差结果未处于预设偏差范围内时,返回根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵的步骤;
[0021]当所述偏差结果处于预设偏差范围内时,所述初步随机矩阵为随机测量矩阵。
[0022]可选地,所述根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵,具体包括:
[0023]基于有限等距条件,根据预设稀疏度和被测细胞的基因维度,计算基因整体采样率和基因单行采样率;
[0024]根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵。
[0025]可选地,所述基因整体采样率的计算公式为:
[0026],或,;
[0027]所述基因单行采样率的计算公式为:
[0028];
[0029]其中,表示基因整体采样率,b表示基因单行采样率,K表示预设稀疏度,n表示被测细胞的基因维度,s的取值范围为0.1%

1%。
[0030]可选地,所述基因字典的训练过程,具体包括:
[0031]获取样本集和当前迭代次数;
[0032]根据所述样本集,随机生成初级基因字典矩阵和初级活跃度矩阵;
[0033]对所述初级基因字典矩阵依次进行迭代计算和标准化处理,以得到次级基因字典矩阵;
[0034]采用正交匹配跟踪算法,对所述初级活跃度矩阵进行迭代计算,以得到次级活跃度矩阵;
[0035]将所述当前迭代次数更新为当前迭代次数+1;
[0036]判断所述次级基因字典矩阵和所述次级活跃度矩阵是否满足预设迭代结束条件,以及判断所述当前迭代次数是否达到预设迭代次数;
[0037]当所述次级基因字典矩阵和所述次级活跃度矩阵满足预设迭代结束条件,或者,所述当前迭代次数达到预设迭代次数时,输出所述次级基因字典矩阵和所述次级活跃度矩阵;所述次级基因字典矩阵和所述次级活跃度矩阵构成基因字典;
[0038]当所述次级基因字典矩阵和所述次级活跃度矩阵不满足预设迭代结束条件,并且,所述当前迭代次数未达到预设迭代次数时,返回根据所述样本集,随机生成初级基因字典矩阵和初级活跃度矩阵的步骤。
[0039]可选地,对初级基因字典矩阵进行迭代计算的公式为:
[0040];
[0041]其中,U1表示迭代后的初级基因字典矩阵,U表示初级基因字典矩阵,表示转置,X
i
表示样本集中第i个样本的多维度基因测序数据,W
i
表示与X
i
对应的活跃度数据,表示惩罚项,w表示由W
i
构成的矩阵,N表示样本集中样本的数量,表示矩阵的1范数。
[0042]可选地,所述采用正交匹配跟踪算法,对所述初级活跃度矩阵进行迭代计算,以得到次级活跃度矩阵,具体包括:
[0043]确定正交匹配跟踪算法的参数初始值;所述参数初始值包括初始残差、支撑索引集和迭代初始值;
[0044]根据所述初始残差和所述初级活跃度矩阵,确定最大相关的索引;
[0045]将所述最大相关的索引加入至所述支撑索引集,以得到更新后的支撑索引集;
[0046]根据所述更新后的支撑索引集和所述初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因网络表达状态的二值化观测方法,其特征在于,所述二值化观测方法包括:根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是对样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;针对所述随机测量矩阵对应的每组基因名称组,采用T7分别定制正值引物和负值引物;所述正值引物对应所述正值基因名称小组,所述负值引物对应所述负值基因名称小组;对所述正值引物和所述负值引物分别进行标记,以得到对应的正值标记引物和负值标记引物;采用所述正值标记引物对所述正值基因名称小组对应的基因数据进行扩增,采用所述负值标记引物对所述负值基因名称小组对应的基因数据进行扩增,以得到综合基因扩增数据;对所述综合基因扩增数据进行标记观测,以得到基因观测数据;所述基因观测数据包括正值观测数据和负值观测数据;根据所述基因观测数据和所述基因字典,计算所述被测细胞的基因表达量。2.根据权利要求1所述的基因网络表达状态的二值化观测方法,其特征在于,所述根据基因字典和被测细胞的基因维度,确定随机测量矩阵,具体包括:根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵;根据被测细胞的基因维度确定被测细胞的多维度基因测序数据;将所述被测细胞的多维度基因测序数据输入至基因字典,以得到稀疏参考测量矩阵;将所述初步随机矩阵与所述稀疏参考测量矩阵进行偏差计算,得到偏差结果;当所述偏差结果未处于预设偏差范围内时,返回根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵的步骤;当所述偏差结果处于预设偏差范围内时,所述初步随机矩阵为随机测量矩阵。3.根据权利要求2所述的基因网络表达状态的二值化观测方法,其特征在于,所述根据预设稀疏度和被测细胞的基因维度,构建初步随机矩阵,具体包括:基于有限等距条件,根据预设稀疏度和被测细胞的基因维度,计算基因整体采样率和基因单行采样率;根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵。4.根据权利要求3所述的基因网络表达状态的二值化观测方法,其特征在于,所述基因整体采样率的计算公式为:,或,;所述基因单行采样率的计算公式为:;
其中,表示基因整体采样率,b表示基因单行采样率,K表示预设稀疏度,n表示被测细胞的基因维度,s的取值范围为0.1%

1%。5.根据权利要求1所述的基因网络表达状态的二值化观测方法,其特征在于,所述基因字典的训练过程,具体包括:获取样本集和当前迭代次数;根据所述样本集,随机生成初级基因字典矩阵和初级活跃度矩阵;对所述初级基因字典矩阵依次进行迭代计算和标准化处理,以得到次级基因字典矩阵;采用正交匹配跟踪算法,对所述初级活跃度矩阵进行迭代计算,以得到次级活跃度矩阵;将所述当前迭代次数更新为当前迭代次数+1;判断所述次级基因字典矩阵和所述次级活跃度矩阵是否满足预设迭代结束条件,以及判断所述当前迭代次数是否达到预设迭代次数;当所述次级基因字典矩阵和所述次级活跃度矩阵满足预设迭代结束条件,或者,所述当前迭代次数达到预设迭代次数时,输出所述次级基因字典矩阵和所述次级活跃度矩阵;所述次级基因字典矩阵和所述次级活跃度矩阵构成基因字典;当所述次级基因字典矩阵和所述次级活跃度矩阵不满足预设迭代结束条件,并且,所述当前迭代次数未达到预设迭代次数时,返回根据所述样本集,随机生成初级基因字典矩阵和初级活跃度矩阵的步骤。6.根据权利要求5所述的基因网络表达状态的二值化观测方法,其特征在于,对初级基因字典矩阵进行迭...

【专利技术属性】
技术研发人员:高会军杜奕辉佟明斯姜蒙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1