【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种基于正则化模型的数据整合方法及系统。
技术介绍
1、随着现代高通量生物医学仪器的快速发展,生命科学领域的数据已积累众多。例如,基因表达全景图(geo)已经收集了超过340万个样本数据。由于大量的数据积累,如何从庞大的数据池中识别出与某些疾病的发病和进展相关的稳健基因生物标记数据成为一个巨大的挑战。
2、在使用机器学习技术分析基因表达数据时,研究人员通常会面临“大p,小n”、数据异质性和低复现性三个主要问题。现有技术中,解决这三个问题的主要途径是通过元分析或集成分析来处理各种基因数据集,以使其在基因组研究中提升统计性能。其中,典型的基因数据集集成方法包括元阈值梯度下降正则化、元-lasso、元-非凸优化、数据共享lasso(dsl)和dsl2等。
3、然而,上述典型的基因数据集集成方法未充分利用外部的生物学知识,如基因-基因或蛋白质-蛋白质交互网络,从而限制数据集集成方法的性能。在对基因数据集和外部网络知识数据集的整合分析方法中,l1罚项可被应用于各种模型中处理先验的网络知识,然
...【技术保护点】
1.一种基于正则化模型的数据整合方法,其特征在于,包括:
2.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述在预设的预测模型中设置拉普拉斯正则化项和Lq范数罚项,得到DSNet模型,包括:
3.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述对所述DSNet模型进行转换得到转换后的DSNet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的DSNet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:
4.如权利要求3
...【技术特征摘要】
1.一种基于正则化模型的数据整合方法,其特征在于,包括:
2.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述在预设的预测模型中设置拉普拉斯正则化项和lq范数罚项,得到dsnet模型,包括:
3.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述对所述dsnet模型进行转换得到转换后的dsnet模型,获得第一特征算子和第二特征算子,并将所述网络知识数据集和所述基因数据集输入至转换后的dsnet模型中,输出第一特征算子所有特征维度的最优解和第二特征算子所有特征维度的最优解,包括:
4.如权利要求3所述的一种基于正则化模型的数据整合方法,其特征在于,所述利用坐标下降算法计算第一特征算子β所有特征维度的最优解和第二特征算子δd所有特征维度的最优解,包括:
5.如权利要求1所述的一种基于正则化模型的数据整合方法,其特征在于,所述根据所述第一特征算子所有特征维度的最优解和所述第二特征算子所有特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。