用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统技术方案

技术编号:15747062 阅读:79 留言:0更新日期:2017-07-03 03:43
本发明专利技术提供了一种用逻辑回归数学模型进行的基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类方法,利用血浆7个microRNA分子标志物组合的表达值,简单准确地诊断乙肝相关肝硬化。其系统的技术方案为:通过收集大量慢性乙型肝炎、乙肝相关肝硬化和健康样本血浆microRNA表达值建立数据库模块,存储用作训练集的原始数据库,及后续盲测数据;建立质量控制模块,去除由于实验误差导致的极端值;建立模型分类模块,通过特征选择等方式构建并优化逻辑回归模型,经评估选择准确率最优的模型建立最终分类方法,采用两层分类模型(健康和肝病(慢性乙型肝炎/肝硬化),慢性乙型肝炎和乙肝相关肝硬化)判定盲测样本分类。

Method and system for classifying hepatitis B related cirrhosis based on levels of plasma microRNA marker expression using a logistic regression mathematical model

The present invention provides a method for classification of HBV related cirrhosis serum microRNA marker expression level based on logistic regression model, using 7 microRNA plasma expression of the markers combination value, simple and accurate diagnosis of HBV related liver cirrhosis. The technical proposal of the system: establish a database module by collecting a large number of chronic hepatitis B and hepatitis B related cirrhosis and healthy samples of plasma microRNA expression values, stored as the original database of the training set, and the subsequent blind test data; the establishment of quality control module, due to experimental error caused by the removal of extreme value; model classification module, through feature choose the way of building and optimizing the logistic regression model, establish the final classification accuracy assessment method by selecting the optimal model, using two layer classification model (health and disease (chronic hepatitis / cirrhosis), chronic hepatitis B and hepatitis B related cirrhosis) to determine the blind sample classification.

【技术实现步骤摘要】
用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统
本专利技术涉及乙肝相关肝硬化的分类方法和系统,具体来说涉及用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统。
技术介绍
我国是病毒性肝炎大国,尤以乙肝患者人数居多。其中乙肝携带者约占总人口的8-10%,其中约有25%发展为慢性乙型肝炎、乙肝相关肝硬化,10%左右发展为肝细胞肝癌(HCC)。乙型肝炎病毒的感染不仅给人民带来了严重的健康危害,而且治疗等疾病相关费用也给患者和国家、社会带来巨大经济负担。目前肝硬化临床诊断手段主要包括组织病理活检、FibroScan、彩色多普勒超声、CT、胃镜、血浆学指标等。但是这些单一技术或指标的临床应用都存在一些局限性和不足,均不能准确、及时诊断肝硬化进展程度,使得对肝硬化的分期诊断仍有赖于肝穿活检病理标准,临床迫切需要一个/一组方便、及时、无创的肝纤维化、肝硬化分级诊断指标。microRNA(miRNA)最初发现于1993年,随着高通量测序技术的发展,近年来逐渐成为研究热点。microRNA能够结合于基因序列的侧翼区域阻遏或抑制靶mRNA的翻译,且具有高度的保守性、时序性和组织特异性。近年来的研究表明,肝炎病毒感染、慢性肝炎、肝硬化和microRNA密切相关,microRNA可以通过作用于病毒本身或作用于免疫系统从而影响疾病进程。研究表明,病毒感染的肝病患者microRNA表达谱和健康人组织的microRNA表达谱有明显不同。研究者们还发现在人类血清/血浆中存在大量稳定的小的核糖核酸分子,即microRNA,这为临床上通过检测血清/血浆中microRNA分子表达量诊断肝硬化奠定了基础。综上所述,研究者们虽然已在该领域进行了研究,但是仍面临许多困难和挑战,均未能准确、及时诊断肝硬化进展程度。运用血清/血浆中microRNA标志物表达水平高低,为肝硬化诊断研究提供了新的思路。但目前尚未有关于肝硬化microRNA标志物或其组合表达变化的深入研究,仍需寻找可有效判断肝硬化的microRNA标志物或其组合,特别是能将乙肝相关肝硬化与慢性乙型肝炎区别开来的microRNA标志物或其组合,以及基于得到的microRNA标志物组合表达水平,用数学模型构建一种合适且准确的乙肝相关肝硬化分类方法和系统。与传统的肝硬化以及乙型肝炎的诊断方法相比,使用microRNA标志物或其组合的方法具有更快速准确的优点。
技术实现思路
本专利技术的一个目的是提供了一种用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法,包括以下步骤:a)使用训练集数据,建立原始数据库;b)将上述训练集采用两层分类模型;c)通过对上述训练集进行特征选择和数据优化构建并优化所述的逻辑回归数学模型;d)进行预测评估;e)根据预测评估结果选择最优模型并建立最终的分类方法;f)收集独立的测试集样本用于模型的检验和评估。优选地,所述的训练集包含基于血浆microRNA标志物表达的Ct值和临床指标的样本数据;所述的两层分类模型包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康分类模型(模型DH)以及关于慢性乙型肝炎和乙肝相关肝硬化分类模型(模型AB);所述的特征选择采用信息增益算法对训练集特征进行排序来选择贡献度高的特征作为候选microRNA标志物;所述的数据优化的方式为对所述的训练集中的数据进行质量控制和去端值,去掉试验中由于误差导致的极端值,用逻辑回归方法构建所述的逻辑回归数学模型,将多个microRNA分子标志物组合用公式表达:h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn其中x1,x2,...,xn是所选取的n个特征,θ0,θ1,θ2,...θn是通过训练集得到的各个特征的系数。本专利技术的第二个目的是提供了一种用于肝病分类的分类的系统,包括数据库模块、质量控制模块、模型分类模块,其中:所述数据库模块包含作为训练集的原始数据库以及后续收集的盲测数据库;所述质量控制模块为将由于实验误差导致的极端值去除的模块;所述模型分类模块包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康之间的分类模型(模型DH)以及关于慢性乙型肝炎和乙肝相关肝硬化之间的分类模型(肝炎或肝硬化)。所述的肝病为乙肝相关肝病。优选地,所述的数据库模块中包含486例用作训练集的原始数据库以及后续收集的盲测数据,其中每一例的样本包括miR-122-5p、miR-21-5p、miR-146a-5p、miR-29c-3p、miR-381-3p、miR-223和miR-22-3p的Ct表达值,以及临床指标转氨酶(ALT)、白蛋白(ALB)和HBV病毒DNA的值。所述质量控制模块通过质量控制将由于实验误差导致的极端值去除,所述的非极端值的范围定义为:模型DH中,标志物miR-381-3p的Ct值范围为19.40-32.10,标志物miR-22-3p的Ct值范围为16.72-26.86,标志物miR-146a-5p的Ct值范围为19.32-29.16;模型AB中,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物miR-21-5p为16.79-24.47,标志物miR-146a-5p为19.31-26.64,标志物miR-29c-3p为18.57-26.18,标志物miR-381-3p为20.13-27.87,标志物miR-223为15.35-24.15,标志物miR-22-3p为16.71-23.95。模型分类模块的建模的算法为逻辑回归将多个microRNA分子标志物组合用公式表达,其中区分健康和肝病(DH)的算法公式为:hDH(x)=-1.972X(miR-381-3p)+0.0079X(miR-22-3p)–1.6462X(miR-146a-5p)+74.495根据最大概率分类可确定的阈值为:D肝病(慢性乙型肝炎/肝硬化)类:hDH(x)>0;H健康类:hDH(x)<0;其中区分乙肝相关肝硬化和慢性乙型肝炎(AB)算法公式为:hAB(x)=1.1925X(miR-122-5p)+0.3978X(miR-21-5p)+0.3726X(miR-146a-5p)–1.7062X(miR-29c-3p)+0.1303X(miR-223)+0.8156X(miR-22-3p)–0.1432Xalb–0.3608Xdna–0.0041Xalt–23.9918A乙肝相关肝硬化类:hAB(x)>0B慢性乙型肝炎类:hAB(x)<0。本专利技术的用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统的优点是提供了一种利用数据库算法和公式,使用microRNA标志物表达Ct值及常见临床指标,自动快速提供乙肝相关肝硬化和慢性乙型肝炎的分类以及结果。附图说明图1示出了本专利技术的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法的建立的实施例的流程图。图2示出了本专利技术的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中单层的分类本文档来自技高网
...
用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统

【技术保护点】
一种用逻辑回归数学模型进行的基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类方法,包括以下步骤:a)收集训练集数据,建立原始数据库;b)将所述的训练集采用两层分类模型进行分类;c)通过对所述的训练集进行特征选择和数据优化构建并优化所述的逻辑回归数学模型;d)对所述的模型进行预测评估;e)根据预测评估结果选择最优模型并建立最终的分类方法;f)收集独立的测试集样本进行模型的检验和评估。

【技术特征摘要】
1.一种用逻辑回归数学模型进行的基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类方法,包括以下步骤:a)收集训练集数据,建立原始数据库;b)将所述的训练集采用两层分类模型进行分类;c)通过对所述的训练集进行特征选择和数据优化构建并优化所述的逻辑回归数学模型;d)对所述的模型进行预测评估;e)根据预测评估结果选择最优模型并建立最终的分类方法;f)收集独立的测试集样本进行模型的检验和评估。2.根据权利要求1所述的分类方法,其特征在于,所述的训练集包含基于血浆microRNA标志物表达的Ct值和临床指标的样本数据。3.根据权利要求1所述的分类方法,其特征在于,所述的两层分类模型包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康分类模型以及关于慢性乙型肝炎和乙肝相关肝硬化分类模型。4.根据权利要求1所述的分类方法,其特征在于,所述的特征选择采用信息增益算法对训练集特征进行排序,选择贡献度高的特征作为候选microRNA标志物。5.根据权利要求1所述的分类方法,其特征在于,所述的数据优化的方式为对所述的训练集中的数据进行质量控制和去端值,去掉试验中由于误差导致的极端值。6.根据权利要求1所述的分类方法,其特征在于,用逻辑回归方法构建所述的逻辑回归数学模型,将多个microRNA分子标志物组合用公式表达:h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn其中x1,x2,...,xn是所选取的n个特征,θ0,θ1,θ2,...θn是通过训练集得到的各个特征的系数。7.一种用于肝病分类的系统,包括数据库模块、质量控制模块、模型分类模块,其中:所述数据库模块包含作为训练集的原始数据库以及后续收集的盲测数据库;所述质量控制模块为将由于实验误差导致的极端值去除的模块;所述模型分类模块包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康之间的分类模型以及关于慢性乙型肝炎和乙肝相关肝硬化之间的分类模型。8.根据权利要求7所述的系统,其特征在于,所述的数据库模块中包含10例以上、优选50例以上、更优选200例以上用作训练集的原始数据库以及后续收集的盲测数据库,其中每一例的数据包括miR-122-5...

【专利技术属性】
技术研发人员:李亦学张卫红侯婷靳文静王振孙翔英
申请(专利权)人:北京旷博生物技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1