一种基于投票集成学习的心电数据智能分类方法技术

技术编号:23779653 阅读:49 留言:0更新日期:2020-04-14 20:48
本发明专利技术的基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:a).数据预处理;b).建立logistic回归模型;c).建立决策树模型;d).建立一个支持向量机;e).建立朴素贝叶斯模型;f).建立神经元模型;g).建立k邻近模型;h).模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。本发明专利技术的心电数据智能分类方法,首先从ccdd中获取足够数量的数据,将其分为训练集和测试集,然后建立各类模型,最后,获得一个正确率不低于80%的模型,可实现对“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”进行智能识别分类,实现心血管疾病的早发现、早治疗。

An intelligent classification method of ECG data based on voting integrated learning

【技术实现步骤摘要】
一种基于投票集成学习的心电数据智能分类方法
本专利技术涉及一种心电数据智能分类方法,更具体的说,尤其涉及一种基于投票集成学习的心电数据智能分类方法。
技术介绍
随着全球人口老龄化问题的日益加剧,患心脏疾病的人群日益增加。据不完全统计,全世界死亡人口中大约有三分之一属于心脏疾病;在我国,每年也有大约54万人死于心脏疾病。心脏疾病及其引发的其他心血管疾病正不断威胁着人类健康,通过各种方式提前预防、诊断心血管疾病显得尤为重要。随着穿戴式心电设备的普及,心电图的获取日益简单,但由于只有专业医师才能解读心电图,严重制约着心电图的应用。研究智能模型,实现心电图的智能诊断,从而使普通人也能看懂心电图,成为重要研究课题。本专利设计一种集成学习模型,针对心电数据进行“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”,这七种诊断的智能识别分类。
技术实现思路
本专利技术为了克服上述技术问题的缺点,提供了一种基于投票集成学习的心电数据智能分类方法。本专利技术的基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;b).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;c).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;d).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:wTx+b=0(1)其中w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离;决策边界由参数w和b确定,我们将其记为(w,b);样本空间中任意点x到超平面(w,b)的距离可写为:因此,线性支持向量机的学习就是要寻找满足约束条件的参数w和b,使得γ最大,即:s.t.yi(wTxi+b)≥1(4)由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,直接用现成的优化计算包求解,获得一个准确率不低于72.8%的支持向量机模型;e).建立朴素贝叶斯模型,选择使用先验为伯努利分布的朴素贝叶斯,得到的准确率不低于68%的朴素贝叶斯模型;f).建立神经元模型,输入:来自其他m个神经云传递过来的输入信号;处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行比较;输出:通过激活函数的处理以得到输出;激活函数选择logistic函数,设置准牛顿方法族的优化器,共两个隐藏层,第一层10个神经元,第二层2个神经元,获得一个准确率不低于75%的神经元模型;g).建立k邻近模型,在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类;所有最近邻样本权重都一样,在做预测时一视同仁,取最近的两个点的分类,获得一个准确率不低于73.5%的k邻近模型;h).模型集成,使用投票的方法将步骤b)至步骤g)中建立的模型集成,最终获得一个正确率不低于80%的模型,效果优于步骤b)至步骤g)中建立的单个模型。本专利技术的基于投票集成学习的心电数据智能分类方法,步骤a)中所述的标签包括7类,7类标签分别为:正常、心房颤动、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率。本专利技术的基于投票集成学习的心电数据智能分类方法,步骤h)中所述的模型集成具体通过以下步骤来实现:h-1).通过Boosting方法生成一个adaboost分类器,先从初始训练集训练出一个基学习器,使用深度为1的CART分类树,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复进行,直至基学习器数目达到事先指定的值11,获得正确率不低于72%的adaboost分类器模型;h-2).通过Bagging方法生成一个随机森林分类器,随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择,具体地,传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分,最终获得一个正确率不低于77%的随机森林分类器模型;h-3).使用投票的方法将以上模型进行集成,集成时使用基学习器的正确率作为其权重,在投票时考虑相对多数投票法:预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型。本专利技术的有益效果是:本专利技术的基于投票集成学习的心电数据智能分类方法,首先从中国心血管数据库ccdd中获取足够数量的数据,将其分为训练集和测试集,然后建立logistic回归模型、决策树模型、支持向量机、朴素贝叶斯模型、神经元模型、k邻近模型,最后,采用预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个,最终获得一个正确率不低于80%的模型,效果优于以上各基学习模型,可实现对心电数据进行“正常、房颤、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率”进行智能识别分类,应用于穿戴式心电设备上之后,可提前预防、诊断心血管疾病,实现早发现、早治疗,将心脏疾病及其引发的其他心血管疾病威胁降到最低。具体实施方式下面通过实施例对本专利技术作进一步说明。本专利技术的基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;所获取数据不低于2万条,如采用23535条。所述的标签包括7类,7类标签分别为:正常、心房颤动、房性早搏、偶发房性早搏、频发房性早搏、房性心动过速、房颤伴快速心室率,如表1所示给出了7类标签:表1本文档来自技高网...

【技术保护点】
1.一种基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:/na).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;/nb).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;/nc).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;/nd).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:/nw

【技术特征摘要】
1.一种基于投票集成学习的心电数据智能分类方法,其特征在于,通过以下步骤来实现:
a).数据预处理,从中国心血管数据库ccdd获取足够数量的N条数据,并对每条数据进行特征提取,使得每条数据由172列组成,每条数据中第1列为序号、第2列为标签、剩余的169列为特征;按照30%和70%的比例将N条数据分为训练集和测试集,同时提取标签列和特征列;
b).建立logistic回归模型,设计一个one-vs-rest的分类模型,不考虑各类型的权重;选择L2正则化,其中优化算法使用开源的liblinear库,通过坐标轴下降法来迭代优化损失函数,迭代100次获得一个准确率不低于76.5%的logistic回归模型;
c).建立决策树模型,使用基尼系数为当前分裂特征,设计最大深度为3的决策树,设置叶子节点上的最小样本数为1,获得一个准确率不低于71%的决策树模型;
d).建立一个支持向量机,在样本空间中,划分超平面可通过如下线性方程来描述:
wTx+b=0(1)
其中w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离;决策边界由参数w和b确定,我们将其记为(w,b);样本空间中任意点x到超平面(w,b)的距离可写为:



因此,线性支持向量机的学习就是要寻找满足约束条件的参数w和b,使得γ最大,即:



s.t.yi(wTxi+b)≥1(4)
由于目标函数是二次的,并且约束条件在参数w和b上是线性的,因此线性支持向量机的学习问题是一个凸二次优化问题,直接用现成的优化计算包求解,获得一个准确率不低于72.8%的支持向量机模型;
e).建立朴素贝叶斯模型,选择使用先验为伯努利分布的朴素贝叶斯,得到的准确率不低于68%的朴素贝叶斯模型;
f).建立神经元模型,输入:来自其他m个神经云传递过来的输入信号;处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行比较;输出:通过激活函数的处理以得到输出;
激活函数选择logistic函数,设置准牛顿方法族的优化器,共两个隐藏层,第一层10个神经元,第二层2个神经元,获得一个准确率不低于75%的神经元模型;
g).建立k邻近模型,在训练...

【专利技术属性】
技术研发人员:王迪武鲁葛菁赵志刚霍吉东李响李娜
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1