基于对比预测编码的ECG数据特征生成模型制造技术

技术编号:30968330 阅读:9 留言:0更新日期:2021-11-25 20:43
本发明专利技术公开了一种基于对比预测编码的ECG数据特征生成模型,包括如下步骤:首先将划分ECG训练数据,横向看是正样本对与负样本对,正样本对是相同类别的数据,负样本对是不同类别的数据,纵向看是训练数据与待训练数据,然后通过编码器将训练数据与待训练数据都进行编码,接着把训练数据经过编码得到的结果放入自回归模型得到上下文信息Context,Context进入预测模型后得到未来多步的预测值,最后将预测值与待训练数据经过编码后的值一起计算点积得到损失值。本发明专利技术可以扩展样本数量不足的数据,提高下游任务的泛化能力。提高下游任务的泛化能力。提高下游任务的泛化能力。

【技术实现步骤摘要】
基于对比预测编码的ECG数据特征生成模型


[0001]本专利技术属于计算机软件
,具体涉及一种基于对比预测编码的ECG数据特征生成模型。

技术介绍

[0002]对比预测编码是自监督学习的一种,自监督学习目前主要的方法分为三类,分别是基于上下文、基于时序、基于对比。基于对比的自监督学习通过学习对两个事物的相似或不相似进行编码来构建表征,这类方法的性能是非常强的。自监督学习算法不再依赖标注,而是通过揭示数据各部分之间的关系,从数据中生成标签。而且在当前的深度学习应用中,数据的问题无处不在,ECG作为医疗数据的一种,存在着样本分布不平衡,无标签等诸多问题,而采用人工标注的方式耗时耗力,人们迫切的需要通过自监督的方式,在没有数据标注的情况下,学习丰富的特征表示。
[0003]心电图(electrocardiogram,简称ECG)对各种心律失常和传导阻滞的诊断分析具有良好效果,有助诊断、对冠心病的诊断具有重大意义。心电图主要反映心脏激动的电学活动,心肌受损、供血不足、药物和电解质紊乱都可能引起一定的心电图变化,特征性的心电图改变时诊断心肌梗死的可靠方法。现如今各种针对ECG数据分类的模型都面临一个问题,ECG数据中样本分布极不均衡,正常样本与心率不齐样本比例严重失衡,监督学习网络得不到足够的数据进行训练,模型性能不能保证。通过对比预测编码可以生成与ECG数据原类别一致的高维特征,相当于扩展了样本的数量,同时通过打分函数使得相同样本之间得分更高,不同样本之间的得分更低,进一步区分样本类别,可用于下游任务,比如分类任务,可极大防止模型过拟合,提高下游训练模型的收敛速度以及提高模型的分类准确率。

技术实现思路

[0004]本专利技术针对现有技术中的不足,提供一种基于对比预测编码的ECG数据特征生成模型,引入自监督学习模型对比预测编码来预测出与原ECG数据相同类别的高维特征,在增大样本集的同时,减少人工标注成本,同时配合下游分类任务进行分类,也便于其它分类模型减少过拟合提高分类准确率。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]基于对比预测编码的ECG数据特征生成模型,包括如下步骤:
[0007]s1、采用数据集并进行预处理;
[0008]s2、划分ECG训练数据,划分为正样本对与负样本对,正样本对是相同类别的数据,负样本对是不同类别的数据;正样本对与负样本对中又分别划分出训练数据与待训练数据;
[0009]s3、搭建对比预测编码CPC模型,输入为训练数据与待训练数据;
[0010]通过编码器将训练数据与待训练数据都进行编码,接着把训练数据经过编码得到的结果放入自回归模型得到上下文信息Context,Context进入预测模型后得到未来多步的
预测值;
[0011]s4、将预测值与待训练数据经过编码后的值一起计算点积得到损失值;
[0012]s5、训练对比预测编码CPC模型;
[0013]S6、将训练好的CPC模型运用到下游的分类任务中。
[0014]为优化上述技术方案,采取的具体措施还包括:
[0015]进一步地,s1中的对数据集预处理过程包括:
[0016]s11、采用数据集自身标注的R峰位置采集心拍;
[0017]s12、将心拍重采样;
[0018]s13、使用小波变换进行滤波;
[0019]s14、为数据集重新打上标签并打乱重排,将数据集分为训练集和验证集,训练集又分为两部分,分别是训练数据与待训练数据;同时构造正样本对与负样本对。
[0020]进一步地,s3中的自回归模型构造过程包括:
[0021]使用自回归模型GRU来融合历史信息,输出维度为256,只返回最后一个单元的输出。
[0022]进一步地,搭建预测模型过程包括:
[0023]全连接层输出维度10,使用线性激活函数;由于四个全连接层是放在一个列表里的,使用Lambda层将这四个全连接层横向拼接起来构成一个网络。
[0024]进一步地,s4中,点积得到损失值使用sigmoid函数使其在[0,1]范围内,作为对比预测编码CPC模型的输出。
[0025]进一步地,训练CPC模型,步骤如下:
[0026]s51、初始化模型参数;
[0027]s52、将数据输入到模型中进行训练;
[0028]s53、保存模型,并作图绘制训练集以及验证集的准确率。
[0029]进一步地,s6包括如下步骤:
[0030]s61、划分训练数据,为了与训练好的CPC模型保持一致,将数据集划分为5份。
[0031]s62、构造分类模型,分类模型使用的三份相同的训练数据;每一份训练数据都经过CPC的编码器部分、一维卷积层、relu激活层、一维最大池化层、一维卷积层、relu激活层、一维最大池化层;将三份数据得到的结果进行拼接后接一个Flatten层、两个全连接层,最后经过一个激活函数为softmax的全连接层得到分类结果;
[0032]s63、训练分类模型,损失函数使用categorical_crossentropy,优化器使用rmsprop,批量大小设置为64,训练10个epoches。
[0033]本专利技术的有益效果是:
[0034](1)本专利技术适用于数据不平衡条件下ECG数据;
[0035]本专利技术适用于收集到的ECG数据较少的,不太常见的心律失常数据。针对收集到的数据较少的情况,CPC可以通过最大化自身的互信息,就可以解决因为数据量不足所带来的问题,由此可以扩展样本数量不足的数据,提高下游任务的泛化能力。
[0036](2)本专利技术提高了产生相同类别ECG数据特征的准确率;
[0037]通过编码器提取有效特征,去除了不必要的噪声,使特征更加明显,便于后续处理。对比预测编码利用自身的互信息,提高自身预测能力的同时,强化了编码器的特征提取
能力,特征提取效果相当不错。模型在MIT

BIT心律不齐数据库上取得了相当好的效果。
[0038](3)本专利技术加快了下游ECG分类模型的训练速度;
[0039]通过对比预测编码将ECG数据经过编码器编码后已经对不同类别的数据做了一个区分,这样在训练分类模型时可以提高模型的收敛速度,加快模型训练。
附图说明
[0040]图1为本专利技术的对比预测编码应用在ECG上的工作流程图。
[0041]图2为本专利技术的编码器的模型结构示意图。
[0042]图3为本专利技术的预测模型的结构示意图。
[0043]图4为本专利技术的训练数据与待训练数据,正样本对与负样本对的关系示意图。
[0044]图5为本专利技术的训练集和验证集的准确率记录图。
[0045]图6为本专利技术实施例的分类模型的结构示意图。
[0046]图7为本专利技术实施例的分类模型训练过程的模型准确率示意图。
具体实施方式
[0047]现在结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于对比预测编码的ECG数据特征生成模型,其特征在于,包括如下步骤:s1、采用数据集并进行预处理;s2、划分ECG训练数据,划分为正样本对与负样本对,正样本对是相同类别的数据,负样本对是不同类别的数据;正样本对与负样本对中又分别划分出训练数据与待训练数据;s3、搭建对比预测编码CPC模型,输入为训练数据与待训练数据;通过编码器将训练数据与待训练数据都进行编码,接着把训练数据经过编码得到的结果放入自回归模型得到上下文信息Context,Context进入预测模型后得到未来多步的预测值;s4、将预测值与待训练数据经过编码后的值一起计算点积得到损失值;s5、训练对比预测编码CPC模型;S6、将训练好的CPC模型运用到下游的分类任务中。2.根据权利要求1所述的基于对比预测编码的ECG数据特征生成模型,其特征在于,s1中的对数据集预处理过程包括:s11、采用数据集自身标注的R峰位置采集心拍;s12、将心拍重采样;s13、使用小波变换进行滤波;s14、为数据集重新打上标签并打乱重排,将数据集分为训练集和验证集,训练集又分为两部分,分别是训练数据与待训练数据;同时构造正样本对与负样本对。3.根据权利要求1所述的基于对比预测编码的ECG数据特征生成模型,其特征在于,s3中的自回归模型构造过程包括:使用自回归模型GRU来融合历史信息,输出维度为256,只返回最后一个单元的输出。4.根据权利要求1所述的基于对比预测编码的ECG数据特征生成...

【专利技术属性】
技术研发人员:孙乐任超旭
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1