基于主动学习的心电信号数据标注方法技术

技术编号:22784137 阅读:27 留言:0更新日期:2019-12-11 04:23
本发明专利技术提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注。本发明专利技术中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本发明专利技术中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠。本发明专利技术提出的一种基于主动学习的心电信号数据标注方法,通过评估数据的针对性选择,降低了标注模型F的训练过程中人工标注工作量,并提高了标注模型的训练效率和标注精确度。

Data annotation method of ECG based on active learning

The invention proposes a method of ECG data annotation based on active learning. Firstly, the annotation model is obtained through sample training, and then the ECG data not manually labeled is labeled by the annotation model. In the invention, the annotation model f is composed of a simple annotation probability model h and a fixed annotation function. In fact, the training of the annotation model f is also the training of the annotation probability model H. In the invention, during the training process of the annotation model f, the evaluation data is selected by calculating the output uncertainty of the annotation probability model h, so that the calculation of the stability of the annotation model f is more accurate and reliable. The invention provides an ECG signal data annotation method based on active learning. Through the targeted selection of evaluation data, the manual annotation workload in the training process of annotation model f is reduced, and the training efficiency and annotation accuracy of the annotation model are improved.

【技术实现步骤摘要】
基于主动学习的心电信号数据标注方法
本专利技术涉及大数据分析
,尤其涉及一种基于主动学习的心电信号数据标注方法。
技术介绍
心电信号数据在病理诊断方面非常重要,但是绝大部分采集的心电信号是没有经过标注的。例如,重症监护病房ICU内对病人24小时不间断地采集心电信号数据,只有是医生查房的时候,或者出现非常紧急的情况,才有可能“标注”采集的数据,其他时候都被直接存放到了HIS系统中。心电科医生分析(也就是“标注”)一份60秒的心电信号的报告,花费在数十元人民币。标注10000例数据(这个数据量实际还远未达到深度学习方法的训练需求)就需要花费数十万元。一个心电科医生一天大约可以阅读200份报告,标注10000例数据需要50天。可见,心电信号数据进行人工标注的,人工成本和时间成本均居高不下。随着人工智能的不断发展,基于数据的人工智能在心电信号分析领域取得了瞩目的初步成效。相关的人工智能产品也受到了医院、体检中心、心电设备供应厂商、智能硬件厂商等的高度关注。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于主动学习的心电信号数据标注方法。本专利技术提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注;通过样本训练获得标注模型的方法为:首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a。优选的,通过补充样本对标注模型F和标注概率模型H进行更新的具体方式为:当稳定度p小于阈值a,则将评估数据作为补充样本,并通过补充样本和对应的人工标注对标注模型F和标注概率模型H进行更新。优选的,通过样本训练获得标注模型的方法具体包括:S1、收集心电信号数据并建立初始数据集合X={x1,x2,...xn},n表示收集的心电信号数据数量,d为每条心电信号数据的长度,c为心电信号的导联数;S2、构建标注概率模型H,其输入为心电信号数据xi,输出为心电信号数据xi对应的预测概率zi;设置标注函数,标注函数的输入为预测概率zi,其输出为标注结果yi;结合标注概率模型H和标注函数建立标注模型F,标注模型F的输入为心电信号数据xi,输出为标注结果yi;S3、从X中随机选取部分心电信号数据作为样本数据进行人工标注,并建立样本数据集台获得样本数据集合Xyes中每一条样本数据xj的标注结果yj并建立样本标注集合Yyes;S4、根据样本数据集合Xyes和样本标注集合Yyes对标注模型F进行更新,并根据更新后的标注模型F的参数对标注概率模型H进行更新;S5、对初始数据集合X中未标注的心电信号数据xk,通过当前的标注模型F进行模型标注yk,并通过标注概率模型H标注预测概率zk;计算各预测概率zk的不确定度ek,获取不确定度最大的nh个不确定度对应的心电信号数据xk作为评估数据;S6、对评估数据进行人工标注,并统计人工标注与模型标注一致的评估数据数量ne,计算ne与nh的比值作为标注模型F的稳定度P;判断稳定度P是否大于预设的阈值a,是,则保存标注模型F;S7、否,则将评估数据和对应的人工标注分别补充到集合Xyes和样本标注集合Yyes,然后返回步骤S4。优选的,步骤S2中,预测概率zj为由m个概率值组成的长度为m的行向量,且m个概率值之和为1;标注函数为:yi为与预测概率zi等长的行向量;yi有且仅有一个位置标注为1,其余位置为0,且yi中标注为1的位置为zi中最大值对应的位置。优选的,计算各预测概率zk的不确定度ek的方式为:使用熵值度量计算预测概率zk的不确定度ek,计算公式为:zk[j]表示预测概率zk中第j个概率值,c为计算常数。优选的,c为自然常数,或者c=10。优选的,步骤S3中,20≤nyes≤100≤n。优选的,步骤5中,20≤nh≤100,nh≤n-nyes。优选的,nh=nyes。优选的,0.8≤a<1。本专利技术提出的一种基于主动学习的心电信号数据标注方法,通过评估数据的针对性选择,降低了标注模型F的训练过程中人工标注工作量,并提高了标注模型的训练效率和标注精确度。通过本方法训练获得的标注模型可对心电信号数据进行自动标注,可对心电信号数据进行高精确度的自动标注,减少需要人工标注的数据量,加快标注过程,减少时间和人力成本。本专利技术中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本专利技术中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠;同时还保证了对标注模型F进一步修正时,保证补充样本的针对性选择。附图说明图1为本专利技术提出的一种基于主动学习的心电信号数据标注方法流程图;图2为本专利技术中通过样本训练获得标注模型的方法流程图。具体实施方式参照图1,本专利技术提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注。本方法中,通过样本训练获得标注模型的方法为:首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a。如此,本实施方式中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本实施方式中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠;同时还保证了对标注模型F进一步修正时,保证补充样本的针对性选择。本实施方式本文档来自技高网...

【技术保护点】
1.一种基于主动学习的心电信号数据标注方法,其特征在于,首先通过样本训练获得标注模型,然后通过标注模型F对未人工标注的心电信号数据进行模型标注;/n通过样本训练获得标注模型的方法为:/n首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;/n根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;/n根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的n

【技术特征摘要】
1.一种基于主动学习的心电信号数据标注方法,其特征在于,首先通过样本训练获得标注模型,然后通过标注模型F对未人工标注的心电信号数据进行模型标注;
通过样本训练获得标注模型的方法为:
首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;
根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;
根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;
根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a。


2.如权利要求1所述的基于主动学习的心电信号数据标注方法,其特征在于,通过补充样本对标注模型F和标注概率模型H进行更新的具体方式为:当稳定度p小于阈值a,则将评估数据作为补充样本,并通过补充样本和对应的人工标注对标注模型F和标注概率模型H进行更新。


3.如权利要求2所述的基于主动学习的心电信号数据标注方法,其特征在于,通过样本训练获得标注模型的方法具体包括:
S1、收集心电信号数据并建立初始数据集合X={x1,x2,...xn},n表示收集的心电信号数据数量,d为每条心电信号数据的长度,c为心电信号的导联数;
S2、构建标注概率模型H,其输入为心电信号数据xi,输出为心电信号数据xi对应的预测概率zi;设置标注函数,标注函数的输入为预测概率zi,其输出为标注结果yi;结合标注概率模型H和标注函数建立标注模型F,标注模型F的输入为心电信号数据xi,输出为标注结果yi;
S3、从X中随机选取部分心电信号数据作为样本数据进行人工标注,并建立样本数据集合获得样本数据集合xyes中每一条样本数据xj的标注结果yj并建立样本标注集合Yyes;
...

【专利技术属性】
技术研发人员:洪申达傅兆吉周荣博俞杰
申请(专利权)人:安徽心之声医疗科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1