一种基于融合时频特征的集成学习心音分类方法技术

技术编号：40821015 阅读：5 留言：0更新日期：2024-04-01 14:40

本发明专利技术公开了一种基于融合时频特征的集成学习心音分类方法，包括以下步骤：步骤1、获取原始心音数据，对原始心音数据进行降噪分割的预处理，得到若干心音周期；步骤2、基于每段心音周期的时域特征和频域特征，得到候选的时域特征和频域特征；步骤3、计算候选的时域特征和频域特征的信息增益，根据信息增益选择候选的时域特征和频域特征为重要特征；步骤4、根据所选的重要特征进行模型训练，得到训练好的心音分类模型；步骤5、通过训练好的心音分类模型对心音数据进行分类，完成基于融合时频特征的集成学习心音分类。本发明专利技术相较于传统机器学习方法，进一步提高了准确度，与当今流行的深度学习相比，训练速度更快。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习领域，具体涉及一种基于融合时频特征的集成学习心音分类方法。

技术介绍

1、现在的心音分类技术大致可分为两类，基于深度学习的分类方法和基于传统机器学习的分类方法。在过去几年中，深度学习已成为大多数ai类型问题的首选技术，掩盖了传统的机器学习。其中明显的原因是深度学习已经在包括图像处理、自然语言、模式识别等在内的各种各样的场景中多次优异的表现。但传统机器学习仍具有一定优势。为了实现较高的准确度，深度学习往往需要非常巨大的数据集。但对于许多应用来说，庞大的数据集是难以获得的。而在较小的数据集上，传统的机器学习算法通常比深度学习更加优秀。同时，为了在合理时间内训练完大量数据集，深度学习需要使用高端gpu，这些gpu是一笔不小的开支，但是如果没有它们，就很难实现高性能的深度网络。经典的机器学习算法只需要一个不错cpu就能够完成模型的训练，并不像深度学习一样对硬件有较高的要求。而且由于机器学习的计算成本不高，使得其可以在较短的时间里更快地迭代，并尝试多种不同的技术。另一方面，深度学习就像是一个“黑盒子”，即使是现在，大部分研究人员对其内部也知之甚少。由于理论基础缺乏，调整参数和神经网络设计也是一个很大的挑战。而传统机器学习涉及直接的特征工程，这些算法很容易解释和理解。此外，由于对数据和底层算法有了更深入的了解，调整参数和更改模型设计也更简单。

2、在机器学习的有监督学习算法中，目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，大部分时候只能得到多个有偏好的模型(弱监督模型，在某些

3、信号有两个方面的性质，即时域和频域，这两个方面对于信号来说，是须臾不能分离的。有时在时域杂乱无章的信号，在频域却隐藏了很多信息，反之亦然。所以将时域和频域相结合分析能进一步提高准确率。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种基于融合时频特征的集成学习心音分类方法解决了传统机器学习用于心音分类的准确度度和性能较差的问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：一种基于融合时频特征的集成学习心音分类方法，包括以下步骤：

3、步骤1、获取原始心音数据，对原始心音数据进行降噪分割的预处理，得到若干心音周期；

4、步骤2、基于每段心音周期的时域特征和频域特征，得到候选的时域特征和频域特征；

5、步骤3、计算候选的时域特征和频域特征的信息增益，根据信息增益选择候选的时域特征和频域特征为重要特征；

6、步骤4、根据所选的重要特征进行模型训练，得到训练好的心音分类模型；

7、步骤5、通过训练好的心音分类模型对心音数据进行分类，完成基于融合时频特征的集成学习心音分类。

8、进一步地：所述步骤1中，对原始心音数据进行降噪分割的预处理方法包括以下分步骤：

9、步骤11、将原始心音数据进行分解和重构，得到去噪后的心音数据；

10、步骤12、通过隐马尔科夫模型对去噪后的心音数据进行分割，得到若干心音周期。

11、进一步地：所述步骤2中，计算候选的时域特征的方法具体为：

12、计算每段心音周期的时域特征，进而计算所有心音周期的时域特征的平均值和标准差，得到候选的时域特征；

13、其中，时域特征包括：rr间隔、心音s1阶段间隔、心音s2阶段间隔、收缩期间隔、舒张期间隔、收缩期间隔与rr间隔的比值，舒张期间隔与rr间隔的比值。

14、进一步地：所述步骤2中，计算候选的频域特征的方法具体为：

15、通过离散傅里叶变换计算每段心音周期的心音状态的功率谱，得到每段心音周期的心音状态在设定频带上的中值功率，进而计算所有心音周期的心音状态在设定频带上的中值功率的平均值，得到候选的频域特征；

16、其中，每段心音周期的心音状态包括心音s1阶段、收缩期、心音s1阶段和舒张期；

17、所述设定频带具体包括：10～25hz、25～45hz、45～65hz、65～85hz、85～105hz、105～125hz、125～150hz、150～200hz、200～300hz、300～500hz。

18、进一步地所述步骤3中，计算候选的时域特征和频域特征中任意候选特征的信息增益的方法具体为：

19、步骤31、计算由原始心音数据构成的数据集的熵；

20、步骤32、计算任意候选特征条件下的数据子集和数据子集的权重，其中，所述数据子集为数据集的子集；

21、步骤33、根据任意候选特征条件下的数据子集和数据子集的权重计算任意候选特征条件下的条件熵；

22、步骤34、根据数据集的熵和任意候选特征条件下的条件熵计算任意候选特征的信息增益。

23、进一步地：所述步骤31中，计算数据集的熵h(d)的表达式具体为：

24、

25、式中，d表示数据集，ci表示数据集中第i个类别，n表示类别数量，p(ci)表示在数据集d中类别ci出现的概率。

26、进一步地：所述步骤33中，计算任意候选特征条件下的条件熵h(d|a)的表达式具体为：

27、h(d|a)＝∑(w(da)*h(da)

28、式中，a为任意候选特征，a为任意候选特征a的取值，da为任意候选特征a取值为a条件下的数据子集，w(da)为数据子集da的权重，h(da)为在任意候选特征a取值为a条件下数据子集da的熵；

29、其中，数据子集da的权重的表达式具体为：

30、w(da)＝|da|/n

31、式中，|da|为数据子集da中样本数量，n为数据集d中样本总数。

32、进一步地：所述步骤34中，计算任意候选特征的信息增益ig(a)的表达式具体为：

33、ig(a)＝h(d)-h(d|a)。

34、进一步地：所述步骤4包括以下分步骤：

35、步骤41、将数据集分为第一训练子集和第二训练子集；

36、步骤42、通过第一训练子集计算所选的重要特征得到第一特征，通过第一特征训练决策树、支持向量机、朴素贝叶斯和k邻近模型，将训练好的决策树、支持向量机、朴素贝叶斯和k邻近模型作为初级分类器；

37、步骤43、通过第二训练子集计算所选的重要特征得到第二特征，将第二特征输入初级分类器，得到第二特征的每个实例的预测值组，其中，每个实例的预测值组包括第一～第四预测值；

38、步骤44、将第一～第四预测值进行组合生成特征向量，并根据特征向量与对应实例的标签组成第三训练子集；

39、步骤45、将随机森林作为次级分类器，通过第三训练子集对次级分类器进行训练，本文档来自技高网...

【技术保护点】

1.一种基于融合时频特征的集成学习心音分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤1中，对原始心音数据进行降噪分割的预处理方法包括以下分步骤：

3.根据权利要求1所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤2中，计算候选的时域特征的方法具体为：

4.根据权利要求1所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤2中，计算候选的频域特征的方法具体为：

5.根据权利要求1所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤3中，计算候选的时域特征和频域特征中任意候选特征的信息增益的方法具体为：

6.根据权利要求5所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤31中，计算数据集的熵H(D)的表达式具体为：

7.根据权利要求6所述的基于融合时频特征的集成学习心音分类方法，其特征在于，所述步骤33中，计算任意候选特征条件下的条件熵H(D|A)的表达式具体为：