基于语音特征选择的帕金森病患者UPDRS得分预测方法技术

技术编号：33249739 阅读：102 留言：0更新日期：2022-04-27 18:09

本公开实施例公开了一种基于语音特征选择的帕金森病患者UPDRS得分预测方法，所述方法包括：选取UCI数据库中帕金森病远程监测数据集数据；根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值，从所述待分析语音特征中选取预设比例的第一语音特征；将所述第一语音特征进行聚类得到若干簇的语音特征集；对每一簇的语音特征集进行处理：将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总，作为预测所述UPDRS得分的语音特征。上述技术方案通过对每类中的特征进行选择，有利于减少特征之间的冗余性，最终确定的已选特征集中的语音特征具有相关性高，冗余性低和互补性高的特点，能有效提升帕金森病患者UPDRS得分预测的准确性。提升帕金森病患者UPDRS得分预测的准确性。提升帕金森病患者UPDRS得分预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音特征选择的帕金森病患者UPDRS得分预测方法

[0001]本公开涉及数据处理
，具体涉及一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。

技术介绍

[0002]语音信号中包含丰富的信息，具有采集方便，非接触，易接受等优点，使得其在人工智能和医疗诊断等多个领域具有广泛应用。尤其在医疗领域，根据语音信号提取相应的特征以表示不同的信息，可以解决多个现实的医疗诊断问题。因此，通过采集语音信号并提取相应的特征近年来已被证明是一种有效的医疗诊断方式。随着科技的不断进步，语音数据规模也在增大，从而出现了“维数灾难”等问题，根据实际需求降低语音特征维数已成为亟待解决的问题。

技术实现思路

[0003]为了解决相关技术中的问题，本公开实施例提供一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。
[0004]第一方面，本公开实施例中提供了一种基于语音特征选择的帕金森病患者UPDRS得分预测方法。
[0005]具体地，所述基于语音特征选择的帕金森病患者UPDRS得分预测方法，包括：
[0006]选取UCI数据库中帕金森病远程监测数据集数据，其中包括每位患者的待分析语音特征以及UPDRS得分；
[0007]根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值，从所述待分析语音特征中选取预设比例的第一语音特征；
[0008]将所述第一语音特征进行聚类得到若干簇的语音特征集；
[0009]对每一簇的语音特征集进行如下处理：/>[0010]将其中MIC值最大的语音特征加入已选特征集，其余语音特征加入候选特征集；
[0011]根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值，确定候选特征集中每一语音特征与已选特征集的互补性C
f
值；
[0012]根据所述C
f
值的大小降序排列候选特征集中的语音特征，并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集；
[0013]将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型，并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集；
[0014]将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总，作为预测所述UPDRS得分的语音特征。
[0015]可选地，所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值采用如下方
式计算得到：
[0016]待分析语音特征与UPDRS得分构成有序对集合D＝{(f
k
,y
k
),k＝1,2,
…
,M}，其中，f表示待分析语音特征，y表示UPDRS得分，M表示样本容量；
[0017]进行网格划分，将f的值域划分为a段，将y的值域分成b段，定义a
×
b的网格为G；
[0018]计算每个网格中f与y的互信息MI(f,y)，所述互信息定义为：
[0019][0020]其中，p(f
k
,y
k
)表示f和y之间的联合概率分布函数，由落入某个小网格的数量占样本容量的比例近似得出；p(f
k
)和p(y
k
)分别表示f和y的边缘概率分布函数；
[0021]取不同划分方式下产生的最大互信息值，记为MI
′
，作为网格G的互信息值；给定网格G下D的最大互信息公式为：
[0022]MI
′
(D,a,b)＝maxMI(D|G)
[0023]其中，D|G表示给定网格G之后D的不同分布；
[0024]将不同划分方式下的MI
′
进行归一化，得到归一化互信息值C(D)
a,b
：
[0025][0026]则f与y之间最大信息系数MIC值的定义为：
[0027][0028]其中，B(M)表示网格G划分的上限值。
[0029]可选地，所述将所述第一语音特征进行聚类得到若干簇的语音特征集，包括：
[0030]将所述第一语音特征输入自组织映射网络SOM，确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis＝‖f(t)
‑
W
v
(t)‖，其中，v＝1,
…
,L；W表示神经元对应的权重向量，t表示当前时刻；
[0031]遍历所有神经元之后，使得dis最小的神经元称为最佳匹配单元BMU，每一时刻只有BMU神经元被激活；BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新：W
v
(t+1)＝W
v
(t)+η(t,d)(f(t)
‑
W
v
(t))；
[0032]迭代T次之后，获取竞争层各个神经元的权重向量W，通过判断所述第一语音特征和竞争层中每个神经元的最短距离，将所述第一语音特征映射到竞争层的二维平面上，从而将所述第一语音特征聚为N
′
类。
[0033]可选地，所述互补性C
f
值按照以下公式计算得到：
[0034]对候选特征集中每一语音特征与已选特征集中语音特征之间的平均冗余性R
f
进行计算：
[0035][0036]其中，F
s
表示已选特征集，f
i
表示已选特征集中语音特征，|F
s
|表示已选特征集F
s
中语音特征的数量；
[0037]按照以下公式计算候选特征集中每一语音特征与已选特征集的互补性C
f
值：
[0038][0039]可选地，所述根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集，包括：
[0040]按照以下公式进行评估：
[0041][0042]其中，MAE表示平均绝对误差，M
′
表示测试样本的数量，y
k
和y
′
k
分别表示实际值和模型预测值；
[0043]如果MAE(F
s
′
)≤MAE(F
s
)则将语音特征f加入已选特征集F
s
，并从候选特征集F
c
中删除f；
[0044]如果MAE(F
s
′
)>MAE(F
s
)则将F
c
中第二个特征加入已选特征集F
s
中判断MAE的相对大小，以此类推，完成该类的语音特征选择；
[0045]其中，F
s
′
为将所述候选特征集中的语音特征加入后的已选特征集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语音特征选择的帕金森病患者UPDRS得分预测方法，其特征在于，包括：选取UCI数据库中帕金森病远程监测数据集数据，其中包括每位患者的待分析语音特征以及UPDRS得分；根据计算得到的所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值，从所述待分析语音特征中选取预设比例的第一语音特征；将所述第一语音特征进行聚类得到若干簇的语音特征集；对每一簇的语音特征集进行如下处理：将其中MIC值最大的语音特征加入已选特征集，其余语音特征加入候选特征集；根据候选特征集中每一语音特征与UPDRS得分之间的MIC值、以及计算得到的候选特征集每一语音特征与已选特征集中语音特征的MIC值，确定候选特征集中每一语音特征与已选特征集的互补性C
f
值；根据所述C
f
值的大小降序排列候选特征集中的语音特征，并依照排序依次将所述候选特征集中的语音特征加入所述已选特征集；将加入所述候选特征集中的语音特征前后的已选特征集中的语音特征分别输入至UPDRS得分预测模型，并根据预测结果的相对大小确定是否将所述候选特征集中的语音特征加入所述已选特征集；将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总，作为预测所述UPDRS得分的语音特征。2.根据权利要求1所述的方法，其特征在于，所述待分析语音特征与UPDRS得分之间的最大信息系数MIC值采用如下方式计算得到：待分析语音特征与UPDRS得分构成有序对集合D＝{(f
k
,y
k
),k＝1,2,
…
,M}，其中，f表示待分析语音特征，y表示UPDRS得分，M表示样本容量；进行网格划分，将f的值域划分为a段，将y的值域分成b段，定义a
×
b的网格为G；计算每个网格中f与y的互信息MI(f,y)，所述互信息定义为：其中，p(f
k
,y
k
)表示f和y之间的联合概率分布函数，由落入某个小网格的数量占样本容量的比例近似得出；p(f
k
)和p(y
k
)分别表示f和y的边缘概率分布函数；取不同划分方式下产生的最大互信息值，记为MI
′
，作为网格G的互信息值；给定网格G下D的最大互信息公式为：MI
′
(D,a,b)＝maxMI(D|G)其中，D|G表示给定网格G之后D的不同分布；将不同划分方式下的MI
′
进行归一化，得到归一化互信息值C(D)
a,b
：则f与y之间最大信息系数MIC值的定义为：
其中，B(M)表示网格G划分的上限值。3.根据权利要求1所述的方法，其特征在于，所述将所述第一语音特征进行聚类得到若干簇的语音特征集，包括：将所述第一语音特征输入自组织映射网络SOM，确定所述第一语音特征与SOM中竞争层中L个神经元之间的相似度dis＝‖f(t)
‑
W
v
(t)‖，其中，v＝1,
…
,L；W表示神经元对应的权重向量，t表示当前时刻；遍历所有神经元之后，使得dis最小的神经元称为最佳匹配单元BMU，每一时刻只有BMU神经元被激活；BMU邻域内神经元的权重向量根据学习率η(t,d)的变化进行更新：W
v
(t+1)＝W
v
(t)+η(t,d)(f(t)
‑
W
v
(t))；迭代T次之后，获取竞争层各个神经元的权重向量W，通过判断所述第一语音特征和竞争层中每个神经元的最短距离，将所述第一语音特征映射到竞争层的二维平面上，从而将所述第一语音特征聚为N
′
...

【专利技术属性】
技术研发人员：张涛，薛在发，卢辉斌，李林，汪洋，牛晓霞，田静，
申请(专利权)人：燕山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人