一种目标识别模型的建立方法、系统、电子设备及介质技术方案

技术编号:32332198 阅读:16 留言:0更新日期:2022-02-16 18:39
本发明专利技术适用于数据处理技术领域,提供了一种目标识别模型的建立方法、系统、电子设备及介质,所述方法包括:获取健康文本数据和健康音频数据,分别根据健康文本数据和健康音频数据获取文本特征和音频特征;采用注意力机制对文本特征和音频特征进行特征融合,形成融合特征数据集;采用多标签特征选择算法提取融合特征数据集的目标特征,形成样本数据集;采用样本数据集训练深度学习网络模型,经过前向传播后,分别获取已标注样本集的误差和未标注样本集的误差;对所述深度学习网络模型进行反向传播更新网络参数,得到目标识别模型;解决了基于健康数据建立的识别模型的识别准确度较低的问题。的问题。的问题。

【技术实现步骤摘要】
一种目标识别模型的建立方法、系统、电子设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种目标识别模型的建立方法、系统、电子设备及介质。

技术介绍

[0002]近年来人们生活水平逐渐提升,国民开始越来也注重自身身体健康,因此对医疗健康的需要也日渐增加。因此,利用健康文本信息、健康音频信息以及健康视频信息,譬如门诊档案及住院电子病历等资料进行必要的处理,从中获取有用的信息,在此基础上建立用于健康领域的识别模型也变得至关重要。健康领域对于数据的的保密性要求较高,其标注的语料也较少,识别模型需要大量的语料进行模型训练,因此基于健康数据建立的识别模型的识别准确性较低。此外,目标特征的提取是否准确,也对识别模型的准确度有影响;然而现有技术中目标特征多采用单标签,在此基础上建立的识别模型的识别准确性较低。

技术实现思路

[0003]本专利技术提供一种目标识别模型的建立方法、系统、电子设备及介质,以解决现有技术中基于健康数据建立的识别模型的识别准确度较低的问题。
[0004]本专利技术提供的目标识别模型的建立方法,包括:
[0005]获取健康文本数据和健康音频数据,分别根据所述健康文本数据和所述健康音频数据获取文本特征和音频特征;
[0006]采用注意力机制对所述文本特征和所述音频特征进行特征融合,形成融合特征数据集;
[0007]采用多标签特征选择算法提取所述融合特征数据集的目标特征,形成样本数据集,所述样本数据集包括已标注样本集和未标注样本集;
[0008]构建深度学习网络模型,采用所述样本数据集训练所述深度学习网络模型,经过前向传播后,分别获取所述已标注样本集的误差和所述未标注样本集的误差;
[0009]根据所述已标注样本集的误差和所述未标注样本集的误差对所述深度学习网络模型进行反向传播更新所述深度学习网络模型的网络参数,得到目标识别模型。
[0010]可选的,所述采用多标签特征选择算法提取所述融合特征数据集的目标特征,形成样本数据集,具体包括:
[0011]采用多标签特征选择算法提取所述融合特征数据集的目标特征,获取多个第一标签向量;
[0012]获取不同第一标签向量之间的相关度;
[0013]根据预设相关度阈值和所述相关度获取第二标签向量,形成样本数据集。
[0014]可选的,所述获取不同第一标签向量之间的相关度,具体包括:
[0015]获取所述第一标签向量的信息熵;
[0016]根据信息熵获取不同第一标签向量之间的互信息;
[0017]根据所述信息熵和所述互信息获取不同标签向量之间的相关度。
[0018]可选的,所述方法,还包括:
[0019]获取所述目标特征的相对不确定性;
[0020]根据所述相对不确定性获取候选特征;
[0021]获取所述候选特征的对称不确定性,并根据所述对称不确定性更新第二标签向量,形成样本数据集。
[0022]可选的,所述获取所述已标注样本集的误差和所述未标注样本集的误差,具体包括:
[0023]采用交叉熵损失函数确定所述已标注样本集的误差;
[0024]根据最小均方误差确定所述未标注样本集的误差。
[0025]可选的,所述根据所述健康文本数据和所述健康音频数据获取文本特征和音频特征,具体包括:
[0026]采用预设第一抽取模型提取所述健康文本数据的时序语义特征;
[0027]采用预设第二抽取模型提取所述健康文本数据的局部特征,根据所述时序语义特征和所述局部特征获取文本特征;
[0028]采用卷积神经网络提取所述健康音频数据的音频特征。
[0029]可选的,所述采用注意力机制对所述文本特征和所述音频特征进行特征融合,形成融合特征数据集,具体包括:
[0030]采用多头注意力机制获取所述音频特征对应于所述文本特征的音频注意力权重;
[0031]根据所述音频注意力权重对所述音频特征进行调整,得到调整后的音频特征;
[0032]采用多头注意力机制获取所述文本特征对应于所述音频特征的文本注意力权重;
[0033]根据所述文本注意力权重对所述文本特征进行调整,得到调整后的文本特征;
[0034]根据所述调整后的音频特征和所述调整后的文本特征,形成融合特征数据集。
[0035]本专利技术还提供了一种目标识别模型的建立系统,包括:
[0036]数据获取模块,用于获取健康文本数据和健康音频数据,分别根据所述健康文本数据和所述健康音频数据获取文本特征和音频特征;
[0037]特征数据集获取模块,用于采用注意力机制对所述文本特征和所述音频特征进行特征融合,形成融合特征数据集;
[0038]样本数据集获取模块,用于采用多标签特征选择算法提取所述融合特征数据集的目标特征,形成样本数据集,所述样本数据集包括已标注样本集和未标注样本集;
[0039]模型训练模块,用于构建深度学习网络模型,采用所述样本数据集训练所述深度学习网络模型,经过前向传播后,分别获取所述已标注样本集的误差和所述未标注样本集的误差;
[0040]目标模型建立模块,用于根据所述已标注样本集的误差和所述未标注样本集的误差对所述深度学习网络模型进行反向传播更新所述深度学习网络模型的网络参数,得到目标识别模型。
[0041]本专利技术还提供一种电子设备,包括:处理器及存储器;
[0042]所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述目标识别模型的建立方法。
[0043]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述目标识别模型的建立方法。
[0044]本专利技术的有益效果:本专利技术中的目标识别模型的建立方法,通过获取健康文本数据和健康音频数据的文本特征和音频特征,并对文本特征和音频特征进行特征融合形成融合特征数据集;然后采用多标签特征选择算法提取融合特征数据集的目标特征,形成样本数据集;并根据样本数据集建立目标识别模型;通过对文本特征和音频特征进行特征融合,基于融合特征的基础上建立的目标识别模型准确提取各个模态之间的潜在联系,从而提高了目标识别模型的识别准确性。通过采用多标签特征选择算法提取融合特征数据集的目标特征可以避免选取不重要特征和遗漏重要特征,也提高了目标识别模型的识别准确性。本专利技术还通过基于相对不确定性和对称不确定性的特征选择算法提取目标特征,并形成样本数据集,避免了类不均衡的问题,进而提高了目标识别模型的识别准确性。
附图说明
[0045]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0046]图1是本专利技术实施例中目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标识别模型的建立方法,其特征在于,所述方法包括:获取健康文本数据和健康音频数据,分别根据所述健康文本数据和所述健康音频数据获取文本特征和音频特征;采用注意力机制对所述文本特征和所述音频特征进行特征融合,形成融合特征数据集;采用多标签特征选择算法提取所述融合特征数据集的目标特征,形成样本数据集,所述样本数据集包括已标注样本集和未标注样本集;构建深度学习网络模型,采用所述样本数据集训练所述深度学习网络模型,经过前向传播后,分别获取所述已标注样本集的误差和所述未标注样本集的误差;根据所述已标注样本集的误差和所述未标注样本集的误差对所述深度学习网络模型进行反向传播更新所述深度学习网络模型的网络参数,得到目标识别模型。2.根据权利要求1所述的目标识别模型的建立方法,其特征在于,所述采用多标签特征选择算法提取所述融合特征数据集的目标特征,形成样本数据集,具体包括:采用多标签特征选择算法提取所述融合特征数据集的目标特征,获取多个第一标签向量;获取不同第一标签向量之间的相关度;根据预设相关度阈值和所述相关度获取第二标签向量,形成样本数据集。3.根据权利要求2所述的目标识别模型的建立方法,其特征在于,所述获取不同第一标签向量之间的相关度,具体包括:获取所述第一标签向量的信息熵;根据信息熵获取不同第一标签向量之间的互信息;根据所述信息熵和所述互信息获取不同标签向量之间的相关度。4.根据权利要求2所述的目标识别模型的建立方法,其特征在于,所述方法,还包括:获取所述目标特征的相对不确定性;根据所述相对不确定性获取候选特征;获取所述候选特征的对称不确定性,并根据所述对称不确定性更新第二标签向量,形成样本数据集。5.根据权利要求1所述的目标识别模型的建立方法,其特征在于,所述获取所述已标注样本集的误差和所述未标注样本集的误差,具体包括:采用交叉熵损失函数确定已标注样本集的误差;根据最小均方误差确定未标注样本集的误差。6.根据权利要求1所述的目标识别模型的建立方法,其特征在于,所述根据所述健康文本数据和所述健康音频数据获取文本特征和音频特征,具体包括:采用预设第一抽取模型提取所述健康文本数...

【专利技术属性】
技术研发人员:肖爽陆静
申请(专利权)人:重庆两江新区第一人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1