声音处理方法及电子设备技术

技术编号:38430740 阅读:14 留言:0更新日期:2023-08-07 11:27
本申请应用于人工智能领域,提供了一种声音处理方法及电子设备,该方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,待处理声音包括多个对象的语音;根据目标声纹信息,确定待处理声音中的目标语音,目标语音为目标对象的声音;根据目标语音,确定目标对象是否患有精神障碍。基于本申请的技术方法,根据待处理声音中目标对象的目标语音,对目标对象是否患有精神障碍进行判断。待处理声音中包括多个对象的语音,即待处理语音记录的内容为多个对象的交谈,从而使得目标语音的内容更加符合目标对象日常的精神状态,从而提高判断结果的准确度。结果的准确度。结果的准确度。

【技术实现步骤摘要】
声音处理方法及电子设备


[0001]本申请涉及医疗诊断领域,并且更具体地,涉及一种声音处理方法及电子设备。

技术介绍

[0002]精神障碍指的是大脑机能活动发生紊乱,导致认知、情感、行为和意志等精神活动不同程度障碍的总称。患者的行为习惯、思维方式等都是精神障碍的诊断依据。比如意识模糊、谵妄、记忆和智力障碍等症状,可以发现患者认知、情感、行为和意志等精神活动障碍。但是,由于缺乏对精神障碍的认知,患者及其亲属对精神疾病的诊断和治疗存在偏见,使得患者得不到及时的干预治疗。
[0003]为了提高精神障碍的诊断便利性,可以采集被测试者执行预设描述任务过程中的语音,并根据该语音,确定声音模态数据和文本模态数据,利用神经网络模型对声音模态数据和文本模态数据进行处理,可以确定被测试者是否患有精神障碍。预设描述任务可以是描述预设图像的内容,或描述周围发生的事件等。根据被测试者的语音,对被测试者是否患有精神障碍进行判断,诊断方式较为简便。
[0004]但是,该方法的应用受限于被测试者的文化水平和语言表达能力。如果被测试者文化程度和语言表达能力使得被测试者无法以流畅的语言对图像或事件进行描述,则诊断结果可能存在错误。并且,预设描述任务的内容与被测试者的日常生活差距可能较大,使得被测试者在执行预设描述任务过程中存在紧张的情绪,而紧张的情绪对诊断结果的准确度也会产生影响。

技术实现思路

[0005]本申请提供了一种声音处理方法及电子设备,能够提高精神障碍疾病的诊断准确度。
[0006]第一方面,提供一种声音处理方法,该方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;根据所述目标语音,确定所述目标对象是否患有精神障碍。
[0007]本申请的方案,根据待处理声音中目标对象的目标语音,对目标对象是否患有精神障碍进行判断。待处理声音中包括多个对象的语音,即待处理语音记录的内容为多个对象之间交谈,从而使得目标语音的内容更加符合目标对象日常的精神状态,从而提高判断结果的准确度。
[0008]记录多个对象交谈内容的待处理声音中,多个对象的语音混杂在一起。利用目标声纹信息识别待处理声音中目标对象的目标语音,根据目标语音确定目标对象是否患有精神障碍,提高判断结果的准确度。
[0009]并且,目标对象是否患有精神障碍的确定,不依赖于对其他目标的语音的处理。对待处理声音中其他目标的语音无需进行后续处理,降低需要处理的数据量,提高了声音处
理的效率。
[0010]在一些可能的实现方式中,所述方法还包括:利用个性化语音活性检测模型对所述目标声纹信息和所述待处理声音进行处理,以得到语音检测信息,所述语音检测信息表示所述待处理声音中的多个语音段以及每个语音段是否为所述目标对象的语音;根据所述语音检测信息,确定间隔时长,所述间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度,所述两个目标语音段是所述多个语音段中相邻的语音段,且所述两个目标语音段均为所述目标对象的语音;所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍。
[0011]目标对象讲话过程中停顿的时间长度与目标对象患有精神障碍的可能性正相关。间隔时长表示目标对象讲话过程中停顿的时间长度。根据目标语音和间隔时长,判断目标对象是否患有精神障碍,而提高判断结果的准确度。
[0012]在一些可能的实现方式中,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:利用声纹提取模型,对所述待处理声音中的多个片段声音分别进行声纹提取,以得到每个时间段的声纹信息;计算每个片段声音的声纹信息与所述目标声纹信息之间的相似度;所述目标语音至少一个目标片段声音,所述目标片段声音是所述多个片段声音中使得相似度小于或等于预设相似度的片段声音。
[0013]在非语音段中,可能也存在目标对象的声音,如目标对象的笑声、叹气声等。这些声音对于目标对象是否患有精神障碍的判断也具重要意义。
[0014]利用声纹提取模型,对所述待处理声音中的多个片段声音分别进行声纹提取,目标语音包括目标片段声音,目标片段声音是多个片段声音中声纹信息与目标声纹信息之间的相似度小于预设相似度的片段声音。从而,目标语音可以包括目标发出的语音之外的其他声音,使得对于目标对象是否患有精神障碍的判断结果更加准确。
[0015]在一些可能的实现方式中,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:根据所述语音检测信息,确定所述目标语音,所述目标语音包括多个候选语音段,所述多个语音段包括所述多个候选语音段,且所述候选语音段为所述目标对象的语音。
[0016]根据个性化语音活性检测模型输出的语音检测信息,进行间隔时长和目标对象的目标语音的确定,使得声音处理流程更为简便。
[0017]在一些可能的实现方式中,所述个性化语音活性检测模型是基于训练数据进行训练得到的,所述训练数据包括训练声音、训练对象的训练声纹信息和标签语音检测信息,所述标签语音检测信息表示所述训练声音中的至少一个训练语音段以及每个训练语音段是否为所述训练对象的语音,所述训练包括:利用初始个性化语音活性检测模型对所述训练声音和所述训练声纹信息进行处理,以得到训练语音检测信息;根据所述训练语音检测信息和所述标签语音检测信息之间的差异,调整所述初始个性化语音活性检测模型的参数,以最小化所述差异,所述个性化语音活性检测模型是参数调整后的初始个性化语音活性检测模型。
[0018]利用端到端训练得到的个性化语音活性检测模型确定间隔时长,间隔时长的确定更为简便,准确度更高。
[0019]在一些可能的实现方式中,所述根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍,包括:根据所述间隔时长,确定第一患病概率;根据所述目标语音,确定第二患病概率;根据所述第一患病概率和所述第二患病概率,确定所述目标对象是否患有精神障碍。
[0020]分别根据间隔时长和目标语音确定第一患病概率和第二患病概率,并根据第一患病概率和第二患病概率确定目标对象是否患有精神障碍,从而第一患病概率和第二患病概率的确定可以采用相同或不同的方式进行,从而对目标对象是否患有精神障碍的确定方式更加灵活。
[0021]并且,根据目标语音确定第二患病概率的过程,可以复用已有算法,降低声音处理方法的设计成本。
[0022]在一些可能的实现方式中,所述目标声纹信息是对所述目标对象的声纹指示语音进行声纹识别得到的。
[0023]目标对象的声纹指示语音指示目标声纹信息,使得目标声纹信息的获取方式更加灵活。目标声纹信息也可以称为声纹注册信息。利用目标声纹信息标识目标对象,可以保护目标对象的隐私,并且使得是否患有精神障碍的确定只针对目标对象进行。
[0024]在一些可能的实现方式中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音处理方法,其特征在于,所述方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;根据所述目标语音,确定所述目标对象是否患有精神障碍。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用个性化语音活性检测模型对所述目标声纹信息和所述待处理声音进行处理,以得到语音检测信息,所述语音检测信息表示所述待处理声音中的多个语音段以及每个语音段是否为所述目标对象的语音;根据所述语音检测信息,确定间隔时长,所述间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度,所述两个目标语音段是所述多个语音段中相邻的语音段,且所述两个目标语音段均为所述目标对象的语音;所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:对所述待处理声音中的多个片段声音分别进行声纹提取,以得到每个片段声音的声纹信息;确定每个片段声音的声纹信息与所述目标声纹信息之间的差异;所述目标语音包括至少一个目标片段声音,所述目标片段声音是所述多个片段声音中所述差异小于或等于预设阈值的片段声音。4.根据权利要求2或3所述的方法,其特征在于,所述个性化语音活性检测模型是基于训练数据进行训练得到的,所述训练数据包括训练声音、训练对象的训练声纹信息和标签语音检测信息,所述标签语音检测信息表示所述训练声音中的至少一个训练语音段以及每个训练语音段是否为所述训练对象的语音,所述训练包括:利用初始个性化语音活性检测模型对所述训练声音和所述训练声纹信息进行处理,以得到训练语音检测信息;根据所述训练语音检测信息和所述标签语音检测信息之间的差异,调整所述初始个性化语音活性检测模型的参数,以最小化所述差异,所述个性化语音活性检测模型是参数调整后的初始个性化语音活性检测模型。5.根据权利要求2...

【专利技术属性】
技术研发人员:张贤炜
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1