基于车机的声音复刻方法、系统、电子设备以及存储介质技术方案

技术编号:35184400 阅读:18 留言:0更新日期:2022-10-12 17:54
本申请的提供了这样一种基于车机的声音复刻方法、系统、电子设备以及存储介质,可包括:根据车机采集的多个音频信息,在至少一个发音主体中筛选出车机的复刻主体,并提取复刻主体的多个语音数据,其中音频信息包括至少一个发音主体的视频数据及其语音数据,其中语音数据包括发音主体向车机下达的语音指令;根据复刻主体的多个语音数据,提取复刻主体的声纹特征;以及将声纹特征与车机的交互文本结合,生成具有声纹特征的文本音频。通过在日常的语音指令中获取用户音色,避免了需要集中时间录制指定文本的繁琐过程,降低了音色自定义的时间成本,提高了用户体验。提高了用户体验。提高了用户体验。

【技术实现步骤摘要】
基于车机的声音复刻方法、系统、电子设备以及存储介质


[0001]本申请涉及智能语音
,特别涉及一种基于车机的声音复刻方法、系统、电子设备以及存储介质。

技术介绍

[0002]随着技术的发展,传统的键盘输入和按钮输入无法满足人们对便捷式人机交互的需求,智能语音成为人机交互的新方向。智能语音所带来的便捷交互模式尤其体现在汽车驾驶领域,例如用户可对智能语音助手下达“获取路况”、“导航回家”等指令,智能语音助手将会对当前路况信息、回家路线信息等进行语音播报,以达到解放用户的双手,辅助用户安全驾驶等效果。
[0003]智能语音作为提升用户驾驶体验的重要组成部分,在与用户进行信息交互时只能发出厂商设定的少数种机器音色,无法体现用户的自身特色。当然,相关技术中存在一些可以自定义用户音色的手段,例如由用户主动下达声音复刻的指令,并在规定时间内录制指定的文本,以辅助智能语音助手采集音色。显而易见地,相关技术中需要用户主动进行音色复刻动作,并需要集中时间录制指定文本,具有操作繁琐和录制时间成本高的缺陷,降低了用户的体验。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种基于车机的声音复刻方法、系统、电子设备以及存储介质,通过在日常语音指令中获取用户音色,避免了需要集中时间录制指定文本的繁琐过程,提高了用户体验。
[0005]本申请的一个方面提供了这样一种基于车机的声音复刻方法,可包括:根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,其中所述音频信息包括至少一个所述发音主体的视频数据及其语音数据,其中所述语音数据包括所述发音主体向所述车机下达的语音指令;根据所述复刻主体的多个语音数据,提取所述复刻主体的声纹特征;以及将所述声纹特征与所述车机的交互文本结合,生成具有所述声纹特征的文本音频。
[0006]在一些实施方式中,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,可包括:在所述车机采集的多个音频信息的视频数据中提取发音主体的面部特征;将所述发音主体的面部特征与所述车机中预存的目标特征进行比对,其中所述目标特征为所述复刻主体的面部特征;响应于所述发音主体的面部特征与所述目标特征的相似度大于面部特征阈值的比对结果,判定所述发音主体为所述复刻主体;利用目标音频采集装置对所述复刻主体的说话动作进行监测;以及当监测到所述复刻主体执行说话动作时,调用所述车机的目标音频采集装置采集所述复刻主体的多个语音数据,其中所述复刻主体的多个语音数据包括所述复刻主体的
多个语音对话以及所述复刻主体向所述车机下达的多个语音指令。
[0007]在一些实施方式中,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,可包括:分别提取所述车机采集的各个音频信息的语音数据中包含的声纹特征,其中所述声纹特征用于表征发音主体的音色;确定各个所述语音数据的声纹特征之间的相似度,将所述相似度高于声纹特征阈值的声纹特征进行种类合并;计算多个所述语音数据的声纹特征的种类数,并将所述声纹特征的种类数作为多个所述语音数据的发音主体的数量;以及响应于存在一个所述发音主体的识别结果,对多个所述音频信息的语音数据进行提取,并将其作为所述复刻主体的多个语音数据,其中所述复刻主体的多个语音数据包括所述复刻主体向所述车机下达的多个语音指令。
[0008]在一些实施方式中,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体向所述车机下达的多个语音数据,可包括:分别提取所述车机采集的各个音频信息的语音数据中包含的声纹特征,其中所述声纹特征用于表征发音主体的音色;确定各个所述语音数据的声纹特征之间的相似度,将所述相似度高于声纹特征阈值的声纹特征进行种类合并;计算多个所述语音数据的声纹特征的种类数,并将所述声纹特征的种类数作为多个所述语音数据的发音主体的数量;响应于存在至少两个所述发音主体的识别结果,确定多个所述音频信息中各个所述发音主体产生语音数据的次数;以及将产生所述语音数据的次数超过次数阈值的发音主体作为所述复刻主体,并在多个所述音频信息中提取所述复刻主体的多个语音数据,其中所述复刻主体的多个语音数据包括所述复刻主体向所述车机下达的多个语音指令。
[0009]在一些实施方式中,在所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体向所述车机下达的多个语音数据之前,可包括:在所述车机的多个音频采集装置中确定目标音频采集装置,包括:采集所述复刻主体的座位,将所述复刻主体的座位对应的音频采集装置作为目标音频采集装置;以及利用目标音频采集装置采集多个所述音频信息。
[0010]在一些实施方式中,在所述根据所述复刻主体的多个语音数据,提取所述复刻主体的声纹特征之前,还可包括:采集所述复刻主体的各个语音数据中的环境噪声幅值和指令数据幅值;根据所述环境噪声幅值和所述指令数据幅值,确定所述复刻主体的各个语音数据的信噪比;以及清除所述复刻主体的各个语音数据中信噪比小于信噪比阈值的语音数据。
[0011]在一些实施方式中,在所述将所述声纹特征与所述车机的交互文本结合,生成具有所述声纹特征的文本音频之后,还可包括:响应于所述复刻主体的更换指令,对所述声纹特征进行重置。
[0012]本申请的另一个方面还提供了这样一种基于车机的声音复刻系统,包括:语音数据提取模块、声纹特征识别模块以及复刻模块。语音数据提取模块用于根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体向所述车机下达的多个语音数据,其中所述音频信息包括至少一个所述发音主体的视频数据及其语音数据,其中所述语音数据包括所述发音主体向所述车机下达的语音指令。声纹特征识别模块用于根据所述复刻主体的多个语音数据,提取所述复刻主体的声纹特征。复刻
模块用于将所述声纹特征与所述车机的交互文本结合,生成具有所述声纹特征的文本音频。
[0013]本申请的又一个方面还提供了这样一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,以实现如上文任一实施方式所述的基于车机的声音复刻方法中的步骤。
[0014]本申请的又一个方面还提供了这样一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上文任一实施方式所述的基于车机的声音复刻方法中的步骤。
[0015]根据上述的实施方式的技术方案可至少获得以下一个有益效果。
[0016]根据本申请的一种基于车机的声音复刻方法、系统、电子设备以及存储介质,通过在日常的语音指令中获取用户音色,避免了需要集中时间录制指定文本的繁琐过程,降低了音色自定义的时间成本,提高了用户体验。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于车机的声音复刻方法,其特征在于,包括:根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,其中所述音频信息包括至少一个所述发音主体的视频数据及其语音数据,其中所述语音数据包括所述发音主体向所述车机下达的语音指令;根据所述复刻主体的多个语音数据,提取所述复刻主体的声纹特征;以及将所述声纹特征与所述车机的交互文本结合,生成具有所述声纹特征的文本音频。2.根据权利要求1所述的基于车机的声音复刻方法,其特征在于,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,包括:在所述车机采集的多个音频信息的视频数据中提取发音主体的面部特征;将所述发音主体的面部特征与所述车机中预存的目标特征进行比对,其中所述目标特征为所述复刻主体的面部特征;响应于所述发音主体的面部特征与所述目标特征的相似度大于面部特征阈值的比对结果,判定所述发音主体为所述复刻主体;利用目标音频采集装置对所述复刻主体的说话动作进行监测;以及当监测到所述复刻主体执行说话动作时,调用所述车机的目标音频采集装置采集所述复刻主体的多个语音数据,其中所述复刻主体的多个语音数据包括所述复刻主体的多个语音对话以及所述复刻主体向所述车机下达的多个语音指令。3.根据权利要求1所述的基于车机的声音复刻方法,其特征在于,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体的多个语音数据,包括:分别提取所述车机采集的各个音频信息的语音数据中包含的声纹特征,其中所述声纹特征用于表征发音主体的音色;确定各个所述语音数据的声纹特征之间的相似度,将所述相似度高于声纹特征阈值的声纹特征进行种类合并;计算多个所述语音数据的声纹特征的种类数,并将所述声纹特征的种类数作为多个所述语音数据的发音主体的数量;以及响应于存在一个所述发音主体的识别结果,对多个所述音频信息的语音数据进行提取,并将其作为所述复刻主体的多个语音数据,其中所述复刻主体的多个语音数据包括所述复刻主体向所述车机下达的多个语音指令。4.根据权利要求1所述的基于车机的声音复刻方法,其特征在于,所述根据车机采集的多个音频信息,在至少一个发音主体中筛选出所述车机的复刻主体,并提取所述复刻主体向所述车机下达的多个语音数据,包括:分别提取所述车机采集的各个音频信息的语音数据中包含的声纹特征,其中所述声纹特征用于表征发音主体的音色;确定各个所述语音数据的声纹特征之间的相似度,将所述相似度高于声纹特征阈值的声纹特征进行种类合并;计算多个所述语音数据的声纹特征的种类数,...

【专利技术属性】
技术研发人员:吴昊阳曹斌
申请(专利权)人:东软睿驰汽车技术大连有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1