机器人声音实时转换方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：32929563 阅读：40 留言：0更新日期：2022-04-07 12:20

本发明专利技术公开了机器人声音实时转换方法、装置、计算机设备及存储介质，该方法包括：对实时音频进行采集，并将实时音频转换为帧级单位的实时音频；通过声码器对实时音频提取基频特征；对基频特征提取频谱包络特征，以及对基频特征提取非周期性特征；对基频特征进行特征调整，并将特征调整后的值设置目标基频值；将频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将转换目标解码为声音。本发明专利技术通过对实时音频进行基频特征提取，并进一步提取频谱包络特征和非周期性特征，然后将频谱包络特征和非周期特征以及特征转换后的目标基频值结合并解码，以实现声音的高自然度转换，从而为用户提供不同类型的机器人声音选择。择。择。

全部详细技术资料下载

【技术实现步骤摘要】
机器人声音实时转换方法、装置、计算机设备及存储介质

[0001]本专利技术涉及计算机软件
，特别涉及机器人声音实时转换方法、装置、计算机设备及存储介质。

技术介绍

[0002]用户在创造视频时出于某些原因可能不太愿意发出自己真正的声音，因此希望使用其他声音来替换自己的声音，而机器人声音可以消除绝大部分自身声音信息，同时可以丰富用户的视频创造的多样性，故机器人声音在视频创造过程中被大量采用。
[0003]目前机器人声音转换存在于部分音视频编辑软件中，如audio director、iMyFone Filme等音视频编辑软件，但是不同编辑软件对机器人声音的定义不同，因而机器人声音产生的效果也不相同。现有技术中，实现机器人声音转换的方式通常与短时傅里叶变换做法类似，即首先通过分帧提取每一帧音频，对该帧音频进行加窗操作，然后对该帧使用快速傅里叶变换并且取绝对值，将零频点移到频谱的中间，接着使用快速傅里叶逆变化，并加窗，最后帧移一段距离重复上述操作，将当下结果与上述结果按照一定比例进行叠加。但是上述方法在实施后会产生嘶嘶...

【技术保护点】

【技术特征摘要】
1.一种机器人声音实时转换方法，其特征在于，包括：对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；通过声码器对所述实时音频提取基频特征；对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。2.根据权利要求1所述的机器人声音实时转换方法，其特征在于，所述通过声码器对所述实时音频提取基频特征，包括：利用不同的截止频率的低通率波获取所述实时音频不同的正弦波；计算所有正弦波的基频值和可信度，并选取可信度最高的基频值作为所述实时音频的基频特征。3.根据权利要求1所述的机器人声音实时转换方法，其特征在于，所述对所述基频特征提取频谱包络特征，包括：按照下式，使用3倍周期长度T0的汉宁窗口与基频特征进行加窗操作并计算功率：特征进行加窗操作并计算功率：式中，N为窗口长度，n＝1,2,3,
…
,N，y(t)表示第t个基频特征采样点值；对加窗后的窗口进行快速傅里叶变换，以及对非0值取对数，并按照下式，采用三角窗进行平滑处理：式中，w0＝2π/T0，表示频率，P
s
(w)表示功率；按照下式，对平滑处理后的基频特征进行快速傅里叶逆变换，并采用sinc函数得到低频特征：式中，τ表示时间，ls(τ)表示用于平滑对数功率谱并去除时变分量的变化函数；按照下式消除平滑后的畸变，并进行频谱恢复得到所述频谱包络特征：式中，l
q
表示用于频谱恢复的变化函数。4.根据权利要求3所述的机器人声音实时转换方法，其特征在于，所述对所述基频特征提取非周期性特征，包括：基于相位变化和频率变化计算群延时；根据群延时对所述基频特征的参数进行修正；按照下式提取得到所述非周期特征ap(w
c
)：
ap(w
c
)＝
‑<...

【专利技术属性】
技术研发人员：彭宁，
申请(专利权)人：深圳万兴软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人