由视频生成音素资源文件的方法及相关设备技术

技术编号：34799592 阅读：24 留言：0更新日期：2022-09-03 20:05

本发明专利技术提供了一种由视频生成音素资源文件的方法及相关设备，其中方法包括：从视频文件中抽取得到音频文件；对音频文件进行数字化处理得到音频数据；将音频数据输入语音识别模型中获得中文字词数据；将中文字词数据转换为带有音调的拼音数据；对拼音数据进行字母韵母拆分得到中文音素数据；将音频数据和中文音素数据进行对齐处理，获得中文音素数据中各中文音素的起始时间和结束时间；新建音素资源文件，将中文音素数据中各中文音素以及各中文音素的述起始时间和结束时间逐行填入音素资源文件中。本发明专利技术的方法可以提取出视频中包含的音素以及音素的始末时间并生成音素资源文件，以供开发者进行编辑，开发者制作动画时具有更大的发挥空间。大的发挥空间。大的发挥空间。

全部详细技术资料下载

【技术实现步骤摘要】
由视频生成音素资源文件的方法及相关设备

[0001]本专利技术涉及音视频处理
，尤其涉及一种由视频生成音素资源文件的方法及相关设备。

技术介绍

[0002]Adobe Character Animator是Adobe公司出品的一款动作捕获和动画制作软件，它可以为用户提供用于直观地制作2D(二维)人物动画、实时动画，以及发布动画的一款动画制作软件。开发人员在使用该软件制作动画时，由于该软件并不提供音素生成的API接口，开发人员在开发过程中也就无法随心所欲修改音素生成结果，这就使得利用该软件进行动画开发相当不便，制作出的动画效果不佳。
[0003]因此，现有技术还有待于改进和发展。

技术实现思路

[0004]本专利技术的主要目的在于提供一种由视频生成音素资源文件的方法及相关设备。
[0005]本专利技术第一方面提供了一种由视频生成音素资源文件的方法，包括以下步骤：
[0006]从视频文件中抽取得到音频文件；
[0007]对所述音频文件进行数字化处理，得到音频数据；
[0008]将所述音频数据输入语音识别模型中获得中文字词数据；
[0009]将所述中文字词数据转换为带有音调的拼音数据；
[0010]对所述拼音数据进行字母韵母拆分得到中文音素数据；
[0011]将所述音频数据和所述中文音素数据进行对齐处理，获得所述中文音素数据中各中文音素的起始时间和结束时间；
[0012]新建音素资源文件，将所述中文音素数据中各所述中文音素以及各所...

【技术保护点】

【技术特征摘要】
1.一种由视频生成音素资源文件的方法，其特征在于，包括以下步骤：从视频文件中抽取得到音频文件；对所述音频文件进行数字化处理，得到音频数据；将所述音频数据输入语音识别模型中获得中文字词数据；将所述中文字词数据转换为带有音调的拼音数据；对所述拼音数据进行字母韵母拆分得到中文音素数据；将所述音频数据和所述中文音素数据进行对齐处理，获得所述中文音素数据中各中文音素的起始时间和结束时间；新建音素资源文件，将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中。2.根据权利要求1所述的由视频生成音素资源文件的方法，其特征在于，所述新建音素资源文件，将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中之后包括：将所述音素资源文件中的各所述中文音素替换为发音相近的英文音素。3.根据权利要求1或2所述的由视频生成音素资源文件的方法，其特征在于，所述对所述音频文件进行数字化处理，得到音频数据包括：将所述音频文件导入到音频采样率转换软件中；设置所述音频采样率转换软件中导出的音频采样率为16KHz，采样位数为16bit；对所述音频文件进行采样率转换，获取转换后所述音频文件中的所述音频数据。4.根据权利要求1或2所述的由视频生成音素资源文件的方法，其特征在于，所述将所述音频数据输入语音识别模型中获得中文字词数据包括：将所述音频数据通过torchaudio模块提取声学特征；将所述声学特征输入到Conformer网络来生成所述中文字词数据。5.根据权利要求1或2所述的由视频生成音素资源文件的方法，其特征在于，所述将所述中文字词数据转换为带有音调的拼音数据包括：将所述中文字词数据输入到python
‑
pypinyin模块中进行拼音转换，获得带有音调的拼音数据。6.根据权利要求1或2所述的由视频生成音素资源文件的方法，其特征在于，所述将所述音频数据和所述中文音素数据进行...

【专利技术属性】
技术研发人员：蔡卓君，
申请(专利权)人：上海积图科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人