由视频生成音素资源文件的方法及相关设备技术

技术编号:34799592 阅读:24 留言:0更新日期:2022-09-03 20:05
本发明专利技术提供了一种由视频生成音素资源文件的方法及相关设备,其中方法包括:从视频文件中抽取得到音频文件;对音频文件进行数字化处理得到音频数据;将音频数据输入语音识别模型中获得中文字词数据;将中文字词数据转换为带有音调的拼音数据;对拼音数据进行字母韵母拆分得到中文音素数据;将音频数据和中文音素数据进行对齐处理,获得中文音素数据中各中文音素的起始时间和结束时间;新建音素资源文件,将中文音素数据中各中文音素以及各中文音素的述起始时间和结束时间逐行填入音素资源文件中。本发明专利技术的方法可以提取出视频中包含的音素以及音素的始末时间并生成音素资源文件,以供开发者进行编辑,开发者制作动画时具有更大的发挥空间。大的发挥空间。大的发挥空间。

【技术实现步骤摘要】
由视频生成音素资源文件的方法及相关设备


[0001]本专利技术涉及音视频处理
,尤其涉及一种由视频生成音素资源文件的方法及相关设备。

技术介绍

[0002]Adobe Character Animator是Adobe公司出品的一款动作捕获和动画制作软件,它可以为用户提供用于直观地制作2D(二维)人物动画、实时动画,以及发布动画的一款动画制作软件。开发人员在使用该软件制作动画时,由于该软件并不提供音素生成的API接口,开发人员在开发过程中也就无法随心所欲修改音素生成结果,这就使得利用该软件进行动画开发相当不便,制作出的动画效果不佳。
[0003]因此,现有技术还有待于改进和发展。

技术实现思路

[0004]本专利技术的主要目的在于提供一种由视频生成音素资源文件的方法及相关设备。
[0005]本专利技术第一方面提供了一种由视频生成音素资源文件的方法,包括以下步骤:
[0006]从视频文件中抽取得到音频文件;
[0007]对所述音频文件进行数字化处理,得到音频数据;
[0008]将所述音频数据输入语音识别模型中获得中文字词数据;
[0009]将所述中文字词数据转换为带有音调的拼音数据;
[0010]对所述拼音数据进行字母韵母拆分得到中文音素数据;
[0011]将所述音频数据和所述中文音素数据进行对齐处理,获得所述中文音素数据中各中文音素的起始时间和结束时间;
[0012]新建音素资源文件,将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中。
[0013]在本专利技术第一方面一种可选的实施方式中,所述新建音素资源文件,将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中之后包括:
[0014]将所述音素资源文件中的各所述中文音素替换为发音相近的英文音素。
[0015]在本专利技术第一方面一种可选的实施方式中,所述对所述音频文件进行数字化处理,得到音频数据包括:
[0016]将所述音频文件导入到音频采样率转换软件中;
[0017]设置所述音频采样率转换软件中导出的音频采样率为16KHz,采样位数为16bit;
[0018]对所述音频文件进行采样率转换,获取转换后所述音频文件中的所述音频数据。
[0019]在本专利技术第一方面一种可选的实施方式中,所述将所述音频数据输入语音识别模型中获得中文字词数据包括:
[0020]将所述音频数据通过torchaudio模块提取声学特征;
[0021]将所述声学特征输入到Conformer网络来生成所述中文字词数据。
[0022]在本专利技术第一方面一种可选的实施方式中,所述将所述中文字词数据转换为带有音调的拼音数据包括:
[0023]将所述中文字词数据输入到python

pypinyin模块中进行拼音转换,获得带有音调的拼音数据。
[0024]在本专利技术第一方面一种可选的实施方式中,所述将所述音频数据和所述中文音素数据进行对齐处理,获得所述中文音素数据中各中文音素的起始时间和结束时间包括:
[0025]将所述音频数据和所述中文音素数据输入到kaldi语音识别工具箱中进行音频和中文音素的对齐,获得所述中文音素数据中各中文音素的起始时间和结束时间。
[0026]在本专利技术第一方面一种可选的实施方式中,所述将所述音素资源文件中的各所述中文音素替换为发音相近的英文音素包括:
[0027]预先人工创建中文音素和英文音素之间的映射表;
[0028]按照所述映射表将所述音素资源文件中的各所述中文音素替换为发音相近的英文音素。
[0029]本专利技术第二方面提供了一种由视频生成音素资源文件的装置,所述由视频生成音素资源文件装置包括:
[0030]抽取模块,用于从视频文件中抽取得到音频文件;
[0031]数字化处理模块,用于对所述音频文件进行数字化处理,得到音频数据;
[0032]字词识别模块,用于将所述音频数据输入语音识别模型中获得中文字词数据;
[0033]拼音识别模块,用于将所述中文字词数据转换为带有音调的拼音数据;
[0034]拆分模块,用于对所述拼音数据进行字母韵母拆分得到中文音素数据;
[0035]对齐模块,用于将所述音频数据和所述中文音素数据进行对齐处理,获得所述中文音素数据中各中文音素的起始时间和结束时间;
[0036]新建模块,用于新建音素资源文件,将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中。
[0037]本专利技术第三方面提供了一种由视频生成音素资源文件的设备,其特征在于,所述由视频生成音素资源文件的设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
[0038]所述至少一个处理器调用所述存储器中的所述指令,以使得所述由视频生成音素资源文件的设备执行如上述任一项所述的由视频生成音素资源文件的方法。
[0039]本专利技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的由视频生成音素资源文件的方法。
[0040]有益效果:本专利技术提供了一种由视频生成音素资源文件的方法及相关设备,其中方法包括:从视频文件中抽取得到音频文件;对音频文件进行数字化处理得到音频数据;将音频数据输入语音识别模型中获得中文字词数据;将中文字词数据转换为带有音调的拼音数据;对拼音数据进行字母韵母拆分得到中文音素数据;将音频数据和中文音素数据进行对齐处理,获得中文音素数据中各中文音素的起始时间和结束时间;新建音素资源文件,将中文音素数据中各中文音素以及各中文音素的述起始时间和结束时间逐行填入音素资源
文件中。本专利技术的方法可以提取出视频中包含的音素以及音素的始末时间并生成音素资源文件,以供开发者进行编辑,开发者制作动画时具有更大的发挥空间。
附图说明
[0041]图1为本专利技术一种由视频生成音素资源文件的方法的一个实施例示意图;
[0042]图2为本专利技术一种由视频生成音素资源文件的装置的一个实施例示意图;
[0043]图3为本专利技术一种由视频生成音素资源文件的设备的一个实施例示意图。
具体实施方式
[0044]本专利技术实施例提供了一种由视频生成音素资源文件的方法及相关设备。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种由视频生成音素资源文件的方法,其特征在于,包括以下步骤:从视频文件中抽取得到音频文件;对所述音频文件进行数字化处理,得到音频数据;将所述音频数据输入语音识别模型中获得中文字词数据;将所述中文字词数据转换为带有音调的拼音数据;对所述拼音数据进行字母韵母拆分得到中文音素数据;将所述音频数据和所述中文音素数据进行对齐处理,获得所述中文音素数据中各中文音素的起始时间和结束时间;新建音素资源文件,将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中。2.根据权利要求1所述的由视频生成音素资源文件的方法,其特征在于,所述新建音素资源文件,将所述中文音素数据中各所述中文音素以及各所述中文音素的所述起始时间和所述结束时间逐行填入所述音素资源文件中之后包括:将所述音素资源文件中的各所述中文音素替换为发音相近的英文音素。3.根据权利要求1或2所述的由视频生成音素资源文件的方法,其特征在于,所述对所述音频文件进行数字化处理,得到音频数据包括:将所述音频文件导入到音频采样率转换软件中;设置所述音频采样率转换软件中导出的音频采样率为16KHz,采样位数为16bit;对所述音频文件进行采样率转换,获取转换后所述音频文件中的所述音频数据。4.根据权利要求1或2所述的由视频生成音素资源文件的方法,其特征在于,所述将所述音频数据输入语音识别模型中获得中文字词数据包括:将所述音频数据通过torchaudio模块提取声学特征;将所述声学特征输入到Conformer网络来生成所述中文字词数据。5.根据权利要求1或2所述的由视频生成音素资源文件的方法,其特征在于,所述将所述中文字词数据转换为带有音调的拼音数据包括:将所述中文字词数据输入到python

pypinyin模块中进行拼音转换,获得带有音调的拼音数据。6.根据权利要求1或2所述的由视频生成音素资源文件的方法,其特征在于,所述将所述音频数据和所述中文音素数据进行...

【专利技术属性】
技术研发人员:蔡卓君
申请(专利权)人:上海积图科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1