用于音频的文字时间对齐方法、装置、介质及电子设备制造方法及图纸

技术编号：23086720 阅读：49 留言：0更新日期：2020-01-11 01:44

本公开涉及一种用于音频的文字时间对齐方法、装置、介质及电子设备。所述方法包括：确定与音频对应的分词序列以及音节序列，其中，所述音节序列中的每个音节具有在所述音频中对应的起始时刻和持续时长；确定所述分词序列中每一分词在所述音节序列中对应的音节组合；根据每一所述分词在所述音节序列中对应的音节组合，以及所述音节序列中每个音节对应的起始时刻和持续时长，确定所述分词序列中每个分词在所述音频中对应的起始时刻和结束时刻。这样，能够准确地实现音频中文字的时间同步，并且，数据处理量小，能提升数据处理效率。

Text time alignment methods, devices, media and electronic devices for audio

全部详细技术资料下载

【技术实现步骤摘要】
用于音频的文字时间对齐方法、装置、介质及电子设备
本公开涉及计算机
，具体地，涉及一种用于音频的文字时间对齐方法、装置、介质及电子设备。
技术介绍
目前，对于视频语义搜索、视频定位、视频字幕添加等功能的需求越来越大，而这些功能依赖于对其音频的处理。因而，在音频处理的过程中，除了识别音频得到与音频相关的文字之外，还需要确定这些文字在音频中何时出现。举例来说，在对音频进行字幕添加操作时，需要知道哪一段字幕应当在何时出现。因此，应当明确文字与时间的对应关系，也就是需要进行文字时间对齐。相关技术中，一般通过HMM(HiddenMarkovModel，隐马尔科夫模型)进行语音识别。HMM在进行语音识别时，其数据处理所需帧移小，数据处理量大。另外，在相关技术中，HMM还可以进一步结合CTC(Connectionisttemporalclassification)算法进行语音识别。利用CTC算法处理后其输出数据在时间上并非一一对齐，在时间上存在误差，准确性不足。
技术实现思路
提供该
技术实现思路
部...

【技术保护点】
1.一种用于音频的文字时间对齐方法，其特征在于，所述方法包括：/n确定与音频对应的分词序列以及音节序列，其中，所述音节序列中的每个音节具有在所述音频中对应的起始时刻和持续时长；/n确定所述分词序列中每一分词在所述音节序列中对应的音节组合；/n根据每一所述分词在所述音节序列中对应的音节组合，以及所述音节序列中每个音节对应的起始时刻和持续时长，确定所述分词序列中每个分词在所述音频中对应的起始时刻和结束时刻。/n

【技术特征摘要】
1.一种用于音频的文字时间对齐方法，其特征在于，所述方法包括：
确定与音频对应的分词序列以及音节序列，其中，所述音节序列中的每个音节具有在所述音频中对应的起始时刻和持续时长；
确定所述分词序列中每一分词在所述音节序列中对应的音节组合；
根据每一所述分词在所述音节序列中对应的音节组合，以及所述音节序列中每个音节对应的起始时刻和持续时长，确定所述分词序列中每个分词在所述音频中对应的起始时刻和结束时刻。

2.根据权利要求1所述的方法，其特征在于，所述确定所述分词序列中每一分词在所述音节序列中对应的音节组合，包括：
根据第一分词和预设音节字典，确定第一音节组合，所述预设音节字典用于指示分词与音节之间的对应关系，以及，所述预设音节字典中每一个分词对应有至少一种音节组合，所述第一音节组合为所述第一分词在所述预设音节字典中对应的音节组合之一，其中，初始情况下，所述第一分词为所述分词序列中的第一个分词；
以第一音节为起点，确定所述音节序列中是否存在与所述第一音节组合相同的第一目标音节组合，初始情况下，所述第一音节为所述音节序列的首个音节；
若存在所述第一目标音节组合，确定所述第一目标音节组合与所述第一分词相对应；
将所述第一分词在所述分词序列中的下一分词作为新的所述第一分词、以及、将所述第一目标音节组合在所述音节序列中的下一音节作为新的所述第一音节，并返回所述根据第一分词和所述预设音节字典，确定第一音节组合的步骤，直至所述第一分词为所述分词序列中的最后一个分词。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
若不存在所述第一目标音节组合，将所述第一分词在所述分词序列中的下一分词作为第二分词，并根据所述第二分词和所述预设音节字典，确定第二音节组合，所述第二音节组合为所述第二分词在所述预设音节字典中对应的音节组合之一；
以第一音节为起点，确定所述音节序列中是否存在与所述第二音节组合相同的第二目标音节组合；
若存在所述第二目标音节组合、且所述第一音节至所述第二目标音节组合之前的音节数量小于预设阈值，确定所述第二目标音节组合与所述第二分词相对应，并根据所述第一音节和所述第二目标音节组合确定与所述第一分词对应的音节组合；
将所述第二分词在所述分词序列中的下一分词作为新的所述第一分词、并将所述第二目标音节组合在所述音节序列中的下一音节作为新的所述第一音节，并返回所述根据第一分词和所述预设音节字典，确定第一音节组合的步骤，直至所述第一分词为所述分词序列中的最后一个分词，其中，所述预设阈值大于零。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一音节和所述第二目标音节组合确定与所述第一分词对应的音节组合，包括：
若所述第一音节至所述第二目标音节组合之前的音节数量为零，确定所述第一音节前、且与所述第一音节相邻的音节组合与所述第一分词相对应；
若所述第一音节至所述第二目标音节组合之前的音节数量大于零，确定所述音节序列中所述第一音节至所述第二目标音节组合之前的音节所构成的音节组合与所述第一分词相对应。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：
若不存在所述第二目标音节组合，或者，若所述第一音节至所述第二目标音节组合之前的音节数量大于或等于所述预设阈值，确定所述音节序列中所述第一音节至所述最后一个音节所构成的音节组合与所述分词序列中所述第一分词至最后一个分词分别相对应。

6.根据权利要求3-5中任一项所述的方法，其特征在于，若不存在所述第一目标音节组合，所述方法还包括：
若所述第一分词为所述分词序列中的最后一个分词，确定所述音节序列中所述第一音节至最后一个音节所构成的音节组合与所述第一分词相对应；
若所述第一分词不是所述分词序列中的最后一个分词，则执行所述将所述第一分词在所述分词序列中的下一分词作为第二分词，并根据所述第二分词和所述预设音节字典，确定第二音节组合的步骤。

7.根据权利要求3所述的方法，其特征在于，若不存在所述第一目标音节组合，所述方法还包括：<...

【专利技术属性】
技术研发人员：蔡猛，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人