一种基于音域范围的音频token化编码方法及装置制造方法及图纸

技术编号：42610863 阅读：21 留言：0更新日期：2024-09-03 18:18

本发明专利技术提供一种基于音域范围的音频token化编码方法及装置，解决了现有技术中对于音频的处理过程速度缓慢的问题。通过对离散的音频数据转换为token序列和词汇表，并对音频token化后的序列和词汇表进行更新，在满足一定条件后输出词汇表。不仅提高了模型的训练效率，也提高了模型对于音频的理解能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理领域，尤其涉及一种基于音域范围的音频token化编码方法及装置。

技术介绍

1、目前，在整个行业领域内，针对音频token化的有效方法相对较为匮乏。主流的常规操作方式是首先对音频内容实施一系列的预处理步骤，这些预处理手段主要涵盖了短时傅里叶变换、梅尔频率倒谱系数等方法。在完成这些预处理流程之后，音频内容会被转化为特定的音频特征，进而作为输入数据被导入模型中展开训练。

2、然而，现有的这些方法存在着明显的缺陷和不足。其中一个突出的问题是，它们会不可避免地致使原始音频信号的部分关键信息出现损失。比如说，在短时傅里叶变换这一过程中，将原本处于时域的信号转换为频域信号时，由于转换过程中的局限性和固有特点，很可能会丢失一些重要的细节信息。与此同时，某些预处理方法，尤其是那些涉及频谱分析和特征提取的部分，往往需要投入较高的计算资源和时间成本，其计算复杂度较高，这就直接导致了整个音频处理过程的速度较为缓慢。例如，在进行大规模音频数据的处理时，复杂的预处理步骤可能会耗费大量的时间，从而严重影响了工作效率和项目的整体进度。

本文档来自技高网...

【技术保护点】

1.一种基于音域范围的音频token化编码的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S1中，对原始音频序列A进行简化，形成序列B，具体为：确定原始音频序列A中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S3中，所述词汇表G包括所述序列B中的所有不同的数据和序列C中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤S4中，所述更...

【技术特征摘要】

1.一种基于音域范围的音频token化编码的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s1中，对原始音频序列a进行简化，形成序列b，具体为：确定原始音频序列a中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s3中，所述词汇表g包括所述序列b中的所有不同的数据和序列c中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s4中，所述更新完成后的词汇表g包括所述序列b中的所有不同的数据和从词汇表g初始化到词汇表g更新完成过程中的所有过程符号。

5.根据权利要求1所述的一种基于音域范围的音频token化编码的方法，其特征在于，步骤s4中，根据所述词汇表g中的相邻符号对，更新所述词汇表g，当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时，输出...

【专利技术属性】
技术研发人员：刘凡平，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人