一种基于音域范围的音频token化编码方法及装置制造方法及图纸

技术编号:42610863 阅读:21 留言:0更新日期:2024-09-03 18:18
本发明专利技术提供一种基于音域范围的音频token化编码方法及装置,解决了现有技术中对于音频的处理过程速度缓慢的问题。通过对离散的音频数据转换为token序列和词汇表,并对音频token化后的序列和词汇表进行更新,在满足一定条件后输出词汇表。不仅提高了模型的训练效率,也提高了模型对于音频的理解能力。

【技术实现步骤摘要】

本专利技术涉及音频处理领域,尤其涉及一种基于音域范围的音频token化编码方法及装置


技术介绍

1、目前,在整个行业领域内,针对音频token化的有效方法相对较为匮乏。主流的常规操作方式是首先对音频内容实施一系列的预处理步骤,这些预处理手段主要涵盖了短时傅里叶变换、梅尔频率倒谱系数等方法。在完成这些预处理流程之后,音频内容会被转化为特定的音频特征,进而作为输入数据被导入模型中展开训练。

2、然而,现有的这些方法存在着明显的缺陷和不足。其中一个突出的问题是,它们会不可避免地致使原始音频信号的部分关键信息出现损失。比如说,在短时傅里叶变换这一过程中,将原本处于时域的信号转换为频域信号时,由于转换过程中的局限性和固有特点,很可能会丢失一些重要的细节信息。与此同时,某些预处理方法,尤其是那些涉及频谱分析和特征提取的部分,往往需要投入较高的计算资源和时间成本,其计算复杂度较高,这就直接导致了整个音频处理过程的速度较为缓慢。例如,在进行大规模音频数据的处理时,复杂的预处理步骤可能会耗费大量的时间,从而严重影响了工作效率和项目的整体进度


本文档来自技高网...

【技术保护点】

1.一种基于音域范围的音频token化编码的方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤S1中,对原始音频序列A进行简化,形成序列B,具体为:确定原始音频序列A中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤S3中,所述词汇表G包括所述序列B中的所有不同的数据和序列C中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤S4中,所述更...

【技术特征摘要】

1.一种基于音域范围的音频token化编码的方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s1中,对原始音频序列a进行简化,形成序列b,具体为:确定原始音频序列a中数据的精确位数并对精确位数后的数据进行四舍五入。

3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s3中,所述词汇表g包括所述序列b中的所有不同的数据和序列c中所有不同的符号。

4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s4中,所述更新完成后的词汇表g包括所述序列b中的所有不同的数据和从词汇表g初始化到词汇表g更新完成过程中的所有过程符号。

5.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s4中,根据所述词汇表g中的相邻符号对,更新所述词汇表g,当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时,输出...

【专利技术属性】
技术研发人员:刘凡平
申请(专利权)人:上海岩芯数智人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1