【技术实现步骤摘要】
本专利技术涉及音频处理领域,尤其涉及一种基于音域范围的音频token化编码方法及装置。
技术介绍
1、目前,在整个行业领域内,针对音频token化的有效方法相对较为匮乏。主流的常规操作方式是首先对音频内容实施一系列的预处理步骤,这些预处理手段主要涵盖了短时傅里叶变换、梅尔频率倒谱系数等方法。在完成这些预处理流程之后,音频内容会被转化为特定的音频特征,进而作为输入数据被导入模型中展开训练。
2、然而,现有的这些方法存在着明显的缺陷和不足。其中一个突出的问题是,它们会不可避免地致使原始音频信号的部分关键信息出现损失。比如说,在短时傅里叶变换这一过程中,将原本处于时域的信号转换为频域信号时,由于转换过程中的局限性和固有特点,很可能会丢失一些重要的细节信息。与此同时,某些预处理方法,尤其是那些涉及频谱分析和特征提取的部分,往往需要投入较高的计算资源和时间成本,其计算复杂度较高,这就直接导致了整个音频处理过程的速度较为缓慢。例如,在进行大规模音频数据的处理时,复杂的预处理步骤可能会耗费大量的时间,从而严重影响了工作效率和项目的整体进度
【技术保护点】
1.一种基于音域范围的音频token化编码的方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤S1中,对原始音频序列A进行简化,形成序列B,具体为:确定原始音频序列A中数据的精确位数并对精确位数后的数据进行四舍五入。
3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤S3中,所述词汇表G包括所述序列B中的所有不同的数据和序列C中所有不同的符号。
4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于
...【技术特征摘要】
1.一种基于音域范围的音频token化编码的方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s1中,对原始音频序列a进行简化,形成序列b,具体为:确定原始音频序列a中数据的精确位数并对精确位数后的数据进行四舍五入。
3.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s3中,所述词汇表g包括所述序列b中的所有不同的数据和序列c中所有不同的符号。
4.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s4中,所述更新完成后的词汇表g包括所述序列b中的所有不同的数据和从词汇表g初始化到词汇表g更新完成过程中的所有过程符号。
5.根据权利要求1所述的一种基于音域范围的音频token化编码的方法,其特征在于,步骤s4中,根据所述词汇表g中的相邻符号对,更新所述词汇表g,当所述词汇表g的更新次数达到设定的最大更新次数或所述词汇表g的大小达到设定大小时,输出...
【专利技术属性】
技术研发人员:刘凡平,
申请(专利权)人:上海岩芯数智人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。