VEM-Token节拍捕捉和对齐模型建构的方法技术

技术编号:46581921 阅读:0 留言:0更新日期:2025-10-10 21:21
VEM‑Token节拍捕捉和对齐模型建构的方法,是基于VEM‑Token声乐情绪多模态模型方法,采用音乐节拍来切分声乐文件为VEM‑Token词元的深化创新。本方法核心是建立声乐文件的节拍模型、节拍捕捉模型和节拍对齐模型,前者将样本声乐文件通过多重滤波器分离歌声、伴奏声和情绪波动,在频谱格式文件中捕捉节拍的起点和终点,后者通过起点微调模型和终点微调模型,使得用户模仿文件与样本文件完成节拍对齐。采用包括节拍基础模型、谐波冲击、联合学习、谐波频率分层、动态时间规整等模型来捕捉节拍,采用基础模型、起点微调和终点微调、全程对齐校验、节拍编辑器、自由发挥节拍、重复对齐、通信接口协议等模型的构建,使得本方法适合接入Agent音乐智能体和AI音乐应用。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,具体涉及ai智能体agent、ai音乐系统及语音朗诵的模型建构及处理,尤其是在人们模仿样本声乐或样本朗诵时,进行节拍捕捉和节拍对齐的处理,以实现并优化模仿效果。vem-token节拍捕捉和对齐模型建构的方法,是基于vem-token声乐情绪多模态模型方法,采用音乐节拍来切分声乐文件为vem-token词元的深化创新。


技术介绍

1、基于本专利技术人的一件已经授权的中国专利技术专利《vem-token声乐情绪多模态token化歌声和伴奏深度学习方法,cn120126506》(以下简称“vem-token声乐情绪多模态模型”),在人工智能领域中,它对于信息词元的划分,不同于传统的nlp-token(natural-language-processing token)的词元划分法,而是首次提出依据音乐节拍来划分信息词元,称作声乐情绪多模态token,简称为vem-token(vocal-emotion-multimodal token)。

2、在cn120126506专利技术专利中,专利技术人首次将声乐文件进行频谱化,检测本文档来自技高网...

【技术保护点】

1.VEM-Token节拍捕捉和对齐模型建构的方法,其特征在于,包括:

2.根据权利要求1的方法,其特征在于,节拍模型还包括基础子模型,具体包括:

3.根据权利要求2的方法,其特征在于,节拍捕捉模型包括谐波冲击子模型:

4.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括联合学习子模型:

5.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括谐波频率分层子模型:

6.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括动态时间规整子模型:

7.根据权利要求3至6任一的方法,其特征在于,节拍对齐模型包括基础模型:...

【技术特征摘要】

1.vem-token节拍捕捉和对齐模型建构的方法,其特征在于,包括:

2.根据权利要求1的方法,其特征在于,节拍模型还包括基础子模型,具体包括:

3.根据权利要求2的方法,其特征在于,节拍捕捉模型包括谐波冲击子模型:

4.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括联合学习子模型:

5.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括谐波频率分层子模型:

6.根据权利要求2的方法,其特征在于,节拍捕捉模型还包括动态时间规整子模型:

7.根据权利要求3至6任一的方法,其特征...

【专利技术属性】
技术研发人员:丁贤根丁远彤
申请(专利权)人:港湾之星健康生物深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1