一种标题预测模型的处理方法和装置制造方法及图纸

技术编号：40012693 阅读：12 留言：0更新日期：2024-01-16 15:31

本发明专利技术实施例涉及一种标题预测模型的处理方法和装置，所述方法包括：构建标题预测模型、模型训练网络；基于模型训练网络对音频特征提取模型和文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于二阶段训练数据集对文本向量解码模型进行二阶段训练；标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将第一音频和第一反向扩散总步数输入标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对第一标题文本进行显示。通过本发明专利技术可以提高预测标题文本的多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及一种标题预测模型的处理方法和装置。

技术介绍

1、音频标题生成技术的目标是为音频片段生成符合内容的自然语言描述。现有的音频标题生成方法主要使用来自自然语言处理领域的评价指标进行评价，这些指标常见的有单词相似度、子序列匹配度等。但这些评价指标只专注于音频标题生成的准确性，而忽略了生成的多样性。通过研究我们发现与扩散模型(诸如ddim模型)相结合的图像自动标注模型可以在确保标注准确度的前提下实现图像的多样性标注效果；若能将ddim模型算法结合到音频标题生成方案中也能达到提高音频标题多样性的目的。所以，如何将ddim模型算法结合到音频标题生成方案中就是本专利技术需要解决的技术问题。

技术实现思路

1、本专利技术的目的，就是针对现有技术的缺陷，提供一种标题预测模型的处理方法、装置和电子设备；本专利技术将ddim(denoising diffusion implicit models)反向扩散算法结合到音频标题预测方案中并由此构建出一个对应的标题预测模型，该预测模型由音频特征提取模型、文本向量初始化模块、文本向量去噪模型、ddim反向扩散算法模块、反向扩散计数模块和文本向量解码模型组成；并为该预测模型构建一个对应的模型训练网络用来进行模型训练；并基于该模型训练网络给出一个两阶段训练方案来具体实施训练：1)在第一阶段中，基于ddim模型的反向扩散算法构建优化目标函数lsimple来训练音频特征提取模型和文本向量去噪模型，并对过程数据进行采集构建出对应的二阶段训练

2、为实现上述目的，本专利技术实施例第一方面提供了一种标题预测模型的处理方法，所述方法包括：

3、构建标题预测模型；所述标题预测模型包括音频特征提取模型、文本向量初始化模块、文本向量去噪模型、ddim反向扩散算法模块、反向扩散计数模块和文本向量解码模型；

4、构建模型训练网络；所述模型训练网络包括文本向量编码模型、文本向量噪声添加模块、所述音频特征提取模型、所述文本向量去噪模型、所述ddim反向扩散算法模块、所述反向扩散计数模块和所述文本向量解码模型；

5、基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集；并基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练；

6、所述标题预测模型训练结束后，接收任意音频作为对应的第一音频；并设置对应的第一反向扩散总步数为预设的总步数阈值；并将所述第一音频和所述第一反向扩散总步数输入所述标题预测模型进行标题文本预测处理得到对应的第一标题文本；并对所述第一标题文本进行显示。

7、优选的，所述音频特征提取模型用于根据模型输入的音频和反向扩散总步数t进行标题文本预测处理并输出对应的预测标题文本；

8、所述音频特征提取模型的输入端与所述标题预测模型的第一输入端连接，输出端与所述文本向量去噪模型的第一输入端连接；所述音频特征提取模型用于对所述标题预测模型输入的音频进行音频特征提取处理生成对应的音频特征张量a向所述文本向量去噪模型发送；

9、所述文本向量初始化模块的第一输出端与所述文本向量去噪模型的第二输入端连接、第二输出端与所述ddim反向扩散算法模块的第一输入端连接；所述文本向量初始化模块用于向预设的文本向量模板中添加随机噪声得到一个对应的输入文本向量xt＝t，并将所述输入文本向量xt＝t分别向所述文本向量去噪模型和所述ddim反向扩散算法模块发送；所述随机噪声满足高斯噪声特征；

10、所述文本向量去噪模型的第三输入端与所述ddim反向扩散算法模块的输出端连接，所述文本向量去噪模型的输出端与所述反向扩散计数模块的第一输入端连接；所述文本向量去噪模型用于在所述ddim反向扩散算法模块的输出端没有反馈时，根据所述输入文本向量xt＝t和所述音频特征张量a进行文本向量去噪处理得到对应的去噪文本向量zt向所述反向扩散计数模块发送；所述文本向量去噪模型还用于在所述ddim反向扩散算法模块的输出端反馈了输入文本向量xt-1时，根据所述输入文本向量xt-1和所述音频特征张量a进行文本向量去噪处理得到对应的去噪文本向量zt-1向所述反向扩散计数模块发送；

11、所述反向扩散计数模块的第二输入端与所述标题预测模型的第二输入端连接，所述反向扩散计数模块的第一输出端与所述ddim反向扩散算法模块的第二输入端连接、第二输出端与所述文本向量解码模型的输入端连接；所述反向扩散计数模块用于在接收到所述标题预测模型输入的所述反向扩散总步数t时，将本地的第一计数器的计数值初始化为所述反向扩散总步数t；所述反向扩散计数模块还用于在每次接收到所述文本向量去噪模型发送的去噪文本向量时对所述第一计数器减1，并对减1后的所述第一计数器是否为1进行识别，若是则将当次接收到的去噪文本向量作为对应的去噪文本向量zt＝1向所述文本向量解码模型发送，若否则将将当次接收到的去噪文本向量作为对应的去噪文本向量zt>1向所述ddim反向扩散算法模块发送；

12、所述ddim反向扩散算法模块用于根据ddim模型的反向扩散算法对所述去噪文本向量zt>1进行反向扩散处理得到对应的所述输入文本向量xt-1向所述文本向量去噪模型反馈；

13、所述文本向量解码模型的输出端与所述音频特征提取模型的输出端连接；所述文本向量解码模型用于对所述去噪文本向量zt＝1进行文本向量解码处理得到对应的向量解码文本，并将所述向量解码文本作为对应的所述预测标题文本向所述音频特征提取模型的输出端发送。

14、进一步的，所述音频特征提取模型基于pann特征提取器的模型结构实现；

15、所述文本向量解码模型基于bart模型的解码器结构实现，并预先通过开放数据集对所述文本向量解码模型完成预训练。

16、进一步的，所述文本向量去噪模型以transformer模型的编码器结构为参考，由模块数量n个第一编码器模块顺次连接而成；所述模块数量n为大于0的整数；所述第一编码器模块由自注意力单元、互注意力单元和前馈神经单元组成；所述自注意力单元与所述互注意力单元连接；所述互注意力单元与所述前馈神经单元连接；

17、所述文本向量去噪模型在进行文本向量去噪处理时，将当次所述文本向量初始化模块或所述ddim反向扩散算法模块发送的输入文本向量作为对应的当前模块输入向量；并将所述当前模块输入向量输入第一个所述第一编码器模块，由当前编码器模块对所述当前模块输入向量进行q、k、v矩阵转换得到对应第一q矩阵、第一k矩阵和第一v矩阵，并由所述当前编码器模块的所述自注意力单元基于所述第一q矩阵、所述第一k矩阵和所述第一v矩阵进本文档来自技高网...

【技术保护点】

1.一种标题预测模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的标题预测模型的处理方法，其特征在于，

3.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

4.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

5.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

6.根据权利要求2所述的标题预测模型的处理方法，其特征在于，

7.根据权利要求6所述的标题预测模型的处理方法，其特征在于，

8.根据权利要求6所述的标题预测模型的处理方法，其特征在于，所述基于所述模型训练网络对所述音频特征提取模型和所述文本向量去噪模型进行一阶段训练得到对应的二阶段训练数据集，具体包括：

9.根据权利要求6所述的标题预测模型的处理方法，其特征在于，所述基于所述二阶段训练数据集对所述文本向量解码模型进行二阶段训练，具体包括：

10.一种用于实现权利要求1-9任一项所述的标题预测模型的处理方法的装置，其特征在于，所述装置包括：预测模型构建模块、训练网络构建模块

11.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

...

【技术特征摘要】