音频的作品信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37156857 阅读：26 留言：0更新日期：2023-04-06 22:18

本发明专利技术涉及人工智能技术领域，提供了一种音频的作品信息抽取方法、装置、电子设备及存储介质。该方法通过获取待处理音频的作品介绍文本，得到待处理文本；然后将待处理文本输入预先训练的抽取模型，并利用抽取模型对待处理文本进行信息抽取，得到待处理音频的作品信息；其中，抽取模型是基于多个标注文本训练得到的；标注文本是利用预先训练的标注模型对原始文本进行标注得到的。通过标注模型实现了自动进行文本标注，从而缩短了训练抽取模型的时间，提高了作品信息的抽取效率。提高了作品信息的抽取效率。提高了作品信息的抽取效率。

全部详细技术资料下载

【技术实现步骤摘要】
音频的作品信息抽取方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，具体而言，涉及一种音频的作品信息抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]在音频应用软件中，用户可以利用搜索功能通过输入关键信息来搜索相关音频。为了支持音频搜索功能往往需要提前抽取音频的作品信息，目前通用的抽取工具往往不适用于音频，而如果通过模型训练建立抽取工具，会耗费大量的人力来手工标注样本，从而导致抽取效率低。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种音频的作品信息抽取方法、装置、电子设备及存储介质。
[0004]为了实现上述目的，本专利技术采用的技术方案如下：
[0005]第一方面，本专利技术提供一种音频的作品信息抽取方法，所述方法包括：
[0006]获取待处理音频的作品介绍文本，得到待处理文本；
[0007]将所述待处理文本输入预先训练的抽取模型，并利用所述抽取模型对所述待处理文本进行信息抽取，得到所述待处理音频的作品信息；
[...

【技术保护点】

【技术特征摘要】
1.一种音频的作品信息抽取方法，其特征在于，所述方法包括：获取待处理音频的作品介绍文本，得到待处理文本；将所述待处理文本输入预先训练的抽取模型，并利用所述抽取模型对所述待处理文本进行信息抽取，得到所述待处理音频的作品信息；其中，所述抽取模型是基于多个标注文本训练得到的；所述标注文本是利用预先训练的标注模型对原始文本进行标注得到的。2.根据权利要求1所述的方法，其特征在于，所述利用所述抽取模型对所述待处理文本进行信息抽取，得到所述待处理音频的作品信息的步骤，包括：利用所述抽取模型将所述待处理文本与预设的多个作品类型进行匹配，并在所述待处理文本中确定每个目标文本，所述目标文本与一个所述作品类型匹配；利用所述抽取模型从所述待处理文本中抽取每个所述目标文本，得到所述待处理音频的作品信息。3.根据权利要求1所述的方法，其特征在于，所述标注模型是按照以下方式得到的：获取多个第一文本样本和预设的多个作品类型；按照预设拼接模板，将每个所述第一文本样本与全部作品类型进行拼接，获得每个已拼接文本；基于全部已拼接文本对基础标注模型进行无监督训练，得到所述标注模型；其中，所述标注模型中参数的数量多于所述抽取模型中参数的数量。4.根据权利要求1所述的方法，其特征在于，所述标注模型是按照以下方式得到的：获取多个第一文本样本、多个第二文本样本和预设的多个作品类型；其中，所述第一文本样本的总个数大于所述第二文本样本的总个数；按照预设拼接模板，将每个所述第一文本样本与全部作品类型进行拼接，获得每个已拼接文本；根据全部作品类型对每个所述第二文本样本进行标注，获得每个已标注文本；基于全部已拼接文本对基础标注模型进行无监督训练，得到训练后的基础标注模型；基于全部已标注文本对所述训练后的基础标注模型的参数进行调整，得到所述标注模型；其中，所述标注模型中参数的数量多于所述抽取模型中参数的数量。5.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：鲁俊，
申请(专利权)人：上海喜马拉雅科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人