一种音频处理方法、装置、终端以及存储介质制造方法及图纸

技术编号：42647822 阅读：33 留言：0更新日期：2024-09-06 01:42

本申请公开了一种音频处理方法、装置、终端以及存储介质，该音频处理方法包括：在显示界面中显示待播放的音频内容的音频信息；获取目标视频集合，目标视频集合包括与音频内容相匹配的N个视频，N为大于或等于1的正整数；响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频，可应用在包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等。采用本申请，可丰富音频内容的播放形式。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种音频处理方法、装置、终端以及存储介质。

技术介绍

1、音频内容与人们的日常生活息息相关，音频内容可以包括音乐、语音等形式。例如，音乐是一种用于表达用户情感需求的艺术形式，语音是用户进行社交时的一种传播媒介。用户可以通过对语音、音乐等音频内容的发送、接收、播放等行为进行沟通交流。在基于音频内容进行沟通交流的过程中，音频内容的播放形式比较单一，信息量也不够丰富，在此情况下，如何丰富音频内容的播放形式成为需要解决的问题。

技术实现思路

1、本申请一个或多个实施例提供了一种音频处理方法及音频处理装置，可丰富音频内容的播放形式。

2、一方面，本申请一个或多个实施例提供一种音频处理方法，该音频处理方法包括：

3、在显示界面中显示待播放的音频内容的音频信息；

4、获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；

5、响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。

6、本申请一个或多个实施例能够获取与音频内容相匹配的视频，并在显示界面中播放与音频内容相匹配的视频，能够在显示界面中丰富音频内容的播放形式。

7、另一方面，本申请一个或多个实施例提供一种音频处理方法，该音频处理方法包括：

8、在社交应用的动态发布界面中显示待发布的音频内容的音频信息；动态发布界面中显示有动态发布控件和视频获取控件；

9、响应于针

10、响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，以便于在音频内容被播放时同时播放共享视频集合中的共享视频。

11、本申请一个或多个实施例应用于社交应用场景下，能够在社交应用的动态发布界面中丰富音频内容的发布形式，在检测到音频内容被播放时同时播放共享视频集合中的共享视频，进一步丰富音频内容的播放形式。

12、再一方面，本申请一个或多个实施例提供一种音频处理装置，该音频处理装置包括：

13、显示单元，用于在显示界面中显示待播放的音频内容的音频信息；

14、处理单元，用于获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；

15、显示单元，还用于响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。

16、在一个或多个实施例中，处理单元，具体用于：响应于针对视频获取控件的触发操作，获取目标视频集合；其中，视频获取控件显示在显示界面中；

17、显示单元，具体用于：在显示界面的视频播放区中播放目标视频集合中的目标视频；其中，目标视频为基于默认播放顺序确定的视频、基于随机播放模式确定的视频或响应于第一选择操作而确定的视频。

18、在一个或多个实施例中，显示界面为社交应用的社交动态界面，音频信息为发布至社交动态界面的社交动态；显示单元，还用于：

19、目标视频播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，

20、响应于对目标视频的切换操作，则在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，

21、响应于第二选择操作，在视频播放区播放第二选择操作选择的视频。

22、在一个或多个实施例中，显示界面为社交应用的会话界面，音频内容为语音，音频信息为语音消息，处理单元，还用于：

23、对语音进行类型分析，得到语音类型；

24、显示单元，还用于：

25、若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件。

26、在一个或多个实施例中，目标视频集合还与目标账号关联的行为数据匹配，目标账号为登录社交应用的登录账号，社交应用显示显示界面；处理单元，具体用于：

27、根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合，初始视频集合包括与音频标签集合相匹配的m个视频，m为大于或等于1的正整数且m大于或等于n；

28、根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。

29、在一个或多个实施例中，处理单元，具体用于：

30、获取音频内容所对应的音频标签集合，音频标签集合包括x个音频标签，x为大于或等于1的正整数；

31、从视频库中获取待匹配视频，并获取所述待匹配视频的视频标签集合，视频标签集合包括y个视频标签，y为大于或等于1的正整数；

32、根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度；

33、若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。

34、在一个或多个实施例中，视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，s为大于或等于1的正整数；

35、在一个或多个实施例中，s组标签预测结果中的第i组标签预测结果包括：对s个帧图像中的第i个帧图像进行预测得到的多个标签，以及每个标签的预测概率，i为小于或等于s的正整数；s组标签预测结果是采用标签预测模型分别对s个帧图像中的每个帧图像进行标签预测得到的；s个帧图像是对待匹配视频进行帧解析得到的。

36、在一个或多个实施例中，音频标签集合是根据音频信息和音频内容的关联信息提取得到的，音频信息的关联信息包括：音频内容关联的分享评论信息、音频内容关联的会话评论信息中的任意一个或者两者的组合；

37、待匹配视频是按照视频过滤策略从视频库中获取到的，视频过滤策略包括：质量过滤策略、文字过滤策略、时长过滤策略以及安全性过滤策略中的任意一种或多种。

38、在一个或多个实施例中，处理单元，具体用于：

39、将音频标签集合中的x个音频标签转换为对应的x个音频标签词向量，并对x个音频标签词向量进行归一化处理，得到第一平均词向量；

40、将视频标签集合中的y个视频标签转换为对应的y个视频标签词向量，并对y个视频标签词向量进行归一化处理，得到第二平均词向量；

41、基于第一平均词向量与第二平均词向量的内积，得到相似度。

42、在一个或多个实施例中，处理单元，具体用于：

43、将音频标签集合中的x个音频标签转换为对应的音频标签词向量，得到x个音频标签词向量；

44、将视频标签集合中的y个视频标签转换为对应的视频标签词向量，得到y个视频标签词向量；

45、计算x个音频标签词向量中的每个音频标签词向量与y个视频标签词向量之间内积，得到x个音频标签词向量与y个视频本文档来自技高网...

【技术保护点】

1.一种音频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述音频内容和所述共享视频集合关联之后，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述获取共享视频集合之后，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述共享视频集合还与目标账号的行为数据相匹配，所述目标账号为登录所述社交应用的登录账号；

5.如权利要求4所述的方法，其特征在于，所述根据所述音频内容所对应的音频标签集合，从视频库中获取原始视频集合，包括：

6.如权利要求5所述的方法，其特征在于，所述视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，所述目标标签集合包括的初始标签是指S组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，S为大于或等于1的正整数；

7.如权利要求5所述的方法，其特征在于，

8.如权利要求5所述的方法，其特征在于，所述根据所述音频标签集合和所述视频标签集合，计算所述音频和所述目标视频之间的相似度数值，包括：

9.如权利要求5所述的方法，其特征在于，所述根据所述音频标签集合和所述视频标签集合，计算所述音频内容和所述待匹配视频之间的相似度，包括：

10.一种音频处理装置，其特征在于，所述音频处理装置包括：

11.一种智能终端，其特征在于，所述智能终端包括：存储器和处理器；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于被计算机设备的处理器读取并执行以实现如权利要求1-9任一项所述的音频处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，所述计算机指令用于被计算机设备的处理器读取并执行以实现如权利要求1-9任一项所述的音频处理方法。

...

【技术特征摘要】

1.一种音频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述音频内容和所述共享视频集合关联之后，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述获取共享视频集合之后，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述共享视频集合还与目标账号的行为数据相匹配，所述目标账号为登录所述社交应用的登录账号；

5.如权利要求4所述的方法，其特征在于，所述根据所述音频内容所对应的音频标签集合，从视频库中获取原始视频集合，包括：

6.如权利要求5所述的方法，其特征在于，所述视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，所述目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，s为大于或等于1的正整数；

7.如权利要求5所述的方法，其特征在于...

【专利技术属性】
技术研发人员：李岩，王汉杰，毛懿荣，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人