用于处理音频信息的方法和装置制造方法及图纸

技术编号:18165642 阅读:26 留言:0更新日期:2018-06-09 11:32
本申请实施例公开了用于处理音频信息的方法和装置。该方法的一具体实施方式包括:对目标音频信息进行分析,生成目标音频信息的特征信息,其中,特征信息包括声音特征信息;基于特征信息,确定用于分割目标音频信息的至少一个分割点;按照至少一个分割点对目标音频信息进行分割得到至少两个音频信息片段。该实施方式提高了音频信息分割的准确性。

A method and device for processing audio information

The application embodiment discloses a method and device for processing audio information. The method includes: analyzing the audio information of the target and generating the feature information of the audio information of the target, among which the feature information includes the sound feature information, and at least one segmentation point is determined for the audio information for the target segmentation based on the feature information; at least one segmentation point is applied to the target audio signal. Segmentation is achieved by at least two audio information fragments. The implementation improves the accuracy of audio information segmentation.

【技术实现步骤摘要】
用于处理音频信息的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及用于处理音频信息的方法和装置。
技术介绍
随着互联网技术的发展,现在每个用户每天接收到的信息量成百上千,用户正面临着海量信息甄选困难的难题。为了解决上述难题,信息流产品应运而生,这种产品形态使得用户由主动获取信息的方式转变为被动接收其感兴趣信息的方式,让用户能够在更短时间内获取更多的信息,信息流产品也逐步变成了用户获取信息的最重要的入口。
技术实现思路
本申请实施例提出了用于处理音频信息的方法和装置。第一方面,本申请实施例提供了一种用于处理音频信息的方法,包括:对目标音频信息进行分析,生成目标音频信息的特征信息,其中,特征信息包括声音特征信息;基于特征信息,确定用于分割目标音频信息的至少一个分割点;按照至少一个分割点对目标音频信息进行分割得到至少两个音频信息片段。在一些实施例中,特征信息还包括文本信息;以及该方法还包括:针对至少两个音频信息片段中的每个音频信息片段,对该音频信息片段对应的文本信息进行分析得到文本关键内容,并基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息。在一些实施例中,在对该音频信息片段对应的文本信息进行分析得到文本关键内容之后,该方法还包括:利用文本转语音技术将文本关键内容转换成与该音频信息片段对应的声音特征信息所指示的声音特征相似的关键音频信息,并将关键音频信息添加到该音频信息片段的预设位置中生成添加后的音频信息片段。在一些实施例中,该方法还包括:获取候选音频信息片段集合;针对候选音频信息片段集合中的每个音频信息片段,确定该音频信息片段的标签信息与候选音频信息片段集合中除该音频信息片段之外的其它音频信息片段的标签信息之间的第一匹配度,并将第一匹配度大于预设的第一匹配度阈值的标签信息对应的音频信息片段与该音频信息片段进行合并,生成合并后的音频信息片段。在一些实施例中,该方法还包括:基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段。在一些实施例中,基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段,包括:获取利用目标用户终端进行搜索的用户所输入的搜索信息;确定搜索信息与每个音频信息片段的标签信息之间的第二匹配度;按照第二匹配度由大到小的顺序选取预设数目个音频信息片段,并向目标用户终端推送选取出的音频信息片段。在一些实施例中,基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段,包括:在预设的音频信息推荐表中获取与当前时间段对应的标签信息,其中,音频信息推荐表用于表征时间段与标签信息之间的对应关系;确定获取到的标签信息与每个音频信息片段的标签信息之间的第三匹配度;向目标用户终端推送第三匹配度大于预设的第二匹配度阈值的标签信息对应的音频信息片段。在一些实施例中,基于特征信息,确定用于分割目标音频信息的至少一个分割点,包括:生成声音特征信息的特征向量,并将针对声音特征信息所生成的特征向量输入到预先训练的第一分割点识别模型中得到针对目标音频信息的至少一个第一分割点,其中,第一分割点识别模型用于表征由声音特征信息所生成的特征向量与第一分割点之间的对应关系。在一些实施例中,特征信息还包括文本信息;以及基于特征信息,确定用于分割目标音频信息的至少一个分割点,包括:生成文本信息的特征向量,并将针对文本信息所生成的特征向量输入到预先训练的第二分割点识别模型中得到针对目标音频信息的至少一个第二分割点,其中,第二分割点识别模型用于表征由文本信息所生成的特征向量与第二分割点之间的对应关系。在一些实施例中,基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的年龄识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的年龄,其中,年龄识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的年龄之间的对应关系;生成与年龄相关的第一标签信息。在一些实施例中,基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的性别识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的性别,其中,性别识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的性别之间的对应关系;生成与性别相关的第二标签信息。在一些实施例中,基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的情绪识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的情绪信息,其中,情绪识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的情绪信息之间的对应关系;生成与情绪信息相关的第三标签信息。在一些实施例中,基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的声音类型识别模型中得到该音频信息片段对应的声音类型,其中,声音类型识别模型用于表征由声音特征信息所生成的特征向量与声音类型之间的对应关系;生成与声音类型相关的第四标签信息。第二方面,本申请实施例提供了一种用于处理音频信息的装置,包括:第一生成单元,配置用于对目标音频信息进行分析,生成目标音频信息的特征信息,其中,特征信息包括声音特征信息;确定单元,配置用于基于特征信息,确定用于分割目标音频信息的至少一个分割点;分割单元,配置用于按照至少一个分割点对目标音频信息进行分割得到至少两个音频信息片段。在一些实施例中,特征信息还包括文本信息;以及该装置还包括:第二生成单元,配置用于针对至少两个音频信息片段中的每个音频信息片段,对该音频信息片段对应的文本信息进行分析得到文本关键内容,并基于文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息。在一些实施例中,该装置还包括:添加单元,配置用于利用文本转语音技术将文本关键内容转换成与该音频信息片段对应的声音特征信息所指示的声音特征相似的关键音频信息,并将关键音频信息添加到该音频信息片段的预设位置中生成添加后的音频信息片段。在一些实施例中,该装置还包括:获取单元,配置用于获取候选音频信息片段集合;第三生成单元,配置用于针对候选音频信息片段集合中的每个音频信息片段,确定该音频信息片段的标签信息与候选音频信息片段集合中除该音频信息片段之外的其它音频信息片段的标签信息之间的第一匹配度,并将第一匹配度大于预设的第一匹配度阈值的标签信息对应的音频信息片段与该音频信息片段进行合并,生成合并后的音频信息片段。在一些实施例中,该装置还包括:推送单元,配置用于基于每个音频信息片段的标签信息,向目标用本文档来自技高网...
用于处理音频信息的方法和装置

【技术保护点】
一种用于处理音频信息的方法,包括:对目标音频信息进行分析,生成所述目标音频信息的特征信息,其中,所述特征信息包括声音特征信息;基于所述特征信息,确定用于分割所述目标音频信息的至少一个分割点;按照所述至少一个分割点对所述目标音频信息进行分割得到至少两个音频信息片段。

【技术特征摘要】
1.一种用于处理音频信息的方法,包括:对目标音频信息进行分析,生成所述目标音频信息的特征信息,其中,所述特征信息包括声音特征信息;基于所述特征信息,确定用于分割所述目标音频信息的至少一个分割点;按照所述至少一个分割点对所述目标音频信息进行分割得到至少两个音频信息片段。2.根据权利要求1所述的方法,其中,所述特征信息还包括文本信息;以及所述方法还包括:针对所述至少两个音频信息片段中的每个音频信息片段,对该音频信息片段对应的文本信息进行分析得到文本关键内容,并基于所述文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息。3.根据权利要求2所述的方法,其中,在所述对该音频信息片段对应的文本信息进行分析得到文本关键内容之后,所述方法还包括:利用文本转语音技术将所述文本关键内容转换成与该音频信息片段对应的声音特征信息所指示的声音特征相似的关键音频信息,并将所述关键音频信息添加到该音频信息片段的预设位置中生成添加后的音频信息片段。4.根据权利要求2所述的方法,其中,所述方法还包括:获取候选音频信息片段集合;针对所述候选音频信息片段集合中的每个音频信息片段,确定该音频信息片段的标签信息与所述候选音频信息片段集合中除该音频信息片段之外的其它音频信息片段的标签信息之间的第一匹配度,并将第一匹配度大于预设的第一匹配度阈值的标签信息对应的音频信息片段与该音频信息片段进行合并,生成合并后的音频信息片段。5.根据权利要求2所述的方法,其中,所述方法还包括:基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段。6.根据权利要求5所述的方法,其中,所述基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段,包括:获取利用目标用户终端进行搜索的用户所输入的搜索信息;确定所述搜索信息与每个音频信息片段的标签信息之间的第二匹配度;按照第二匹配度由大到小的顺序选取预设数目个音频信息片段,并向所述目标用户终端推送选取出的音频信息片段。7.根据权利要求5所述的方法,其中,所述基于每个音频信息片段的标签信息,向目标用户终端推送音频信息片段,包括:在预设的音频信息推荐表中获取与当前时间段对应的标签信息,其中,所述音频信息推荐表用于表征时间段与标签信息之间的对应关系;确定获取到的标签信息与每个音频信息片段的标签信息之间的第三匹配度;向目标用户终端推送第三匹配度大于预设的第二匹配度阈值的标签信息对应的音频信息片段。8.根据权利要求1所述的方法,其中,所述基于所述特征信息,确定用于分割所述目标音频信息的至少一个分割点,包括:生成所述声音特征信息的特征向量,并将针对所述声音特征信息所生成的特征向量输入到预先训练的第一分割点识别模型中得到针对所述目标音频信息的至少一个第一分割点,其中,所述第一分割点识别模型用于表征由声音特征信息所生成的特征向量与第一分割点之间的对应关系。9.根据权利要求1或8所述的方法,其中,所述特征信息还包括文本信息;以及所述基于所述特征信息,确定用于分割所述目标音频信息的至少一个分割点,包括:生成所述文本信息的特征向量,并将针对所述文本信息所生成的特征向量输入到预先训练的第二分割点识别模型中得到针对所述目标音频信息的至少一个第二分割点,其中,所述第二分割点识别模型用于表征由文本信息所生成的特征向量与第二分割点之间的对应关系。10.根据权利要求2所述的方法,其中,所述基于所述文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的年龄识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的年龄,其中,所述年龄识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的年龄之间的对应关系;生成与所述年龄相关的第一标签信息。11.根据权利要求2所述的方法,其中,所述基于所述文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的性别识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的性别,其中,所述性别识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的性别之间的对应关系;生成与所述性别相关的第二标签信息。12.根据权利要求2所述的方法,其中,所述基于所述文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的情绪识别模型中得到该音频信息片段对应的声音特征信息所指示的说话人的情绪信息,其中,所述情绪识别模型用于表征由声音特征信息所生成的特征向量与声音特征信息所指示的说话人的情绪信息之间的对应关系;生成与所述情绪信息相关的第三标签信息。13.根据权利要求2或10-12之一所述的方法,其中,所述基于所述文本关键内容和/或该音频信息片段对应的声音特征信息,生成该音频信息片段的标签信息,包括:生成该音频信息片段对应的声音特征信息的特征向量,将针对该音频信息片段对应的声音特征信息所生成的特征向量输入到预先训练的声音类型识别模型中得到该音频信息片段对应的声音类型,其中,所述声音类型识别模型用于表征由声音特征信息所生成的特征向量与声音类型之间的对应关系;生成与所述声音类型相关的第四标签信息。14.一种用于处理音频信息的装置,包括:第一生成单元,配置用于对目标音频信息进行分析,生成所述目标音频信息的特征信息,其中...

【专利技术属性】
技术研发人员:张弛
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1