【技术实现步骤摘要】
向包含语音的音频数据添加背景声音
本专利技术总体上涉及通过添加背景声音来增强包含语音的音频数据的技术。
技术介绍
在现代社会,分发数字媒体文件是常见的。包含语音的数字音频文件已实现日益普及,并且通过互联网可供下载或在线流传输。此包含语音的数字音频文件包括被大声读出的文学文本的记录的所谓有声书或有声读物、以及作为分章节的一系列音频记录的所谓播客。专业演员(诸如,传媒公司)以及不太专业的演员和私人可将数字音频文件如同其它数字媒体文件一样可用。专业演员可利用本领域中的高级设备和专门人才来编辑和制作音频文件,以提供优良的收听体验。为了增加收听体验的深度,不常见的是专业的包含语音的音频文件包含诸如音乐和其它环境声音的背景声音。因此,添加背景声音,以动态地匹配音频文件中的言语的内容和背景。有各式各样的允许用户手动编辑和掌握音频文件的传统计算机程序(“音频编辑器”)。这些传统音频编辑器中的一些还允许用户手动选择并输入背景声音。然而,即使对于专业的用户,向音频文件添加背景声音是复杂且劳动密集型的任务。对于非专业的用户,使用这种类型的音频编辑器从而至少实现真正良好的收听体验存在更大的挑战。基本上,想要使用传统音频编辑器向音频文件添加背景声音的用户需要经历一系列劳动密集型的步骤(诸如,收听整个音频文件),思考在音频文件的不同部分中什么背景声音会是适宜的,寻找或创建背景声音的声音文件,输入声音文件,寻找每个声音文件在音频文件中的正确位置,选择每个声音文件在音频文件中的起点和终点,并且针对音频文件的不同部分中的语音来选择每个声音文件的正确音量。
技术实现思路
本专利技术的目的是至少部 ...
【技术保护点】
一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述音频数据(A)中的时间段,针对所述音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述音频数据(A)的背景声音(B)的期望的属性,以及提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述音频数据(A)与具有所述期望的属性的背景声音(B)组合。
【技术特征摘要】
2016.06.03 EP 16172863.91.一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述音频数据(A)中的时间段,针对所述音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述音频数据(A)的背景声音(B)的期望的属性,以及提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述音频数据(A)与具有所述期望的属性的背景声音(B)组合。2.根据权利要求1所述的方法,其中,获得所述期望的属性,以匹配所述相应时间段的主题和/或情感。3.根据权利要求1或2所述的方法,其中,所述主题表示所述音频数据(A)中的所述相应时间段内的口语的内容或话题。4.根据前述权利要求中的任一项所述的方法,其中,所述特征数据([D])至少部分地通过自动分析所述音频数据(A)中的语音来生成。5.根据前述权利要求中的任一项所述的方法,其中,所述情感表示所述音频数据(A)中的所述相应时间段内的口语的情绪,并且包括以下项中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。6.根据前述权利要求中的任一项所述的方法,其中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表示以下项中的一个或更多个:所述背景声音(B)的回放音量、所述背景声音(B)的节拍、所述背景声音(B)的音调和所述背景声音(B)的基调。7.根据前述权利要求中的任一项所述的方法,其中,所述特征数据([D])还通过文学种类(CID)来表征所述音频数据(A)中的所述时间段,并且其中,进一步获得所述期望的属性,以匹配所述相应时间段的所述文学种类(CID)。8.根据前述权利要求中的任一项所述的方法,其中,获得特征数据([D])的步骤包括:通过自然语言处理来处理所述音频数据(A)。9.根据前述权利要求中的任一项所述的方法,其中,获得特征数据([D])的步骤包括:通过对所述音频数据(A)运行语音识别算法来生成与所述音频数据(A)相对应的文本(A_T);将所述文本(A_T)与所述音频数据(A)中的时间点相关联;对所述文本(A_T)运行主题划分算法和/或情感分析算法以确定所述文本(A_T)中的主题和/或情感,每个主题和/或情感是针对所述文本(A_T)中的相应文本片段来确定的,所述方法还包括以下步骤:通过确定所述音频数据(A)中的与所述文本片段相对应的时间段来生成所述特征数据([D]);以及生成所述时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。10.根据权利要求9所述的方法,其中,对所述文本运行所述主题划分算法,以关于至少两个不同粒度水平确定所述主题。11.根据前述权利要求中的任一项所述的方法,其中,获得特征...
【专利技术属性】
技术研发人员:O·索恩,
申请(专利权)人:索尼移动通讯有限公司,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。