向包含语音的音频数据添加背景声音制造技术

技术编号:16781324 阅读:29 留言:0更新日期:2017-12-13 00:55
向包含语音的音频数据添加背景声音。一种编辑方法(40)促成向包含语音的音频数据添加背景声音以增强收听体验的任务。所述编辑方法(40)由计算装置中的处理器执行,并且包括:获得(41)特征数据,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段;针对所述音频数据中的相应时间段并且基于所述特征数据,获得(43)将在所述相应时间段被添加到所述音频数据的背景声音的期望的属性,以及提供(44)所述相应时间段的期望的属性,以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合。可自动地或者通过手动用户干预来选择和添加背景声音。

【技术实现步骤摘要】
向包含语音的音频数据添加背景声音
本专利技术总体上涉及通过添加背景声音来增强包含语音的音频数据的技术。
技术介绍
在现代社会,分发数字媒体文件是常见的。包含语音的数字音频文件已实现日益普及,并且通过互联网可供下载或在线流传输。此包含语音的数字音频文件包括被大声读出的文学文本的记录的所谓有声书或有声读物、以及作为分章节的一系列音频记录的所谓播客。专业演员(诸如,传媒公司)以及不太专业的演员和私人可将数字音频文件如同其它数字媒体文件一样可用。专业演员可利用本领域中的高级设备和专门人才来编辑和制作音频文件,以提供优良的收听体验。为了增加收听体验的深度,不常见的是专业的包含语音的音频文件包含诸如音乐和其它环境声音的背景声音。因此,添加背景声音,以动态地匹配音频文件中的言语的内容和背景。有各式各样的允许用户手动编辑和掌握音频文件的传统计算机程序(“音频编辑器”)。这些传统音频编辑器中的一些还允许用户手动选择并输入背景声音。然而,即使对于专业的用户,向音频文件添加背景声音是复杂且劳动密集型的任务。对于非专业的用户,使用这种类型的音频编辑器从而至少实现真正良好的收听体验存在更大的挑战。基本上,想要使用传统音频编辑器向音频文件添加背景声音的用户需要经历一系列劳动密集型的步骤(诸如,收听整个音频文件),思考在音频文件的不同部分中什么背景声音会是适宜的,寻找或创建背景声音的声音文件,输入声音文件,寻找每个声音文件在音频文件中的正确位置,选择每个声音文件在音频文件中的起点和终点,并且针对音频文件的不同部分中的语音来选择每个声音文件的正确音量。
技术实现思路
本专利技术的目的是至少部分地克服现有技术的一个或更多个限制。另一个目的是促成向包含语音的音频数据添加背景声音的任务。其它目的是促成通过向包含语音的音频数据添加背景声音来增强收听体验的任务。这些目的中的一个或更多个以及可根据以下描述而清楚的其它目的至少部分地通过在计算装置上增强包含语音的音频数据的方法、计算机可读介质和用于增强包含语音的音频数据的计算装置来实现,其实施方式由从属权利要求书限定。本专利技术的第一方面是一种在包括处理器的计算装置上增强包含语音的音频数据的方法。该方法是由计算装置中的处理器执行,并且包括:获得特征数据,所述特征数据通过主题和情感中的至少一个来表征所述音频数据中的时间段;针对所述音频数据中的相应时间段并且基于所述特征数据,获得将在所述相应时间段添加到所述音频数据中的背景声音的期望的属性;以及提供所述相应时间段的期望的属性,以使得能够在所述相应时间段内将所述音频数据与具有所述期望的属性的背景声音组合。通过指示在音频数据中的不同时间段中的背景声音的所期望的属性,第一方面显著地促成了添加与音频数据中的语音的内容和/或上下文适当地匹配的背景声音的任务。特征数据可以是预生成的,用于表示音频数据中的语音并且被存储在计算装置的处理器能访问的存储器中。第一方面的处理器因此可从存储器中获取这样预生成的特征数据。另选地,特征数据可通过包括专用处理步骤的方法按需要来生成,该专用处理步骤对音频数据进行操作,以生成特征数据。在任一种情况下,特征数据至少部分地得自于对音频数据中的语音进行自动分析,从而向音频数据中的个体时间段分配主题和/或情感。可实现第一方面,以允许操作者手动地且独立地定位或创建与期望的属性匹配的背景声音。由于期望的属性是基于得自对音频数据中的语音进行自动分析的主题和/或情感来获得或生成的,因此第一方面将增加所添加的背景声音适当地匹配语音并且增强收听体验的可能性,尤其是如果操作者编辑音频文件不熟练。另选地,可实现第一方面,以自动地定位或创建具有期望的属性的背景声音,还有可能与相应时间段同步地在音频数据中添加背景声音。在第一方面的第一实现方式中,特征数据至少通过主题来表征音频数据中的时间段。在第一方面的第二实现方式中,特征数据至少通过情感来表征音频数据中的时间段。在第一方面的第三实现方式中,特征数据至少通过主题和情感来表征音频数据中的时间段。在一个实施方式中,主题表示音频数据中的相应时间段内的口语的内容或话题。因此,每个主题不通过与口语隔离提取的个体词语来表示,而是通过将口语划分成主题相干片段而获得,其中,每个片段包括多个词语,并且通常,包括多个句子或话语。每个主题可(但不需要)通过一个或更多个名词来表示。主题可例如指定物体、位置或时段。主题可以是以音频数据中的语音的单个粒度水平或至少两个不同粒度水平来给出的。粒度通常对应于针对音频数据中的语音生成的主题的数量,并且越高的粒度对应于关于语音中的主题的越高的细节水平。以多于一个的粒度水平提供主题可改进该方法以代表性背景数据增强音频数据的能力。例如,可在获得音频数据中的时间段的期望的属性时,组合在时间上重叠并且以不同粒度给出的主题。另外,多于一个的粒度水平的主题使得可以用每个水平的背景声音来增强音频数据,这意味着不同水平的背景声音被叠加在增强的音频数据中。在一个实施方式中,获得期望的属性,以例如通过对与相应时间段相关联的主题和/或情感应用预定规则集合来匹配相应时间段的主题和/或情感。期望的属性可(但不需要)通过一个或更多个关键词或标签来表示。在特定实施方式中,获得期望的属性,以至少匹配相应时间段的主题。在一个实施方式中,所述情感表示所述音频数据中的所述相应时间段内的口语的情绪,并且包括以下中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。在一个实施方式中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表征以下中的一个或更多个:背景声音的回放音量、所述背景声音的节拍、所述背景声音的音调和所述背景声音的基调(mood)。在一个实施方式中,所述特征数据还通过文学种类来表征所述音频数据中的时间段,并且进一步获得所述期望的属性,以匹配所述相应时间段的文学种类。例如,所述文学种类可包括以下中的一种或更多种:诗歌、散文、访问、传记、谈话、评论、戏剧、记录、广告、学术文本和主旨发言,所述散文可选地被细分成文学体裁。在一个实施方式中,获得特征数据的步骤包括通过自然语言处理来处理所述音频数据。在一个实施方式中,获得特征数据的步骤包括:通过对所述音频数据运行语音识别算法来生成对应于所述音频数据的文本,将所述文本与所述音频数据中的时间点相关联,对所述文本运行主题划分((topicsegmentation))算法和/或情感分析算法,以确定所述文本中的主题和/或情感,每个主题和/或情感是针对所述文本中的相应文本片段来确定的,所述方法还包括:通过确定所述音频数据中的与所述文本片段对应的时间段来生成所述特征数据,并且生成所述时间段和表示主题的主题标识符和/或表示情感的情感标识符之间的关联。如上所述,每个文本片段可包括多个词语或句子。在一个实施方式中,获得特征数据的步骤包括:处理所述音频数据以提取音频特征,分析所述音频特征以确定所述音频数据中的至少一个时间段的情感,并且生成所述至少一个时间段与表示所述情感的情感标识符之间的关联。在一个实施方式中,所述音频数据与将与所述音频数据同步播放的图像数据关联,并且获得特征数据的步骤包括:分析所述图像数据,以确定本文档来自技高网...
向包含语音的音频数据添加背景声音

【技术保护点】
一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述音频数据(A)中的时间段,针对所述音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述音频数据(A)的背景声音(B)的期望的属性,以及提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述音频数据(A)与具有所述期望的属性的背景声音(B)组合。

【技术特征摘要】
2016.06.03 EP 16172863.91.一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述音频数据(A)中的时间段,针对所述音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述音频数据(A)的背景声音(B)的期望的属性,以及提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述音频数据(A)与具有所述期望的属性的背景声音(B)组合。2.根据权利要求1所述的方法,其中,获得所述期望的属性,以匹配所述相应时间段的主题和/或情感。3.根据权利要求1或2所述的方法,其中,所述主题表示所述音频数据(A)中的所述相应时间段内的口语的内容或话题。4.根据前述权利要求中的任一项所述的方法,其中,所述特征数据([D])至少部分地通过自动分析所述音频数据(A)中的语音来生成。5.根据前述权利要求中的任一项所述的方法,其中,所述情感表示所述音频数据(A)中的所述相应时间段内的口语的情绪,并且包括以下项中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。6.根据前述权利要求中的任一项所述的方法,其中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表示以下项中的一个或更多个:所述背景声音(B)的回放音量、所述背景声音(B)的节拍、所述背景声音(B)的音调和所述背景声音(B)的基调。7.根据前述权利要求中的任一项所述的方法,其中,所述特征数据([D])还通过文学种类(CID)来表征所述音频数据(A)中的所述时间段,并且其中,进一步获得所述期望的属性,以匹配所述相应时间段的所述文学种类(CID)。8.根据前述权利要求中的任一项所述的方法,其中,获得特征数据([D])的步骤包括:通过自然语言处理来处理所述音频数据(A)。9.根据前述权利要求中的任一项所述的方法,其中,获得特征数据([D])的步骤包括:通过对所述音频数据(A)运行语音识别算法来生成与所述音频数据(A)相对应的文本(A_T);将所述文本(A_T)与所述音频数据(A)中的时间点相关联;对所述文本(A_T)运行主题划分算法和/或情感分析算法以确定所述文本(A_T)中的主题和/或情感,每个主题和/或情感是针对所述文本(A_T)中的相应文本片段来确定的,所述方法还包括以下步骤:通过确定所述音频数据(A)中的与所述文本片段相对应的时间段来生成所述特征数据([D]);以及生成所述时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。10.根据权利要求9所述的方法,其中,对所述文本运行所述主题划分算法,以关于至少两个不同粒度水平确定所述主题。11.根据前述权利要求中的任一项所述的方法,其中,获得特征...

【专利技术属性】
技术研发人员:O·索恩
申请(专利权)人:索尼移动通讯有限公司
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1