电子设备、视频内容编辑方法和程序技术

技术编号:3912594 阅读:150 留言:0更新日期:2012-04-11 18:40
本发明专利技术的电子设备包括:第一输入装置,用于输入构成第一视频内容的图像信号和第一音频信号;第二输入装置,用于输入不同于第一音频信号的第二音频信号;第一计算装置,用于从输入的图像信号中检测其中包含了个人面部的面部图像区,并计算用于评估所检测的面部图像区的确定性的面部评估值;第二计算装置,用于从输入的第一音频信号中检测个人的语音,并计算用于评估语音的音量的语音评估值;设置装置,用于设置每个图像信号的第一加权因子和第二加权因子;以及产生装置,用于产生第三音频信号,并产生由第三音频信号和图像信号构成的第二视频信号内容。

【技术实现步骤摘要】

本专利技术涉及能够编辑视频内容的电子设备、在该电子设备中的视频内容 编辑方法、以及其程序。
技术介绍
过去,已进行了给用摄像机等所拍摄的视频内容添加BGM(背景音乐)、 声音效果等的编辑4乘作。例如,曰本专利申请特开No. 2001-202082 (第0024 和0031段、图2等)(以下称其为专利文献l)揭示了视频信号编辑设备,在此 设备中,提取作为编辑目标的视频的特征(记录时段和图像数量),并根据预定 用户给出的指令,自动产生用于编辑目标视频的最佳音乐,并将其添加到编 辑目标视频。
技术实现思路
然而,在专利文献1所揭示的4支术中,当向编辑目标3见频中加入音乐时, 擦除了被记录在原始编辑目标视频上的原始音频信号。因此,取决于场景 (scene ),在某些情况下留下原始信号而不添加音乐能够使编辑目标视频给 人更为深刻的印象。但是,利用专利文献l中揭示的技术,难于实现这一点, 这就会让用户感到不方便。此外,通常,用户可以手动选择在编辑目标视频 中要加入音乐的部分,和其中有要保留原始音频信号以便对其进行编辑的部 分。然而,这些任务是极为复杂和麻烦的。鉴于上述的情况,希望提供一种电子设备、视频内容编辑方法和程序, 它们能够有效地保留在原始视频内容中的音频信号,并根据场景来添加另外 的音频信号。根据本专利技术的具体实施例,提出了一种电子设备。该电子设备包括第 一输入装置、第二输入装置、第一计算装置、第二计算装置、设置装置和产 生装置。第一输入装置输入构成第一视频内容的图像信号和第一音频信号。 第二输入装置输入不同于第一音频信号的第二音频信号。第 一计算装置从输入的图像信号中检测其中包含了个人面部的面部图像区,并计算用于评估所 检测的面部图像区的确定性的面部评估值。第二计算装置从输入的第 一音频 信号中检测个人的语音,并计算用于评估所检测的语音的音量的语音评估值。 设置装置根据所计算的面部评估值和语音评估值来设置每个图像信号的第一 加权因子和第二加权因子,第一加权因子指示第一音频信号的权重,第二加 权因子指示第二音频信号的权重。产生装置根据所设置的第一加权因子和第 二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信 号,并产生由第三音频信号和图像信号构成的第二视频信号内容。在此,这种电子设备的例子包括PC(个人计算机),使用诸如HDD(硬盘 驱动器)/DVD/BD(蓝光盘)之类的记录介质的记录/再现装置、数字视频摄像 机、移动AV(音频/视频)设备、移动电话和游戏机等。第一视频内容是指由 诸如摄像机之类的设备记录的视频内容、通过网络接收的视频内容等。第二 音频信号是指BGM的音频信号、声音效果等。通过这个结构,该电子设备能够根据在第一视频内容中包括的面部图像 和语音来改变第一和第二音频信号的权重,并从第一视频内容来产生第二视 频内容。这样,就能根据场景按原样保留人的语音或者插入另外的声音,其 结果是,与只将另一个声音插入到第一视频内容中的情况相比,能够提高编 辑效果并能产生给人印象更为深刻的第二视频内容。当面部评估值等于或大于第一阈值并且语音评估值等于或大于第二阈值 时,设置装置可以将第一加权因子设置为大于第二加权因子的第一值。在面部评估值和语音评估值都大的情况下,极可能在第一视频内容中出 现的那个人在说话。在此情况下,尽可能地将第一加权因子设置得大于第二 加权因子,以便强调这个人的语音,其结果是,能够使得对此人的印象更为 深刻。在此,可以将第一值设置为1。当面部评估值小于第一阈值并且语音评估值小于第二阈值时,设置装置 可以将第一加权因子设置为小于第二加权因子的第二值。在面部评估值和语音评估值都小的情况下,极可能这个人没出现在第一 视频内容中。在此情况下,尽可能地将第一加权因子设置得小于第二加权因 子,以便强调第二音频信号,因此,可能进行编辑以使得在第一视频内容中 的不起眼的场景变得更加吸引人。在此,可以将第二值设置为0。当面部评估值等于或大于第一阈值并且语音评估值小于第二阈值时,设置装置可以根据面部评估值和语音评估值将第一加权因子设置得大于第二加 权因子。在面部评估值大而语音评估值小的情况下,人的面部出现在第 一视频内 容中,因此,这个人可能是用小的语音说某些事情。在此情况下,将第一音 频信号的权重设置得大,并同时添加第二音频信号,其结果是,在强调第一 音频信号的同时,能够添加第二音频信号的效果。当面部评估值小于第 一 阈值并且语音评估值等于或大于第二阈值时,设 置装置可以根据面部评估值和语音评估值将第一加权因子设置得小于第二加 权因子。在面部评估值小而语音评估值大的情况下,这个人几乎不出现在第一视 频内容中,因此,即使在包含人的某些语音的情况下,语音可能几乎与图像 无关。在此情况下,在保留第一音频信号的同时,将第二音频信号的权重设 置得大,其结果是,在保留第一音频信号的同时,能够添加第二音频信号的 效果。根据本专利技术的电子设备可以还包括用于存储指示特定人的面部的特征的 面部特征数据的存储装置。在此情况下,第 一计算装置能够根据所存储的面部特征数据来检测其中 含了特定人的面部的面部图像区。通过此结构,即使在视频内容中出现了多个人的面部,也可能区别特定 人面部和其它人的面部并检测该面部。因此,能够根据所聚焦的特定人来有 效地进行第 一和第二音频信号的加权因子的设置处理。该电子设备可以还包括存储装置,用以存储指示特定人的语音的特征的 语音特征数据。在此情况下,第二计算装置能够根据所存储的语音特征数据来检测特定 人的语音。通过此结构,即使在视频内容中包含多个人的语音的情况下,也可能区 别特定人的语音和其它人的语音。因此,能够根据所聚焦的特定人来有效地 进行第一和第二音频信号的加权因子的设置处理。根据本专利技术的另一个实施例,提供了编辑视频内容的方法。该方法包括 输入构成第 一视频内容的图像信号和第 一音频信号,并输入不同于第 一音频 信号的第二音频信号。该方法还包括从输入的图像信号中检测其中包含了个人面部的面部图像 区,并计算用于评估所检测的面部图像区的确定性的面部评估值。该方法还包括从输入的第一音频信号中^r测个人的语音,并计算用于评 估所检测的语音的音量的语音评估值。此方法还包括根据所计算的面部评估值和语音评估值来设置每个图像信 号的第一加权因子和第二加权因子,第一加权因子指示第一音频信号的权重, 第二加权因子指示第二音频信号的权重。这个方法还包括根据所设置的第一加权因子和第二加权因子来产生其中 混合了第 一音频信号和第二音频信号的第三音频信号,并产生由第三音频信 号和图像信号构成的第二视频信号内容。通过此结构,能根据场景照原样保留人的语音或者插入另外的声音,其 结果是,与只将另一个声音插入到第一视频内容中的情况相比,增加了编辑 效果并能产生更力。印象深刻的第二视频内容。根据本专利技术的另一个实施例,提出了一种程序,以便使得该电子设备执 行第一输入步骤、第二输入步骤、第一计算步骤、第二计算步骤、设置步骤 和产生步骤。在第 一输入步骤中,输入构成第 一视频内容的图像信号和第 一音频信号。在第二输入步骤中,输入不同于第 一音频信号的第二音频信号。在第 一计算步骤中,从输入的图像信号中检测其中包含了个人面部本文档来自技高网...

【技术保护点】
一种电子设备,包括: 第一输入装置,用于输入构成第一视频内容的图像信号和第一音频信号; 第二输入装置,用于输入不同于第一音频信号的第二音频信号; 第一计算装置,用于从输入的图像信号中检测其中包含了个人面部的面部图像区,并计 算用于评估所检测的面部图像区的确定性的面部评估值; 第二计算装置,用于从输入的第一音频信号中检测个人的语音,并计算用于评估所检测的语音的音量的语音评估值; 设置装置,用于根据所计算的面部评估值和语音评估值来设置每个图像信号的第一 加权因子和第二加权因子,第一加权因子指示第一音频信号的权重,第二加权因子指示第二音频信号的权重;以及 产生装置,用于根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号,并产生由第三音频信号和 图像信号构成的第二视频信号内容。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:村林升
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利