System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自动画外音生成制造技术_技高网

自动画外音生成制造技术

技术编号:40874282 阅读:2 留言:0更新日期:2024-04-08 16:42
方法(500)包括接收生成具有一个或多个广告活动属性(106)的目标广告(104)的合成画外音语音(352)的画外音请求(102)。该方法还包括基于一个或多个广告活动属性来生成合成画外音语音的包括文本序列的画外音脚本(252)。该方法还包括使用文本转语音(TTS)(300)系统生成合成画外音语音。TTS系统被配置为接收画外音脚本的文本序列作为输入,并且生成合成画外音语音作为输出。这里,合成画外音语音具有由目标TTS垂直元(312)指定的语音特性(304)。该方法还包括将合成画外音语音覆盖在目标广告上。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及自动画外音生成


技术介绍

1、画外音生成是生成用于音频或视频广告活动(campaign)的可听话音的过程,其为广告活动的观看者解释和/或提供附加上下文。近年来,画外音生成的流行度已经增加,因为向广告活动添加画外音已经证明极大地增加了广告活动的有效性。画外音生成的一关键方面是在画外音期间说什么以及它应该如何听起来吸引查看广告活动的目标客户。然而,确定要说什么以及如何说对于许多公司和广告代理来说是重要的任务,这是因为在雇用适当的话音演员来说出用于广告活动的画外音音频时所涉及的耗时且昂贵的过程。


技术实现思路

1、本公开的一个方面提供了一种计算机实现的方法,该方法在数据处理硬件上执行时使数据处理硬件执行操作。操作包括接收生成具有一个或多个广告活动属性的目标广告的合成画外音语音的画外音请求。操作还包括基于一个或多个广告活动属性来生成合成画外音语音的包括文本序列的画外音脚本。操作还包括使用文本转语音(tts)系统生成合成画外音语音。tts系统被配置为接收画外音脚本的文本序列作为输入,并且生成具有由目标tts垂直元(vertical)指定的语音特性的合成画外音语音作为输出。操作还包括将合成画外音语音覆盖在目标广告上。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,操作进一步包括基于一个或多个广告活动属性来选择目标tts垂直元。由目标tts垂直元指定的语音特性可以包括以下中的至少一个:指定由合成画外音语音传送的节律(prosody)/风格信息的话语嵌入和指定合成画外音语音的话音特性的说话者嵌入。

3、可选地,广告活动属性可以包括标题(headline)、行动号召、地理区域、语言或受众群体特征(audience demographic)中的至少一个。在一些示例中,画外音脚本的文本序列包括一个或多个词,并且将合成画外音语音覆盖在目标广告上包括:确定合成画外音语音应当说出画外音脚本的一个或多个词的相应时间戳,其中,目标广告具有包括相应时间戳的播放时间;以及将合成画外音语音与目标广告对准,使得与画外音脚本的一个或多个词相对应的合成画外音语音的片段出现在目标广告的相应时间戳处。

4、在一些实施方式中,生成用于合成画外音语音的画外音脚本可以包括通过以下操作来识别与具有一个或多个广告活动属性的广告活动相关的一个或多个词:根据与广告活动相关联的登录页面统一资源定位符(url)来识别短语并且对根据登录页面url识别的每个短语进行排名。每个短语的排名对应于相应短语与广告活动的一个或多个广告活动属性相关的可能性。这里,操作可以进一步包括确定任何所识别的短语的排名是否满足阈值。当所识别的短语之一的排名满足阈值时可以发生生成画外音脚本并且画外音脚本的文本序列表示满足阈值的所识别的短语。

5、在这些实施方式中,响应于确定所识别的短语的排名不满足阈值,操作进一步包括:访问与不同的广告活动相关联的广告语料库,每个广告与具有相应的画外音脚本和一组广告活动属性的相应的广告活动相关联;从广告语料库中识别具有与画外音请求的一个或多个广告活动属性类似的广告活动属性的一个或多个广告;以及基于所识别的一个或多个广告的相应的画外音脚本来生成合成画外音语音的画外音脚本,所识别的一个或多个广告具有与画外音请求的一个或多个广告活动属性类似的广告活动属性。

6、在一些示例中,tts系统包括:tts模型,被配置为将画外音脚本的文本序列转换为画外音脚本的对应合成语音表示;以及tts合成器,被配置为根据从tts模型输出的合成语音表示生成合成画外音语音。可选地,一个或多个广告活动属性可以与人为(human-made)广告活动相关联。

7、本公开的另一方面提供了一种系统,该系统包括数据处理硬件和存储指令的存储器硬件,所述指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括:接收生成具有一个或多个广告活动属性的目标广告的合成画外音语音的画外音请求。操作还包括基于一个或多个广告活动属性来生成包括合成画外音语音的文本序列的画外音脚本。操作还包括使用文本转语音(tts)系统生成合成画外音语音。tts系统被配置为接收画外音脚本的文本序列作为输入,并且生成具有由目标tts垂直元指定的语音特性的合成画外音语音作为输出。操作还包括将合成画外音语音覆盖在目标广告上。

8、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,操作进一步包括基于一个或多个广告活动属性来选择目标tts垂直元。由目标tts垂直元指定的语音特性可以包括以下中的至少一个:指定由合成画外音语音传送的节律/风格信息的话语嵌入和指定合成画外音语音的语音特性的说话者嵌入。

9、可选地,广告活动属性可以包括标题、行动号召、地理区域、语言或受众群体特征中的至少一个。在一些示例中,画外音脚本的文本序列包括一个或多个词,并且将合成画外音语音覆盖在目标广告上包括:确定合成画外音语音应当说出画外音脚本的一个或多个词的相应时间戳,其中目标广告具有包括相应时间戳的播放时间;以及将合成画外音语音与目标广告对准,使得合成画外音语音的与画外音脚本的一个或多个词相对应的片段出现在目标广告的相应时间戳处。

10、在一些实施方式中,生成合成画外音语音的画外音脚本可以包括通过以下操作来识别与具有一个或多个广告活动属性的广告活动相关的一个或多个词:根据与广告活动相关联的登录页面统一资源定位符(url)来识别短语以及对根据登录页面url识别的每个短语进行排名。每个短语的排名对应于相应短语与广告活动的一个或多个广告活动属性相关的可能性。这里,操作可以进一步包括确定任何所识别的短语的排名是否满足阈值。当所识别的短语之一的排名满足阈值时可以发生生成画外音脚本并且画外音脚本的文本序列表示满足阈值的所识别的短语。

11、在这些实施方式中,响应于确定所识别的短语的排名不满足阈值,操作进一步包括:访问与不同的广告活动相关联的广告语料库,每个广告与具有相应的画外音脚本和一组广告活动属性的相应的广告活动相关联;从广告语料库中识别具有与画外音请求的一个或多个广告活动属性类似的广告活动属性的一个或多个广告;以及基于所识别的一个或多个广告的相应的画外音脚本来生成合成画外音语音的画外音脚本,所识别的一个或多个广告具有与画外音请求的一个或多个广告活动属性类似的广告活动属性。

12、在一些示例中,tts系统包括:tts模型,被配置为将画外音脚本的文本序列转换为画外音脚本的对应合成语音表示;以及tts合成器,被配置为根据从tts模型输出的合成语音表示生成合成画外音语音。可选地,一个或多个广告活动属性可以与人为广告活动相关联。

13、在附图和下面的描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求,其他方面、特征和优点将是显而易见的。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法(500),所述方法当在数据处理硬件(134)上执行时使得所述数据处理硬件(134)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(500),其中,所述操作进一步包括:基于所述一个或多个广告活动属性(106)来选择所述目标TTS垂直元(312)。

3.根据权利要求1或2所述的计算机实现的方法(500),其中,由所述目标TTS垂直元(312)指定的所述语音特性(304)包括以下中的至少一个:指定由所述合成画外音语音(352)传达的节律/风格信息的话语嵌入(304a)、指定由所述合成画外音语音(352)传达的口音/方言的口音/方言识别器(304b)以及指定所述合成画外音语音(352)的话音特性的说话者嵌入(304c)。

4.根据权利要求1至3中任一项所述的计算机实现的方法(500),其中,所述广告活动属性(106)包括以下中的至少一个:

5.根据权利要求1至4中任一项所述的计算机实现的方法(500),其中,所述画外音脚本(252)的所述文本序列包括一个或多个词,并且将所述合成画外音(352)覆盖在所述目标广告(104)上包括:

6.根据权利要求1至5中任一项所述的计算机实现的方法(500),其中,生成所述合成画外音语音(352)的所述画外音脚本(252)包括通过以下操作来识别与具有所述一个或多个广告活动属性(106)的广告活动相关的一个或多个词:

7.根据权利要求6所述的计算机实现的方法(500),其中,所述操作进一步包括:确定任何所识别的短语(212)的排名是否满足阈值。

8.根据权利要求7所述的计算机实现的方法(500),其中:

9.根据权利要求7所述的计算机实现的方法(500),其中,所述操作进一步包括响应于确定所识别的短语(212)的排名不满足所述阈值而进行以下操作:

10.根据权利要求1至9中任一项所述的计算机实现的方法(500),其中,所述TTS系统(300)包括:

11.根据权利要求1至10中任一项所述的计算机实现的方法(500),其中,所述一个或多个广告活动属性(106)与人为广告活动相关联。

12.一种系统(100),包括:

13.根据权利要求12所述的系统(100),其中,所述操作进一步包括:基于所述一个或多个广告活动属性(106)来选择所述目标TTS垂直元(312)。

14.根据权利要求12或13所述的系统(100),其中,由所述目标TTS垂直元(312)指定的所述语音特性(304)包括以下中的至少一个:指定由所述合成画外音语音(352)传达的节律/风格信息的话语嵌入(304a)、指定由所述合成画外音语音(352)传达的口音/方言的口音/方言识别器(304b)以及指定所述合成画外音语音(352)的话音特性的说话者嵌入(304c)。

15.根据权利要求12至14中任一项所述的系统(100),其中,所述广告活动属性(106)包括以下中的至少一个:

16.根据权利要求12至15中任一项所述的系统(100),其中,所述画外音脚本(252)的所述文本序列包括一个或多个词,并且将所述合成画外音(352)覆盖在所述目标广告(104)上包括:

17.根据权利要求12至16中任一项所述的系统(100),其中,生成所述合成画外音语音(352)的所述画外音脚本(252)包括通过以下操作来识别与具有所述一个或多个广告活动属性(106)的广告活动相关的一个或多个词:

18.根据权利要求17所述的系统(100),其中,所述操作进一步包括:确定任何所识别的短语(212)的排名是否满足阈值。

19.根据权利要求18所述的系统(100),其中:

20.根据权利要求18所述的系统(100),其中,所述操作进一步包括响应于确定所识别的短语(212)的排名不满足所述阈值而进行以下操作:

21.根据权利要求12至20中任一项所述的系统(100),其中,所述TTS系统(300)包括:

22.根据权利要求12至21中任一项所述的系统(100),其中,所述一个或多个广告活动属性(106)与人为广告活动相关联。

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法(500),所述方法当在数据处理硬件(134)上执行时使得所述数据处理硬件(134)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(500),其中,所述操作进一步包括:基于所述一个或多个广告活动属性(106)来选择所述目标tts垂直元(312)。

3.根据权利要求1或2所述的计算机实现的方法(500),其中,由所述目标tts垂直元(312)指定的所述语音特性(304)包括以下中的至少一个:指定由所述合成画外音语音(352)传达的节律/风格信息的话语嵌入(304a)、指定由所述合成画外音语音(352)传达的口音/方言的口音/方言识别器(304b)以及指定所述合成画外音语音(352)的话音特性的说话者嵌入(304c)。

4.根据权利要求1至3中任一项所述的计算机实现的方法(500),其中,所述广告活动属性(106)包括以下中的至少一个:

5.根据权利要求1至4中任一项所述的计算机实现的方法(500),其中,所述画外音脚本(252)的所述文本序列包括一个或多个词,并且将所述合成画外音(352)覆盖在所述目标广告(104)上包括:

6.根据权利要求1至5中任一项所述的计算机实现的方法(500),其中,生成所述合成画外音语音(352)的所述画外音脚本(252)包括通过以下操作来识别与具有所述一个或多个广告活动属性(106)的广告活动相关的一个或多个词:

7.根据权利要求6所述的计算机实现的方法(500),其中,所述操作进一步包括:确定任何所识别的短语(212)的排名是否满足阈值。

8.根据权利要求7所述的计算机实现的方法(500),其中:

9.根据权利要求7所述的计算机实现的方法(500),其中,所述操作进一步包括响应于确定所识别的短语(212)的排名不满足所述阈值而进行以下操作:

10.根据权利要求1至9中任一项所述的计算机实现的方法(500),其中,所述tts系统(300)包括:

11.根据权利要求1至10中任一项所述的计算机实现的...

【专利技术属性】
技术研发人员:尼克·罗斯布莱恩·福斯特·艾伦霍华德·穆林斯拉尔夫·利斯希南·马赫什瓦里
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1