信息影片产生方法与装置制造方法及图纸

技术编号:29198091 阅读:23 留言:0更新日期:2021-07-10 00:31
本发明专利技术公开了一种信息影片产生方法与装置,其先取得文本;依据文本,通过分页摘要机器模型产生多个分页摘要;依据分页摘要产生多个分页;依据文本,通过文字稿机器模型产生多个文字稿;依据文字稿,通过文字转语音机器模型产生多个旁白语音;及将分页与旁白语音合成信息影片。息影片。息影片。

【技术实现步骤摘要】
信息影片产生方法与装置


[0001]本专利技术涉及一种信息处理技术,尤其涉及一种信息影片产生方法与装置。

技术介绍

[0002]由于信息科技的发展,促成了许多影音媒体工作者投入影音创作的行列。然而,影音编辑不但需要对影像进行处理,还需要录下旁白,并且在配合影片调整时间轴,若事先没规划好,甚至需要反复录音调整,创作者需要付出相较于产出影片时长的好几倍的时间。

技术实现思路

[0003]有鉴于此,本专利技术实施例提出一种信息影片产生方法与装置。
[0004]在一实施例中,语音贴图产生方法包括:取得文本;依据文本,通过分页摘要机器模型产生多个分页摘要;依据分页摘要产生多个分页;依据文本,通过文字稿机器模型产生多个文字稿;依据文字稿,通过文字转语音机器模型产生多个旁白语音;及将分页与旁白语音合成信息影片。
[0005]在一实施例中,信息影片产生装置包括分页摘要模块、分页产生模块、文字稿产生模块、文字转语音模块及影片合成模块。分页摘要模块载有分页摘要机器模型,以依据文本产生多个分页摘要。分页产生模块依据分页摘要产生多个分页。文字稿产生模块载有文字稿机器模型,以依据文本产生多个文字稿。文字转语音模块载有文字转语音机器模型,以依据文字稿产生多个旁白语音。影片合成模块将分页与旁白语音合成信息影片。
[0006]综上所述,根据本专利技术的实施例,可以根据文本产生信息影片,信息影片具有文本中重要内容的摘要文字并配合相关说明内容的语音。在一些实施例中,旁白语音可根据使用者的选择,按照对应人员的声音来发声。在一些实施例中,可因应文本的文本类型,选择相应的摘要模型作为分页摘要机器模型,来产生分页摘要,使得获得的分页摘要更为精准。
附图说明
[0007]图1为本专利技术一实施例的信息影片产生装置的硬件架构示意图。
[0008]图2为本专利技术一实施例的信息影片产生装置的软件架构示意图。
[0009]图3为本专利技术一实施例的信息影片产生装置的神经模型架构示意图。
[0010]图4为本专利技术一实施例的信息影片产生方法流程图。
[0011]图5为本专利技术一实施例的分页摘要机器模型的架构示意图。
[0012]图6为本专利技术一实施例的分页摘要的示意图。
[0013]图7为本专利技术一实施例的文字转语音机器模型的架构示意图。
[0014]图8为本专利技术一实施例的文字编码器的架构示意图
[0015]图9为本专利技术一实施例的音频编码器的架构示意图。
[0016]图10为本专利技术一实施例的音频译码器的架构示意图。
[0017]图11为本专利技术另一实施例的信息影片产生装置的神经模型架构示意图。
[0018]图12为本专利技术一实施例的文本分类机器模型的架构示意图。
[0019]其中,附图标记:
[0020]信息影片产生装置 100
[0021]处理装置 120
[0022]处理器 121
[0023]中央处理单元 1213
[0024]神经网络处理器 1215
[0025]内存 122
[0026]挥发性内存 1224
[0027]非挥发性内存 1226
[0028]非瞬时计算机可读取记录媒体 123
[0029]周边界面 124
[0030]总线 125
[0031]语料库 200
[0032]分页摘要模块 210
[0033]分页产生模块 220
[0034]文字稿产生模块 230
[0035]文字转语音模块 240
[0036]影片合成模块 250
[0037]文本 300
[0038]分页摘要 310
[0039]分页 320
[0040]标题 321
[0041]摘要项目 322
[0042]子摘要项目 323
[0043]文字稿 330
[0044]旁白语音 340
[0045]信息影片 350
[0046]文字段 360
[0047]文本类型 370
[0048]分页摘要机器模型 410
[0049]摘要模型 411
[0050]注意力机制 412
[0051]译码器 413
[0052]预训练模型 414
[0053]文本分类机器模型 420
[0054]嵌入层 421
[0055]卷积层 422
[0056]池化层 423
[0057]全连接层 424
[0058]损失层 425
[0059]文字稿机器模型 430
[0060]文字转语音机器模型 440
[0061]编码器 441
[0062]注意力机制 442
[0063]音频译码器 443
[0064]第一因果卷积层 4431
[0065]高速公路卷积层 4432
[0066]第二因果卷积层 4433
[0067]逻辑斯谛函数层 4434
[0068]后网络 444
[0069]声码器 445
[0070]文字编码器 446
[0071]字符嵌入层 4461
[0072]非因果卷积层 4462
[0073]高速公路卷积层 4463
[0074]音频编码器 447
[0075]因果卷积层 4471
[0076]高速公路卷积层 4472
[0077]句子向量 510
[0078]文字段向量 520
[0079]步骤 S401~S406
具体实施方式
[0080]参照图1,为本专利技术一实施例的信息影片产生装置100的硬件架构示意图。信息影片产生装置100为一个或多个具有运算能力的计算机系统(在此以一处理装置120为例),例如个人计算机、笔记本电脑、智能型手机、平板电脑、服务器群集等。信息影片产生装置100能够依据文本自行生成信息影片。
[0081]信息影片产生装置100的处理装置120的硬件具有处理器121、内存122、非瞬时计算机可读取记录媒体123、周边接口124、及供上述元件彼此通信的总线125。总线125包括但不限于系统总线、内存总线、周边总线等一种或多种的组合。处理器121包括但不限于中央处理单元(CPU)1213和神经网络处理器(NPU)1215。内存122包括但不限于挥发性内存1224(如随机存取内存(RAM))和非挥发性内存1226(如只读存储器(ROM))。非瞬时计算机可读取记录媒体123可例如为硬盘、固态硬盘等,供储存包括多个指令的计算机程序产品(后称“软件”),致使计算机系统的处理器121执行该些指令时,使得计算机系统执行信息影片产生方法。周边接口124供连接如键盘、麦克风、喇叭、显示器、网络卡等输入/输出装置。
[0082]在一些实施例中,处理装置120包括两个以上的计算机系统,例如:一个人计算机及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息影片产生方法,其特征在于,包括:取得文本;依据该文本,通过分页摘要机器模型产生多个分页摘要;依据该些分页摘要产生多个分页;依据该文本,通过文字稿机器模型产生多个文字稿;依据该些文字稿,通过文字转语音机器模型产生多个旁白语音;及将该些分页与该些旁白语音合成信息影片。2.根据权利要求1所述的信息影片产生方法,其特征在于,所述依据该文本,通过该分页摘要机器模型产生该多个分页摘要的步骤,包括:通过文本分类机器模型将该文本分类至多个文本类型中之一。3.根据权利要求2所述的信息影片产生方法,其特征在于,该分页摘要机器模型属于多个摘要模型中的其中之一,所述依据该文本,通过该分页摘要机器模型产生该多个分页摘要的步骤,还包括:依据经分类的该文本类型,选择该些摘要模型的其中之一作为该分页摘要机器模型;以及依据所选到的该分页摘要机器模型对该文本产生该些分页摘要。4.根据权利要求3所述的信息影片产生方法,其特征在于,还包括:依据分别属于该些文本类型的训练数据,训练该些摘要模型。5.根据权利要求1所述的信息影片产生方法,其特征在于,还包括:依据多个人员的多个语料训练该文字转语音机器模型而获得分别对应该些人员的多个模型权重;选择该些人员中的其中之一;依据所选择的该人员,选取对应的该模型权重;及将所选取的该模型权重套用至该文字转语音机器模型中,以取得具有所选择的该人员的声音的该些旁白语音。6.根据权利要求1所述的信息影片产生方法,其特征在于,在产生该些分页摘要及该些文字稿的步骤之前,还包括:切分该文本为多个文字段;其中该些分页摘要及该些文字稿是分别根据各该文字段产生,该信息影片是根据分别对应于同一该文字段的该些分页和该些旁白语音在时间上彼此对齐的方式形成。7.根据权利要求6所述的信息影片产生方法,其特征在于,所述切分该文本为该些文字段是根据该文本中记载的符号切分。8.根据权利要求6所述的信息影片产生方法,其特征在于,所述切分该文本为该些文字段是根据该文本中记载的文本标题切分。9....

【专利技术属性】
技术研发人员:黄显诏丁羿慈陈誉云杨崇文
申请(专利权)人:宏正自动科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1