当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于文本动态生成教学视频的编辑方法技术

技术编号:38576418 阅读:15 留言:0更新日期:2023-08-26 23:24
一种基于文本动态生成教学视频的编辑方法,主要步骤包括:获取用户输入的文字、对文字进行NLP处理、检索教学视频、将元视频数据转换为音视频、进行元视频数据相似度特征计算、用户选择音视频素材、合成虚拟人教学示例。本发明专利技术可以根据文字动态生成教学视频,自动创造虚拟示范,以降低视频制作的技术门槛,减少视频制作的时间与人力开销;并且能快速找到适合的示范素材,提高示例检索的效率,提升教学用户的教学体验。的教学体验。的教学体验。

【技术实现步骤摘要】
一种基于文本动态生成教学视频的编辑方法


[0001]本专利技术涉及计算机
,具体涉及一种基于文本动态生成教学视频的编辑方法。

技术介绍

[0002]现今虚拟教室学习的技术已经十分成熟,老师可以通过网络进入已建立的虚拟教室进行教学,学生可以通过网络进入到与自己学习进度相匹配的虚拟教室进行学习,一个虚拟教室可以同时容纳多个学生。
[0003]公开号为CN202111338371.7的专利技术专利,公开了自动化教学视频生成方法、装置、计算机设备及存储介质;方法包括:获取来自终端的原始视频;对所述原始视频进行处理,以形成若干视频素材文件以及对应的视频标签;利用所述视频标签进行若干视频素材文件的自定义组装,形成人物视频素材;获取候选场景;获取来自终端的语音,并存储所述语音至数据库内:从所述数据库内检索并确定待合成的语音:根据所述人物视频素材、候选场景以及待合成的语音进行合成,以得到教学视频。该专利可实现满足短周期内大量的教学视频制作,以节约学校和教师在教学视频录制、制作上的工作,减轻教师的工作负担,减少学校的人力资源成本,且可自定义形象和自定义语音。
[0004]但是,上述的专利需要用户提供原始视频和语音,不能自动生成教学内容。另外,该专利中的教学数据标注方法,过程耗时耗力,需要大量的人工参与和审核,难以保证标注质量和效率。

技术实现思路

[0005]针对上述的技术问题,本技术方案提供了一种基于文本动态生成教学视频的编辑方法,使用生成式对抗网络技术,自动生成教学内容,无需用户提供原始视频和语音;通过使用自然语言处理技术,自动标注教学数据,避免大量的人工参与和审核,提高标注质量和效率;能有效的解决上述问题。
[0006]本专利技术通过以下技术方案实现:一种基于文本动态生成教学视频的编辑方法,主要步骤包括获取用户输入的文字、对文字进行NLP处理、检索教学视频、将元视频数据转换为音视频、进行元视频数据相似度特征计算、用户选择音视频素材、合成虚拟人教学示例;具体包括如下步骤:步骤1:获取视频素材数据集D;步骤2:构建初始音视频合成模型;步骤3:辅助训练数据集模型T并预处理;步骤4:检索音视频特征和场景;具体方法为:步骤4.1:首先获取用户输入的文字,采用结巴分词将文本关键字分词处理,得到用户检索数据集D3;再对步骤3利用的原视频数据生成的数据集模型T进行元视频数据相似度特征计算,产生可视化的1

6个素材列表;
步骤4.2:检索步骤3的元数据描述集模型T,进行元视频数据相似度特征计算,并产生可视化1

6个素材列表:音视频课程片段数据L={l1,l2,

l6};步骤5:根据步骤4.2的音视频课程片段数据L形成的列表,用户进行单一或多重选取;步骤6:合成虚拟人教学示例视频;步骤7:将步骤6的教学示例视频,再回存至音视频数据集D。
[0007]进一步的,步骤1所述的视频素材包括两部分:第一部分是录制好的教学音视频片段;第二部分是在所生成的虚拟人教学音视频片段回存S7而得的视频片段。
[0008]进一步的,步骤2所述的构建初始音视频合成模型,具体的操作方式为:步骤2.1:通过隐马尔科夫链(HMM)方法处理视频连续语音识别,得到文本数据集D1;步骤2.2:通过结巴分词和百度NLP API混合处理文本NLP,对其进行分词处理,得到文本分词数据集D2;步骤2.3:存储视频文本数据集D1‑
D2。
[0009]进一步的,步骤3所述的辅助训练数据集模型T并预处理,具体方法为:步骤3.1:遍历步骤2.3存储的视频文本数据集D1‑
D2,提取视频里文本字词序列和文本标签模型;步骤3.2:构建一个视频对应一个元数据描述(metadata),元数据可以描述编码参数;通过元数据访问此信息比通过媒体类型属性更快。
[0010]步骤3.3:生成元数据描述集模型,该模型包含媒体内容的描述性信息,如标题、关键词、类别、时间序列和场景。
[0011]进一步的,步骤6所述的合成虚拟人教学示例视频,是根据用户选取的音视频素材,与虚拟人进行整合,生成一个虚拟人主播、具有文本主题的教学示例视频E,具体的操作步骤为:步骤6.1:获取虚拟人预先图片并输入;步骤6.2:采用Wave2Lip算法,建立LipGAN的模型,将文本转换成语音,生成虚拟人嘴唇运动视频序列。
[0012]有益效果本专利技术提出的一种基于文本动态生成教学视频的编辑方法,与现有技术相比较,其具有以下有益效果:(1)本专利技术可以根据文字动态生成教学视频,自动创造虚拟示范,以降低视频制作的技术门槛,减少视频制作的时间与人力开销。通过使用生成式对抗网络(GAN)技术,自动生成教学内容,无需用户提供原始视频和语音;通过使用自然语言处理(NLP)技术,自动标注教学数据,避免大量的人工参与和审核,提高标注质量和效率。同时,本方法仅需要通用型教学设备和单视频采集系统提供实施支持,降低实施成本和复杂度。
附图说明
[0013]图1为本专利技术的整体流程示意图。
[0014]图2为步骤2基于隐马尔科夫链文本分词方法整体流程图。
[0015]图3为步骤4中文本相似度特征计算方法流程图。
[0016]图4为步骤4中可视化的素材列表图。
[0017]图5为步骤6中Wave2Lip算法流程图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。在不脱离本专利技术设计构思的前提下,本领域普通人员对本专利技术的技术方案做出的各种变型和改进,均应落入到本专利技术的保护范围。
[0019]实施例1:如图1所示,一种基于文本动态生成教学视频的编辑方法,主要步骤包括获取用户输入的文字、对文字进行NLP处理、检索教学视频、将元视频数据转换为音视频、进行元视频数据相似度特征计算、用户选择音视频素材、合成虚拟人教学示例;具体包括如下步骤:步骤1:获取视频素材数据集D;视频素材包括两部分:第一部分是录制好的教学音视频片段;第二部分是在所生成的虚拟人教学音视频片段回存S7而得的视频片段。
[0020]步骤2:构建初始音视频合成模型;具体的操作方式为:步骤2.1:通过隐马尔科夫链(HMM)方法处理视频连续语音识别,具体的处理步骤如图2所示,得到文本数据集D1。
[0021]步骤2.2:通过结巴分词和百度NLP API混合处理文本NLP,对其进行分词处理,得到文本分词数据集D2。
[0022]步骤2.3:存储视频文本数据集D1‑
D2。
[0023]步骤3:辅助训练数据集模型T并预处理;具体方法为:步骤3.1:遍历步骤2.3存储的视频文本数据集D1‑
D2,提取视频里文本字词序列和文本标签模型。
[0024]步骤3.2:构建一个视频对应一个元数据描述(metadata),元数据可以描述编码参数;通过元数据访问此信息比通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本动态生成教学视频的编辑方法,其特征在于:主要步骤包括获取用户输入的文字、对文字进行NLP处理、检索教学视频、将元视频数据转换为音视频、进行元视频数据相似度特征计算、用户选择音视频素材、合成虚拟人教学示例;具体包括如下步骤:步骤1:获取视频素材数据集D;步骤2:构建初始音视频合成模型;步骤3:辅助训练数据集模型T并预处理;步骤4:检索音视频特征和场景;具体方法为:步骤4.1:首先获取用户输入的文字,采用结巴分词将文本关键字分词处理,得到用户检索数据集D3;再对步骤3利用的原视频数据生成的数据集模型T进行元视频数据相似度特征计算,产生可视化的1

6个素材列表;步骤4.2:检索步骤3的元数据描述集模型T,进行元视频数据相似度特征计算,并产生可视化1

6个素材列表:音视频课程片段数据L={l1,l2,

l6};步骤5:根据步骤4.2的音视频课程片段数据L形成的列表,用户进行单一或多重选取;步骤6:合成虚拟人教学示例视频;步骤7:将步骤6的教学示例视频,再回存至音视频数据集D。2.根据权利要求1所述的一种基于文本动态生成教学视频的编辑方法,其特征在于:步骤1所述的视频素材包括两部分:第一部分是录制好的教学音视频片段;第二部分是在所生成的虚拟人教学音视频片段回存S7而得的视频片段。3.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:周泓杨文俊王坤德朱倩倩刘畅凌海灵杨俊赵保中
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1