一种基于大语言模型的直播智能剪辑方法技术

技术编号：39929897 阅读：4 留言：0更新日期：2024-01-08 21:44

本发明专利技术提出一种基于大语言模型的直播智能剪辑方法，该方法包括如下步骤(1)设置需要剪辑的视频和对视频剪辑的额外需求；(2)将视频信息先转换为语音，再语音转文本T；(3)对文本T进行分词预处理，通过计算词语的共存度和在文本T中出现的总次数来统计词语的分数，选取分数最高的15个词语作为文本T的关键词；(4)根据视频文本T和步骤(3)提取的关键词，以及对视频剪辑的额外需求，设计特定的提示词以使用大语言模型对文本T进行剪辑点提取；(5)将步骤(4)中得到的视频剪辑点与音频文件对应的时间戳对齐，进行视频剪辑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于直播视频剪辑，尤其涉及一种基于大语言模型的直播智能剪辑方法。

技术介绍

1、随着社交网络和短视频平台的兴起，用户上传的视频数量呈现爆炸式增长。然而，这些视频数量庞大，需要大量的人力和时间进行剪辑和编辑，以满足用户的需求。在现有的剪辑软件的帮助下，人工剪辑仍然有不少弊端，如花费时间长，消耗精力大，视频剪辑门槛高等。

2、当前的ai智能视频剪辑方法主要基于动作捕捉，图像识别，需要针对不同的视频类型进行特定的设计，难以适应各种不同类型的视频，并且基于动作捕捉和图像识别的视频剪辑方法对视频的清晰度要求较高。同时，这些方法无法进行更加高级的语义理解和推理，难以满足用户对于视频剪辑的高质量需求。

3、大语言模型是一种基于深度学习技术的自然语言处理模型，其主要功能是对自然语言文本进行建模和生成。大语言模型通过学习大规模的语料库，提取出自然语言的语义和句法结构，从而能够生成具有一定语义和逻辑性的自然语言文本。在视频剪辑领域中，大语言模型可以通过对视频中的语音进行转换成文本的方式，对视频的文本内容进行主题理解，关键词提取，进而对视频文本的剪辑点进行自动标注，从而实现智能剪辑。大语言模型能够学习到视频语音中的语义和句法结构，从而能够识别和标注视频中的重要内容和剪辑点，降低剪辑门槛，提高剪辑效率和准确性。因此，大语言模型在视频剪辑领域中具有重要的应用价值。

技术实现思路

1、技术问题：针对视频剪辑领域现有技术存在的问题，本专利技术提出了一种基于大语言模型的直播智能剪

2、技术方案：为了解决上述技术问题，本专利技术提出一种基于大语言模型的直播智能剪辑方法，该方法包括以下步骤：

3、(1)设置需要剪辑的视频和对视频剪辑的额外需求；

4、(2)将视频信息先转换为语音，将语音转换为文本t；

5、(3)对文本t进行分词预处理，通过计算词语的共存度和在文本t中出现的总次数以统计词语的分数，选取分数最高的15个词语作为文本t的关键词；

6、(4)根据视频文本t和步骤(3)提取的关键词，以及对视频剪辑的额外需求，设计提示词以使用大语言模型对文本t进行剪辑点提取；

7、(5)将步骤(4)中得到的视频剪辑点与音频文件对应的时间戳对齐，进行视频剪辑。

8、进一步的，所述额外需求包括视频长度l，剪辑数量n。

9、进一步的，步骤(3)中，对文本t进行关键词提取方法如下：

10、(3.1)将文本t按照整句进行分割，即t＝[s1,s2,…,sn]，其中，si为文本中的第i句，n为语句的总数；

11、(3.2)对于每个整句si∈t，对其进行分词预处理和词性标注，剔除停用词，只保留指定词性的词语，即si＝[ti,1,ti,2,…,ti,m]，其中，ti,j为整句si中保留的词语，m为保留词语的总个数；

12、(3.3)对于保留的词语ti,j，将其按字分为qi,j,k，即ti,j＝[qi,j,1,qi,j,2,…,qi,j,m]；

13、(3.4)统计每个词语ti,j在文本t中出现的总次数fi,j；

14、(3.5)统计每个字qi,j,k在文本t中的共存度di,j,k，在文本t中，统计字qi,j,k的共存度，若文本t中两个字的间隔小于6且同时出现，则两个字的共存度同时加1；

15、(3.6)计算文本t中每个词语ti,j的分数ci,j，计算公式如下：

16、

17、其中，di,j,k为字qi,j,k的共存度，fi,j为词语ti,j在文本t中出现的总次数；

18、(3.7)对于文本t中的每个词语ti,j按照分数ci,j降序排列，选择分数最高的15个词语ti,j作为文本t的关键词。

19、进一步的，所述指定词性的词语包括名词，动词，形容词中的一种或多种。

20、进一步的，在步骤(3.2)中，分词预处理方法如下：

21、(a)选择sighan 2005数据集z作为训练数据集，该数据集z是经过分词的文本数据，其中，数据集z中的总字数为n；

22、(b)状态定义，将数据集z中的字定义为4种状态：开始字b，中间字m，结束字e，独立字s；

23、(c)数据计算，分别统计数据集z中开始字b，中间字m，结束字e，独立字s的数量nb，nm，ne，ns，计算初始状态概率向量统计数据集z中相邻两个字ti-1，ti的状态转移，计算状态转移矩阵其中，nxib指从状态为xi的字ti-1到状态为b的字ti的状态转移概率，nxim指从状态为xi的字ti-1到状态为m的字ti的状态转移概率，nxie指从状态为xi的字ti-1到状态为e的字ti的状态转移概率，nxjs指从状态为xi的字ti-1到状态为s的字ti的状态转移概率，统计语料库z中每个字ti的状态数目，计算n×4观测转移矩阵：

24、

25、其中，oxii指数据集z中第i个字的状态为xi的概率，其中，xi∈{b,m,e,s}；

26、(d)状态推导，对于文本t中的字ti推导出其对应的状态xi，定义文本t的观测序列为q，其中，q的第i列对应文本t的字oi，定义文本t中每个字ti对应状态为xi的概率矩阵其中，y为文本t中的总字数，vib为文本t中第i个字oi对应状态为b的概率，vim为文本t中第i个字oi对应状态为m的概率，vie为文本t中第i个字oi对应状态为e的概率，vis为文本t中第i个字oi对应状态为s的概率，根据状态转移矩阵st，观测转移矩阵sp，概率矩阵sr预测文本t的观测序列q对应的状态序列g，预测方法为计算概率矩阵sr从第一列向最后一列传播的最大似然状态序列，即概率最大的状态序列g，最优路径中的状态转移公式如下：

27、

28、其中，βi(xi)为最优序列中文本t第i个字oi的状态为xi的概率，βi-1(xj)为最优序列中文本t第i-1个字oi-1的状态为xj的概率，为状态转移矩阵st中从状态xj转换成状态xj的概率，指文本t中第i个字的状态为xi的概率，其中，xi,xj∈{b,m,e,s}；

29、在每一步状态转移中，同步将最优路径的状态记录在状态序列g中，记录公式如下：

30、

31、其中，gi为最优路径中第i个字的状态，βi(xi)为最优序列中文本t第i个字oi的状态为xi的概率，βi-1(xj)为最优序列中文本t第i-1个字oi-1的状态为xj的概率，为状本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的直播智能剪辑方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，所述额外需求包括视频长度L，剪辑数量N。

3.根据权利要求1或2所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，步骤(3)中，对文本T进行关键词提取方法如下：

4.根据权利要求3所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，所述指定词性的词语包括名词，动词，形容词中的一种或多种。

5.根据权利要求3或4所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，在步骤(3.2)中，分词预处理方法如下：

【技术特征摘要】

1.一种基于大语言模型的直播智能剪辑方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，所述额外需求包括视频长度l，剪辑数量n。

3.根据权利要求1或2所述的一种基于大语言模型的直播智能剪辑方法，其特征在于，步骤(3)中，...

【专利技术属性】
技术研发人员：张芷境，熊润群，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人