【技术实现步骤摘要】
视频数据的处理方法、装置、电子设备及存储介质
本专利技术涉及通信
,尤其涉及一种视频数据的处理方法、装置、电子设备及存储介质。
技术介绍
随着移动终端的普及和移动社交媒体的发展,短视频作为当下信息流的主要产品线,已成为用户获取信息、娱乐等重要方式之一。为了便于用户更好地了解短视频的内容,通常情况下短视频中包含有对视频内容进行介绍的描述性片段(即解说),然而在解说中可能存在与视频内容毫无相关的描述性子片段(即铺垫),而相关技术由于无法确定铺垫时长与视频时长的相对关系,进而也就无法有效识别短视频是否为铺垫过长,给用户带来不好的体验。
技术实现思路
本专利技术实施例提供一种视频数据的处理方法、装置、电子设备及存储介质,能够有效识别出短视频是否为铺垫过长。本专利技术实施例提供一种视频数据的处理方法,包括:获取目标视频的标题文本及内容文本;对所述内容文本进行语句通顺度检测,得到对应所述内容文本的语句通顺度;基于所述语句通顺度,确定所述目标视频中存在用于描述视频画面的描述性片段时,获取所述内容文本对应的多个分句文本;所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段;分别将各所述分句文本与所述标题文本进行相似度匹配,得到对应的多个相似度值;基于所述相似度值,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。本专利技术实施例提供一种视频数据的处理装置,包括:第一获取模块,用于获取目标视频的标题文本及内容文本; >检测模块,用于对所述内容文本进行语句通顺度检测,得到对应所述内容文本的语句通顺度;第二获取模块,用于基于所述语句通顺度,确定所述目标视频中存在用于描述视频画面的描述性片段时,获取所述内容文本对应的多个分句文本;所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段;匹配模块,用于分别将各所述分句文本与所述标题文本进行相似度匹配,得到对应的多个相似度值;确定模块,用于基于所述相似度值,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。上述方案中,所述检测模块,还用于对所述内容文本进行分句处理,得到对应的多个分句文本;分别将各所述分句文本输入语句通顺度检测模型,得到对应所述分句文本的第一语句通顺度评分;将对应各所述分句文本的第一语句通顺度评分进行加权处理,得到对应所述内容文本的第二语句通顺度评分,所述第二语句通顺度评分用于表征所述内容文本的语句通顺度。上述方案中,所述第二获取模块,还用于获取语句通顺度参考评分;获取所述第二语句通顺度评分与所述语句通顺度参考评分的比值;当所述比值大于比例阈值时,确定所述目标视频中存在用于描述视频画面的描述性片段。上述方案中,所述匹配模块,还用于对所述标题文本进行向量转换,得到对应的标题向量;分别对各所述分句文本进行向量转换,得到对应的文本向量;分别将各所述文本向量与所述标题向量进行相似度匹配,得到对应的相似度值。上述方案中,所述确定模块,还用于基于各所述分句文本在所述内容文本的顺序,对所述相似度值进行排序,得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列;基于所述第一序列及所述第二序列,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。上述方案中,所述确定模块,还用于从所述第一序列中提取最大相似度值作为第一相似度值,以及从所述第二序列中提取最大相似度值作为第二相似度值;将所述第一相似度值与所述第二相似度值进行比较,得到比较结果;基于所述比较结果,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。上述方案中,所述确定模块,还用于对所述第一数量的相似度值进行加权求平均,得到对应的第三相似度值,以及对所述第二数量的相似度值进行加权求平均,得到对应的第四相似度值;将所述第三相似度值与所述第四相似度值进行比较,得到比较结果;基于所述比较结果,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。上述方案中,所述确定模块,还用于基于各所述分句文本在所述内容文本的顺序,对所述相似度值进行排序,得到对应的相似度值序列;依次将所述相似度序列中的相似度值与相似度阈值进行比较,确定首个超过所述相似度阈值的相似度值在所述相似度值序列中的序列号;基于所述序列号及所述相似度值序列,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。上述方案中,所述装置还包括推荐模块,所述推荐模块,用于获取所述描述性片段中子片段的时长与所述目标视频的时长的比值;当所述比值未超过比例阈值时,将所述目标视频加入待推荐视频库中。本专利技术实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的视频数据的处理方法。本专利技术实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的视频数据的处理方法。本专利技术实施例具有以下有益效果:通过对目标视频的内容文本进行语句通顺度检测,确定了目标视频中是否存在用于描述视频画面的描述性片段,当存在描述性片段时,对内容文本进行分句处理,得到内容文本对应的多个分句文本,并通过分别将各分句文本与目标视频的标题文本进行相似度匹配,确定描述性片段中子片段的时长与目标视频的时长的相对关系,进而有效识别出目标视频是否为铺垫过长。附图说明图1为本专利技术实施例提供的视频数据的处理系统的一个可选的架构示意图;图2为本专利技术实施例提供的电子设备的一个可选的结构示意图;图3为本专利技术实施例提供的视频数据的处理方法的一个可选的流程示意图;图4为本专利技术实施例提供的获取文本的语义表示的流程示意图;图5为本专利技术实施例提供的目标视频的推荐系统示意图;图6为本专利技术实施例提供的视频数据的处理方法的一个可选的流程示意图;图7为本专利技术实施例提供的观看视频的流程示意图;图8为本专利技术实施例提供的视频数据的处理方法的一个可选的流程示意图;图9为本专利技术实施例提供的视频数据的处理装置的结构组成示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二\第三\第四”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三\第四”在允许的情况下本文档来自技高网...
【技术保护点】
1.一种视频数据的处理方法,其特征在于,所述方法包括:/n获取目标视频的标题文本及内容文本;/n对所述内容文本进行语句通顺度检测,得到对应所述内容文本的语句通顺度;/n基于所述语句通顺度,确定所述目标视频中存在用于描述视频画面的描述性片段时,获取所述内容文本对应的多个分句文本;所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段;/n分别将各所述分句文本与所述标题文本进行相似度匹配,得到对应的多个相似度值;/n基于所述相似度值,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。/n
【技术特征摘要】
1.一种视频数据的处理方法,其特征在于,所述方法包括:
获取目标视频的标题文本及内容文本;
对所述内容文本进行语句通顺度检测,得到对应所述内容文本的语句通顺度;
基于所述语句通顺度,确定所述目标视频中存在用于描述视频画面的描述性片段时,获取所述内容文本对应的多个分句文本;所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段;
分别将各所述分句文本与所述标题文本进行相似度匹配,得到对应的多个相似度值;
基于所述相似度值,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。
2.如权利要求1所述的方法,其特征在于,所述对所述内容文本进行语句通顺度检测,得到对应所述内容文本的语句通顺度,包括:
对所述内容文本进行分句处理,得到对应的多个分句文本;
分别将各所述分句文本输入语句通顺度检测模型,得到对应所述分句文本的第一语句通顺度评分;
将对应各所述分句文本的第一语句通顺度评分进行加权处理,得到对应所述内容文本的第二语句通顺度评分,所述第二语句通顺度评分用于表征所述内容文本的语句通顺度。
3.如权利要求2所述的方法,其特征在于,所述基于所述语句通顺度,确定所述目标视频中存在用于描述视频画面的描述性片段,包括:
获取语句通顺度参考评分;
获取所述第二语句通顺度评分与所述语句通顺度参考评分的比值;
当所述比值大于比例阈值时,确定所述目标视频中存在用于描述视频画面的描述性片段。
4.如权利要求1所述的方法,其特征在于,所述分别将各所述分句文本与所述标题文本进行相似度匹配,得到对应的多个相似度值,包括:
对所述标题文本进行向量转换,得到对应的标题向量;
分别对各所述分句文本进行向量转换,得到对应的文本向量;
分别将各所述文本向量与所述标题向量进行相似度匹配,得到对应的相似度值。
5.如权利要求1所述的方法,其特征在于,所述基于所述相似度值,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系,包括:
基于各所述分句文本在所述内容文本的顺序,对所述相似度值进行排序,得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列;
基于所述第一序列及所述第二序列,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。
6.如权利要求5所述的方法,其特征在于,所述基于所述第一序列及所述第二序列,确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系,包括:
从所述第一序列中提取最大相似度值作为第一相似度值,以及从所述第二序列中提取最大相似度值...
【专利技术属性】
技术研发人员:李超,马连洋,衡阵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。