确定视频标签的方法、装置、存储介质和终端设备制造方法及图纸

技术编号:19480361 阅读:19 留言:0更新日期:2018-11-17 10:34
本发明专利技术提出一种确定视频标签的方法、装置、存储介质和终端设备,其中,所述方法包括:根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本;从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签;对各所述候选标签进行排序;以及根据排序结果,从所述各候选标签中选择出与所述待处理视频相符合的标签。采用本发明专利技术,提高视频标签描述的准确程度。

【技术实现步骤摘要】
确定视频标签的方法、装置、存储介质和终端设备
本专利技术涉及计算机
,尤其涉及一种确定视频标签的方法、装置、存储介质和终端设备。
技术介绍
随着互联网资讯的发展,基于用户的兴趣点,为用户进行个性化的资讯推荐是资讯消费的新潮流。其中,视频的推荐为个性化推荐的一个重要组成部分。为了实现视频的个性化推荐,需要事先理解视频的内容,实现视频的标签化。标签化是定义视频的标签的过程,视频的标签可以描述视频内容的关注点。目前,定义视频标签的方案包括:1、根据视频的标题文本进行提炼分析,从中提取关键词作为视频的标签。2、通过人工观看视频,人为理解视频的内容,然后给视频打上相应的标签。但是,上述方案存在以下不足之处:1、对于方案1来说,视频的标题通常较短,且标题的描述相对口语化,从标题中提取到的关键词较少,没有基于视频内容的理解和校验,所定义的标签难以准确地描述视频内容。2、对于方案2来说,人为理解视频内容虽然可以提升定义标签的准确性,但是效率低、成本高。
技术实现思路
本专利技术实施例提供一种确定视频标签的方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。第一方面,本专利技术实施例提供了一种确定视频标签的方法,包括:根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本;从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签;对各所述候选标签进行排序;以及根据排序结果,从所述各候选标签中选择出与所述待处理视频相符合的标签。结合第一方面,在第一方面的第一种实施方式中,根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本,包括:如果所述待处理视频属于目标领域,则采用图像识别技术,从所述待处理视频中获取字幕文本;以及如果所述待处理视频不属于目标领域,则获取所述待处理视频的标题。结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签,包括:如果所述关联文本为所述字幕文本,则对所述字幕文本进行结构分析、语义分析和主题分类,获得所述待处理视频的候选标签。结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,对所述字幕文本进行结构分析,包括:根据所述字幕文本的文本结构,确定构成所述字幕文本的关键词;统计各关键词出现在所述字幕文本中的频次;以及根据所述各关键词的频次,从所述各关键词中选择关键词作为所述视频的候选标签。结合第一方面的第二种实施方式,在第一方面的第四种实施方式中,对所述字幕文本进行语义分析,包括:根据语义分析模型,计算预设的标签与所述字幕文本之间的语义相似度;以及根据预设的标签与所述字幕文本之间的语义相似度,从预设的标签中选取标签作为所述视频的候选标签。结合第一方面的第二种实施方式,在第一方面的第五种实施方式中,对所述字幕文本进行主题分类,包括:根据所述视频的候选标签与预设的主题标签之间的相似度,从所述预设的主题标签中获取标签,并作为所述视频的候选标签。结合第一方面,在第一方面的第六种实施方式中,对各所述候选标签进行排序,包括:根据各所述候选标签出现在所述关联文本的频次,为所述候选标签设置权重值;当所述候选标签出现在所述关联文本的频次为零时,根据所述候选标签与所述关联文本的语义相似度,调整所述候选标签的权重值;以及根据各所述候选标签的权重值,对各所述候选标签进行排序。结合第一方面及其任一种实施方式,在第一方面的第七种实施方式中,所述方法还包括:对所述关联文本进行预处理;其中,所述预处理包括:分段、分句、分词、词性标识和命名实体识别中的至少一者;以及对所述候选标签进行后处理;其中,所述后处理包括:去重、格式统一、消除歧义、标签时效性处理中的至少一者。结合第一方面,在第一方面的第八种实施方式中,从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签,还包括:如果所述关联文本为所述标题,则对所述标题进行分词,获得各候选词语;计算所述各候选词语的权重值;根据外部较验信息和所述各候选词语的权重值,对所述各候选词语进行排序,获得所述待处理视频的标签;其中,所述外部较验信息包括所述各候选词语在外部系统的搜索热度。第二方面,本专利技术实施例提供一种确定视频标签的装置,包括:关联文本抽取模块,用于根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本;候选标签抽取模块,用于从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签;候选标签排序模块,用于对各所述候选标签进行排序;以及标签选择模块,用于根据排序结果,从所述各候选标签中选择出与所述待处理视频相符合的标签。结合第二方面,在第二方面的第一种实施方式中,所述标签选择模块,包括:字幕文本获取单元,用于如果所述待处理视频属于目标领域,则采用图像识别技术,从所述待处理视频中获取字幕文本;以及视频标题获取单元,用于如果所述待处理视频不属于目标领域,则获取所述待处理视频的标题。结合第二方面的第一种实施方式,在第二方面的第二种实施方式中,所述候选标签抽取模块包括:字幕文本分析单元,用于如果所述关联文本为所述字幕文本,则对所述字幕文本进行结构分析、语义分析和主题分类,获得所述待处理视频的候选标签。结合第二方面的第一种实施方式,在第二方面的第三种实施方式中所述候选标签抽取模块还包括:标题分词单元,用于如果所述关联文本为所述标题,则对所述标题进行分词,获得各候选词语;权重计算单元,用于计算所述各候选词语的权重值;词语排序单元,用于根据外部较验信息和所述各候选词语的权重值,对所述各候选词语进行排序,获得所述待处理视频的标签;其中,所述外部较验信息包括所述各候选词语在外部系统的搜索热度。所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,确定视频标签的结构中包括处理器和存储器,所述存储器用于确定视频标签的装置执行上述第一方面中确定视频标签的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述确定视频标签的装置还可以包括通信接口,用于确定视频标签的装置与其他设备或通信网络通信。第三方面,本专利技术实施例还提供一种计算机可读存储介质,用于存储确定视频标签的装置所用的计算机软件指令,其中包括用于执行上述第一方面的确定视频标签的方法所涉及的程序。上述技术方案中的任一个技术方案具有如下优点或有益效果:本专利技术实施例可以根据视频所属的领域,来获取视频的关联文本。以及,从关联文本中抽取标签并排序,以选择与视频相符合的标签。相比仅以视频标题来获取标签的方式,本专利技术实施例可以根据视频领域来获得更全面的视频信息,从中抽取的标签的描述准确性更高。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式本文档来自技高网...

【技术保护点】
1.一种确定视频标签的方法,其特征在于,包括:根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本;从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签;对各所述候选标签进行排序;以及根据排序结果,从所述各候选标签中选择出与所述待处理视频相符合的标签。

【技术特征摘要】
1.一种确定视频标签的方法,其特征在于,包括:根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本;从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签;对各所述候选标签进行排序;以及根据排序结果,从所述各候选标签中选择出与所述待处理视频相符合的标签。2.如权利要求1所述的确定视频标签的方法,其特征在于,根据待处理视频所属的领域,确定对所述待处理视频的关联文本的获取方式,以抽取所述待处理视频的关联文本,包括:如果所述待处理视频属于目标领域,则采用图像识别技术,从所述待处理视频中获取字幕文本;以及如果所述待处理视频不属于目标领域,则获取所述待处理视频的标题。3.如权利要求2所述的确定视频标签的方法,其特征在于,从所述待处理视频的关联文本中抽取所述待处理视频的各候选标签,包括:如果所述关联文本为所述字幕文本,则对所述字幕文本进行结构分析、语义分析和主题分类,获得所述待处理视频的候选标签。4.如权利要求3所述的确定视频标签的方法,其特征在于,对所述字幕文本进行结构分析,包括:根据所述字幕文本的文本结构,确定构成所述字幕文本的关键词;统计各关键词出现在所述字幕文本中的频次;以及根据所述各关键词的频次,从所述各关键词中选择关键词作为所述视频的候选标签。5.如权利要求3所述的确定视频标签的方法,其特征在于,对所述字幕文本进行语义分析,包括:根据语义分析模型,计算预设的标签与所述字幕文本之间的语义相似度;以及根据预设的标签与所述字幕文本之间的语义相似度,从预设的标签中选取标签作为所述视频的候选标签。6.如权利要求3所述的确定视频标签的方法,其特征在于,对所述字幕文本进行主题分类,包括:根据所述视频的候选标签与预设的主题标签之间的相似度,从所述预设的主题标签中获取标签,并作为所述视频的候选标签。7.如权利要求1所述的确定视频标签的方法,其特征在于,对各所述候选标签进行排序,包括:根据各所述候选标签出现在所述关联文本的频次,为所述候选标签设置权重值;当所述候选标签出现在所述关联文本的频次为零时,根据所述候选标签与所述关联文本的语义相似度,调整所述候选标签的权重值;以及根据各所述候选标签的权重值,对各所述候选标签进行排序。8.如权利要求1至7任一项所述的确定视频标签的方法,其特征在于,所述方法还包括:对所述关联文本进行预处理;其中,所述预处理包括:分段、分句、分词、词性标识和命名实体识别中的至少一者;以及对所述候选标签进行后处理;其...

【专利技术属性】
技术研发人员:刘呈祥何伯磊吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1