多媒体资源的信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26531085 阅读:57 留言:0更新日期:2020-12-01 14:11
本公开是关于一种多媒体资源的信息提取方法、装置、电子设备及存储介质,涉及互联网技术领域,用以解决相关技术中难以对带有文本描述的多媒体资源进行关键信息提取的问题。本公开方法包括:通过对待处理的多媒体资源的资源特征信息进行特征分析,获取待处理的多媒体资源的类别;将对待处理的多媒体资源的描述信息进行分词处理得到的子描述信息,与预先配置的类别对应的标签集合中的标签进行匹配;根据待处理的多媒体资源的描述信息与标签集合的匹配结果,选取至少一个子描述信息作为待处理的多媒体资源的关键信息。本公开对多媒体资源进行分类后,将多媒体资源的描述信息与相应类别对应的标签集合进行匹配,提高了细粒度关键信息提取的准确性。

【技术实现步骤摘要】
多媒体资源的信息提取方法、装置、电子设备及存储介质
本公开涉及互联网
,尤其涉及一种多媒体资源的信息提取方法、装置、电子设备及存储介质。
技术介绍
随着多媒体技术的迅速发展以及智能终端的普及,承载更多信息量的多媒体资源得以快速传播,成为人们获取信息的重要渠道之一。以短视频这一类多媒体资源为例,短视频内容理解对于短视频推荐、搜索、运营有着重要的作用,短视频内容理解一般指的是将短视频内容转化成embedding(嵌入)特征,或者文本标签的形式。在相关技术中,基于文本分析的提取标签或者关键字的技术一般采用TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文本频率指数),TextRank等方法,然而这些方法对于长文本的效果较好,但对于短视频描述信息来说效果不好,短视频的描述信息一般简短、精炼,很难基于统计的分析出视频的标签等关键信息。
技术实现思路
本公开提供一种多媒体资源的信息提取方法、装置、电子设备及存储介质,以至少解决相关技术中难以对带有文本描述的多媒体资源进行关本文档来自技高网...

【技术保护点】
1.一种多媒体资源的信息提取方法,其特征在于,包括:/n通过对待处理的多媒体资源的资源特征信息进行特征分析,获取所述待处理的多媒体资源所属的类别;/n将对所述待处理的多媒体资源的描述信息进行分词处理得到的各个子描述信息,与预先配置的所述类别对应的标签集合中的各个标签进行匹配;/n根据所述待处理的多媒体资源的描述信息与所述标签集合之间的匹配结果,从所述各个子描述信息中选取至少一个子描述信息,作为所述待处理的多媒体资源的关键信息。/n

【技术特征摘要】
1.一种多媒体资源的信息提取方法,其特征在于,包括:
通过对待处理的多媒体资源的资源特征信息进行特征分析,获取所述待处理的多媒体资源所属的类别;
将对所述待处理的多媒体资源的描述信息进行分词处理得到的各个子描述信息,与预先配置的所述类别对应的标签集合中的各个标签进行匹配;
根据所述待处理的多媒体资源的描述信息与所述标签集合之间的匹配结果,从所述各个子描述信息中选取至少一个子描述信息,作为所述待处理的多媒体资源的关键信息。


2.如权利要求1所述的方法,其特征在于,所述类别对应的标签集合是根据下列方式获得的:
将与所述待处理的多媒体资源属于同一类别的各个样本多媒体资源的描述信息进行分词处理,得到各个标签;
根据所述各个标签的词频,从所述各个标签中选取至少一个标签作为候选标签;
对各个候选标签进行去重处理后,将剩余的候选标签所组成的集合作为所述类别对应的标签集合。


3.如权利要求1所述的方法,其特征在于,将对所述待处理的多媒体资源的描述信息进行分词处理得到的各个子描述信息,与预先配置的所述类别对应的标签集合中的各个标签进行匹配,具体包括:
获取将所述待处理的多媒体资源的描述信息进行分词处理后得到的各个子描述信息的信息向量,以及所述标签集合中各个标签的信息向量;
根据所述各个子描述信息的信息向量以及各个标签的信息向量,将所述各个子描述信息分别与各个标签进行匹配。


4.如权利要求1所述的方法,其特征在于,所述根据所述待处理的多媒体资源的描述信息与所述标签集合之间的匹配结果,从所述各个子描述信息中选取至少一个子描述信息,作为所述待处理的多媒体资源的关键信息,具体包括:
针对任意一个子描述信息,根据所述子描述信息与所述标签集合中各个标签之间的匹配结果,确定所述子描述信息对应的匹配参数;
基于预设阈值与所述各个子描述信息的匹配参数之间的比较结果,从所述各个子描述信息中选取至少一个子描述信息,作为所述待处理的多媒体资源的关键信息,其中所述关键信息包括目标标签与用于构建标题的标题描述信息中的至少一种。


5.如权利要求4所述的方法,其特征在于,所述将基于所述子描述信息与所述标签集合中的各个标签之间的匹配结果,确定所述子描述信息对应的匹配参数,具体包括:
将所述子描述信息的信息向量与所述标签集合中的各...

【专利技术属性】
技术研发人员:杨帆
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1