用于生成信息的方法和装置制造方法及图纸

技术编号:25224107 阅读:11 留言:0更新日期:2020-08-11 23:13
本申请公开了用于生成信息的方法和装置,涉及知识图谱领域。具体实现方案为:从目标视频中获取多个标签实体词,其中,标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,视频核心实体词包括用于表征目标视频相关内容的实体词;针对多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上;基于各标签实体词的链接结果,确定目标视频的语义信息;按照知识图谱中节点和边的关系,对目标视频的语义信息进行结构化,得到目标视频结构化的语义信息。该实现方式采用知识图谱生成视频结构化的语义信息,在保留视频语义信息的同时,语义信息的结构化可以提高视频在推荐、搜索等中的效率和准确率。

【技术实现步骤摘要】
用于生成信息的方法和装置
本公开的实施例涉及计算机
,具体涉及知识图谱

技术介绍
随着互联网上视频资源增多,有越来越多视频相关的产品,例如视频推荐以及视频搜索等等。相关技术中,视频搜索或者视频推荐通常采用视频标签技术,给视频资源设置对应的标签。然后,基于标签对视频进行推荐,或者基于标签建立索引,实现视频的推荐或搜索。通常情况下,视频的标签是扁平的无结构化的,并且视频的标签也不包含视频的语义信息,并不适用于视频推荐、搜索等。
技术实现思路
提供了一种用于生成信息的方法、装置、设备以及存储介质。根据第一方面,提供了一种用于生成信息的方法,该方法包括:从目标视频中获取多个标签实体词,其中,标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,视频核心实体词包括用于表征目标视频相关内容的实体词;针对多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上;基于各标签实体词的链接结果,确定目标视频的语义信息;按照知识图谱中节点和边的关系,对目标视频的语义信息进行结构化,得到目标视频结构化的语义信息。根据第二方面,提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成从目标视频中获取多个标签实体词,其中,标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,视频核心实体词包括用于表征目标视频相关内容的实体词;链接单元,被配置成针对多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上;确定单元,被配置成基于各标签实体词的链接结果,确定目标视频的语义信息;结构化单元,被配置成按照知识图谱中节点和边的关系,对目标视频的语义信息进行结构化,得到目标视频结构化的语义信息。第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述方法。根据本申请的技术解决了因视频的标签无结构化、缺乏语义信息导致的视频标签不适用于视频推荐、搜索等的问题,提高了视频在推荐、搜索等的效率和准确率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请的用于生成信息的方法的第一实施例的示意图;图2是根据本实施例的用于生成信息的方法中的从目标视频中获取多个标签实体词的一种实现方式;图3是根据本申请的用于生成信息的方法的第二实施例的示意图;图4是根据本申请的用于生成信息的装置的实施例的示意图;图5是用来实现本申请实施例的用于生成信息的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。请参考图1,其示出了根据本申请的用于生成信息的方法的第一实施例的示意图。该用于生成信息的方法,可以包括以下步骤:步骤101,从目标视频中获取多个标签实体词。在本实施例中,用于生成信息的方法的执行主体可以为用于生成信息的装置,该用于生成信息的装置可以为一个电子实体(例如服务器),或者也可以为采用软件集成的应用。使用时,可以将目标视频输入该用于生成信息的装置中。该用于生成信息的装置可以采用本实施例的用于生成信息的方法,生成目标视频结构化的语义信息。在本实施例中,上述执行主体可以采用各种方式从目标视频中获取标签实体词。其中,标签实体词可以从认知和感知两层面来体现目标视频。作为示例,上述执行主体可以将目标视频输入预先训练的实体词获取模型来得到该目标视频的标签实体词,实体词获取模型可以用于表征目标视频与标签实体词的对应关系。当然,上述执行主体还可以通过其他方式获取目标视频的标签实体词。具体地,上述标签实体词至少可以包括人物实体词、作品实体词、视频类别实体词和视频核心实体词。上述人物实体词可以用于指示该目标视频中出现的人物(例如,刘德华)。上述作品实体词可以用于指示该目标视频所属的作品的名称或该目标视频的作品名称(例如,无间道)。视频类别实体词可以用于表征目标视频的类别,这里类别可以包括影视、港台电影、内陆综艺、国产动漫等。视频核心实体词可以包括用于表征与目标视频相关内容的实体词,例如,视频核心实体词可以包括目标视频中出现音乐的音乐名称、该音乐的演唱者、动漫角色等。步骤102,针对多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上。在本实施例中,预先设置的知识图谱(knowledgegraph,KG)可以为现有技术中已知的知识图谱。该知识图谱可以包括多个节点(Point),且其中某些节点之间还存在连接的边(Edge)。基于步骤101获取的多个标签实体词,针对多个标签实体词中的任一标签实体词,上述执行主体可以将该标签实体词链接到上述知识图谱中的节点上,如此,上述多个标签实体词中的每个实体词均可以连接到知识图谱的节点上。可以理解的是,将标签实体词链接到知识图谱的节点可以指将标签实体词的字符串映射到知识图谱中对应的节点上。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示具有可区别性且独立存在的某种事物,每条边表示节点与节点之间的关系。节点中事物可以为某一个人、某一个城市、某一种植物、某一种商品等。知识图谱是关系的一种有效的表示方式,旨在描述真实世界中存在的各种事物及其关系。因此,将标签实体词链接到知识图谱的节点可以通过节点和边的关系获取标签实体词的语义信息。在本实施例的一些可选的实现方式中,在将标签实体词链接到预先设置的知识图谱中的节点上之后,上述执行主体可以利用知识图谱对各标签实体词进行校验,从而判断多个标签实体词中是否存在与目标视频无关的标签实体词。具体地,上述执行主体可以基于各标签实体词在知识图谱的链接结果判断各实体标签词中是否存在无关实体词。这里的无关实体词可以为多个标签实体词中与目标视频不相关的实体词。例如,目标视频为电影“无间道”片段,上述执行主体获取的各标签实体词中包括人物实体词“张学友”,该人物实体词链接到知识图谱的“张学友”节点后,根据该节点和边的关系可以判断出“张学友”与目标视频无关,此时可以确定该人物实本文档来自技高网...

【技术保护点】
1.一种用于生成信息的方法,包括:/n从目标视频中获取多个标签实体词,其中,所述标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,所述视频核心实体词包括用于表征所述目标视频相关内容的实体词;/n针对所述多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上;/n基于各所述标签实体词的链接结果,确定所述目标视频的语义信息;/n按照所述知识图谱中节点和边的关系,对所述目标视频的语义信息进行结构化,得到所述目标视频结构化的语义信息。/n

【技术特征摘要】
1.一种用于生成信息的方法,包括:
从目标视频中获取多个标签实体词,其中,所述标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,所述视频核心实体词包括用于表征所述目标视频相关内容的实体词;
针对所述多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上;
基于各所述标签实体词的链接结果,确定所述目标视频的语义信息;
按照所述知识图谱中节点和边的关系,对所述目标视频的语义信息进行结构化,得到所述目标视频结构化的语义信息。


2.根据权利要求1所述的方法,其中,在得到所述目标视频结构化的语义信息之后,所述方法还包括:
基于所述目标视频结构化的语义信息,生成所述目标视频的结构化子图;
将所述结构化子图输入预先训练的向量化模型,得到所述目标视频结构化的语义信息的向量,其中,所述向量化模型用于表征结构化子图与结构化的语义信息的向量之间的对应关系。


3.根据权利要求2所述的方法,其中,所述向量化模型通过图神经网络或图嵌入算法训练得到。


4.根据权利要求1所述的方法,其中,所述从目标视频中获取多个标签实体词,包括:
对所述目标视频进行人脸识别,获取所述目标视频的人物实体词;
对所述目标视频进行视频指纹识别,获取所述目标视频的作品实体词;
基于所述目标视频的图像内容、音频内容和文本内容的识别结果,获取所述目标视频的视频类别实体词和视频核心实体词。


5.根据权利要求1所述的方法,其中,在针对所述多个标签实体词中的标签实体词,将该标签实体词链接到预先设置的知识图谱中的节点上之后,所述方法还包括:
基于各所述标签实体词的链接结果,判断各所述标签实体词中是否存在无关实体词,其中,所述无关实体词为所述多个标签实体词中与所述目标视频不相关的实体词;
响应于确定出所述标签实体词为无关实体词,删除所述无关实体词。


6.根据权利要求1-5之一所述的方法,其中,所述基于各所述标签实体词的链接结果,确定所述目标视频的语义信息,包括:
基于各所述标签实体词的链接结果,获取该各述标签实体词的属性信息;
基于各所述标签实体词的链接结果,按照所述知识图谱中边的关系对所述标签实体词进行扩展,得到所述目标视频的扩展信息;
将各所述标签实体词的属性信息和所述扩展信息确定为所述目标视频的语义信息。


7.一种用于生成信息的装置,包括:
获取单元,被配置成从目标视频中获取多个标签实体词,其中,所述标签实体词包括人物实体词、作品实体词、视频类别实体词和视频核心实体词,所述视频核心实体词包...

【专利技术属性】
技术研发人员:王述任可欣张晓寒冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1