基于视频字幕的知识图谱构建方法、装置及计算设备制造方法及图纸

技术编号:31078323 阅读:12 留言:0更新日期:2021-12-01 11:32
本发明专利技术实施例涉及视频处理技术领域,公开了一种基于视频字幕的知识图谱构建方法、装置及计算设备,该方法包括:获取用户上传的视频实体,并根据所述视频提取的视频字幕;根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。通过上述方式,本发明专利技术实施例能够精确定位视频类别和主题,提供准确的视频分类数据,提供准确的视频关联数据,提供视频推荐能力。频推荐能力。频推荐能力。

【技术实现步骤摘要】
基于视频字幕的知识图谱构建方法、装置及计算设备


[0001]本专利技术实施例涉及视频处理
,具体涉及一种基于视频字幕的知识图谱构建方法、装置及计算设备。

技术介绍

[0002]现有的视频推荐、舆情分析等服务常用的视频关系方法有三种:1)根据视频提交者所提供的关键词,视频标题等信息进行分类,当用户浏览、搜索、观看或者收藏过类似关键词、视频标题的视频后,会对某户的偏好权重进行调整,进而更新用户偏好模型,或者根据实时热点,或者实时上升热点视频等信息更新舆情模型。当对用户进行视频推荐时,采用用户偏好模型和舆情模型,推算出用户当前最感兴趣的分类/关键词,按照热度、播放量、是否曾经观看等因素或者用户自定义排序进行展示。当对舆情进行监控时,则需要对最近播放量/播放视频的分类和标题,偏好用户特征进行统计,输入相应模型进行分析。2)根据视频评论及热度进行分析,根据一定的NLP(自然语言处理)算法提取评论中的关键词进行后续步骤。3)采用视频标题、分类以及视频评论一起进行判断,是前面两种方法的集成。
[0003]对于使用视频关键词、视频标题进行分类和视频推荐的方法,由于视频标题、关键词等内容由用户自定义,受人为主观因素影响,会出现脏数据,导致结果不能真实反映视频内容;当出现恶意视频时,上传者只需要通过规避恶意关键词,选择其他分类或者采用无恶意标题等方法,就可以“安全”上传。对于使用视频评论进行分类和推荐的方法,评论由视频的观看人员主动评论,内容由发布者自行决定,其核心观点及内容与视频本身有区别,或者由人为引导有所偏差。由于上述数据问题导致后续结果有偏差或者有错误,在实际使用的情况下将会引起不可预见的结果,例如将不合适内容推送给儿童、关联视频不能引起用户兴趣导致用户流失、对舆论热点把握错误引起社会问题等。
[0004]另外现有技术中,所有的运算过程在服务器端进行,当大体量、高并发用户行为产生时,给后台带来大量运行压力,需要考验后台服务器运算能力,将会加大使用者开销,有极大的可能性影响用户感知。

技术实现思路

[0005]鉴于上述问题,本专利技术实施例提供了一种基于视频字幕的知识图谱构建方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
[0006]根据本专利技术实施例的一个方面,提供了一种基于视频字幕的知识图谱构建方法,所述方法包括:获取用户上传的视频实体,并根据所述视频提取的视频字幕;根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。
[0007]在一种可选的方式中,所述根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组,包括:将所述视频实体标识、所述视频实体名称以及所述视频
字幕组成分布式数据集,并对所述分布式数据集进行预处理;对所述分布式数据集进行分词操作,获取分词后的词语数据;将获取的所述词语数据进行二次干扰处理;从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组。
[0008]在一种可选的方式中,所述从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组,包括:采用第一算法从所述词语数据中提取第一关键词数据;采用第二算法从所述词语数据中提取第二关键词数据;合并所述第一关键词数据和所述第二关键词数据,构成所述关键词组。
[0009]根据本专利技术实施例的另一个方面,提供了一种基于视频字幕的知识图谱构建方法,所述方法包括:接收用户端上传的第一视频实体的数据集,其中所述数据集包括第一视频实体标识、第一视频实体名称以及根据所述第一视频实体提取的第一关键词组;计算所述第一关键词组与原始知识图谱中的第二视频实体对应的第二关键词组的相似度;根据所述相似度确定所述第一视频实体与所述第二视频实体的实体关系,构建新的知识图谱;为所述新的知识图谱提供对外服务接口以方便进行视频推荐服务。
[0010]在一种可选的方式中,所述计算所述第一关键词组与原始知识图谱中的第二视频实体对应的第二关键词组的相似度,包括:计算所述第一关键词组中的任一个关键词与所述第二关键词组中的任一个关键词的语义相似度P
i
;根据所述语义相似度P
i
应用以下关系式计算所述第一关键词组与所述第二关键词组的相似度P:
[0011]其中,i为正整数,n为所述第一关键词组中关键词的个数,m为所述第二关键词组中关键词的个数。
[0012]在一种可选的方式中,所述根据所述相似度确定所述第一视频实体与所述第二视频实体的实体关系,构建新的知识图谱,包括:如果所述第一关键词组与所述第二关键词组的相似度大于等于第一阈值,则确定所述第一视频实体与所述第二视频实体的实体关系为强关联;如果所述第一关键词组与所述第二关键词组的相似度小于所述第一阈值,且大于等于第二阈值,则确定所述第一视频实体与所述第二视频实体的实体关系为弱关联;如果所述第一关键词组与所述第二关键词组的相似度小于所述第二阈值,则确定所述第一视频实体与所述第二视频实体的实体关系为无关联;在所述原始知识图谱中增加新的节点,建立所述第一视频实体与所述第二视频实体的双向关系。
[0013]根据本专利技术实施例的另一个方面,提供了一种基于视频字幕的知识图谱构建装置,所述装置包括:字幕提取单元,用于获取用户上传的视频实体,并根据所述视频提取的视频字幕;关键词获取单元,用于根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;发送单元,用于将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。
[0014]根据本专利技术实施例的另一个方面,提供了一种基于视频字幕的知识图谱构建装置,所述装置包括:接收单元,用于接收用户端上传的第一视频实体的数据集,其中所述数据集包括第一视频实体标识、第一视频实体名称以及根据所述第一视频实体提取的第一关键词组;计算单元,用于计算所述第一关键词组与原始知识图谱中的第二视频实体对应的第二关键词组的相似度;图谱构建单元,用于根据所述相似度确定所述第一视频实体与所
述第二视频实体的实体关系,构建知识图谱;接口服务单元,用于为所述知识图谱提供对外服务接口以方便进行视频推荐服务。
[0015]根据本专利技术实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0016]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于视频字幕的知识图谱构建方法的步骤。
[0017]根据本专利技术实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述基于视频字幕的知识图谱构建方法的步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频字幕的知识图谱构建方法,其特征在于,所述方法包括:获取用户上传的视频实体,并根据所述视频提取的视频字幕;根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。2.根据权利要求1所述的方法,其特征在于,所述根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组,包括:将所述视频实体标识、所述视频实体名称以及所述视频字幕组成分布式数据集,并对所述分布式数据集进行预处理;对所述分布式数据集进行分词操作,获取分词后的词语数据;将获取的所述词语数据进行二次干扰处理;从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组。3.根据权利要求2所述的方法,其特征在于,所述从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组,包括:采用第一算法从所述词语数据中提取第一关键词数据;采用第二算法从所述词语数据中提取第二关键词数据;合并所述第一关键词数据和所述第二关键词数据,构成所述关键词组。4.一种基于视频字幕的知识图谱构建方法,其特征在于,所述方法包括:接收用户端上传的第一视频实体的数据集,其中所述数据集包括第一视频实体标识、第一视频实体名称以及根据所述第一视频实体提取的第一关键词组;计算所述第一关键词组与原始知识图谱中的第二视频实体对应的第二关键词组的相似度;根据所述相似度确定所述第一视频实体与所述第二视频实体的实体关系,构建新的知识图谱;为所述新的知识图谱提供对外服务接口以方便进行视频推荐服务。5.根据权利要求4所述的方法,其特征在于,所述计算所述第一关键词组与原始知识图谱中的第二视频实体对应的第二关键词组的相似度,包括:计算所述第一关键词组中的任一个关键词与所述第二关键词组中的任一个关键词的语义相似度P
i
;根据所述语义相似度P
i
应用以下关系式计算所述第一关键词组与所述第二关键词组的相似度P:其中,i为正整数,n为所述第一关键词组中关键词的个数,m为所述第二关键词组中关键词的个数。6.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:李薇曹旭周波王锋周丽莎
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1