视频资源聚类方法和装置制造方法及图纸

技术编号:2915477 阅读:255 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种视频资源聚类方法和装置。该方法包括:建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词;建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息,并且根据视频关键词库提取视频资源标题的关键词;判断若所述视频资源库中的视频资源的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。

【技术实现步骤摘要】

本专利技术涉及计算机网络技术,特别地涉及一种视频资源聚类方法和装置
技术介绍
随着互联网技术的不断发展,互联网上有大量的视频资源可供用户下载,同时也出现了一些资源聚合网站和资源搜索网站。资源聚合网站或资源搜索网站的主要功能是将互联网中大量的零散无序的视频资源整合到一起,便于查找。资源聚合网站主要通过人工查看的方式将搜集的视频文件进行分类和显示。例如,目前常见的bt类资源网站,电骡资源网站等,它们均采用人工查看的方式将视频资源按照一定规则分类,并按一定顺序展现给用户,以便用户浏览或下载。由于视频资源网站数量众多,同时资源聚合网站或资源搜索网站也相应获得了大量的视频资源,采用人工查看的方式将如此大量的视频资源进行聚类,将消耗大量时间及人力。
技术实现思路
本专利技术实施例的主要目的是提供一种视频资源聚类方法,用以解决以人工查看方式进行视频资源聚类工作效率较低的问题。为解决上述问题,本专利技术实施例提供如下的技术方案:一种视频资源聚类方法,包括如下步骤:建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词;建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息,并-->且根据视频关键词库提取视频资源标题的关键词;判断若所述视频资源库中的视频资源的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。一种视频资源聚类装置,包括:词库建立模块、视频资源库模块、一级聚类模块,其中:所述词库建立模块,用于建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词;所述视频资源库模块,用于建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息;所述一级聚类模块,用于判断若所述视频资源库中的视频资源的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。本专利技术实施例中提供的技术方案,其通过判断视频资源的相关信息中是否包含有特定视频关键词,从而将视频资源聚类于按照该特定视频关键词分类的类别,其可准确的将视频资源进行聚类。附图说明图1为本专利技术实施例的视频资源聚类方法流程图;图2为本专利技术实施例的视频资源聚类装置结构示意图;图3为本专利技术第一实施例的完整化模块结构示意图;图4为本专利技术第二实施例的完整化模块结构示意图。具体实施方式在本专利技术实施例中,视频资源的相关信息保存在视频资源库中,并且保存提取的视频关键词,再通过查找视频信息中包含的视频关键词,将视频资源按照该视频关键词进行聚类。如图1所示,具体步骤如下:-->步骤11:建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词。在本步骤中需要建立视频关键词词库,在本专利技术实施例中,每个视频关键词可以是电影影片名,也可以是电视剧名,将各种影片的影片名、各种电视剧的剧名录入视频关键词词库。该关键词词库通常由人工录入。或Spider从视频网站抓取,人工辅助编辑。步骤12:建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息。建立视频资源库的过程就是从互联网获取视频资源的相关信息并保存的过程。通常视频资源的相关信息由资源抓取程序(例如网络蜘蛛spider)获取,资源抓取程序通常采用为网站配置网页模板或通过程序智能分析的方式从网页中获取视频资源的标题、文件格式、导演、演员以及下载链接等相关信息。例如某视频资源网站的视频资源介绍页面中,文本“影片名:”后面的文本为视频资源的名称,文本“导演:”后面的文本为该影片的导演名称等,则可根据该规律配置网页模板,资源抓取程序根据该模板将所述某视频资源网站的视频资源介绍页面中的视频资源相关信息抓取并保存。在获取到视频资源的相关信息后,可以先判断视频资源库中是否有该视频资源的相关信息,若没有,则将该视频资源的相关信息保存在视频资源库中。较佳地,可获取视频资源的标识信息,该标识信息也可是视频资源的相关信息之一,例如视频资源的名称信息等,还可以是根据预定算法对视频文件进行计算后获得的标识信息,或称为内容签名CID(Content ID),所述预定算法为对不同的视频文件的内容数据进行处理得到不同的处理结果的算法,例如哈希(hash)算法,哈希算法可以采用信息-摘要算法(Message-DigestAlgorithm5,MD5),MD4,安全散列算法(Secure Hash Algorithm,SHA),安全散列算法(Secure Hash Standard,SHS)等算法作为公式。内容标识CID码的获得包括但不限于以下两种方法:第一种,提取文件的部分数据,将提取的部分数据进行哈希(hash)运算,将运算结果作为该文件的CID码的值。比如,可以提取视频文件的前面32k字节、中间32k字节和尾部32k字节的数据,将提取的数-->据通过哈希运算,如md5计算出一个值,将该值作为视频文件的CID码的值;第二种,将文件的全部数据进行哈希运算,将运算结果作为该视频文件的CID码的值。若视频资源库中已有与获取的标识信息相同的标识信息,则根据预设的相关信息的来源级别,判断若该已有的标识信息所对应的视频资源的相关信息的来源级别低于获取的视频资源的相关信息的来源级别,则在视频资源库中保存所述获取的相关信息及标识信息。例如,视频资源的相关信息中包含有根据视频资源某些字节计算出来的唯一CID,如果获取的视频信息中的CID已经包含在视频资源库中的某一条视频资源的相关信息中,则根据预设的来源级别进行判断,若该条视频信息的来源级别低于获取的视频信息的来源级别,则可以删除该条视频信息,在视频资源库中保存获取的视频信息。对于上述预设的来源级别,可以是将知名的或大型的视频资源网站名称或其网络地址设为较高的级别,这种做法是基于知名或大型的视频资源网站的视频文件的描述信息一般来说具有较佳的质量。也可以根据其他经验来设置来源级别。较佳地,所述建立视频资源库进一步包括:删除所述已有的标识信息所对应的视频资源的相关信息;或删除所述已有的标识信息所对应视频资源的除链接信息外的相关信息。即可删除原有来源级别较低的视频资源相关信息,也可保留其链接信息,以作为备用链接。视频资源库及视频关键词词库的建立可无先后顺序。步骤13:判断若所述视频资源库中的视频资源的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。通过前述步骤,可将包含了相同相关信息的视频资源聚为一类,例如将视频名称中包含了相同关键词的视频资源聚为一类。可以按照视频资源在视频资源库中的存储位置依次进行视频关键词匹配。例如,视频关键词词库中包含“闯关东、海防最前线、明天”等视频关键词;在视频资源库包含的视频资源的相关信息中,有五条相关信息分别包含如下内-->容:[2008-01-11][国产][闯关东下部][国语24集][VCD-RMVB][FY][48];[影视帝国.海防最前线.The.Guardian.2006.CD2][rm][800/432];[2008-01-11][国产][闯关东下部][国语24集][VCD-RMVB][FY][46];[海防最前线][The.Guardian][2006][CD3][rm][800/432];[海防最前线cd1][RMVB][624/352]。则依次可以从本文档来自技高网...

【技术保护点】
一种视频资源聚类的方法,其特征在于,包括如下步骤: 建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词; 建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息; 判断若所述视频资源库中的视频资源 的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。

【技术特征摘要】
1、一种视频资源聚类的方法,其特征在于,包括如下步骤:建立视频关键词词库,该视频关键词词库中包括用于描述视频资源的视频关键词;建立视频资源库,所述视频资源库中保存获取的视频资源的相关信息;判断若所述视频资源库中的视频资源的相关信息包含有所述视频关键词,则将该视频资源聚类于按照该视频关键词分类的一级类别。2、根据权利要求1所述的方法,其特征在于,所述视频关键词为电影影片名或电视剧名。3、根据权利要求1所述的方法,其特征在于,所述将该视频资源聚类于按照该视频关键词分类的一级类别之后,还包括:判断若所述视频资源库中的相关信息包含有指定的二级视频文件特征,则在所述一级类别之中,分别将各视频资源聚类于按照该二级视频文件特征分类的二级类别。4、根据权利要求1所述的方法,其特征在于,所述将该视频资源聚类于按照该视频关键词分类的一级类别之后,还包括:采用预定算法将各视频资源的多个相关信息连接起来的内容进行运算得到一个特征值;在所述一级类别之中,分别将各视频资源聚类于按照该特征值分类的二级类别。5、根据权利要求4所述的方法,其特征在于:当所述多个相关信息中有视频资源的链接信息时,则只使用除了链接中的用于标识多个相关联的视频资源顺序的集数信息部分的其他部分进行所述运算。6、根据权利要求3或4所述的方法,其特征在于,所述二级视频文件特征为:标示了该视频资源内容为电影或电视剧的标示信息;标示了多个视频资源之间顺序关系的集数特征;视频资源的拍摄时间;视频资源的格式信息;视频资源的来源;或视频资源的分辨率。7、根据权利要求1所述的方法,其特征在于,所述建立视频资源库包括:获取视频资源的相关信息及标识信息,所述相关信息包含所述相关信息来源;若视频资源库中已有与获取的标识信息相同的标识信息,则根据预设的相关信息的来源级别,判断若该已有的标识信息所对应的视频资源的相关信息的来源级别低于获取的视频资源的相关信息的来源级别,则在视频资源库中保存所述获取的相关信息及标识信息。8、根据权利要求7所述的方法,其特征在于,所述建立视频资源库进一步包括:删除所述已有的标识信息所对应的视频资源的相关信息;或删除所述已有的标识信息所对应视频资源的除链接信息外的相关信息。9、根据权利要求7所述的方法,其特征在于,所述视频文件标识信息是根据预定算法对视频文件进行计算后获得,该预定算法为对不同的视频文件的内容数据进行处理得到不同的处理结果的算法。10、根据权利要求1所述的方法,其特征在于,所述将该视频资源聚类于按照该视频关键词分类的一级类别之后进一步包括:当接收到包含视频关键词的视频信息查询指令时,输出所述视频资源库中与所述视频关键词关联的视频信息。11、根据权利要求3或4所述的方法,其特征在于,还包括:当接收到包含视频关键词的视频信息查询指令时,确认所述视频关键词所对应的视频资源的相关信息;将确认的所述视频资源的相关信息按二级类别排序后输出。12、根据权利要求3所述的方法,其特征在于:所述二级视频文件特征包括标示了视频内容为电影的标示信息,并且所述相关信息包含电影的影片名,或者所述相关信息包含标示了视频内容为电视剧的标示信息,并且所述视频信息包含电视剧的剧名;并且所述二级类别包括电影类别和电视剧类别。13、根据权利要求3所述的方法,其特征在于:所述二级视频文件特征包括视频拍摄时间和/或演员姓名;所述将该相关信息聚类于按照该二级视频文件特征分类的二级类别包括:根据所述相关信息中包括的视频拍摄时间和演员姓名确认视频内容为电影或电视剧;根据确认的视频内容,将所述相关信息聚类于电影类别或电视剧类别。14、根据权利要求3所述的方法,其特征在于,还包括:判断如果按照二级视频资源特征分类的同类视频资源未包含完整的视频资源序列,则根据视频资源链接特征进行视频文件遍历,获取完整的视频资源序列。15、根据权利要求14所述的方法,其特征在于,所述判断如果按照二级视频资源特征分类的同类视频资源未包含完整的视频资源序列,包括:获取按照二级视频资源特征分类的同类视频资源的链接信息,如果各链接信息的不同部分不能组成连续的数字或字母排列,则该同类视频资源未包含完整的视频资源序列。16、根据权利要求15所述的方法,其特征在于,所述根据视频资源链接特征进行视频文件遍历,获取完整的视频资源序列,包括:将所述不能组成连续的数字或字母排列所缺少的数字或字母,替换链接信息中的不同部分形成新的链接,从该新的链接获取视频资源以获取完整的视频资源序列。17、根据权利要求14所述的方法,其特征在于:所述判断如果按照二级视频资源特征分类的同类视频资源未包含完整的视频资源序列,包括:从所述同类视频资源的链接信息的不同部分中,获取数值为最大的或英文字母排...

【专利技术属性】
技术研发人员:刘汉洲
申请(专利权)人:深圳市迅雷网络技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1