一种多媒体文件搜索方法及装置制造方法及图纸

技术编号:9718829 阅读:122 留言:0更新日期:2014-02-27 05:36
本发明专利技术提供一种多媒体文件搜索方法及装置,涉及互联网多媒体领域,能够扩大用户搜索的范围,提高搜索匹配率,降低搜索开销。该方法包括,预先建立一全网数据库,所述全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取多媒体文件资源,多媒体搜索装置接收来自电子设备的多媒体文件搜索信息,并根据所述多媒体文件搜索信息,从所述全网数据库中获取与所述多媒体文件搜索信息匹配的多媒体文件资源,然后,向所述电子设备发送所述多媒体文件资源。

【技术实现步骤摘要】
一种多媒体文件搜索方法及装置
本专利技术涉及互联网多媒体领域,尤其涉及一种多媒体文件搜索方法及装置。
技术介绍
随着网路技术和视频技术的发展,用户对视频搜索的功能有了更高的要求,以前,对于很多视频用户,站内搜索足以满足其需求,因为其它网站有的,自己使用的网站也会有,在这种情况下,用户仅仅在有限的一或两家视频网站就可以满足搜索需求。但是,随着视频网站“版权化”的日益正规和深入,用户对全网视频搜索的需求越来越迫切。在视频版权的约束下,各家的视频内容将出现“异质化”,由于各视频网站的建设方向不同,电影、电视等内容也各有所长,使得各视频网站的内容不可避免地出现差异。在各视频网站逐渐“异质化”的情况下,用户的搜索匹配率低,用户经常需要在多家网站之间进行切换,进行多次搜索,才能得到符合的搜索结果,使得用户搜索开销大。
技术实现思路
本专利技术提供一种多媒体文件搜索方法及装置,能够扩大用户搜索的范围,提高搜索匹配率,降低搜索开销。为达到上述目的,本专利技术的实施例采用如下技术方案:本专利技术提供一种多媒体文件搜索方法,预先建立一全网数据库,所述全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取的多媒体文件资源,所述方法包括:接收来自电子设备的多媒体文件搜索信息;根据所述多媒体文件搜索信息,从所述全网数据库中获取与所述多媒体文件搜索信息匹配的多媒体文件资源;向所述电子设备发送所述多媒体文件资源。所述自身网站具有播放版权的多媒体文件资源包括用户上传的多媒体文件资源,以及已购买播放版权的多媒体文件资源;所述对外合作网站的多媒体文件资源包括自身网站与外部网站合作的所述外部网站的多媒体文件资源,所述对外合作网站的多媒体文件资源是通过网址链接到所述对外合作网站的多媒体文件资源上来实现的。所述通过爬虫技术从各个外部网站抓取的多媒体文件资源的抓取步骤包括:根据网页分析算法从所述各个外部网站过滤与多媒体文件无关的链接,并将与所述多媒体文件相关联的链接放入等待抓取的统一资源定位符URL队列;获取至少一个初始抓取URL,根据预设抓取方法从初始抓取URL开始对所述URL队列中的URL进行分析,选择要抓取的网页的URL,直到到达预设条件时停止;将所述被抓取的URL对应的网页在系统中存储。所述网页分析算法包括基于网络拓扑的分析算法、基于网页内容的分析算法、基于用户访问的分析算法。所述预设抓取方法包括深度优先抓取方法、广度优先抓取方法、最佳优先抓取方法。本专利技术提供一种多媒体文件搜索装置,包括:预处理单元,用于预先建立一全网数据库,所述全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取的多媒体文件资源;接收单元,用于接收来自电子设备的多媒体文件搜索信息;获取单元,用于根据所述多媒体文件搜索信息,从所述全网数据库中获取与所述多媒体文件搜索信息匹配的多媒体文件资源;发送单元,用于向所述电子设备发送所述多媒体文件资源。所述自身网站具有播放版权的多媒体文件资源包括用户上传的多媒体文件资源,以及已购买播放版权的多媒体文件资源;所述对外合作网站的多媒体文件资源包括自身网站与外部网站合作的所述外部网站的多媒体文件资源,所述对外合作网站的多媒体文件资源是通过网址链接到所述对外合作网站的多媒体文件资源上来实现的。所述预处理单元,还用于根据网页分析算法从所述各个外部网站过滤与多媒体文件无关的链接,并将与所述多媒体文件相关联的链接放入等待抓取的统一资源定位符URL队列;获取至少一个初始抓取URL,根据预设抓取方法从初始抓取URL开始对所述URL队列中的URL进行分析,选择要抓取的网页URL,直到到达预设条件时停止;将所述被抓取的URL对应的网页在系统中存储。所述网页分析算法包括基于网络拓扑的分析算法、基于网页内容的分析算法、基于用户访问的分析算法。所述预设抓取方法包括深度优先抓取方法、广度优先抓取方法、最佳优先抓取方法。本专利技术提供一种多媒体文件搜索方法及装置,多媒体文件搜索装置预先建立一全网数据库,全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取多媒体文件资源,多媒体搜索装置接收来自电子设备的多媒体文件搜索信息,并根据多媒体文件搜索信息,从全网数据库中获取与多媒体文件搜索信息匹配的多媒体文件资源,然后,向电子设备发送多媒体文件资源。通过该方案,多媒体文件搜索装置通过预先建立全网数据库,若电子设备搜索多媒体文件,则从全网数据库中搜索与多媒体文件搜索信息匹配的多媒体文件资源,通过在全网数据库中搜索扩大用户搜索的范围,提高用户的搜索匹配率,降低用户的搜索开销。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的多媒体文件搜索方法流程示意图;图2为本专利技术实施例提供的多媒体文件搜索方法流程示意图;图3为本专利技术实施例提供的多媒体文件搜索装置示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一本专利技术实施例提供一种多媒体文件搜索方法,如图1所示,该方法包括:S101、多媒体文件搜索装置预先建立一全网数据库,全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取的多媒体文件资源。其中,本专利技术实施例的多媒体文件搜索装置具体可以为服务器,也可以为能够执行本专利技术方法的设备。进一步地,本专利技术实施例的多媒体文件可以是视频文件、音频文件、图像文件或者用户编辑的文本文件中的任意一种,或者多媒体文件也可以是上述任意至少两种格式的文件组成的文件。S102、多媒体文件搜索装置接收来自电子设备的多媒体文件搜索信息。具体的,当用户要进行搜索多媒体文件时,在电子设备上输入多媒体文件搜索信息,其中,多媒体文件搜索信息包括关键词、标题、标签,分类等;多媒体文件搜索装置接收来自电子设备的多媒体文件搜索信息,根据多媒体文件搜索信息行搜索。其中,本专利技术实施例的电子设备,电子设备,可以是指向用户提供语音和/或数据连通性的设备,其可以是移动终端,如手机和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,也可以是PC (personal computer,个人计算机),还可以是能够连接到互联网的智能电视。需要说明的是,本专利技术实施例的多媒体文件可以是视频文件、音频文件、图像文件或者用户编辑的文本文件中的任意一种,或者多媒体文件也可以是上述任意至少两种格式的文件组成的文件。本专利技术实施例对多媒体文件的具体形式不做限制。S103、多媒体文件搜索装置根据多本文档来自技高网...

【技术保护点】
一种多媒体文件搜索方法,其特征在于,预先建立一全网数据库,所述全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取的多媒体文件资源,所述方法包括:接收来自电子设备的多媒体文件搜索信息;根据所述多媒体文件搜索信息,从所述全网数据库中获取与所述多媒体文件搜索信息匹配的多媒体文件资源;向所述电子设备发送所述多媒体文件资源。

【技术特征摘要】
1.一种多媒体文件搜索方法,其特征在于,预先建立一全网数据库,所述全网数据库至少包括自身网站具有播放版权的多媒体文件资源、对外合作网站的多媒体文件资源以及通过爬虫技术从各个外部网站抓取的多媒体文件资源,所述方法包括:接收来自电子设备的多媒体文件搜索信息;根据所述多媒体文件搜索信息,从所述全网数据库中获取与所述多媒体文件搜索信息匹配的多媒体文件资源;向所述电子设备发送所述多媒体文件资源。2.根据权利要求1所述的方法,其特征在于, 所述自身网站具有播放版权的多媒体文件资源包括用户上传的多媒体文件资源,以及已购买播放版权的多媒体文件资源;所述对外合作网站的多媒体文件资源包括自身网站与外部网站合作的所述外部网站的多媒体文件资源,所述对外合作网站的多媒体文件资源是通过网址链接到所述对外合作网站的多媒体文件资源上来实现的。3.根据权利要求1或2所述的方法,其特征在于,所述通过爬虫技术从各个外部网站抓取的多媒体文件资源的抓取步骤包括:根据网页分析算法从所述各个外部网站过滤与多媒体文件无关的链接,并将与所述多媒体文件相关联的链接放入等待抓取的统一资源定位符URL队列;获取至少一个初始抓取URL,根据预设抓取方法从初始抓取URL开始对所述URL队列中的URL进行分析,选择要抓取的网页的URL,直到到达预设条件时停止;将所述被抓取的URL对应的网页在系统中存储。4.根据权利要求3所述的方法,其特征在于,所述网页分析算法包括基于网络拓扑的分析算法、基于网页内容的分析算法、基于用户访问的分析算法。5.根据权利要求3或4所述的方法,其特征在于,所述预设抓取方法包括深度优先抓取方法、广度优先抓取方法、最佳优先抓取方法。6....

【专利技术属性】
技术研发人员:曹坤波郑磊
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1