【技术实现步骤摘要】
媒资元数据采集方法及系统
本申请涉及互联网
,尤其涉及一种媒资元数据采集方法及系统。
技术介绍
互联网上存在大量的媒资元信息,特别是各大视频网站,但是各来源的信息有一定差异,如果能综合利用起来对企业来说是非常有意义的。媒资元数据有他的特殊性,结构大都固定,比如说导演、演员、编剧等。媒资元数据信息对于视频企业来说是必须收集的信息,媒资元数据信息是随视频媒资一起分发的,现在媒资的元数据编目信息大都是通过编辑手工填写,耗费大量人力而且有一定的错误率。综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
技术实现思路
针对上述的缺陷,本申请的目的在于提供一种媒资元数据采集方法,其能够自动采集媒资元数据,形成可用的、统一的媒资元数据信息。为了实现上述目的,本申请提供一种媒资元数据采集方法,包括步骤有:根据网页下载指令中的待下载URL下载对应的网页数据;解析并过滤所述网页数据,解析出可用媒资元数据和新待下载URL;将所述新待下载URL集中存储和前期处理,并发出对所述新待下载URL的新网页下载指令;将所述可用媒资数据分析处理成统一的媒元资数据。根据本专利技术 ...
【技术保护点】
一种媒资元数据采集方法,其特征在于,包括步骤有:根据网页下载指令中的待下载URL下载对应的网页数据;解析并过滤所述网页数据,解析出可用媒资元数据和新待下载URL;将所述新待下载URL集中存储和前期处理,并发出对所述新待下载URL的新网页下载指令;将所述可用媒资数据分析处理成统一的媒元资数据。
【技术特征摘要】
1.一种媒资元数据采集方法,其特征在于,包括步骤有:根据网页下载指令中的待下载URL下载对应的网页数据;解析并过滤所述网页数据,解析出可用媒资元数据和新待下载URL;将所述新待下载URL集中存储和前期处理,并发出对所述新待下载URL的新网页下载指令;将所述可用媒资数据分析处理成统一的媒元资数据。2.根据权利要求1所述的媒资元数据采集方法,其特征在于,所述根据网页下载指令中的待下载URL下载对应的网页数据的步骤包括:判断所述待下载URL是否符合当前网站的爬虫规则,并过滤掉不符合所述爬虫规则的所述待下载URL;若所述待下载URL符合所述爬虫规则或当前网站没有所述爬虫规则,设置请求头模拟浏览器的行为,下载所述待下载URL的对应的所述网页数据。3.根据权利要求1所述的媒资元数据采集方法,其特征在于,所述根据网页下载指令中的待下载URL下载对应的网页数据的步骤还包括:收集网络代理地址以下载所述待下载URL。4.根据权利要求2所述的媒资元数据采集方法,其特征在于,所述解析并过滤所述网页数据,解析出可用媒资元数据和新待下载URL的步骤包括:根据所述网页数据解析出所述可用媒资元数据和URL;过滤掉所述URL中不相关URL,提取出所述新待下载URL。5.根据权利要求1所述的媒资元数据采集方法,其特征在于,所述将新待下载URL集中存储和前期处理,并发出对所述新待下载URL的新网页下载指令的步骤还包括:集中收集待下载URL,所述待下载URL初始为预置的种子待下载URL,后续为从所述网页数据中提取出的所述新待下载URL;分发对所述待下载URL的网页下载指令。6.根据权利要求1所述的媒资元数据采集方法,其特征在于,所述可用媒资元数据包括主观信息和客观信息;所述将所述可用媒资数据分析处理成统一的媒元资数据的步骤包括:根据所述可用媒资数据的来源网站的受众率,对收集到的所述可用媒资数据的所述主观信息进行加权处理得出综合值,以生成所述统一的媒元资数据。7.根据权利要求1所述的媒资元数据采集方法,其特征在于,所述可用媒资元数据包括主观信息和客观信息;所述将所述可用媒资数据分析处理成统一的媒元资数据的步骤之前包括:对所述可用媒资元数据的所述主观信息进行预定数据处理;一、对于数值型变量,按照下述公式一进行数据处理:公式一:其中,vi为对应视频网站的某数值型变量的数值,ki为该网站的该数值型变量的最大可取值,wi为对应网站的权重,v是处理后的统一值,n为自然数;和/或二、对于枚举型变量:1)按照下述公式二先计算每个枚举值的对应权重:公式二:其中,wi为对应网站的权重;bi表示该网站是否标记该枚举型变量,1表示标记了,0表示未标记;2)设定一个权重阈值,只有超过所述权重阈值的枚举值才被加入最终枚举值集合中。8.一种媒资元数据采集系统,其特征在于,包括有:下载器模块,用于根据网页下载指令中的待下载URL下载对应的网页数据;解析器模块,用于...
【专利技术属性】
技术研发人员:徐凤成,李兵,卢文彦,
申请(专利权)人:百视通网络电视技术发展有限责任公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。