一种网页连接识别方法、装置及存储介质制造方法及图纸

技术编号:27433712 阅读:23 留言:0更新日期:2021-02-25 03:13
本发明专利技术实施例公开了一种网页连接识别方法、装置及存储介质,应用于信息处理技术领域。网页连接识别装置会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息,最后再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本发明专利技术实施例的识别方法的识别准确较高。实施例的识别方法的识别准确较高。实施例的识别方法的识别准确较高。

【技术实现步骤摘要】
一种网页连接识别方法、装置及存储介质


[0001]本专利技术涉及信息处理
,特别涉及一种网页连接识别方法、装置及存储介质。

技术介绍

[0002]通常视频终端显示的视频界面中可以包括多个基于视频的网页连接接口,这样,当用户操作某一网页连接接口时,视频终端会根据相应的网页地址信息显示相应的视频网页。因此,在视频界面的详情信息中会包括多个网页连接接口分别对应的网页地址信息,比如,该视频界面中特定视频的统一资源定位符(Uniform Resource Locator,URL),与特定视频相关的推荐视频的URL,热门视频的URL及导航URL等,这样,可以从这些网页地址信息中识别出特定视频的的网页地址信息,进而对各个网站提供的特定视频进行监控。
[0003]现有的一种网页连接识别方法,主要是将视频界面中的各个网页连接接口的信息进行关键词匹配,比如,将视频界面对应的URL所在的a标签中的文本内容与预置关键词进行匹配,其中预置关键词可以为“第n集”、“高清”或“立即播放”等。但是,这种方式很容易出现误匹配和漏匹配的问题。
[0004]现有的另一种网页连接识别方法,主要是采用机器分类器从多个网页地址信息中识别出特定视频的网页地址信息,这种方法识别的准确率较高,但是,需要事先对大量的样本进行人工标注,并通过标注后的样本训练机器分类器,这样,人工成本过高。

技术实现思路

[0005]本专利技术实施例提供一种网页连接识别方法、装置及存储介质,实现了根据网页连接接口的结构布局信息的第一特征信息进行识别用于展示目标多媒体的网页连接接口。
[0006]本专利技术实施例第一方面提供一种网页连接识别方法,包括:
[0007]获取目标多媒体的信息及多媒体站点的信息;
[0008]根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
[0009]提取所述结构布局信息的第一特征信息;
[0010]根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
[0011]本专利技术实施例第二方面提供一种网页连接识别装置,包括:
[0012]信息获取单元,用于获取目标多媒体的信息及多媒体站点的信息;
[0013]布局获取单元,用于根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;
[0014]特征提取单元,用于提取所述结构布局信息的第一特征信息;
[0015]识别单元,用于根据所述第一特征信息及预置的特征模型,对所述待识别的网页
连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。
[0016]本专利技术实施例第三方面提供一种存储介质,包括:所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本专利技术实施例第一方面所述的网页连接识别方法。
[0017]本专利技术实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
[0018]所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本专利技术实施例第一方面所述的网页连接识别方法。
[0019]可见,在本实施例的方法中,网页连接识别装置会根据目标多媒体的信息及多媒体站点的信息,获取多媒体站点提供的基于目标多媒体的网页中,待识别的网页连接接口的结构布局信息,并提取结构布局信息的第一特征信息,最后再根据第一特征信息及预置的特征模型,对待识别的网页连接接口中用于展示目标多媒体的网页连接接口进行识别。由于在同一多媒体站点提供的基于一种类型多媒体的网页中,用于展示该类型多媒体的网页连接接口的布局都类似,这样通过网页连接接口的结构布局信息的第一特征信息与预置的特征模型,即可识别出特定网页中,用于展示目标多媒体的网页连接接口,实践证明,本专利技术实施例的识别方法的识别准确较高。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术实施例提供的一种网页连接识别方法的示意图;
[0022]图2是本专利技术一个实施例提供的一种网页连接识别方法的流程图;
[0023]图3a是本专利技术一个实施例中网页连接识别装置显示的用户输入接口的示意图;
[0024]图3b是本专利技术一个实施例中网页连接识别装置搜索到的基于目标多媒体的网页的示意图;
[0025]图4a是本专利技术一个实施例中训练特征模型的方法流程图;
[0026]图4b是本专利技术一个实施例中剧集类多媒体的网页的示意图;
[0027]图5是本专利技术应用实施例中盗版运营系统的结构示意图;
[0028]图6是本专利技术应用实施例提供的网页连接识别方法的示意图;
[0029]图7是本专利技术实施例提供的一种网页连接识别装置的结构示意图;
[0030]图8是本专利技术实施例提供的终端设备的结构示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本专利技术保护的范围。
[0032]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0033]本专利技术实施例提供一种网页连接识别方法,参考图1所示,主要由网页连接识别装置通过如下步骤来进行识别:
[0034]获取目标多媒体的信息及多媒体站点的信息;根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;提取所述结构布局信息的第一特征信息;根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页连接识别方法,其特征在于,包括:获取目标多媒体的信息及多媒体站点的信息;根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息;提取所述结构布局信息的第一特征信息;根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,所述预置的特征模型包括所述多媒体站点提供的基于目标多媒体的网页中用于展示所述目标多媒体的网页连接接口的特征。2.如权利要求1所述的方法,其特征在于,所述根据所述获取的信息,获取所述多媒体站点提供的基于所述目标多媒体的网页中,待识别的网页连接接口的结构布局信息,具体包括:根据所述多媒体站点的信息,调用所述多媒体站点提供的搜索接口;通过所述搜索接口搜索所述目标多媒体的信息,获取所述多媒体站点提供的基于目标多媒体的网页信息;从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息。3.如权利要求2所述的方法,其特征在于,所述结构布局信息包括所述网页连接接口在所述基于目标多媒体的网页中的位置信息。4.如权利要求2所述的方法,其特征在于,所述从所述基于目标多媒体的网页信息中提取待识别的网页连接接口的结构布局信息,具体包括:从所述基于目标多媒体的网页信息中提取所有的网页连接接口的结构布局信息;对所述所有的网页连接接口的结构布局信息进行过滤,将过滤后的网页连接接口的结构布局信息作为待识别的网页连接接口的结构布局信息。5.如权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一特征信息及预置的特征模型,对所述待识别的网页连接接口中用于展示所述目标多媒体的网页连接接口进行识别,具体包括:计算所述第一特征信息与所述多媒体站点对应的特征模型之间的相似度,如果某一待识别的网页连接接口的结构布局信息的第一特征信息,与所述多媒体站点对应的特征模型之间的相似度大于某一阈值,确定所述某一待识别的网页连接接口为用于展示所述目标多媒体的网页连接接口。6.如权利要求1至4任一项所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:汪景福吴晶晶万明月冯少伟
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1