搜索未知信息网络时的路径规划方法及网络盗版发现系统技术方案

技术编号:20242465 阅读:22 留言:0更新日期:2019-01-29 23:22
本发明专利技术提供了一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,包括如下步骤:S1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;S2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤S1。本发明专利技术的方法应用于如下场合:用具有智能的系统在未知的信息网络中搜索含特定属性的结点;本发明专利技术的目的是合理规划搜索路径以提高搜索效率,同时实现网络盗版的搜索发现。

【技术实现步骤摘要】
搜索未知信息网络时的路径规划方法及网络盗版发现系统
本专利技术涉及信息
,具体涉及一种搜索未知信息网络时的路径规划方法及使用该方法的网络盗版发现系统。
技术介绍
信息网络通常由结点和结点间的连接构成。每个结点包含以下信息:一、内容信息,二、连接信息。内容信息格式上可以是文本、图像、声音、视频等,含义由特定应用而定。连接信息指向其他结点,系统利用此信息可以找到其他结点。连接信息有时被称为链接、地址等。一般来说,“结点的属性”是指结点的内容信息的某种特性,比如文本是广告还是非广告;声音是人声、音乐还是市声;视频是否包含非法内容,等等。判断结点是否有某属性通常需要付出(人力或机器的)资源。通常,信息网络对搜索系统而言是未知的。系统渐次、逐步地了解信息网络,此过程中,系统对一个结点的了解可有以下几种状态:一、隐藏,系统完全不知道此结点的存在;二、发现而未访问,系统通过相邻结点知道了此结点的存在,但还未获取其数据,自然也谈不上对其信息作任何分析;三、了解连接而不了解内容,系统知道了此结点的连接信息,但还不知道其内容(是否满足某属性);四、了解内容而不了解连接,系统知道了此结点的内容,但还不知道它的连接信息;五、完全了解。搜索系统通过逐次访问结点来发现网络,在此过程中隐藏结点的信息逐步被揭示出来。系统内部保存一批结点的信息,这些结点信息可处于上述二到五的某个状态中。系统要决定下一步走向哪里,即从状态二、三、四的众多结点中选择一个,获取其信息或进行后续的分析,如此循环。系统的目标是在未知的网络中尽量快而准确地找到特定属性的结点,上述决策的好坏将决定系统的效能。现有技术中,上述网络发现的相关技术有以下几种:一、深度优先搜索和广度优先搜索;二、基于内容聚类的方法;三、以PageRanking为代表的链接分析方法。基本的搜索路径有广度优先和深度优先两种。网络结构在图论中是一个无向图。广度优先策略从无向连通图里面的任一顶点v0出发,在访问v0点以后再依次搜索访问v0点其他还未被访问过的邻接点w1,w2,w3,…,之后再依次搜索访问w1的各个还没有被访问过的邻接点,w2各个还没有被访问过的邻接点,以此类推,即从v0点开始从近到远,按层次逐个访问跟v0点路径相通且路径长度从1开始依次是递增的顶点,最终直至图中所有顶点都被访问一次。深度优先捜索则首先访问图中任一顶点v,再从顶点v点出发开始访问跟v邻接但是还没有被访问的另一顶点w1,接着访问跟w1邻接且还没有被访问的任一顶点w2,w3,…,重复上述过程直到不能继续往下访问时,依次逐步回退到最近访问过的顶点,这时如果还有没有被访问过邻接顶点,就从该顶点开始再次执行上述搜索的过程,直到图中所有顶点全部都被访问到为止。这两种方法都按照预定义的顺序搜索网络,对发现特定属性结点这一目标没有任何优化。基于内容聚类的方法需要定义一种内容信息之间距离的计算方法。距离近的结点被认为是围绕着同一“主题”,从这些结点发出的连接具有更高的优先级,被更早访问,用于网络爬虫的Fish-Search和Shark-Search方法都是此类。Debrra等人首次提出Fish-Search方法,系统维护一个按优先级排序的链接列表,并根据它选择下一个搜索目标。在信息搜索过程中,相关度较高结点所属的链接被赋予更高的优先权。Hersovic等人基于Fish-Search方法提出了Shark-Search方法,创造性地使用向量空间模型来计算结点的相似度,此方法对比向量间的距离来判断出相似性,实际是一种文本聚类。链接分析方法以Google创始人LarryPage和SergeyBrind在1997年提出的PageRanking为代表。它最初使用在Google搜索引擎中,作用是根据出入链关系计算出网页的重要性,据此对网页进行排序。在网络搜索中引入链接分析方法,是用网页的重要性构造访问优先级,重要的网页先访问。在未知的信息网络中搜索含特定属性的结点,上述三种方法都有其弱点。广度优先和深度优先搜索是基本搜索方式,对发现目标没有任何优化。基于内容聚类的方法要求结点内容有可度量的相似性,比如“关于中医的结点”,而对于没有可度量的相似性的属性,比如“含盗版文本的结点”则无能为力,因“盗版”这一属性涉及的内容是分散的,相互之间并不要求相似。链接分析方法最初在Google引擎中计算网页重要性,其条件是结点信息都已获得,即都是前述状态五的结点,系统尽可以去计算它们之间的排序。在未知信息网络搜索应用中,系统渐次、逐步地揭示结点信息,过程中的大量结点是隐藏或信息不全的,用链接分析难以准确重构结点的重要性。
技术实现思路
本专利技术解决的技术问题在于提供一种应用于如下场合的方法:使用具有智能的系统在未知的信息网络中搜索含特定属性的结点。本专利技术的目的是合理规划搜索路径以提高搜索效率,同时实现网络盗版的搜索发现。为了实现上述目的,本专利技术采用了如下技术方案:一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,包括如下步骤:S1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;S2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤S1。进一步的,S1具体包括:S11、对所述信息网络中的每个节点关联一个P值,P为正值且初始为0,P(V)表示结点V的P值;S12、设定常数M和L,其中M为大于零的正数,表示结点上发现所述特定属性时P的增量,L为影响能力系数,0<L<M,当P(V)<L时,不再向其周围节点的关联值赋值;S13、当确定某结点V具有所述特定属性时,增加其P值:P(V)’=P(V)+M,并相应增加其周围结点的P值,且周围节点的P值增加随离结点V的距离而递减;以及S2具体包括:S14、对每个节点的P值进行累加,以P值从高到低排列决定结点的访问次序。进一步的,S13具体包括:以节点V为根,以宽度优先方式遍历V周围的n层结点,增加每个访问到的结点的P值;具体的,令Vij是第i层第j个结点,ΔPij是P(Vij)的增量,每一层的ΔPij值从前一层按系数α衰减,则ΔP1j=αM,ΔP2j=α2M,ΔP3j=α3M,…;P(Vij)’=P(Vij)+Δpij,其中0<α<1。优选的,M的取值范围为50~500,L的取值范围为0~0.1M。进一步的,所述特定属性包括节点涉及盗版内容或非法内容或发散的舆论热点。本专利技术还提供了一种网络盗版发现系统,包括相互连接的数据库服务器、业务服务器和取证服务器,所述数据库服务器用于记录原著作品相关信息、网络爬虫工作信息和系统运行信息,所述业务服务器用于通过网络爬虫进行数据爬取、执行搜索策略以及检测是否侵权,所述取证服务器用于执行取证动作;其中,所述网络爬虫包括基础爬虫单元、特征管理单元和策略执行单元,所述基础爬虫单元用于进行数据爬取;所述特征管理单元用于将基础爬虫单元爬取的内容与所述原著作品进行特征匹配,判断节点是否存在盗版内容;所述策略执行单元用于基于所述特征匹配及判断结果,使用如上所述的路径规划方法执行搜索策略。进一步的,所述基础爬虫进行数据爬取包括下载网页内容并过滤为文本,以及下载网页中本文档来自技高网
...

【技术保护点】
1.一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,其特征在于,包括如下步骤:S1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;S2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤S1。

【技术特征摘要】
1.一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,其特征在于,包括如下步骤:S1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;S2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤S1。2.如权利要求1所述的搜索未知信息网络时的路径规划方法,其特征在于,S1具体包括:S11、对所述信息网络中的每个节点关联一个P值,P为正值且初始为0,P(V)表示结点V的P值;S12、设定常数M和L,其中M为大于零的正数,表示结点上发现所述特定属性时P的增量,L为影响能力系数,0<L<M,当P(V)<L时,不再向其周围节点的关联值赋值;S13、当确定某结点V具有所述特定属性时,增加其P值:P(V)’=P(V)+M,并相应增加其周围结点的P值,且周围节点的P值增加随离结点V的距离而递减;以及S2具体包括:S14、对每个节点的P值进行累加,以P值从高到低排列决定结点的访问次序。3.如权利要求2所述的搜索未知信息网络时的路径规划方法,其特征在于,S13具体包括:以节点V为根,以宽度优先方式遍历V周围的n层结点,增加每个访问到的结点的P值;具体的,令Vij是第i层第j个结点,ΔPij是P(Vij)的增量,每一层的ΔPij值从前一层按系数α衰减,则ΔP1j=αM,ΔP2j=α2M,ΔP3j=α3M,…;P(Vij)’=P(Vij)+Δpij,其中0<α<1。4.如权利要求3所述的搜索未知信息网络时的路径规划方法,其特征在于,M的取值范围为...

【专利技术属性】
技术研发人员:金哲凡
申请(专利权)人:浙江传媒学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1