当前位置: 首页 > 专利查询>复旦大学专利>正文

基于CPat-Tree的网络内容分级索引结构和裁剪方法技术

技术编号:2856499 阅读:298 留言:0更新日期:2012-04-11 18:40
本发明专利技术为一种针对URL及其所指向的网络实体的内容分级索引的结构模型和裁剪算法。其中,分级索引结构使用TreeMap、NodeMap、EList和IFArray几个数组记录实体的URL和分级信息。裁剪算法的基本步骤是将CPat-Tree中每个叶子节点根据信息矢量映射到矢量空间中一点,用空间模式识别的方法,把所有的点划分入若干不重合的簇,然后根据合并规则,依次把每个簇中的叶子节点向上合并,使其父亲节点成为新叶子节点;新叶子节点的信息矢量用簇中心的综合信息矢量代替。本发明专利技术极大地减少了CPat-Tree索引结构的存储容量,降低了查询过程中的磁盘访问次数和CPU计算代价,具有很高的查询效率。

【技术实现步骤摘要】

本专利技术属于文本信息检索和互联网技术等领域,具体涉及一种互联网内容实体分类分级索引结构和在该结构上的裁剪方法。
技术介绍
随着网络技术的高速发展,互联网越来越多的深入到人们的工作和生活中,成为发布和获取信息的重要渠道。然而,由于互联网信息发布和获取存在高匿名性、高隐私性、高互动性和无地域性等特点,难以对参差不齐的信息内容进行有效管理和制约,这给公众生活和社会生产带来了严重的负面影响。在公众的生活方面,当前互联网上充斥大量以暴力、色情、反政府和反社会为主要内容的不良信息,正极大干扰着人们的视听,对社会的健康发展造成了不利影响。根据美国N2H2公司2003年的统计,全球大致有8%的网页是色情网页,每天向搜索引擎提交的请求中有四分之一有关色情内容;同时以反政府、反社会为内容的网站网页和电子邮件无孔不入。在社会生产方面,不设防的计算机网络常常给企业的企业文化、生产成本和效率带来严重的负面影响[1]。首先员工经常在工作时间利用互联网进行与工作无关的行为,占用工作时间,直接导致生产力下降;其次,员工与工作无关的使用互联网、许多恶意网站带来的蠕虫病毒和垃圾邮件占用了大量通向互联网的出口带宽,企业为此额外支付大量费用;不安全的网页包含的恶意代码、特洛伊木马程序和间谍软件(spyware)还会对企业商务和科研信息进行盗用和破坏。IDC公司的一份报告指出30%-40%的企业出口网络带宽消耗在员工的私人目的;北美管理联合会的报告指出有27%的财富500强企业都曾陷入员工不正当使用互联网和电子邮件传播色情信息的丑闻中。网络的负面效应之大,不良信息内容之广,是人们始料未及的。为了保障互联网信息的内容安全,为社会公众开辟一个“洁净”的网络世界,为企业合理安全的使用网络资源提供技术保障,研究和开发网络内容安全工具具有重要的现实意义[7]。目前常见的网络内容安全技术主要有标签过滤、关键字过滤、URL过滤、分类过滤和内容过滤等[2][3]。由于这些内容过滤技术分别存在难以监督实施、难以保证分级信息实时性和实现复杂度高等缺点,所以投入研发和运营的网络内容过滤系统往往结合上述几种过滤技术共同实现。URL过滤是网络内容过滤系统中最常用的技术之一,其主要通过比较用户请求和预定义的分级信息来确定是否拦截用户请求。传统URL过滤技术采用的数据索引结构主要有Trie结构和散列表两种[5]。基于Trie索引结构的优点是查询效率很高,缺点是实现过程中将消耗较大内存量,序列化和反序列化的复杂度较高,在磁盘存取和网络传输的过程中需要进行复杂的转化。基于散列表的优点是查询效率非常高,而且因为使用线性数组表示索引结构,所以序列化和反序列化复杂度较低。其缺点是散列函数的选取和应用增加了实现复杂度,散列表的存储空间依旧保持在一个相对较高的水平。本专利技术的创新点在于,提出了基于CPat-Tree[6]结构实现的网络内容分级索引结构,和直接在存储数组上实现的裁剪方法。利用该索引结构和裁剪算法,可使得内容分级索引结构的存储容量能达到非常小的水平,还可大幅提升查询效率。本专利技术不仅可以用于内容过滤系统的URL拦截技术中,也可以应用于信息检索的其它领域。例如内容传递网络(CDN,Content Delivery Network)[8]和组播树(MulticastRouting Tree)[9]建模等。参考文献1.Jacob Palme.Information Filtering.http//cmc.dsv.su.se/select/information-filtering.pdf,1998-06-01. 2.Jonathan Zittrain,Benjamin Edelman.Internet Filtering in China.IEEE Internet Computing,2003,7(2)70-77. 3.Justin Basilico,Thomas Hofmann.A joint framework for collaborative and content filtering.27th Annual International ACM SIGIR Conference.NYACM Press,2004550-551. 4.Menahem Friedman and Abraham Kandel.Introduction to Pattern Recognition-Statistical,Structural,Neural And Fuzzy Logic Approaches.World Scientific,1999. 5.Zornitza Genova Prodanoff.Performance Evaluation of URL Routing for ContentDistribution Networks.SFUniversity of South Florida,2003. 6.M.Shishibori,M.Okada,T.Sumitomo and J.Aoe.Design of a Compact Data Structure for thePatricia Trie.IEICE Transactions on Information and Systems,1998,Vol.E81-D,No.4,pp.364-371. 7.Chen Ding,Chi-Hung Chi,Jing Deng,and Chun-Lei Dong.Centralized Content-Based WebFiltering and BlockingHow Far Can It Go?In Proceeding of IEEE InternationalConference on Systems,Man and Cybernetics(SMC),1999. 8.Survey of Content Delivery Networks(CDNs),http//cgi.di.uoa.gr/~grad0377/cdnsurvey.pdf. 9.Gaurav Sharma.Internet topology and tomography.https//engineering.purdue.edu/people/gaurav.sharma.3/Reports/Modeling.ppt,2005-04. 符号表(在本专利技术的全部文档中所采用符号的含义)TreeMap按前序顺序记录CPat-Tree树节点结构的比特数组NodeMap按前序顺序记录CPat-Tree树节点包含比特数目的比特数组EList 按前序顺序记录CPat-Tree树节点包含比特值的比特数组IFArray按前序顺序记录CPat-Tree树叶子节点对应的信息矢量{L0,L1,L2...Lu} CPat-Tree结构中树叶子节点对应的信息矢量集合C 簇中心点到对应叶子节点的映射Cj第j个簇中心γ聚类球体的固定半径L 表示当前节点B 表示当前节点的兄弟节点F 表示当前节点的父亲节点TreePosTreeMap数组游标valid、father、brother和ifpos valid元素表本文档来自技高网...

【技术保护点】
一种基于CPat-Tree实现的可裁剪的网络内容分级索引结构,其特征在于:(1)分级索引结构由TreeMap、NodeMap、EList和IFArray数组联合组成;其中,(2)TreeMap比特数组按前序顺序记录CPat- Tree的树状节点结构,以比特0标记内部节点,比特1标记外部节点;(3)NodeMap比特数组按前序顺序记录每个节点包含的比特数目,用1个比特0和若干比特1联合标记,其总数目等于节点包含比特数目;(4)EList比特数组按前 序顺序存储每个节点包含的比特值;(5)IFArray数组按前序顺序记录叶子节点携带的信息矢量。

【技术特征摘要】
1.一种基于CPat-Tree实现的可裁剪的网络内容分级索引结构,其特征在于(1)分级索引结构由TreeMap、NodeMap、EList和IFArray数组联合组成;其中,(2)TreeMap比特数组按前序顺序记录CPat-Tree的树状节点结构,以比特0标记内部节点,比特1标记外部节点;(3)NodeMap比特数组按前序顺序记录每个节点包含的比特数目,用1个比特0和若干比特1联合标记,其总数目等于节点包含比特数目;(4)EList比特数组按前序顺序存储每个节点包含的比特值;(5)IFArray数组按前序顺序记录叶子节点携带的信息矢量。2.一种基于CPat-Tree的网络内容分级索引结构的裁剪算法,其特征在于基本步骤如下聚类过程将CPat-Tree中每个叶子节点根据信息矢量映射到矢量空间中一点,用空间模式识别的方法,把所有的点划分为若干不重合的簇,每个簇由一个固定半径的空间球体标识,簇中的点同处于一个球体中,落在同一个球体中的叶子节点被认为是相似的信息矢量,这个信息矢量作为该聚类的综合信息矢量,对应球体的中心点;合并过程根据合并规则,依次把每个簇中的叶子节点向上合并,删除该叶子节点,使其父亲节点成新叶子节点。新叶子节点的信息矢量用簇中心的综合信息矢量代替;重组过程去除临时布尔数组标记的合并掉的节点,重新生成裁剪过的存储数组;经历过重组过程后,裁剪过程结束,索引依然保持着CPat-Tree结构。3.根据权利要求2所述的裁剪方法,其特征在于确定叶子节点是否相似的方法将叶子节点按携带的信息映射到矢量空间中的点,采用TOD方法来聚类。4.根据权利要求2所述的裁剪方法,其特征在于合并过程对CPat-Tree数据结构的节点按逆前序顺序遍历一次即可完成。5.根据权利要求2所述的裁剪方法,其特征在于合并过程利用一个与TreeMap数组等长的临时布尔数组纪录被注销的节点;True值表示TreeMap数组中相应节点未被注销,False值表示TreeMap数组中相应节点已注销。6.根据权利要求2所述的裁剪方法,其特征在于合并过程的处理步骤如下定义合并过程使用的数据结构(1)当前处理节点L,L节点的兄弟节点B,L和B节点的父亲节点F;(2)TreeMap数组的游标TreePos;(3)NodeInfo,结构数组,与TreeMap数组等长,每个结构标记TreeMap中相应节点的信息;每个结构包括valid、father、brother和ifpos元素;其中valid元素表示当前节点的有效性,true值表示有效,false表示无效;father和brother元素标记当前节点的父亲节点和兄弟节点在TreeMap和NodeInfo数组中的下标;ifpos元素标记当前节点在IFArray的起始位置;步骤1.{初始化}初始化NodeInfo数组的各个元素,其中valid元素初始化为true值;令TreePos←TreeMap.size-1,以指向TreeMap的最后一个元素;步骤2.{判断当前节点的有效性}若TreePos≤0,则节点遍历过程结束,转步骤7;否则令当前节点为L,若NodeInfo[TreePos].valid=false,则L已被删除,TreePos递减1,转步骤2;步骤3.{定位叶子节点}令TreePos指向TreeMap的值为0,意味着指向的是非叶子节点,则TreePos递减1,转步骤2;否则指向的是叶子节点,转步骤4;步骤4.{定位父亲和...

【专利技术属性】
技术研发人员:赵泽宇薛向阳石静许源
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1