【技术实现步骤摘要】
本专利技术属于文本信息检索和互联网技术等领域,具体涉及一种互联网内容实体分类分级索引结构和在该结构上的裁剪方法。
技术介绍
随着网络技术的高速发展,互联网越来越多的深入到人们的工作和生活中,成为发布和获取信息的重要渠道。然而,由于互联网信息发布和获取存在高匿名性、高隐私性、高互动性和无地域性等特点,难以对参差不齐的信息内容进行有效管理和制约,这给公众生活和社会生产带来了严重的负面影响。在公众的生活方面,当前互联网上充斥大量以暴力、色情、反政府和反社会为主要内容的不良信息,正极大干扰着人们的视听,对社会的健康发展造成了不利影响。根据美国N2H2公司2003年的统计,全球大致有8%的网页是色情网页,每天向搜索引擎提交的请求中有四分之一有关色情内容;同时以反政府、反社会为内容的网站网页和电子邮件无孔不入。在社会生产方面,不设防的计算机网络常常给企业的企业文化、生产成本和效率带来严重的负面影响[1]。首先员工经常在工作时间利用互联网进行与工作无关的行为,占用工作时间,直接导致生产力下降;其次,员工与工作无关的使用互联网、许多恶意网站带来的蠕虫病毒和垃圾邮件占用了大量通向互联网的出口带宽,企业为此额外支付大量费用;不安全的网页包含的恶意代码、特洛伊木马程序和间谍软件(spyware)还会对企业商务和科研信息进行盗用和破坏。IDC公司的一份报告指出30%-40%的企业出口网络带宽消耗在员工的私人目的;北美管理联合会的报告指出有27%的财富500强企业都曾陷入员工不正当使用互联网和电子邮件传播色情信息的丑闻中。网络的负面效应之大,不良信息内容之广,是人们始料未及的。为 ...
【技术保护点】
一种基于CPat-Tree实现的可裁剪的网络内容分级索引结构,其特征在于:(1)分级索引结构由TreeMap、NodeMap、EList和IFArray数组联合组成;其中,(2)TreeMap比特数组按前序顺序记录CPat- Tree的树状节点结构,以比特0标记内部节点,比特1标记外部节点;(3)NodeMap比特数组按前序顺序记录每个节点包含的比特数目,用1个比特0和若干比特1联合标记,其总数目等于节点包含比特数目;(4)EList比特数组按前 序顺序存储每个节点包含的比特值;(5)IFArray数组按前序顺序记录叶子节点携带的信息矢量。
【技术特征摘要】
1.一种基于CPat-Tree实现的可裁剪的网络内容分级索引结构,其特征在于(1)分级索引结构由TreeMap、NodeMap、EList和IFArray数组联合组成;其中,(2)TreeMap比特数组按前序顺序记录CPat-Tree的树状节点结构,以比特0标记内部节点,比特1标记外部节点;(3)NodeMap比特数组按前序顺序记录每个节点包含的比特数目,用1个比特0和若干比特1联合标记,其总数目等于节点包含比特数目;(4)EList比特数组按前序顺序存储每个节点包含的比特值;(5)IFArray数组按前序顺序记录叶子节点携带的信息矢量。2.一种基于CPat-Tree的网络内容分级索引结构的裁剪算法,其特征在于基本步骤如下聚类过程将CPat-Tree中每个叶子节点根据信息矢量映射到矢量空间中一点,用空间模式识别的方法,把所有的点划分为若干不重合的簇,每个簇由一个固定半径的空间球体标识,簇中的点同处于一个球体中,落在同一个球体中的叶子节点被认为是相似的信息矢量,这个信息矢量作为该聚类的综合信息矢量,对应球体的中心点;合并过程根据合并规则,依次把每个簇中的叶子节点向上合并,删除该叶子节点,使其父亲节点成新叶子节点。新叶子节点的信息矢量用簇中心的综合信息矢量代替;重组过程去除临时布尔数组标记的合并掉的节点,重新生成裁剪过的存储数组;经历过重组过程后,裁剪过程结束,索引依然保持着CPat-Tree结构。3.根据权利要求2所述的裁剪方法,其特征在于确定叶子节点是否相似的方法将叶子节点按携带的信息映射到矢量空间中的点,采用TOD方法来聚类。4.根据权利要求2所述的裁剪方法,其特征在于合并过程对CPat-Tree数据结构的节点按逆前序顺序遍历一次即可完成。5.根据权利要求2所述的裁剪方法,其特征在于合并过程利用一个与TreeMap数组等长的临时布尔数组纪录被注销的节点;True值表示TreeMap数组中相应节点未被注销,False值表示TreeMap数组中相应节点已注销。6.根据权利要求2所述的裁剪方法,其特征在于合并过程的处理步骤如下定义合并过程使用的数据结构(1)当前处理节点L,L节点的兄弟节点B,L和B节点的父亲节点F;(2)TreeMap数组的游标TreePos;(3)NodeInfo,结构数组,与TreeMap数组等长,每个结构标记TreeMap中相应节点的信息;每个结构包括valid、father、brother和ifpos元素;其中valid元素表示当前节点的有效性,true值表示有效,false表示无效;father和brother元素标记当前节点的父亲节点和兄弟节点在TreeMap和NodeInfo数组中的下标;ifpos元素标记当前节点在IFArray的起始位置;步骤1.{初始化}初始化NodeInfo数组的各个元素,其中valid元素初始化为true值;令TreePos←TreeMap.size-1,以指向TreeMap的最后一个元素;步骤2.{判断当前节点的有效性}若TreePos≤0,则节点遍历过程结束,转步骤7;否则令当前节点为L,若NodeInfo[TreePos].valid=false,则L已被删除,TreePos递减1,转步骤2;步骤3.{定位叶子节点}令TreePos指向TreeMap的值为0,意味着指向的是非叶子节点,则TreePos递减1,转步骤2;否则指向的是叶子节点,转步骤4;步骤4.{定位父亲和...
【专利技术属性】
技术研发人员:赵泽宇,薛向阳,石静,许源,
申请(专利权)人:复旦大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。