一种自动分析互联网上热点主题传播过程的方法及系统技术方案

技术编号:2827192 阅读:231 留言:0更新日期:2012-04-11 18:40
一种自动分析互联网上热点主题传播过程的方法,包括以下步骤:    (1)读入属于同一热点主题的文档集,抽取文档元数据;    (2)按照文档发表时间将文档排序,得到序列d↓[1],d↓[2],…,d↓[n],n为文档数量;    (3)从序列中第一篇文档开始,计算当前文档d↓[i]的转载出处;并获取该文档对应的源文档。

【技术实现步骤摘要】

本专利技术属于智能信息处理
,具体涉及一种自动分析互联网上 热点主题传播过程的方法及系统。
技术介绍
近年来,互联网上文本信息呈爆炸性增长,包括新闻,论坛,博客(blog) 等多种形式。互联网上文本信息的一个特点就是并非所有文本信息都是原创 的,其中很多文本信息都是从别的网站转载的,例如,新浪网上的大部分新闻 都是从别的网站或i某体转载而来,并且可能经过简单的编辑加工。论坛上的热 门帖子也有很多是从别的网站或媒体转载而来。这种互联网上文本信息之间大 量转载的现象被称之为互联网信息传播。人们通过主题检测与全文检索可以找 到热点主题与敏感主题,而通过分析某个主题在互联网上信息传播过程,可以 了解该主题的传播源头以及传播枢纽,对该主题进行监控跟踪,从而辅助决策。 传播源头指信息的始发站点,也就是第一次发表的站点。传播枢纽则指向外转 载最多信息的地点,也就是出度最大的站点。通过综合分析大量主题的信息传 播过程,可以获取互联网上信息传播的整体趋势,从宏观角度找到互联网核心 网站。本专利技术重点在于针对某个特定热点或敏感主题,分析其信息传播过程, 方便用户跟踪监控。目前对互联网信息传播过程的研究一般都基于传播学理论,从宏观角度分 析探讨适合描述互联网信息传播过程的各种模型。其中疾病传播模型是最早被 广泛接受的一种模型,能够较好地和互联网信息传播过程进行吻合,参见书籍 The mathematical theory of infectious diseases and its applications (作者为N. Bailey, 第二版,出版于1975年)和文章A simple model of epidemics withpathogen mutation(作者为M. Girvan等,发表于2002年出版的期刊Phys. Rev. E)。近些年,不少文章提出和探讨了基于社会网络分析的传播模型,包括文章 Epidemics and percolation in small-world networks (作者为C. Moore和M. E. J. Newman,发表于2000年出版的期刊Phys. Rev. E )、文章Collective dynamics of 'small-world' networks (作者为D. Watts和S. Strogatz,发表于1998年出版 的期刊Nature)以及文章Epidemic spreading in scale-free networks (作者为 R. Pasto-Satorras和A. Vespignani,发表于2001年出版的期刊Phys. Rev. Letters)。此外,有文章专门针对博客提出了不同的信息传播模型,包括文章 On the bursty evolution of blogspace (作者为R. Kumar等,发表于2003年出版 的论文集Proceedings of WWW )和文章Information diffusion through blogspace (作者为D. Gruhl等,发表于2004年出版的论文集:Proceedings of WWW )。 以上模型都从宏观角度描述互联网信息传播特性,无法分析特定主题的信 息传播过程,而用户往往需要监控跟踪热点主题或敏感主题的信息传播过程, 进而做出决策。本专利技术的方法可以满足用户从微观层面上对信息传播过程监控 的需求。
技术实现思路
为了满足用户跟踪监控特定主题的信息传播过程的需求,本专利技术通过综合 利用模式匹配方法和相似性比较方法对属于该主题内的文档逐一查找其转载 出处以及对应的源文档,最终绘制出信息传播过程图。具体说来,对于站点B 上的文档b,釆用本专利技术的方法可以获取文档b的转载出处A以及对应的源文 档a,记作站点A (文档a)—>站点B (文档b ),站点A与B分别成为文档a 与b的发布站点(PublishSite),站点A是文档b的转载出处(SourceSite),文档 a是文档b的源文档(SourceDoc)。该方法具有高效性、鲁棒性等优点,具有 很大的实用价值。为达到以上目的,本专利技术采用的技术方案是 一种自动分析互联网上热点主题传4番过禾呈的方法,包4舌以下步-骤(1) 读入属于同一热点主题的文档集,抽取文档元数据;(2) 按照文档发表时间将文档排序,得到序列d,,H, n为文档数量;(3) 从序列中第一篇文档开始,计算当前文档di的转载出处;并获取 该文档对应的源文档。进一步,为使本专利技术获得更好的专利技术效果,步骤(l)中热点主题可通 过主题检测系统获取,敏感主题可通过全文检索系统获取。每一个主题内 均包括具有共性的l个或多个Web文档。本专利技术的方法对给定主题类型及 其文档类型不加任何限制,主题类型可以是除热点主题和敏感主题之外的 其他主题,文档类型可以是新闻文本,也可以是论坛、博客等其它形式的 文本。对于给定的任一文档集合,采用本专利技术的方法可进行同样处理。文 档元数据主要包括文档发布站点以及文档的发表时间(PublishTime ),文 档发布站点为该文档的下载站点,文档发表时间可通过简单的模板匹配得 到,在无法得到文档发表时间的情况下,可由网页的更新时间等替代。此 外,对于新闻文本,文档元数据还包括利用人工定制的模板抽取得到的新 闻转载站点,这主要是因为新闻文本比较正规,普遍具有明确的标记指明 该篇文档转载自哪个新闻网站。最后由于网页文本包含很多的HTML标记, 以及广告、导航条等无关信息,因此需要对下载的网页要进行HTML标记 过滤等预处理过程,尽可能地获得网页的重要文本内容。进一步,为使本专利技术获得更好的专利技术效果,按照发表的文档时间按照 自然时间顺序排序,得到序列山^2,...,4, n为文档数量。序列中靠前的文 档具有较早的时间。进一步,为使本专利技术获得更好的专利技术效果,步骤(3)从序列第一篇文 档开始,利用文本模式匹配的方法搜索当前文档di的转载出处时,包括以 下步骤3.1对于新闻文档,如果步骤(1 )获取的文档元数据中已经得到其转 载站点,那么用该站点名作为该文档的转载出处,否则进行下一步;对于 其他类型的文档直接进行下一步;3.2在该文本di的长度为L的前缀文本上根据定义的匹配模式搜索转 载出处,其中L,为正整数;3.3如果步骤3.2未找到转载出处,则在该文本di的长度为L2的后缀文 本上根据定义的匹配模式搜索转载出处,其中L2为正整数;进一步,为使本专利技术获得更好的专利技术效果,所述匹配模式指根据观察 自定义的一些匹配规则,定义如下模式1:[线索词MO,kH网站名]模式2:[线索符号][网站名]模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇 转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、 zz、 from、 zz from模式1和模式2中[网站名]匹配任意一个网站的名字,例如新浪网、新华网、水木社区、网易社区等,这些名字由人工收集统计得到,覆盖面较广。模式1中.表示任意一个字符(包括汉字),k为正整数, 一般为0-3。 模式2中[线索符号]匹配下列任意一个符号[、(、〔、『、*、-、模式1表示匹配任 一 线索词开头的本文档来自技高网
...

【技术保护点】
一种自动分析互联网上热点主题传播过程的方法,包括以下步骤:(1)读入属于同一热点主题的文档集,抽取文档元数据;(2)按照文档发表时间将文档排序,得到序列d↓[1],d↓[2],…,d↓[n],n为文档数量;(3)从序列中第一篇文档开始,计算当前文档d↓[i]的转载出处;并获取该文档对应的源文档。

【技术特征摘要】
1. 一种自动分析互联网上热点主题传播过程的方法,包括以下步骤(1)读入属于同一热点主题的文档集,抽取文档元数据;(2)按照文档发表时间将文档排序,得到序列d1,d2,...,dn,n为文档数量;(3)从序列中第一篇文档开始,计算当前文档di的转载出处;并获取该文档对应的源文档。2、 如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,步骤(l)中热点主题通过主题检测系统获取,敏感主题通过全文 检索系统获取,每一个主题内均包括具有共性的l个或多个Web文档;所述 文档元数据主要包括文档发布站点以及文档的发表时间,文档发布站点为该 文档的下载站点,文档发表时间可通过简单的模板匹配得到,在无法得到文 档发表时间的情况下,可由网页的更新时间等替代。3、 如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,步骤(3)从序列第一篇文档开始,利用文本模式匹配的方法搜索 当前文档dj的转载出处,具体包括以下步骤3.1对于新闻文档,如果步骤(1)获取的文档元数据中已经得到其转载 站点,那么用该站点名作为该文档的转栽出处,否则进行下一步;对于其他 类型的文档直接进行下一步;3.2在该文本di的长度为L,的前缀文本上根据定义的匹配模式搜索转载 出处,其中L,为正整数;3.3如果步骤3.2未找到转载出处,则在该文本dj的长度为L2的后缀文 本上根据定义的匹配模式搜索转载出处,其中L2为正整数。4、 如;K利要求3所述的自动分析互联网上热点主题传纟番过程的方法,其 特征在于,步骤3.2和3.3中的匹配模式指根据观察自定义的一些匹配规则, 定义如下模式l:[线索词].(0,W[网站名] 模式2:[线索符号][网站名]模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇转栽、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出 处、zt、 zz、 from、 zz from模式1和模式2中[网站名]匹配任意一个网站的名字,例如新浪网、新 华网、水木社区、网易社区等,这些名字由人工收集统计得到,覆盖面较广;模式1中.表示任意一个字符,k为正整数,范围为0-3, 一般取2;模式2中[线索符号]匹配下列任意一个符号[、(、〔、『、*、-、模式1表示匹配任一线索词开头的网站名,线索词和网站名之间允许间 隔最多k个字符的位置;模式2表示匹配任意线索符号开头的网站名,线索 符号和网站名之间无间隔位置;通过模式1或模式2匹配到的网站名作为转 栽出处;如果匹配到多个网站名,那么以模式1匹配到的网站名作为转载出 处;如杲利用同一模式匹配到多个网站名,以更接近文本开始的网站名作为 转载出处,而对于步骤3.3,以更接近文本结尾的网站名作为转栽出处。5、 如权利要求4所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,对文本搜索转载出处时,前缀文本长度Li为20个字符,每个汉 字作为一个字符;后缀文本长度L2为20个字符,每个汉字作为一个字符。6、 如权利要求3所述的自动分析互联网上热点主题传播过程的方法,其特 征在于,步骤(3)具体包括如能搜索到当前文档di的转载出处,获取其对应 的源文档时利用文本相似性比较方法判断,包括以下步骤 6.1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的 转载出处的每一篇文档dj计算相似度值,其中dj属于(山,d2,…,di.d并且任意 dj均有PublishSite(dj)-SourceSite(dj); 6.2找到文档di的最相似文档4及对应的最大相似度值,如果该相似度值大于设定的阈值T!,那么当前文档di对应的源文档为文档dk,也就是 SourceDoc(dj)=dk;如未找到当前文档di的转栽出处,利用文本相似性比较方法寻找其转载 出处,包括以下步骤6.A将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值,其中dj属于(山,d2,…,di.山6....

【专利技术属性】
技术研发人员:万小军王栋黄小江余军杨建武吴於茜
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1