【技术实现步骤摘要】
本专利技术属于智能信息处理
,具体涉及一种自动分析互联网上 热点主题传播过程的方法及系统。
技术介绍
近年来,互联网上文本信息呈爆炸性增长,包括新闻,论坛,博客(blog) 等多种形式。互联网上文本信息的一个特点就是并非所有文本信息都是原创 的,其中很多文本信息都是从别的网站转载的,例如,新浪网上的大部分新闻 都是从别的网站或i某体转载而来,并且可能经过简单的编辑加工。论坛上的热 门帖子也有很多是从别的网站或媒体转载而来。这种互联网上文本信息之间大 量转载的现象被称之为互联网信息传播。人们通过主题检测与全文检索可以找 到热点主题与敏感主题,而通过分析某个主题在互联网上信息传播过程,可以 了解该主题的传播源头以及传播枢纽,对该主题进行监控跟踪,从而辅助决策。 传播源头指信息的始发站点,也就是第一次发表的站点。传播枢纽则指向外转 载最多信息的地点,也就是出度最大的站点。通过综合分析大量主题的信息传 播过程,可以获取互联网上信息传播的整体趋势,从宏观角度找到互联网核心 网站。本专利技术重点在于针对某个特定热点或敏感主题,分析其信息传播过程, 方便用户跟踪监控。目前对互联网信息传播过程的研究一般都基于传播学理论,从宏观角度分 析探讨适合描述互联网信息传播过程的各种模型。其中疾病传播模型是最早被 广泛接受的一种模型,能够较好地和互联网信息传播过程进行吻合,参见书籍 The mathematical theory of infectious diseases and its applications (作者为N. Bailey, 第二版,出版于1975年)和文 ...
【技术保护点】
一种自动分析互联网上热点主题传播过程的方法,包括以下步骤:(1)读入属于同一热点主题的文档集,抽取文档元数据;(2)按照文档发表时间将文档排序,得到序列d↓[1],d↓[2],…,d↓[n],n为文档数量;(3)从序列中第一篇文档开始,计算当前文档d↓[i]的转载出处;并获取该文档对应的源文档。
【技术特征摘要】
1. 一种自动分析互联网上热点主题传播过程的方法,包括以下步骤(1)读入属于同一热点主题的文档集,抽取文档元数据;(2)按照文档发表时间将文档排序,得到序列d1,d2,...,dn,n为文档数量;(3)从序列中第一篇文档开始,计算当前文档di的转载出处;并获取该文档对应的源文档。2、 如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,步骤(l)中热点主题通过主题检测系统获取,敏感主题通过全文 检索系统获取,每一个主题内均包括具有共性的l个或多个Web文档;所述 文档元数据主要包括文档发布站点以及文档的发表时间,文档发布站点为该 文档的下载站点,文档发表时间可通过简单的模板匹配得到,在无法得到文 档发表时间的情况下,可由网页的更新时间等替代。3、 如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,步骤(3)从序列第一篇文档开始,利用文本模式匹配的方法搜索 当前文档dj的转载出处,具体包括以下步骤3.1对于新闻文档,如果步骤(1)获取的文档元数据中已经得到其转载 站点,那么用该站点名作为该文档的转栽出处,否则进行下一步;对于其他 类型的文档直接进行下一步;3.2在该文本di的长度为L,的前缀文本上根据定义的匹配模式搜索转载 出处,其中L,为正整数;3.3如果步骤3.2未找到转载出处,则在该文本dj的长度为L2的后缀文 本上根据定义的匹配模式搜索转载出处,其中L2为正整数。4、 如;K利要求3所述的自动分析互联网上热点主题传纟番过程的方法,其 特征在于,步骤3.2和3.3中的匹配模式指根据观察自定义的一些匹配规则, 定义如下模式l:[线索词].(0,W[网站名] 模式2:[线索符号][网站名]模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇转栽、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出 处、zt、 zz、 from、 zz from模式1和模式2中[网站名]匹配任意一个网站的名字,例如新浪网、新 华网、水木社区、网易社区等,这些名字由人工收集统计得到,覆盖面较广;模式1中.表示任意一个字符,k为正整数,范围为0-3, 一般取2;模式2中[线索符号]匹配下列任意一个符号[、(、〔、『、*、-、模式1表示匹配任一线索词开头的网站名,线索词和网站名之间允许间 隔最多k个字符的位置;模式2表示匹配任意线索符号开头的网站名,线索 符号和网站名之间无间隔位置;通过模式1或模式2匹配到的网站名作为转 栽出处;如果匹配到多个网站名,那么以模式1匹配到的网站名作为转载出 处;如杲利用同一模式匹配到多个网站名,以更接近文本开始的网站名作为 转载出处,而对于步骤3.3,以更接近文本结尾的网站名作为转栽出处。5、 如权利要求4所述的自动分析互联网上热点主题传播过程的方法,其 特征在于,对文本搜索转载出处时,前缀文本长度Li为20个字符,每个汉 字作为一个字符;后缀文本长度L2为20个字符,每个汉字作为一个字符。6、 如权利要求3所述的自动分析互联网上热点主题传播过程的方法,其特 征在于,步骤(3)具体包括如能搜索到当前文档di的转载出处,获取其对应 的源文档时利用文本相似性比较方法判断,包括以下步骤 6.1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的 转载出处的每一篇文档dj计算相似度值,其中dj属于(山,d2,…,di.d并且任意 dj均有PublishSite(dj)-SourceSite(dj); 6.2找到文档di的最相似文档4及对应的最大相似度值,如果该相似度值大于设定的阈值T!,那么当前文档di对应的源文档为文档dk,也就是 SourceDoc(dj)=dk;如未找到当前文档di的转栽出处,利用文本相似性比较方法寻找其转载 出处,包括以下步骤6.A将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值,其中dj属于(山,d2,…,di.山6....
【专利技术属性】
技术研发人员:万小军,王栋,黄小江,余军,杨建武,吴於茜,
申请(专利权)人:北大方正集团有限公司,北京大学,北京北大方正技术研究院有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。