当前位置: 首页 > 专利查询>北京大学专利>正文

一种互联网新颖词监测方法技术

技术编号:4178243 阅读:331 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种互联网新颖词监测方法,属于互联网信息挖掘领域。本发明专利技术方法包括下列步骤:根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章;对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以权重最大的前a个词语作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq;根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数n;根据新颖系数n确定新颖度θ,当某个备选新颖词的新颖度大于新颖度阈值θ↓[t]时,即认为该词语是当天的新颖词。本发明专利技术方法可以有效地发现当天的新颖词汇,指导互联网新信息发现和监管的实践。

【技术实现步骤摘要】

本专利技术涉及,属于互联网信息挖掘领域。
技术介绍
随着网络日益成为人们发布信息、沟通信息的主要媒体,网络已逐渐成为一个多元化 的信息平台。在这个平台上,既有官方的新闻,也有小道的消息。如何在第一时间把握这 些消息,并且把握人们对这些消息的看法,寻找人们关注的新焦点和新热点,就成为一个 自然的需求了。不论是普通用户还是行业专家都希望有一个自动化的工具或者方法帮助他 们实时地跟踪他们所关注的领域的最新热点话题或者新闻,进而了解该领域的最新进展。不难发现,在一般情况下,某个关键词突然大量集中出现往往意味着某个热点新闻或 者热点事件的发生,而当发生了被广泛关注的新闻或事件时,又会在网络上集中出现大量 的带有相应关键词的文本。因此,互联网文本中相应关键词的数量的较大变化常常反映了 社会热点新闻或事件的出现或降温,而网络上反映热点新闻或事件的文本又会进一步推动 广大网民对于热点新闻和事件的关注程度和看法。也就是说,异常高的关键词词频和新出 现的显著的热点新闻和事件有一定的耦合关系。信息熵是计算语言学中一种用来表达信息 所包含的信息量的一个指标。在本专利技术中,我们通过信息熵来度量关键词的新颖程度。本 专利技术对于网络监管机构、关注社会热点新闻和事件的机构来说,是非常有价值的自动监控 新事件发生及群众对事件反应的工具。以下讨论的关于词的方法,均指关键词。不同词有不同的出现词频,其信息熵的大小不仅与当日的词频有关,更与其一段时间 内的词频变化有关。比如在某日,不同出现词频的词的相同出现次数有不同含义。对于一 个使用频率很高的词来说,词频的历史均值和历史标准差都很大,例如,分别是500次/ 天和350次/天。如果在某一天,其互联网频率增加了 300次,变成了 800次,即增加了大 约1倍,那么一般仍然很正常;但是,如果其互联网频率变成了 1200次,即增加了大约2 倍,就会预示着发生了相应的热点新闻或事件了。而对一个频率比较低的词,平均日互联网出现频率及其标准差很小,例如,分别是20次和15次。如果在某一天,其互联网频率增加了 30次,变成了 50次,即增加了大约1 倍多,那么一般仍然很正常;但是,如果在某一天,互联网上该词的信息量增加了 300次, 变成了 320次,则预示出现了相应的热点事件或新闻。也就是说,同样是增加300次,对高频词说,仍然正常;而对低频词来说,则说明出 现了新事件,则该词可以定义为当天的"新颖词"。以上说明对具有不同词频的词的度量, 标准是不同的。对于低频词,上述的300次出现次数称为新颖高的词频增加量。我们的主要目标是检 测异常高的词频增加量,通过信息熵的度量,进而监控并预测网络热点信息的出现或降温, 以及进行必要的报警。KhooK.B.等人于2001年提出了一种跟踪热点话题的方法,对一些定点的网站或者网 页定期统计一些关键词项(term)的词频,并利用tfidf公式计算每个term的当前权重,并 从中得到当前的热点话题(topic) (Khoo K. B., Mitsuru I. Emerging Topic Tracking System. Advanced Issues of E-Commerce and Web-Based Information Systems, WECWIS 2001, Third International Workshop on. 2-11.2001.)。其贡献之处在于,给出了一种标准化的公式来计 算每个term的当前权重,随着时间的变化,这个权重也会随之变化,从而反映出互联网信 息热点的变化情况。利用该方法的主要缺点在于,没有考虑每个term的历史,因此无法根 据每个词的信息熵对异常的热点信息进行准确的度量,只能对各个term进行横向的比较。
技术实现思路
本专利技术的目的在于克服现有技术中存在的问题,提供一种基于信息熵的互联网新颖词 监测方法。本专利技术针对互联网上的某个领域,对其相关词汇的频率变化进行监测,计算关键词的 信息熵,从而描述该词的新颖度,并确定其是否为新颖词,进而对新颖词进行图形化显示。 同时,对这些新颖词进行持续性的观测,即连续对该词所代表的新事件进行"热点关注"。 所以,本专利技术包括对"新颖词"的发现及追踪两部分组成。发现主要基于信息熵,来寻找到 事件的突发点,随后通过对其出现的频数变化,保持对其的追踪。由于通常互联网信息数 量庞大,本专利技术的图形输出方式实质上是给出了一个总结性信息,从而提高了发现新话题 信息的效率。对网络监管部门来说,本专利技术可以提供一个及时的热点信息观察窗口,尽早 发现那些新发生的事件,并对其进行追踪,了解事态的变化及群众对其的看法。此外,根 据本方法,可以从互联网角度,对热点信息和事件的变化情况进行监控和预测,并可以相当地准确向用户报警。总的来说,本专利技术技术方案可包括以下内容输入领域关键词从而确定相关领域网站, 抓取相关网站上的信息,计算当天的备选新颖词,通过信息熵得到当天新颖词,新颖词图 形化显示,新颖词的持续跟踪及对其原文的查看(见图l)。 具体来说 〈1〉确定相关领域网站互联网涵盖的领域很广,只有对相关领域的新颖词进行监测,才会使得结果更有意义。 确定相关领域网站的可按以下步骤进行〈1.1〉 输入代表相关领域的关键词,通过搜索引擎得到返回的多个结果(比如,500 个);〈1.2〉 每个结果可用域名,路径和文件名三部分组成,选取这些结果中出现最频繁 的多个域名(比如,50个)作为候选网站首页。注意这里的域名有的是顶 级的,有的只是某一子域名,由其涵盖的结果决定;〈1.3〉 对每个候选首页求两个指标Outline Ratio(OR)和Content Ratio(CR)这两个 指标的定义如下0R=|_,其中S为该首页上指向其余各个网址的超链接个数,户。为该首页 上所有的出链个数;CR=|l,其中P,为该首页下级的页面中,包含搜索领域关键词的页面数,尸 为该首页下包含的所有页面数。 〈1.4> 把OR值大于其阈值ORt (比如,0.7)并且CR值大于CRt其阈值(比如, 0.5)的网站做为种子存入数据库中,这些网址构成了这个领域的信息来源 集;通过上述方法,可以得到某个特定领域的信息来源集。需要提醒的是,互联网的变化 发展是很快的,所以这个集合也要注意更新。当然,如果距离上一次更新所经过的时间较短,则不更新也可;或者本领域信息来源 集的变化较小或者已有比较权威的信息来源集,则直接使用这些信息来源集即可,无需进 行上述步骤。 〈2〉抓取相关网站上的信息6得到相关领域的网站集后,按照以下步骤进行其信息内容的抓取 〈2.1〉 从数据库的站点列表中读取一条网站地址记录;〈2.2〉 抓取得到该地址的页面,存入数据库的网页信息表中,同时记录抓取时间等 相关信息;〈2.3〉 当该页面有内部链接时,得到该链接地址,返回〈2.2〉; 〈2.4〉 当页面已经是最后一层时,程序结束; 通过上述步骤,可以得到每天的该领域的互联网上的信息,为进一步数据处理提供了 素材,也为后面的用户对新颖词所暗示的事件的察看打下了基础。需要说明的是,本专利技术 方法要求用以上方法积累一段时间的历史数据。 〈3>通过信息熵计算当天的备选新颖词得到当天的所有网页本文档来自技高网
...

【技术保护点】
一种互联网新颖词监测方法,其特征在于,包括下列步骤: a)根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章; b)对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以权重最大的前a个词语 作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq; c)根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数 n=(freq-avg)/***,其中avg= *freq(i)/b,var=***/b,ceil表示上取整函数; d)根据新颖系数n确定新颖度θ,当某个备选新颖词的新颖度大于新颖度阈值θ↓[t]时,即认为该词语是当天的新颖词。

【技术特征摘要】

【专利技术属性】
技术研发人员:王超梁循
申请(专利权)人:北京大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1