一种网络舆情地域相关度的计算方法技术

技术编号:8532869 阅读:226 留言:0更新日期:2013-04-04 15:53
本发明专利技术公开了一种网络舆情地域相关度的计算方法,该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程:A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重;B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;C、计算地区相似度的步骤;所述多层级地址融合的过程:D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递;E、融合多层级的相似度,重新计算地区相似度的步骤;F、进行地区排序的步骤。利用本发明专利技术,能够解决网络舆情与地域相关的识别问题,实现不同粒度需要的地域相关度计算需求。

【技术实现步骤摘要】

本专利技术涉及互联网和信息处理技术,尤其涉及。
技术介绍
随着互联网的发展,特别是互联网自媒体(微博)时代的到来,网络舆情信息的数量再一次暴增,由于网络舆情往往带有强烈的地域特性,因此需要将舆情信息按照一定的规则分地域整理。目前,地域识别方法一般依赖于单纯的地名分析来判断文本的地域属性,这样很难应对一些二义性的地名词,而且容易把一些特定的机构识别为地名标记,例如北 京大学,上海大学等。同时难以应对短文本的信息的按地域归类处理,特别是微博这类短文本的地域识别。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,解决网络舆情与地域相关的识别问题,实现不同粒度需要的地域相关度计算需求。为达到上述目的,本专利技术的技术方案是这样实现的,构建一包含全国性地名的词库,并消除词库的二义性;该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重;B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及,C、计算地区相似度的步骤;所述多层级地址融合的过程,包括D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递;E、融合多层级的相似度,重新计算地区相似度的步骤;以及,F、进行地区排序的步骤。其中,步骤A所述地址词权重Wp的计算公式如下Wp = WL(p);其中P为地址词,L(p)为所在的层级。所述步骤B中根据全局信息调整地址词权重Wp的计算公式如下Wp=Wp^F1 (t, S,O, c);其中=F1O为函数,t为根据地址词所处的标题或正文,s为段落,O为位置,c为地址词出现次数。所述步骤B中根据局部信息调整地址词权重Wp的计算公式如下Wp=Wp^F2 (context);其中,context为地址词上下文信息。所述步骤B中根据额外信息调整地址词权重Wp的计算公式如下Wp=Wp^F3(k, np);其中,k为根据地址词的先验知识,np为人口信息。步骤C所述计算地区相似度Si的公式如下本文档来自技高网...

【技术保护点】
一种网络舆情地域相关度的计算方法,构建一包含全国性地名的词库,并消除词库的二义性;其特征在于,该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括:A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重;B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及,C、计算地区相似度的步骤;所述多层级地址融合的过程,包括:D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递;E、融合多层级的相似度,重新计算地区相似度的步骤;以及,F、进行地区排序的步骤。

【技术特征摘要】
1.一种网络舆情地域相关度的计算方法,构建一包含全国性地名的词库,并消除词库的二义性;其特征在于,该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括 A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重; B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及, C、计算地区相似度的步骤; 所述多层级地址融合的过程,包括 D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递; E、融合多层级的相似度,重新计算地区相似度的步骤;以及, F、进行地区排序的步骤。2.根据权利要求1所述网络舆情地域相关度的计算方法,其特征在于,步骤A所述地址词权重Wp的计算公式如下Wp=Wl(P); 其中Φ为地址词,L(p)为所在的层级。3.根据权利要求1所述的网络舆情地域相关度的计算方法,其特征在于,所述步骤B中根据全局信息调整地址词权重Wp的计算公式如下 Wp=Wp^F1 (t, S,ο, c); 其中T1O为函数,t...

【专利技术属性】
技术研发人员:宫天翔王敏史佳佳杨之光杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1