【技术实现步骤摘要】
本专利技术涉及互联网和信息处理技术,尤其涉及。
技术介绍
随着互联网的发展,特别是互联网自媒体(微博)时代的到来,网络舆情信息的数量再一次暴增,由于网络舆情往往带有强烈的地域特性,因此需要将舆情信息按照一定的规则分地域整理。目前,地域识别方法一般依赖于单纯的地名分析来判断文本的地域属性,这样很难应对一些二义性的地名词,而且容易把一些特定的机构识别为地名标记,例如北 京大学,上海大学等。同时难以应对短文本的信息的按地域归类处理,特别是微博这类短文本的地域识别。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供,解决网络舆情与地域相关的识别问题,实现不同粒度需要的地域相关度计算需求。为达到上述目的,本专利技术的技术方案是这样实现的,构建一包含全国性地名的词库,并消除词库的二义性;该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重;B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及,C、计算地区相似度的步骤;所述多层级地址融合的过程,包括D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递;E、融合多层级的相似度,重新计算地区相似度的步骤;以及,F、进行地区排序的步骤。其中,步骤A所述地址词权重Wp的计算公式如下Wp = WL(p);其中P为地址词,L(p)为所在的层级。所述步骤B中根据全局信息调整地址词权重Wp的计算公式如下Wp=Wp^F1 (t, S,O, c);其中 ...
【技术保护点】
一种网络舆情地域相关度的计算方法,构建一包含全国性地名的词库,并消除词库的二义性;其特征在于,该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括:A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重;B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及,C、计算地区相似度的步骤;所述多层级地址融合的过程,包括:D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递;E、融合多层级的相似度,重新计算地区相似度的步骤;以及,F、进行地区排序的步骤。
【技术特征摘要】
1.一种网络舆情地域相关度的计算方法,构建一包含全国性地名的词库,并消除词库的二义性;其特征在于,该方法包括多层次相似度计算的过程及多层级地址融合的过程;所述多层次相似度计算的过程,包括 A、初始化不同层级的地址词权重,针对不同层级的地址词设定不同的初始权重; B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤;以及, C、计算地区相似度的步骤; 所述多层级地址融合的过程,包括 D、执行自底向上的层级相似度的传递步骤,以实现低层级地区的相似度向上层级地区的传递; E、融合多层级的相似度,重新计算地区相似度的步骤;以及, F、进行地区排序的步骤。2.根据权利要求1所述网络舆情地域相关度的计算方法,其特征在于,步骤A所述地址词权重Wp的计算公式如下Wp=Wl(P); 其中Φ为地址词,L(p)为所在的层级。3.根据权利要求1所述的网络舆情地域相关度的计算方法,其特征在于,所述步骤B中根据全局信息调整地址词权重Wp的计算公式如下 Wp=Wp^F1 (t, S,ο, c); 其中T1O为函数,t...
【专利技术属性】
技术研发人员:宫天翔,王敏,史佳佳,杨之光,杨青,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。