【技术实现步骤摘要】
本专利申请属于网络信息
,特别是涉及一种舆情信息的地域识别方法和>J-U ρ α装直。
技术介绍
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一,网络环境下的舆情信息的主要来源有新闻评论、BBS、博客、聚合新闻。网络舆情表达快捷、信息多元、方式互动,具有传统媒体无法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有直接性、突发性、和偏差性的特点。近年来,网络舆情的影响越来越重要,众多重大舆情事件都是由网上开始爆发扩散,且大部分舆情信息都具有负面性。为了能够更准确有效的发现本地相关的舆情信息,及时对互联网不良信息进行疏导和管理,准确判定网络舆情信息所属的地区就显得尤为重要。目前有不少地域识别方法,但是一般都仅仅提取出地名词,并没有有效的针对舆情信息的主体地区进行识别,或者·仅仅通过词频来识别主体地区。在舆情信息中可能会出现多个地名,但舆情信息真正发生的地区只有一个。实际应用过程中,某地区优先关注的是本地相关的舆情信息,如南京的政府机构、企事业单位优先关心南京地区相关的舆情信息,现有的地域识别方式可能会检索到很多与南京关联不大的信息,还需要用户从大量的信息中手动筛选相关信息,降低了工作效率。
技术实现思路
本专利申请所要解决的技术问题是提供一种舆情信息的地域识别方法和装置,实现对舆情信息所属地域的精准判定,弥补现有地域识别方法无法准确定位的不足。为解决上述技术问题,本专利申请提供了一种舆情信息的地域识别方法和装置,包括文本预处理模块、地区属性词提取模块、地区权重计算模块 ...
【技术保护点】
一种舆情信息的地域识别方法,其特征在于,包括如下步骤:(1)对包含舆情信息的文本进行中文分词,提取分词信息;(2)加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性;(3)构建地区属性词信息集;(4)按照行政区域划分地区属性词信息;(5)计算各级地区属性词的权重及权重比;(6)根据权重阈值,判定舆情信息所属地域。
【技术特征摘要】
1.一种舆情信息的地域识别方法,其特征在于,包括如下步骤 (1)对包含舆情信息的文本进行中文分词,提取分词信息; (2)加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性; (3)构建地区属性词信息集; (4)按照行政区域划分地区属性词信息; (5)计算各级地区属性词的权重及权重比; (6)根据权重阈值,判定舆情信息所属地域。2.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于地区属性库包括地区词、代表建筑、地域文化特征词汇、地方性网站板块URL等信息。3.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于地区属性词信息集包括地区属性词、地区属性词在文本中的位置、地区属性词出现次数、上下文地区属性词以及间隔距离等信息。4.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于当某个地区属性词同时存在于多个行政区域中时,划分原则是首先,根据上下文的地区属性词判定...
【专利技术属性】
技术研发人员:史波良,李名臣,丁荟,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。