一种舆情信息的地域识别方法和装置制造方法及图纸

技术编号:8626169 阅读:156 留言:0更新日期:2013-04-25 23:19
本发明专利技术申请提供了一种舆情信息的地域识别方法和装置,首先对包含舆情信息的文本进行中文分词,提取分词信息;然后,加载带行政区域级别的地区属性库,对分词后的文本信息进行地区属性库匹配,获取地区属性;构建地区属性词信息集,并按照行政区域划分地区属性词信息,计算地区属性词权重;最后,根据权重阈值,滤除次要信息,判定舆情信息所属地域。通过以上方法,能够精确定位舆情信息所属地域。

【技术实现步骤摘要】

本专利申请属于网络信息
,特别是涉及一种舆情信息的地域识别方法和>J-U ρ α装直。
技术介绍
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一,网络环境下的舆情信息的主要来源有新闻评论、BBS、博客、聚合新闻。网络舆情表达快捷、信息多元、方式互动,具有传统媒体无法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有直接性、突发性、和偏差性的特点。近年来,网络舆情的影响越来越重要,众多重大舆情事件都是由网上开始爆发扩散,且大部分舆情信息都具有负面性。为了能够更准确有效的发现本地相关的舆情信息,及时对互联网不良信息进行疏导和管理,准确判定网络舆情信息所属的地区就显得尤为重要。目前有不少地域识别方法,但是一般都仅仅提取出地名词,并没有有效的针对舆情信息的主体地区进行识别,或者·仅仅通过词频来识别主体地区。在舆情信息中可能会出现多个地名,但舆情信息真正发生的地区只有一个。实际应用过程中,某地区优先关注的是本地相关的舆情信息,如南京的政府机构、企事业单位优先关心南京地区相关的舆情信息,现有的地域识别方式可能会检索到很多与南京关联不大的信息,还需要用户从大量的信息中手动筛选相关信息,降低了工作效率。
技术实现思路
本专利申请所要解决的技术问题是提供一种舆情信息的地域识别方法和装置,实现对舆情信息所属地域的精准判定,弥补现有地域识别方法无法准确定位的不足。为解决上述技术问题,本专利申请提供了一种舆情信息的地域识别方法和装置,包括文本预处理模块、地区属性词提取模块、地区权重计算模块和地区过滤模块。其中文本预处理模块对包含舆情信息的文本进行分词处理;地区属性词提取模块加载地区属性库,对分词后的文本信息进行地区属性库匹配,获取地区属性,构建地区属性词信息集,并按照行政区域划分地区属性词信息;地区权重计算模块计算各级地区属性词权重及权重比;地区过滤模块根据权重阈值,过滤次要信息。 本专利申请所述的一种舆情信息的地域识别方法利装置,其工作步骤如下(I)对包含舆情信息的文本进行中文分词,提取分词信息;(2)加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性;(3)构建地区属性词信息集;(4)按照行政区域划分地区属性词信息;(5)计算各级地区属性词的权重及权重比;(6)根据权重阈值,滤除次要信息,准确判定舆情信息所属地域。地区属性库是由大量经过长期调研、采集、优化而得到的信息组成的词库,包括地区词、代表建筑、地域文化词汇、地方性网站板块URL等信息,能够满足用户需求。地区属性词信息集包括地区属性词、地区属性词在文本中的位置、地区属性词出现次数、上下文地区属性词以及间隔距离等信息。影响权重的因素主要包括地区属性词出现位置和出现次数。本专利申请的有益效果在文本内容地区属性提取的基础上,研究地区属性的相关度,从海量数据中准确筛选出相关信息,滤除次要信息,提高了舆情信息地域识别的精确度,保证了其他应用数据推送的质量。能够帮助政府部门及时掌握社会舆论,在未知舆情信息的萌发阶段就对重点区域进行识别和有效疏导;帮助企业在第一时间掌握竞争对手在特定区域的市场动态,协助企业及时制定有效的竞争策略。附图说明图1为本专利申请的模块分布2为本专利申请的流程示意图具体实施例方式本专利申请的模块分布情况如图1所示,包括文本预处理模块、地区属性词提取模块、地区权重计算模块和地区过滤模块。本专利申请的舆情信息地域识别流程如图2所示,下面结合图2以及具体实施例对本专利申请进行详细描述。步骤1:对包含舆情信息的文本进行中文分词,提取分词信息,过滤掉无关信息。步骤2 :加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性。地区属性库是由大量经过长期调研、采集、优化而得到的信息组成的词库,包括地区词、代表建筑、地域文化特征词汇、地方性网站板块URL等信息。如埃菲尔铁塔是巴黎的代表建筑,故宫是北京的特色景点,都存在于地区属性库中,并和地区词对应存储。又如切糕是新疆特色食品,代表着新疆的饮食文化,出现“切糕”的帖子里应该和新疆有关。举例来说,一条舆情信息为《辽宁盘锦发生征地纠纷》,由山东济南某报社报导,正文部分出现了内蒙、广西、桂林等地名,那么济南某报社的报社名称是济南的一种地区属性,通过与地区属性库中的信息进行匹配,获取更多的地区属性信息。步骤3 :构建地区属性词信息集。地区属性词信息集包括地区属性词、地区属性词在文本中的位置、地区属性词出现次数、上下文地区属性词以及间隔距离等信息,地区属性词信息集格式如下[地区属性词(出现次数(出现地点),上下文地区属性词(间隔距离))]其中,间隔距离为地区属性词与上下文地区属性词之间间隔的字数。承步骤2中所述实施例,该舆情信息的标题部分出现了辽宁、盘锦,正文部分出现了内蒙、广西、桂林等地名,报社名称中有山东、济南,构建的地区属性词信息集如下[辽宁(2(标题、首段),盘锦(O));盘锦(7(标题、首段),辽宁(O));山东(l(iE文),济南(O));济南(1(正文),辽宁(O));内蒙古(1(正文),);广西(1(正文),桂林(O));桂林(1(正文),广西(O))]步骤4 :按照行政区域(如省、市、区、县等)划分地区属性词信息。当某个地区属性词存在于多个行政区域中时,根据上下文的地区属性词判定属于哪个行政区域;如上下文无相关属性词,再根据所属网站板块URL等判定是否属于某一行政区域。如仍无法判定,则在多个行政区域中均保留该地区属性词。在本实施例中,按照行政区划分析地区属性词信息后形成如下数据结构本文档来自技高网...

【技术保护点】
一种舆情信息的地域识别方法,其特征在于,包括如下步骤:(1)对包含舆情信息的文本进行中文分词,提取分词信息;(2)加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性;(3)构建地区属性词信息集;(4)按照行政区域划分地区属性词信息;(5)计算各级地区属性词的权重及权重比;(6)根据权重阈值,判定舆情信息所属地域。

【技术特征摘要】
1.一种舆情信息的地域识别方法,其特征在于,包括如下步骤 (1)对包含舆情信息的文本进行中文分词,提取分词信息; (2)加载带行政区域级别的地区属性库,对分词后的舆情信息进行地区属性库匹配,获取地区属性; (3)构建地区属性词信息集; (4)按照行政区域划分地区属性词信息; (5)计算各级地区属性词的权重及权重比; (6)根据权重阈值,判定舆情信息所属地域。2.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于地区属性库包括地区词、代表建筑、地域文化特征词汇、地方性网站板块URL等信息。3.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于地区属性词信息集包括地区属性词、地区属性词在文本中的位置、地区属性词出现次数、上下文地区属性词以及间隔距离等信息。4.如权利要求1所述的一种舆情信息的地域识别方法,其特征在于当某个地区属性词同时存在于多个行政区域中时,划分原则是首先,根据上下文的地区属性词判定...

【专利技术属性】
技术研发人员:史波良李名臣丁荟
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1