一种基于地域的话题挖掘及话题走势分析方法及系统技术方案

技术编号:11307852 阅读:71 留言:0更新日期:2015-04-16 03:30
本发明专利技术涉及一种基于地域的话题挖掘及话题走势分析方法及系统,话题挖掘包括:按照地域对预定时间段内的网络文章进行分类;抽取每个类的类关键词;针对每个类过滤掉不符合阈值要求的类关键词;对每个类剩余的类关键词进行聚类;判断每个类相关文章数量是否达到预设阈值,如果是则由剩余的类关键词构成一个话题;话题走势分析包括:对待分析话题的帖子按时间排序;分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;通过话题走势图用训练后的话题消亡模块判断该话题是否消亡。本发明专利技术采用基于话题挖掘及走势分析机制,自动挖掘出热门话题,过滤掉大量无关的信息,分析话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于地域的话题挖掘及话题走势分析方法及系统,话题挖掘包括:按照地域对预定时间段内的网络文章进行分类;抽取每个类的类关键词;针对每个类过滤掉不符合阈值要求的类关键词;对每个类剩余的类关键词进行聚类;判断每个类相关文章数量是否达到预设阈值,如果是则由剩余的类关键词构成一个话题;话题走势分析包括:对待分析话题的帖子按时间排序;分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;通过话题走势图用训练后的话题消亡模块判断该话题是否消亡。本专利技术采用基于话题挖掘及走势分析机制,自动挖掘出热门话题,过滤掉大量无关的信息,分析话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。【专利说明】一种基于地域的话题挖掘及话题走势分析方法及系统
本专利技术涉及自然语言处理领域,尤其涉及一种基于地域的话题挖掘及话题走势分析方法及系统。
技术介绍
随着大数据时代的来临,如何从互联网快速获取热门的信息是衡量网络时代进步的一个重要标志。掌握热门信息意味着占据主动,及时挖掘和分析热门信息不仅节约大量阅读总结的时间,在为正确及时的决策奠定了基础。这无论对于普通网民,还是国家安全、政府运作及商业活动都有着十分重要的意义。 首先,网民上网的时间并不是无限的,有时并没有时间浏览大量的网页来获取热门信息,特别是基于某个地区的热门信息,这时候一个好的能够快速让网民知道了解最近热门信息及其走势的工具可以节省网民大量的时间。 其次,国家安全是国家的头等大事,而信息安全也是国家安全的一部分。及时掌控和处理热门信息特别涉及到热门敏感信息是维持国家安全、维护社会稳定的一个前提条件。 再次,政府部门作为服务人民的职能部门,必须要及时了解民意,准确体察民情;同时又要时刻掌握有关大量网民特别是某个地域范围内的热门话题的产生背景和发展趋势,力求避免负面话题的发生或尽量减少负面话题的影响。另外,对于商业部门来说,及时掌握产品的市场反馈、了解竞争对手的有关动态是企业保持竞争活力、不断改善产品性能的重要手段,一定程度上决定了企业的成败。 目前,互联网上话题的获取大多是通过相关网站获得的。例如如果要掌握有关云南的话题,就必须去云南相关的主页浏览。但这种方式存在以下几个问题: 第一,很多时候这些主页的话题并没更新,浏览者根本不知道那些话题最新。 第二,浏览者也不知道话题热门情况及其走势。 第三,浏览者不知道话题开始时间及最近发展情况。 传统的浏览话题的方法一般是去门户网站浏览,然而,这些门户网站的信息太过冗余,用户根本无法了解相关事情的热门程度以及其走势,有多少用户关心这个话题。例如:用户需要了解当前热门的某官员腐败话题的讨论情况及其走势,但这些网站根本不能提供给用户这些信息。 为此,我们提出话题挖掘与走势分析的策略。直观上,话题是一种概念结构,话题有许多部分组成,它不仅仅只是几段文字就能形容的,它还包括文字之外的许多部分,例如话题开始时间、话题热门情况,话题走势等。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于地域的话题挖掘及话题走势分析方法及系统。 本专利技术解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及话题走势分析方法,话题挖掘包括如下步骤: 步骤Al,获取网络文章并存入数据库; 步骤A2,按照地域对预定时间段内的网络文章进行分类; 步骤A3,抽取每个类的类关键词; 步骤A4,针对每个类过滤掉不符合阈值要求的类关键词; 步骤A5,对每个类过滤后剩余的类关键词进行聚类; 步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。 本专利技术的有益效果是:本专利技术采用基于话题挖掘及走势分析机制,能够自动挖掘出用户关注的热门话题,过滤掉大量无关的信息,并能够分析这些话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。 在上述技术方案的基础上,本专利技术还可以做如下改进。 进一步,步骤Al中利用自适应网络爬虫获取网络文章,存入数据库便于后续数据分析。 进一步,所述话题的构成包括地域、话题关键词、开始时间、相关帖子数、相关趋势和消亡与否。 采用上述进一步方案的有益效果:使得话题比单篇文章更有灵性,也更能生动形象地描述某个地域某个时间段所发生的事情,对某个地域某个时间段的事件分析和掌控有许多帮助。 进一步,话题走势分析包括如下步骤: 步骤BI,对待分析话题的帖子按时间排序; 步骤B2,分析话题从开始产生到当前时刻的帖子走势,生成话题走势图; 步骤B3,通过话题走势图用训练后的话题消亡模块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再更新。 本专利技术解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及话题走势分析系统,包括文章获取模块、文章分类模块、类关键词抽取模块、类关键词过滤模块、类关键词聚类模块和话题形成模块; 所述文章获取模块,其用于获取网络文章并存入数据库; 所述文章分类模块,其用于按照地域对预定时间段内的文章进行分类; 所述类关键词抽取模块,其用于抽取每个类的类关键词; 所述类关键词过滤模块,其用于针对每个类过滤掉不符合阈值要求的类关键词; 所述关键词聚类模块,其用于对每个类过滤后剩余的类关键词进行聚类; 所述话题形成模块,其用于判断每个类相关网络文章数量是否达到预设阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。 在上述技术方案的基础上,本专利技术还可以做如下改进。 进一步,所述文章获取模块利用自适应网络爬虫获取网络文章,存入数据库便于后续数据分析。 进一步,所述话题的构成包括地域、话题关键词、开始时间、相关帖子数、相关趋势和消亡与否。 进一步,上述系统还包括帖子归类模块、话题走势分析模块和话题走势总结模块; 所述帖子归类模块,其用于对话题的帖子按时间归类; 所述话题走势分析模块,其用于分析话题从开始产生到当前时刻的帖子走势,生成话题走势图; 所述话题走势总结模块,其用于通过话题走势图用训练后的话题消亡模块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再更新。 【专利附图】【附图说明】 图1为本专利技术所述基于地域的话题挖掘步骤流程图; 图2为本专利技术所述基于地域的话题走势分析步骤流程图; 图3为本专利技术一种基于地域的话题挖掘及话题走势分析系统框图; 图4是抽取的关于丽江市的话题; 图5是抽取的关于昆明市公租房的话题; 图6是昆明市公租房话题文章列表。 附图中,各标号所代表的部件列表如下: 1、文章获取模块,2、文章分类模块,3、类关键词抽取模块,4、类关键词过滤模块,5、类关键词聚类模块,6、话题形成模块,7、帖子归类模块,8、话题走势分析模块,9、话题走势总结模块。 【具体实施方式】 以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。 如图1所示,一种基于地域的话题挖掘及话题走势分析方法,话题挖掘包括如下步骤: 步骤Al,获取网络文章并存入数据库; 步骤A2,按照地域对预定时间段内的网络本文档来自技高网
...

【技术保护点】
一种基于地域的话题挖掘及话题走势分析方法,其特征在于,话题挖掘包括如下步骤:步骤A1,获取网络文章并存入数据库;步骤A2,按照地域对预定时间段内的网络文章进行分类;步骤A3,抽取每个类的类关键词;步骤A4,针对每个类过滤掉不符合阈值要求的类关键词;步骤A5,对每个类过滤后剩余的类关键词进行聚类;步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。

【技术特征摘要】

【专利技术属性】
技术研发人员:姬东鸿程飞白旭
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1