一种智慧城市文本大数据挖掘与可视化的方法及电子设备技术

技术编号:34827927 阅读:20 留言:0更新日期:2022-09-08 07:19
本发明专利技术涉及计算机应用技术领域,具体涉及一种智慧城市文本大数据挖掘与可视化的方法及电子设备,本发明专利技术使用R/Python编写网络爬虫程序获取以智慧城市为主题的各类研究文献及媒体关于智慧城市的报道数据;采用面向词向量词汇处理方法,将智慧城市专业词汇和基础语料文档,通过上下文训练得到词汇的向量化表示;通过发现计算词汇的相似度、寻找相似词和词汇的快速检索,生成智慧城市专业数据库和智慧城市语料库;对词汇进行热点分析、共词分析、相关性分析和主题分析的深度数据挖掘。实现了智慧城市热点分析、空间分析、现状、预测发展趋势、指出当前智慧城市建设中出现的问题,弥补了传统统计分析方法的缺陷,为智慧城市建设与发展提供决策支持。提供决策支持。提供决策支持。

【技术实现步骤摘要】
一种智慧城市文本大数据挖掘与可视化的方法及电子设备


[0001]本专利技术涉及计算机应用
,具体涉及一种智慧城市文本大数据挖掘与可视化的方法及电子设备。

技术介绍

[0002]在大数据时代,与智慧城市的研究文献、新闻报道等海量文本信息呈现快速增长的状态,作为智慧城市的重要信息载体,其常包含大量的专业术语和词汇,并具有独特的语言模型,呈现出文本大数据的“噪声”信息大、类型多样、处理难度较大(尤其是中文文本)等特点。
[0003]国内学者对智慧城市的关注点主要集中在智慧城市的应用、研究热点、研究现状等领域,数据源上主要采用统计年鉴、经济社会数据、微博、新闻报道等媒体信息,采用专业文献展开研究的较少;研究方法上多采用传统的统计分析方法,深入的挖掘分析研究较少,尚无结合文本挖掘与空间可视化方式的研究,难以真实反映出智慧城市研究的进展、趋势等内在信息,且尚无对智慧城市专业词汇进行分析和研究。

技术实现思路

[0004]针对现有技术的不足,本专利技术公开了一种智慧城市文本大数据挖掘与可视化的方法及电子设备,通过引入面向词向量的词汇处理方法、共词与相关性方法与主题分析方法,旨在实现快速构建智慧城市语料库和提取智慧城市专业词库,实现了智慧城市热点分析、空间分析、现状、预测发展趋势、指出当前智慧城市建设中出现的问题,弥补了传统统计分析方法的缺陷,为智慧城市建设与发展提供决策支持。
[0005]本专利技术通过以下技术方案予以实现:
[0006]第一方面,本专利技术公开了一种智慧城市文本大数据挖掘与可视化的方法,包括以下步骤:
[0007]S1使用R/Python编写网络爬虫程序获取以智慧城市为主题的各类研究文献及媒体关于智慧城市的报道数据;
[0008]S2采用面向词向量词汇处理方法,将智慧城市专业词汇和基础语料文档,通过上下文训练得到词汇的向量化表示;
[0009]S3通过发现计算词汇的相似度、寻找相似词和词汇的快速检索,生成智慧城市专业数据库和智慧城市语料库;
[0010]S4按行政区划将地名信息归类,统计出现的频次并汇总;
[0011]S5对词汇进行热点分析、共词分析、相关性分析和主题分析的深度数据挖掘;
[0012]S6利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理,实现可视化。
[0013]更进一步的,所述方法中,对于研究文献,专业语料库来自于文献的关键词,采用面向词向量词汇处理方法,训练文本大数据,对数据进行清洗、去重,提取出要素数据库和
地名信息。
[0014]更进一步的,所述方法中,对于媒体的新闻报道,采用面向词向量词汇处理方法,训练文本大数据,对数据进行清洗、去重,通过提取出新闻报道题名中的关键词信息,去重得到专业语料库;根据分词后的词性信息提取出题名中包含的地名信息;将分词后的题名组成要素数据库。
[0015]更进一步的,所述方法中,对于两种数据的组合,首先提取出研究文献中的关键词,作为面向词向量词汇处理方法的训练数据,进而训练文本大数据,提取出新闻报道题名中的关键词信息,与研究文献中的关键词进行去重处理,得到专业语料库;根据分词后的词性信息提取出题名中包含的地名信息;将分词后的题名组成要素数据库。
[0016]更进一步的,所述方法中,热点分析将智慧城市要素数据库、专业词数据库的词汇,计算横、纵两个不同维度的词频值,得到基准线,并分析横、纵坐标两个维度出现的词汇,从技术手段、应用范围,研究方法进行热点分析。
[0017]更进一步的,所述方法中,共词分析按照计算公式,计算专业语料库、要素数据库词汇的共词强度,使用R语言的ggplot2等功能包可视化共词强度,用线条的粗细表示共词的强弱。
[0018]更进一步的,所述方法中,相关性分析计算并可视化词汇的相关性,用于挖掘智慧城市各关键词汇的内部结构情况的知识图谱,以核心层、拓展层和外围层三种可视化表达方式,用于挖掘和揭示智慧城市的核心内容与研究热点、研究趋势,以及新兴研究方向。
[0019]更进一步的,所述方法中,主题分析将智慧城市关键词与智慧城市文本大数据进行关联,挖掘当前智慧城市研究领域和局限构建专业语料库、要素数据库的文档主题矩阵,计算主题分析,并可视化。
[0020]更进一步的,所述方法中,空间分析按照分词的结果,自动提取出与地名或位置相关的词汇,以空间化的方式展示出智慧城市建设与研究的空间差异性分布。
[0021]第二方面,本专利技术公开了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行第一方面所述的智慧城市文本大数据挖掘与可视化的方法。
[0022]本专利技术的有益效果为:
[0023]本专利技术通过引入面向词向量的词汇处理方法、共词与相关性方法与主题分析方法,实现了快速构建智慧城市语料库和提取智慧城市专业词库,并对文本大数据的进行深度挖掘,实现了智慧城市热点分析、空间分析、现状、预测发展趋势、指出当前智慧城市建设中出现的问题,弥补了传统统计分析方法的缺陷,为智慧城市建设与发展提供决策支持。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是文本大数据挖掘与可视化的方法流程图;
[0026]图2是本专利技术技术总体技术流程图;
[0027]图3是本专利技术实施例词汇处理流程图;
[0028]图4是本专利技术实施例热点分析图;
[0029]图5是本专利技术实施例词汇云图;
[0030]图6是本专利技术实施例智慧城市建设与研究的空间化分布图;
[0031]图7是本专利技术实施例专业词汇共词强度分析图;
[0032]图8是本专利技术实施例题名共词强度分析图;
[0033]图9是本专利技术实施例指定词汇的共词分析图;
[0034]图10是本专利技术实施例专业词汇相关性分析知识图谱;
[0035]图11是本专利技术实施例定制词汇的相关性分析知识图谱;
[0036]图12是本专利技术实施例主题分析结果图。
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]实施例1
[0039]参阅图1所示,本实施例公开一种智慧城市文本大数据挖掘与可视化的方法,包括以下步骤:
[0040]S1使用R/Python编写网络爬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智慧城市文本大数据挖掘与可视化的方法,其特征在于,包括以下步骤:S1使用R/Python编写网络爬虫程序获取以智慧城市为主题的各类研究文献及媒体关于智慧城市的报道数据;S2采用面向词向量词汇处理方法,将智慧城市专业词汇和基础语料文档,通过上下文训练得到词汇的向量化表示;S3通过发现计算词汇的相似度、寻找相似词和词汇的快速检索,生成智慧城市专业数据库和智慧城市语料库;S4按行政区划将地名信息归类,统计出现的频次并汇总;S5对词汇进行热点分析、共词分析、相关性分析和主题分析的深度数据挖掘;S6利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理,实现可视化。2.根据权利要求1所述的智慧城市文本大数据挖掘与可视化的方法,其特征在于,所述方法中,对于研究文献,专业语料库来自于文献的关键词,采用面向词向量词汇处理方法,训练文本大数据,对数据进行清洗、去重,提取出要素数据库和地名信息。3.根据权利要求1所述的智慧城市文本大数据挖掘与可视化的方法,其特征在于,所述方法中,对于媒体的新闻报道,采用面向词向量词汇处理方法,训练文本大数据,对数据进行清洗、去重,通过提取出新闻报道题名中的关键词信息,去重得到专业语料库;根据分词后的词性信息提取出题名中包含的地名信息;将分词后的题名组成要素数据库。4.根据权利要求1所述的智慧城市文本大数据挖掘与可视化的方法,其特征在于,所述方法中,对于两种数据的组合,首先提取出研究文献中的关键词,作为面向词向量词汇处理方法的训练数据,进而训练文本大数据,提取出新闻报道题名中的关键词信息,与研究文献中的关键词进行去重处理,得到专业语料库;根据分词后的词性信息提取出题名中包含的地名信息;...

【专利技术属性】
技术研发人员:王勇饶加旺周松邢策梅周秀华陶金梅夏苏琼
申请(专利权)人:江苏省测绘工程院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1