基于拓扑数据分析增强的灾情地理文本分类方法技术

技术编号:37443738 阅读:8 留言:0更新日期:2023-05-06 09:15
本发明专利技术属于地理空间信息处理技术领域,具体涉及一种基于拓扑数据分析增强的灾情地理文本分类方法,对原始数据进行收集得到相关的地理灾情文本数据,然后人工标注参考分类文本数据类别,之后通过python中的jieba库进行分词以及使用Word2Vec库将文本转为向量,并对得到的向量进行数据处理:对词向量这块,采用拓扑数据分析方法进行处理。使用神经网络等机器学习模型进行训练,获得训练模型,用以预测目标文本的类别。本发明专利技术创新性引入拓扑数据分析方法,改进神经网络等传统机器学习方法,提出了一种基于拓扑数据分析增强的灾情地理文本分类方法。分类方法。分类方法。

【技术实现步骤摘要】
基于拓扑数据分析增强的灾情地理文本分类方法


[0001]本专利技术属于地理空间信息处理
,具体涉及一种基于拓扑数据分析增强的灾情地理文本分类方法。

技术介绍

[0002]拓扑数据分析方法是从点云获取有关其拓扑特征的信息,如连通性、环、空洞和其他更高维度的类似物,这些信息通过持久性图或其他转换进行汇总。拓扑数据分析主要有两个方向:持续同调和映射。
[0003]其中,持续同调通过构造数据点云的单形复形来提取拓扑特征。n

单形作为一个简单复形的构建块,通过逐阶段连接数据点,从而产生原始数据结构中看不到的连接结构。n

单形被定义为n+1个仿射独立点的凸包。几何上,对于0≤n≤3,n

单形分别表示顶点、边、三角形和四面体。这些单形的组合产生了一个单纯复形S,它提供了数据结构的粗略近似。Word2Vec模型是简单化的浅而双层的神经网络,用来训练以重新建构语言学词文本。在Word2vec中词袋模型假设下,词的先后顺序是不影响模型结果的。神经网络模型是基于keras类库在Python语言中开发的。
[0004]传统的神经网络等传统机器学习方法存在不足之处,不能高效地实现灾情地理文本分类。

技术实现思路

[0005]本专利技术的目的在于克服传统技术中存在的上述问题,提供一种基于拓扑数据分析增强的灾情地理文本分类方法。
[0006]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:
[0007]本专利技术提供一种基于拓扑数据分析增强的灾情地理文本分类方法,包括以下步骤:
[0008]S1、目标数据获取,对原始数据进行筛选,得到相关地理文本;
[0009]S2、对文本数据进行人工标注分类;
[0010]S3、对文本数据源进行分词;
[0011]S4、对分词后的文本数据进行向量化;
[0012]S5、对向量化的文本数据使用拓扑数据分析进行处理;
[0013]S6、神经网络模型构建、预测和结果分析。
[0014]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S1中,采集带有地理位置的地理灾情文本,进行自然语言相关处理分析,并对收集内容进行筛选,去除不相关的文本内容;以新浪微博为例,采用特定自然灾害微博文本。
[0015]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S2中,对步骤S1收集到的文本数据进行人工标注分类,以便后续能够进行监督学习。
[0016]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S3中,
通过Python的jieba库将数据的文本信息进行分词,去除文本中的无用信息,以便自然语言算法对地理灾情文本处理。
[0017]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S4中,使用Python的word2vec库对分词后的文本数据进行向量化。
[0018]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S5中,对步骤S4获取的词向量进行拓扑数据分析处理,获取词向量的持久性图并定义持久性图的向量表示,利用持久性图的向量表示获得机器学习特征。
[0019]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S6中,神经网络模型构建的操作为:神经网络算法参考人的神经元原理,在很多神经元基础上构建神经网络模型,每个神经元可看作一个个学习单元;这些神经元采纳一定的特征作为输入,根据自身的模型得到输出;对于普通特征难以满足预测的需要,需要通过复杂的组合得到一系列更为强大的新特征,从而完成回归或分类问题;将拓扑数据分析加入神经网络模型当中,能够发现不同文本向量之间数据形状的相关性。
[0020]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S6中,神经网络模型预测的操作为:将处理好的数据集放入结合拓扑数据分析的文本分类模型进行训练,并对训练结果进行测试,将数据集划分为训练集和测试集,其中,通过训练集对模型进行训练,之后通过测试集测试模型的训练成果。
[0021]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,训练集与测试集之比为8:2,即将数据集中的百分之八十作为训练集,百分之二十作为测试集。
[0022]进一步地,如上所述基于拓扑数据分析增强的灾情地理文本分类方法,步骤S6中,结果分析的操作为:根据多种流行的统计方法,选择使用准确度作为模型效果的参考,对使用所提出的方法进行预测的性能进行评估;通过对比普通文本分类神经网络模型的和结合拓扑数据分析的文本分类模型的训练结果进行评价。
[0023]本专利技术的有益效果是:
[0024]本专利技术创新性引入拓扑数据分析方法,改进神经网络等传统机器学习方法,提出了一种基于拓扑数据分析增强的灾情地理文本分类方法;本专利技术对原始数据进行收集得到相关的地理灾情文本数据,然后人工标注参考分类文本数据类别,之后通过python中的jieba库进行分词以及使用Word2Vec库将文本转为向量,并对得到的向量进行数据处理:对词向量这块,采用拓扑数据分析方法进行处理。使用神经网络等机器学习模型进行训练,获得训练模型,用以预测目标文本的类别。
[0025]当然,实施本专利技术的任一产品并不一定需要同时达到以上的所有优点。
附图说明
[0026]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1为本专利技术的流程示意图。
[0028]图2为本专利技术的数据集示意图;
[0029]图3为本专利技术的数据集分类示意图;
[0030]图4为本专利技术的文本转向量部分数据示意图;
[0031]图5为本专利技术的拓扑数据分析处理后的数据可视化示意图;
[0032]图6为本专利技术中拓扑数据分析+神经网络与神经网络文本分类结果对比示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0034]本实施例提供一种基于拓扑数据分析增强的灾情地理文本分类方法,对目标文本数据进行分类处理,然后进行向量化并进行拓扑数据分析,最后使用神经网络进行分类训练。
[0035]本实施例的流程如图1所示,具体包括以下步骤:
[0036]一、原始数据获取
[0037]利用自定义的软件系统获取的带有地理标签的合肥市主城区微博数据和“山竹”无地理标签的台风微博数据,数据集如图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:包括以下步骤:S1、目标数据获取,对原始数据进行筛选,得到相关地理文本;S2、对文本数据进行人工标注分类;S3、对文本数据源进行分词;S4、对分词后的文本数据进行向量化;S5、对向量化的文本数据使用拓扑数据分析进行处理;S6、神经网络模型构建、预测和结果分析。2.根据权利要求1中所述的基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:步骤S1中,采集带有地理位置的地理灾情文本,进行自然语言相关处理分析,并对收集内容进行筛选,去除不相关的文本内容。3.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:步骤S2中,对步骤S1收集到的文本数据进行人工标注分类,以便后续能够进行监督学习。4.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:步骤S3中,通过Python的jieba库将数据的文本信息进行分词,去除文本中的无用信息,以便自然语言算法对地理灾情文本处理。5.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:步骤S4中,使用Python的word2vec库对分词后的文本数据进行向量化。6.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法,其特征在于:步骤S5中,对步骤S4获取的词向量进行拓扑数据分析处理,获取词向量的持久性图并定义持久性图的向量表示,利用持久性图的向量表示...

【专利技术属性】
技术研发人员:李军利周成张韩涂有军王雅楠邵婷
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1