基于拓扑数据分析增强的灾情地理文本分类方法技术

技术编号：37443738 阅读：8 留言：0更新日期：2023-05-06 09:15

本发明专利技术属于地理空间信息处理技术领域，具体涉及一种基于拓扑数据分析增强的灾情地理文本分类方法，对原始数据进行收集得到相关的地理灾情文本数据，然后人工标注参考分类文本数据类别，之后通过python中的jieba库进行分词以及使用Word2Vec库将文本转为向量，并对得到的向量进行数据处理：对词向量这块，采用拓扑数据分析方法进行处理。使用神经网络等机器学习模型进行训练，获得训练模型，用以预测目标文本的类别。本发明专利技术创新性引入拓扑数据分析方法，改进神经网络等传统机器学习方法，提出了一种基于拓扑数据分析增强的灾情地理文本分类方法。分类方法。分类方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于拓扑数据分析增强的灾情地理文本分类方法

[0001]本专利技术属于地理空间信息处理
，具体涉及一种基于拓扑数据分析增强的灾情地理文本分类方法。

技术介绍

[0002]拓扑数据分析方法是从点云获取有关其拓扑特征的信息，如连通性、环、空洞和其他更高维度的类似物，这些信息通过持久性图或其他转换进行汇总。拓扑数据分析主要有两个方向：持续同调和映射。
[0003]其中，持续同调通过构造数据点云的单形复形来提取拓扑特征。n
‑
单形作为一个简单复形的构建块，通过逐阶段连接数据点，从而产生原始数据结构中看不到的连接结构。n
‑
单形被定义为n+1个仿射独立点的凸包。几何上，对于0≤n≤3，n
‑
单形分别表示顶点、边、三角形和四面体。这些单形的组合产生了一个单纯复形S，它提供了数据结构的粗略近似。Word2Vec模型是简单化的浅而双层的神经网络，用来训练以重新建构语言学词文本。在Word2vec中词袋模型假设下，词的先后顺序是不影响模型结果的。神经网络模型是基于keras类库在Python语言中开发的。
[0004]传统的神经网络等传统机器学习方法存在不足之处，不能高效地实现灾情地理文本分类。

技术实现思路

[0005]本专利技术的目的在于克服传统技术中存在的上述问题，提供一种基于拓扑数据分析增强的灾情地理文本分类方法。
[0006]为实现上述技术目的，达到上述技术效果，本专利技术是通过以下技术方案实现：
[0007]本专利技...

【技术保护点】

【技术特征摘要】
1.基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：包括以下步骤：S1、目标数据获取，对原始数据进行筛选，得到相关地理文本；S2、对文本数据进行人工标注分类；S3、对文本数据源进行分词；S4、对分词后的文本数据进行向量化；S5、对向量化的文本数据使用拓扑数据分析进行处理；S6、神经网络模型构建、预测和结果分析。2.根据权利要求1中所述的基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：步骤S1中，采集带有地理位置的地理灾情文本，进行自然语言相关处理分析，并对收集内容进行筛选，去除不相关的文本内容。3.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：步骤S2中，对步骤S1收集到的文本数据进行人工标注分类，以便后续能够进行监督学习。4.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：步骤S3中，通过Python的jieba库将数据的文本信息进行分词，去除文本中的无用信息，以便自然语言算法对地理灾情文本处理。5.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：步骤S4中，使用Python的word2vec库对分词后的文本数据进行向量化。6.根据权利要求1所述的基于拓扑数据分析增强的灾情地理文本分类方法，其特征在于：步骤S5中，对步骤S4获取的词向量进行拓扑数据分析处理，获取词向量的持久性图并定义持久性图的向量表示，利用持久性图的向量表示...

【专利技术属性】
技术研发人员：李军利，周成，张韩，涂有军，王雅楠，邵婷，
申请(专利权)人：安徽农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人