基于文本挖掘和自然语言处理的地质报告文本可视化方法技术

技术编号：27006787 阅读：29 留言：0更新日期：2021-01-08 17:10

本发明专利技术提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法；包括首先，利用自然语言处理技术对地质报告进行数据预处理；其次，基于构建的停用词词库对文本中的停用词进行剔除；然后，统计相邻两个词之间共同出现的次数，并生成共现矩阵；最后，进行了词频统计、改进的TF‑IDF关键词提取等，并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明专利技术提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息，能迅速从可视化结果中获取关键信息，使繁杂的文本信息能以非常直观的形式进行展示。本发明专利技术所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本挖掘和自然语言处理的地质报告文本可视化方法
本专利技术涉及数据挖掘和自然语言处理领域，尤其涉及一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。
技术介绍
大数据时代背景下，数据的利用价值越来越受到研究者们的青睐。然而，海量的数据纷繁复杂，处理起来难度极大。如何在海量数据里面挖掘出更具有研究价值和意义的信息，是数据研究者们一直在攻克的难题。地质大数据作为大数据的典型代表，是互联网时代背景下大数据相关理论、技术及方法在地质领域中的应用与实践。地质研究属于数据密集型科学，当前的研究工作已经从定性转变到定量，从数据稀少型转变到数据密集型。面对海量的地质调查数据资料，需要进一步树立大数据思维、定量思维及获取“地质资源”和形成核心“地质数据知识”的新思维方式，以数据密集型工作方法为基础，进而实现地质数据高效便捷的集成与融合。地质大数据代表的是以地质调查、矿产勘查及科研工作中形成的各类成果，通常是以文本、音频、图表等多种数据形式存储，主要的数据来源包括全国地质资料馆和各级地质图书馆、全国矿产资源评价资料、中国地质调查数据库和相关地学文献数据库。当前，在地质调查过程中积累了大量的地质报告，每份报告都包含不同的地质主题，如区调、岩石、矿物或水文，这些报告的内容通常以不同的格式存储，如.doc、.pdf、.jpg、.GIFf和空间数据文件。此外，这些报告由大量的结构化数据和非结构化数据组成。结构化数据通常使用关系数据库或空间数据库存储和管理；然而，大量地质调查报告、工作记录等非结构化数据还未得到充分利用与挖掘。非结构化数...

【技术保护点】
1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：包括以下步骤：/nS101：获取研究区域的地质报告，并对所述地质报告进行预处理，得到预处理后的地质报告文本；/nS102：将所述预处理后的地质报告文本，分别加入地质文本词典和停用词词典后进行分词，得到分词处理后的地质报告文本；/nS103：将所述分词处理后的地质报告文本，分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取，得到词频统计结果和TF-IDF关键词提取结果；其中，TF-IDF关键词提取结果作为第一关键词提取结果；/nS104：将所述分词处理后的地质报告文本，利用改进的TF-IDF关键词提取技术进行关键词信息提取，得到第二关键词提取结果；/nS105：考虑到相邻词语间的相关性，统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数，并将统计结果转化为共现矩阵；/nS106：将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化，并利用所述共现矩阵实现语义相似性的度量，实现了地质文本信息的充分挖掘。/n

【技术特征摘要】
1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：包括以下步骤：
S101：获取研究区域的地质报告，并对所述地质报告进行预处理，得到预处理后的地质报告文本；
S102：将所述预处理后的地质报告文本，分别加入地质文本词典和停用词词典后进行分词，得到分词处理后的地质报告文本；
S103：将所述分词处理后的地质报告文本，分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取，得到词频统计结果和TF-IDF关键词提取结果；其中，TF-IDF关键词提取结果作为第一关键词提取结果；
S104：将所述分词处理后的地质报告文本，利用改进的TF-IDF关键词提取技术进行关键词信息提取，得到第二关键词提取结果；
S105：考虑到相邻词语间的相关性，统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数，并将统计结果转化为共现矩阵；
S106：将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化，并利用所述共现矩阵实现语义相似性的度量，实现了地质文本信息的充分挖掘。

2.如权利要求1所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S101中，预处理包括：
S201：实现地质报告文本格式的转换，将地质报告.pdf格式转化为.txt格式，并去除地质报告中的图件和表格内容；
S202：将文本内容进行剔除噪声的处理，包括公式的剔除和无关符号的剔除；所述无关符号包括：～，％和＜；
S203：将处理好的文本内容按行存储在.txt文本中，得到预处理后的地质报告文本。

3.如权利要求2所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：步骤S102具体包括：对所述预...

【专利技术属性】
技术研发人员：吴亮，王斌，邱芹军，周媛，李文佳，刘昊，马莹，李双江，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人