基于文本挖掘和自然语言处理的地质报告文本可视化方法技术

技术编号:27006787 阅读:29 留言:0更新日期:2021-01-08 17:10
本发明专利技术提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法;包括首先,利用自然语言处理技术对地质报告进行数据预处理;其次,基于构建的停用词词库对文本中的停用词进行剔除;然后,统计相邻两个词之间共同出现的次数,并生成共现矩阵;最后,进行了词频统计、改进的TF‑IDF关键词提取等,并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明专利技术提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息,能迅速从可视化结果中获取关键信息,使繁杂的文本信息能以非常直观的形式进行展示。本发明专利技术所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。

【技术实现步骤摘要】
基于文本挖掘和自然语言处理的地质报告文本可视化方法
本专利技术涉及数据挖掘和自然语言处理领域,尤其涉及一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。
技术介绍
大数据时代背景下,数据的利用价值越来越受到研究者们的青睐。然而,海量的数据纷繁复杂,处理起来难度极大。如何在海量数据里面挖掘出更具有研究价值和意义的信息,是数据研究者们一直在攻克的难题。地质大数据作为大数据的典型代表,是互联网时代背景下大数据相关理论、技术及方法在地质领域中的应用与实践。地质研究属于数据密集型科学,当前的研究工作已经从定性转变到定量,从数据稀少型转变到数据密集型。面对海量的地质调查数据资料,需要进一步树立大数据思维、定量思维及获取“地质资源”和形成核心“地质数据知识”的新思维方式,以数据密集型工作方法为基础,进而实现地质数据高效便捷的集成与融合。地质大数据代表的是以地质调查、矿产勘查及科研工作中形成的各类成果,通常是以文本、音频、图表等多种数据形式存储,主要的数据来源包括全国地质资料馆和各级地质图书馆、全国矿产资源评价资料、中国地质调查数据库和相关地学文献数据库。当前,在地质调查过程中积累了大量的地质报告,每份报告都包含不同的地质主题,如区调、岩石、矿物或水文,这些报告的内容通常以不同的格式存储,如.doc、.pdf、.jpg、.GIFf和空间数据文件。此外,这些报告由大量的结构化数据和非结构化数据组成。结构化数据通常使用关系数据库或空间数据库存储和管理;然而,大量地质调查报告、工作记录等非结构化数据还未得到充分利用与挖掘。非结构化数据包含多种类型和碎片化的信息,比结构化数据包含更丰富的信息,具有更大的潜在价值。如何挖掘地质报告非结构化文本隐含信息,使之直观地可视化展示成了重要的研究课题。地质报告文本信息的挖掘中,数据预处理是最重要的前提。其中,分词是预处理的关键。中文地质报告的分词有一定的难度,主要由于地质报告中命名实体众多,且不具备一定的规则。地质报告分词首先需要一份良好的分词词典,但目前符合要求的词典非常少。词典确定后,地质文本句子中可能含有很多词典中的词语,它们可能相互重叠,输出哪一个由规则决定。常用的规则有正向最长匹配、逆向最长匹配和双向最长匹配,它们都是基于完全切分过程。完全切分指的是,找出一段文本中的所有单词。正向最长匹配简单意义上来解释,就是越长的单词表达的意义越丰富,也即单词越长优先级越高。具体来说,就是在以某个下标为起点递增查词的过程中,优先输出更长的单词,这种规则被称为最长匹配算法。该下标的扫描顺序如果从前往后,则称为正向最长匹配,反之称为逆向最长匹配。而通常情况下,上述两种方法并不能完全解决问题,所以前人在融合两种匹配方法的特点后,提出了双向最长匹配。其规则如下:(1)同时执行正向和逆向最长匹配,若两者的词数不同,则返回词数更少的那一个;(2)否则,返回两者中单字更少的那一个。当单字也相同时,优先返回逆向最长匹配的结果。从地质报告文本中进行信息抽取是重要的研究方向和热点。信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。信息抽取当中一个重要的研究为关键词提取。顾名思义,关键词即提取文本中重要的单词,而不限于词语的新鲜程度。由简入繁的方法分别为词频、TF-IDF和TextRank。关键词通常在文章中反复出现,通过统计文章中每种词语的词频并排序,可以初步获取部分关键词,词频统计的流程一般是分词、停用词过滤、按词频取前n个。TF-IDF是信息检索中衡量一个词语重要程度的统计指标,被广泛用于Lucene、Solr、Elasticsearch等搜索引擎。综上,目前围绕地质报告文本的处理主要从信息抽取方面入手,从而进行下一步的工作,较少有研究者专门研究地质报告文本内容的可视化展示。本专利技术在前人研究的基础上,提出了一种基于文本挖掘和自然语言处理技术的地质报告文本可视化方法流程。该流程对工程报告类文本的可视化具有较高的适用性和参考价值。
技术实现思路
为了解决目前地质报告文本信息表达方法不具备视觉上的直观感受,文本信息处理和挖掘繁琐等技术问题,本专利技术提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,该方法分别从地质报告关键词提取、中心性分析等进行了可视化展示,对工程报告类文本的可视化具有较高的适用性和参考价值。本专利技术提供的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,具体包括如下步骤:S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。进一步地,步骤S101中,预处理包括:S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;S202:将文本内容进行剔除噪声的处理,包括公式的剔除和无关符号的剔除;所述无关符号包括:~,%和<;S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本。进一步地,步骤S102具体包括:对所述预处理后的地质报告文本,加入预先设计好的地质文本词典,通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词,并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出。进一步地,步骤S103具体包括:针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果:首先进行词频统计,通过统计每个词语在地质报告文本中出现的次数,获取地质报告文本关键词信息;然后,将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数,得到标准化的词频;同时,考虑到同一地区可能有多份相关内容的地质矿床报告文档,引入了逆文档频率,通过TF-IDF的关键词计算,排除地质文本内容长短和多份相关内容文档的影响,得到第一关键词提取结果。进一步地,步骤S104中,利用改进的TF-TDF技术进行关键词信息提取具体为:针对地质报告文本中专有名词词长的影响,对TF-IDF关键词提取技术进行了改进,即对S103中-第一关键词提取结果进行词长统计,并与TF-IDF的结果相加,本文档来自技高网
...

【技术保护点】
1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:包括以下步骤:/nS101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;/nS102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;/nS103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;/nS104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;/nS105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;/nS106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。/n

【技术特征摘要】
1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:包括以下步骤:
S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;
S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;
S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;
S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;
S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;
S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。


2.如权利要求1所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S101中,预处理包括:
S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;
S202:将文本内容进行剔除噪声的处理,包括公式的剔除和无关符号的剔除;所述无关符号包括:~,%和<;
S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本。


3.如权利要求2所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S102具体包括:对所述预...

【专利技术属性】
技术研发人员:吴亮王斌邱芹军周媛李文佳刘昊马莹李双江
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1