一种基于深度学习的核电厂多格式文件结构化方法及系统技术方案

技术编号:34905541 阅读:74 留言:0更新日期:2022-09-15 06:50
本发明专利技术公开了一种对核电厂的多格式文件的进行结构化处理的方法及系统,包括以下步骤:从核电厂存储文件的服务器上获取需要进行结构化的文件,构成文件集合D;利用文件模型内容提取模块,遍历集合D中所有的文件,根据文件的后缀名选择合适的处理方式,将文件中的内容提取出来,并转化成文本文件的格式,同时保持其中段落间的关系,其中的图片和表格数据均用对应的标题进行替代,由此构成文本文件集合D

【技术实现步骤摘要】
一种基于深度学习的核电厂多格式文件结构化方法及系统


[0001]本专利技术属于人工智能中的深度学习领域,具体涉及一种基于深度学习的核电厂多格式文件结构化方法及系统。

技术介绍

[0002]在核电厂的运行和管理过程中,随之会产生大量的不同格式的文件,包括各种技术类文件和业务类文件。文件类型和文件内容的多样性,使得文件的管理、检索和使用十分不便。为了解决这一问题,现有的方法是利用以xml文件格式构建文档的模板,一来实现了文件内容的结构化,使得文件检索更加快速和阅读更加简便;二来实现了文件格式的标准化,同时让多格式文件的阅读摆脱软件的限制。然而这一方法在实际中以人工处理为主,对人力成本的消耗较大。如今,人工智能技术发展势头迅猛,其中深度学习技术更是在多个领域取得了代替人类的成就,因此可以利用基于深度学习的方法,对多格式文件进行结构化处理,以此来代替人工处理。
[0003]在核电厂的运行和管理过程中,产生了大量的与技术或者业务相关的文件。这些文件在文件类型和内容上都存在着差异,大量的存在差异的文件对文件管理来说是一个困难的事情,同时在需要参考的时候,如何快速的检索所需要的文件也存在困难。在现有的方法中,可以通过将文件内容转化成xml文件的方法,将其中的内容按照层次结构的方法保存到xml文件中,方便通过文件内容的关键字进行检索。但是,现有方法中对于文件结构化的方法以人工处理为主,费时费力,而且核电厂中的文件存在一定的保密要求。

技术实现思路

[0004]本专利技术的目的在于通过结合深度学习的相关知识和技术,提出了一种对核电厂的多格式文件的进行结构化处理的方法及系统。
[0005]本专利技术的技术方案如下:一种对核电厂的多格式文件的进行结构化处理的方法,包括以下实施步骤:
[0006]步骤001:从核电厂存储文件的服务器上获取需要进行结构化的文件,构成文件集合D;
[0007]步骤002:利用文件模型内容提取模块,遍历集合D中所有的文件,根据文件的后缀名选择合适的处理方式,将文件中的内容提取出来,并转化成文本文件的格式,同时保持其中段落间的关系,其中的图片和表格数据均用对应的标题进行替代,由此构成文本文件集合D


[0008]步骤003:利用文件内容分段模块,对集合D

中的每一个文本文件进行遍历,将其中的标题和段落分别划分成一个独立的文本数据单元,并将其保存到文本文件中,得到集合T,同时将每个文件中段落与段落、标题之间的顺序记录在对应的CSV文件中得到集合T


[0009]步骤004:根据集合T和中的记录,利用训练好的word2vetor模型将集合T中的每一个独立的文本数据单元转换成对应的固定长度的词向量,并根据集合T

中对应文件中各个
文本数据单元的排列顺序,将词向量存储到相应的CSV文件中,得到集合V;
[0010]步骤005:将集合V中的词向量作为T

输入,利用深度学习算法TextCNN对输入的词向量进行分类,确定对应的文本数据属于标题、段落、图、表格中的哪一种;
[0011]步骤004:根据TextCNN算法的计算结果,确定对应词向量的分类,然后同一个文件中的所有词向量进行同样的操作并按顺序记录在对应的CSV文件中;
[0012]步骤005:对集合V中每一个文件进行上述步骤的操作,直到集合V中所有文件中的词向量都确定分类为止,由此得到记录分类结果的CSV文件集合R;
[0013]步骤006:根据集合R和xml文件的语法格式,利用结构化文件生成模块对集合D中的文件构建xml格式的结构化文件。
[0014]一种对核电厂的多格式文件的进行结构化处理的系统,包括文件获取模块,文件内容提取模块,文件内容分段模块,词向量生成模块,内容分类模块,结构化文件生成模块。
[0015]所述的文件获取模块:从核电厂文件存放的服务器获取需要进行结构化处理的文件,将获得的文件传输给文件内容提取模块。
[0016]所述的文件内容提取模块:根据文件获取模块传过来的文件数据,利用与传输的文件格式相对应的计算机技术将获取到的文件中的文字内容提取出来,转换为文本文件,其中图片和表格仅保存相应的标题,之后,将文本文件传给文件内容分段模块。
[0017]所述的文件内容分段模块:根据文件内容提取模块处理后得到的文本文件,将其中的内容按照段落和标题进行分段,每一段落和标题作为一个单独的数据单元,其中图片和表格以标题来代表,同时记录每个分段在文件中的排列顺序,之后,将处理好的文字数据单元和分段排列顺序信息传给词向量生成模块。
[0018]所述的词向量生成模块:利用训练好的word2vector模型对文件内容分段模块传入的文字数据单元进行处理,将单个文件经过文件内容分段处理后得到的数据单元进行转换,得到一组长度固定的词向量并按照分段排列顺序信息进行排列,然后将排列好的词向量文件数据,传入内容分类模块。
[0019]所述的内容分类模块:利用训练好的深度学习算法TextCNN,将词向量生成模块产生的词向量,按照其在原始文件中的排列顺序,逐个传入TextCNN算法中进行计算,得到该词向量的内容分类情况,并将每个文件的分类结果按照顺序汇总在一起,传入到结构化文件生成模块。
[0020]所述的结构化文件生成模块:根据xml文件的语法格式,结合内容分类模块传来的词向量的分类结果、词向量对应的分段内容和分段内容的排列顺序,构建出该文件对应的结构化文件。
[0021]本专利技术的有益效果在于:利用计算机技术和深度学习算法,针对大量的核电厂文件进行结构化处理,不仅方便了文件的检索和利用,减少了人工成本,同时为文件的保密带来了保障。
附图说明
[0022]图1是本专利技术一种基于深度学习的核电厂多格式文件结构化方法流程图。
具体实施方式
[0023]下面结合附图及具体实施例对本专利技术作进一步详细说明。
[0024]一种对核电厂的多格式文件的进行结构化处理的系统包括:文件获取模块,文件内容提取模块,文件内容分段模块,词向量生成模块,内容分类模块,结构化文件生成模块。
[0025]文件获取模块:从核电厂文件存放的服务器获取需要进行结构化处理的文件,将获得的文件传输给文件内容提取模块。
[0026]文件内容提取模块:根据文件获取模块传过来的文件数据,利用与传输的文件格式相对应的计算机技术将获取到的文件中的文字内容提取出来,转换为文本文件,其中图片和表格仅保存相应的标题。之后,将文本文件传给文件内容分段模块。
[0027]文件内容分段模块:根据文件内容提取模块处理后得到的文本文件,将其中的内容按照段落和标题进行分段,每一段落和标题作为一个单独的数据单元,其中图片和表格以标题来代表,同时记录每个分段在文件中的排列顺序。之后,将处理好的文字数据单元和分段排列顺序信息传给词向量生成模块。
[0028]词向量生成模块:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对核电厂的多格式文件的进行结构化处理的方法,其特征在于,包括以下实施步骤:步骤001:从核电厂存储文件的服务器上获取需要进行结构化的文件,构成文件集合D;步骤002:利用文件模型内容提取模块,遍历集合D中所有的文件,根据文件的后缀名选择合适的处理方式,将文件中的内容提取出来,并转化成文本文件的格式,同时保持其中段落间的关系,其中的图片和表格数据均用对应的标题进行替代,由此构成文本文件集合D

;步骤003:利用文件内容分段模块,对集合D

中的每一个文本文件进行遍历,将其中的标题和段落分别划分成一个独立的文本数据单元,并将其保存到文本文件中,得到集合T,同时将每个文件中段落与段落、标题之间的顺序记录在对应的CSV文件中得到集合T

;步骤004:根据集合T和中的记录,利用训练好的word2vetor模型将集合T中的每一个独立的文本数据单元转换成对应的固定长度的词向量,并根据集合T

中对应文件中各个文本数据单元的排列顺序,将词向量存储到相应的CSV文件中,得到集合V;步骤005:将集合V中的词向量作为T

输入,利用深度学习算法TextCNN对输入的词向量进行分类,确定对应的文本数据属于标题、段落、图、表格中的哪一种;步骤004:根据TextCNN算法的计算结果,确定对应词向量的分类,然后同一个文件中的所有词向量进行同样的操作并按顺序记录在对应的CSV文件中;步骤005:对集合V中每一个文件进行上述步骤的操作,直到集合V中所有文件中的词向量都确定分类为止,由此得到记录分类结果的CSV文件集合R;步骤006:根据集合R和xml文件的语法格式,利用结构化文件生成模块对集合D中的文件构建xml格式的结构化文件。2.一种对核电厂的多格式文件的进行结构化处理的系统,其特征在于:包括文件获取模块,文件内容提取模块,文件内容分段模块,词向量生成模块,内容分类模块,结构化文件生成模块。3.如权利要求2所述的一种对核电厂...

【专利技术属性】
技术研发人员:周方禹李慧张逍郭天宇张千秋唐云霞王贝贝李志昂孙哲李杰
申请(专利权)人:核动力运行研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1