一种基于深度学习的核电厂多格式文件结构化方法及系统技术方案

技术编号：34905541 阅读：74 留言：0更新日期：2022-09-15 06:50

本发明专利技术公开了一种对核电厂的多格式文件的进行结构化处理的方法及系统，包括以下步骤：从核电厂存储文件的服务器上获取需要进行结构化的文件，构成文件集合D；利用文件模型内容提取模块，遍历集合D中所有的文件，根据文件的后缀名选择合适的处理方式，将文件中的内容提取出来，并转化成文本文件的格式，同时保持其中段落间的关系，其中的图片和表格数据均用对应的标题进行替代，由此构成文本文件集合D

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的核电厂多格式文件结构化方法及系统

[0001]本专利技术属于人工智能中的深度学习领域，具体涉及一种基于深度学习的核电厂多格式文件结构化方法及系统。

技术介绍

[0002]在核电厂的运行和管理过程中，随之会产生大量的不同格式的文件，包括各种技术类文件和业务类文件。文件类型和文件内容的多样性，使得文件的管理、检索和使用十分不便。为了解决这一问题，现有的方法是利用以xml文件格式构建文档的模板，一来实现了文件内容的结构化，使得文件检索更加快速和阅读更加简便；二来实现了文件格式的标准化，同时让多格式文件的阅读摆脱软件的限制。然而这一方法在实际中以人工处理为主，对人力成本的消耗较大。如今，人工智能技术发展势头迅猛，其中深度学习技术更是在多个领域取得了代替人类的成就，因此可以利用基于深度学习的方法，对多格式文件进行结构化处理，以此来代替人工处理。
[0003]在核电厂的运行和管理过程中，产生了大量的与技术或者业务相关的文件。这些文件在文件类型和内容上都存在着差异，大量的存在差异的文件对文件管理来说是一个困难的事情，同时在需要参考的时候，如何快速的检索所需要的文件也存在困难。在现有的方法中，可以通过将文件内容转化成xml文件的方法，将其中的内容按照层次结构的方法保存到xml文件中，方便通过文件内容的关键字进行检索。但是，现有方法中对于文件结构化的方法以人工处理为主，费时费力，而且核电厂中的文件存在一定的保密要求。

技术实现思路

[0004]本专利技术的目的在于通过结合深度学习的相关知识和技...

【技术保护点】

【技术特征摘要】
1.一种对核电厂的多格式文件的进行结构化处理的方法，其特征在于，包括以下实施步骤：步骤001：从核电厂存储文件的服务器上获取需要进行结构化的文件，构成文件集合D；步骤002：利用文件模型内容提取模块，遍历集合D中所有的文件，根据文件的后缀名选择合适的处理方式，将文件中的内容提取出来，并转化成文本文件的格式，同时保持其中段落间的关系，其中的图片和表格数据均用对应的标题进行替代，由此构成文本文件集合D
′
；步骤003：利用文件内容分段模块，对集合D
′
中的每一个文本文件进行遍历，将其中的标题和段落分别划分成一个独立的文本数据单元，并将其保存到文本文件中，得到集合T，同时将每个文件中段落与段落、标题之间的顺序记录在对应的CSV文件中得到集合T
′
；步骤004：根据集合T和中的记录，利用训练好的word2vetor模型将集合T中的每一个独立的文本数据单元转换成对应的固定长度的词向量，并根据集合T
′
中对应文件中各个文本数据单元的排列顺序，将词向量存储到相应的CSV文件中，得到集合V；步骤005：将集合V中的词向量作为T
′
输入，利用深度学习算法TextCNN对输入的词向量进行分类，确定对应的文本数据属于标题、段落、图、表格中的哪一种；步骤004：根据TextCNN算法的计算结果，确定对应词向量的分类，然后同一个文件中的所有词向量进行同样的操作并按顺序记录在对应的CSV文件中；步骤005：对集合V中每一个文件进行上述步骤的操作，直到集合V中所有文件中的词向量都确定分类为止，由此得到记录分类结果的CSV文件集合R；步骤006：根据集合R和xml文件的语法格式，利用结构化文件生成模块对集合D中的文件构建xml格式的结构化文件。2.一种对核电厂的多格式文件的进行结构化处理的系统，其特征在于：包括文件获取模块，文件内容提取模块，文件内容分段模块，词向量生成模块，内容分类模块，结构化文件生成模块。3.如权利要求2所述的一种对核电厂...

【专利技术属性】
技术研发人员：周方禹，李慧，张逍，郭天宇，张千秋，唐云霞，王贝贝，李志昂，孙哲，李杰，
申请(专利权)人：核动力运行研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人