一种基于自然语言处理的文本自动结构化方法和系统技术方案

技术编号：25440274 阅读：18 留言：0更新日期：2020-08-28 22:28

本发明专利技术公开了一种基于自然语言处理的文本自动结构化方法和系统，能够将文本文档的内容(包括文档自带序号标注错误甚至文档没有自带序号)进行自动结构化处理以转化成结构化的知识体系。其技术方案为：输入需要自动结构化处理的原始文本；利用经训练的神经网络模型对原始文本进行处理，生成有编码形式的长序列文本；通过在有编码形式的含有序号的长序列文本中查找对应编码来自动结构化文本；查找自动结构化文本中对应的编码符号，按照前后两个编码之间的关系和编码的含义将编码符号替换为相应的序号。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的文本自动结构化方法和系统
本专利技术涉及一种文本结构化技术，具体涉及基于深度学习和自然语言处理的文本自动结构化的方法和系统。
技术介绍
以结构化的知识体系为基础的知识分享平台或者学习系统是目前的主流方案。而诸如电子书、文章、报告等文本文档的内容文字并不是以结构化方式来组织的。目前也有一些将普通的文本文档自动结构化的方法，但这些方法只能应用于原本就在文本中标注有序号的文档。这会带来两个问题，其一是文本文档在利用自身自带序号进行自动结构化时，如果遇到手误标错的序号，则自动结构化处理就无法顺利展开；其二是对于逻辑结构清晰但并没有自带标注序号的文本文档，现有的自动结构化的方法无法将文档内容结构化。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题，提供了一种基于自然语言处理的文本自动结构化方法和系统，能够将文本文档的内容(包括文档自带序号标注错误甚至文档没有自带序号)进行自动结构化处理以转化成结构化的知识体系。本专利技术的技术方案为：本专利技术揭示了一种基于自然语言处理的文本自动结构化方法，包括：输入需要自动结构化处理的原始文本；利用经训练的神经网络模型对原始文本进行处理，生成有编码形...

【技术保护点】
1.一种基于自然语言处理的文本自动结构化方法，其特征在于，包括：/n输入需要自动结构化处理的原始文本；/n利用经训练的神经网络模型对原始文本进行处理，生成有编码形式的长序列文本；/n通过在有编码形式的含有序号的长序列文本中查找对应编码来自动结构化文本；/n查找自动结构化文本中对应的编码符号，按照前后两个编码之间的关系和编码的含义将编码符号替换为相应的序号。/n

【技术特征摘要】
1.一种基于自然语言处理的文本自动结构化方法，其特征在于，包括：
输入需要自动结构化处理的原始文本；
利用经训练的神经网络模型对原始文本进行处理，生成有编码形式的长序列文本；
通过在有编码形式的含有序号的长序列文本中查找对应编码来自动结构化文本；
查找自动结构化文本中对应的编码符号，按照前后两个编码之间的关系和编码的含义将编码符号替换为相应的序号。

2.根据权利要求1所述的基于自然语言处理的文本自动结构化方法，其特征在于，有编码形式的长序列文本中包含的序号包括正确的序号和错误的序号。

3.根据权利要求1所述的基于自然语言处理的文本自动结构化方法，其特征在于，方法还包括：
通过在有编码形式的不含序号的长序列文本中查找空格来自动结构化文本；
查找自动结构化文本中的空格符号，将空格符号按文章顺序的方式将空格符号替换为递增的数字。

4.根据权利要求1所述的基于自然语言处理的文本自动结构化方法，其特征在于，神经网络模型的训练过程包括：
收集样本数据；
对收集到的样本数据进行数据标注；
对经标注的数据进行数据清洗和预处理，得到无编码形式的长序列样本作为神经网络模型训练的输入；
搭建PyTorch框架；
建立神经网络模型，神经网络模型中包含指示不同层级标题序号之间的关系的编码规则；
利用无编码形式的长序列样本训练神经网络模型；
对神经网络模型进行测试与优化；
确定神经网络模型。

5.根据权利要求1中任一项所述的基于自然语言处理的文本自动结构化方法，其特征在于，神经网络模型是seq2seq模型，seq2seq模型结构中的编码器将所有的输入序列都编码成一个统一的语义向量，再由解码器进行解码，解码过程中不断将前一个时刻解的输出作为后一个时刻的输入，循环编码直至输出停止符为止。

6.一种基于自然语言处理的文本自动结构化系统，其特征在于，包括：
文本输入模块，输入需要自动结构化处理的原始文本；
模型处理模块，利用经训练的神经网络模型对原始文本进行处理，生成有编码形式的长序列文本；
编码查找模块，通过在有编码形式的含有序号的长序列文本中查找对应编码来自动结构化文本；
编码替换模块，查找自动结构化文本中对应的编码符号，按照前后两个编码之间的关系和编码的含...

【专利技术属性】
技术研发人员：李东珂，马也驰，
申请(专利权)人：上海颐为网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人