一种基于结构化的文本编辑方法和系统技术方案

技术编号:23446234 阅读:35 留言:0更新日期:2020-02-28 20:18
本发明专利技术公开了一种基于结构化的文本编辑方法和系统,提高了尤其是大容量、对内容理解要求高的电子文本的编辑效率。其技术方案为:通过先将电子文本进行自动结构化,用树形图表达文本结构,用户可在树形图上调整文本结构(例如可以通过简单的拖曳操作实现结构上的编辑),最后系统将调整后的文本结构自动化转换成新的电子文本。相较于传统技术,本发明专利技术能够通过树形图所展现的文本内容的知识结构,让用户能全面迅速的理解电子文本对应的内容,并方便的在树形图上开展基于知识结构的编辑操作,一方面加大了用户对文本内容的把握,另一方面提高了编辑的精准度和工作效率。

A text editing method and system based on structure

【技术实现步骤摘要】
一种基于结构化的文本编辑方法和系统
本专利技术涉及电子文本的编辑处理技术,尤其涉及基于结构化体系实现对电子文本的编辑处理。
技术介绍
传统的电子文本的编辑是由用户在文本编辑软件(例如WORD软件、WPS软件等)中手动编辑(包括增加、删除、修改等操作)文本内容来实现。这种编辑方式只适合简单内容的编辑,或者某一局部内容的编辑。对于一份内容较多、逻辑复杂的文本,用户无法在短时间内对文本进行有效的编辑,而是需要用户花费较长时间阅读文本内容,在获得对文本内容的深刻理解之后,才能有效的对文本进行编辑。因此,传统的电子文本编辑方式在面对大容量、复杂度高的文本内容的时候,会大大降低工作效率。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种基于结构化的文本编辑方法和系统,提高了尤其是大容量、对内容理解要求高的电子文本的编辑效率。本专利技术的技术方案为:本专利技术揭示了一种基于结构化的文本编辑方法,包括:步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;步骤3:将处理后的知识结构显示在界面上供用户编辑;步骤4:将用户编辑后的知识结构自动转换为新的电子文本。根据本专利技术的基于结构化的文本编辑方法的一实施例,步骤1中的待编辑的电子文本是同一文本或多个文本。根据本专利技术的基于结构化的文本编辑方法的一实施例,步骤2进一步包括:步骤a:将字符串文本按照换行符进行分隔;步骤b:加载序号,其中序号分为多个等级的序号;步骤c:创建字典格式的数据;步骤d:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行不同等级序号的检索;步骤e:输出嵌套形式的字典格式的数据。根据本专利技术的基于结构化的文本编辑方法的一实施例,步骤b中加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号。根据本专利技术的基于结构化的文本编辑方法的一实施例,在步骤b和步骤c之间还包括:从字符串文本中识别并分隔出目录和/或结论对应的一段文本。根据本专利技术的基于结构化的文本编辑方法的一实施例,在步骤2中,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。根据本专利技术的基于结构化的文本编辑方法的一实施例,步骤3中的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。本专利技术还揭示了一种基于结构化的文本编辑系统,系统包括:第一格式转换模块,用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;自动结构化处理模块,用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;知识结构编辑模块,用于将处理后的知识结构显示在界面上并由用户进行编辑;第二格式转换模块,用于将用户编辑后的知识结构自动转换为新的电子文本。根据本专利技术的基于结构化的文本编辑系统的一实施例,自动结构化处理模块进一步包括:换行分隔单元,将字符串文本按照换行符进行分隔;序号加载单元,加载序号;字典创建单元,创建字典格式的数据;循环检索单元,基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号以及后续等级序号的检索;字典数据输出单元,输出经过自动结构化处理的嵌套形式的字典格式数据。根据本专利技术的基于结构化的文本编辑系统的一实施例,序号加载单元所加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号;自动结构化处理模块还包括:序号检索单元,检索字符串文本中的序号。根据本专利技术的基于结构化的文本编辑系统的一实施例,自动结构化处理模块还包括:特殊段落分隔单元,从字符串文本中识别并分隔出目录和/或结论对应的一段文本。根据本专利技术的基于结构化的文本编辑系统的一实施例,系统还包括:深度学习目标检测模块,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。根据本专利技术的基于结构化的文本编辑系统的一实施例,第一格式转换模块中待编辑的电子文本是同一文本或多个文本;知识结构编辑模块的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。本专利技术揭示了一种基于结构化的文本编辑系统,包括:处理器;以及存储器,存储器被配置为存储一系列计算机可执行的指令以及与一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如前述的方法。本专利技术还揭示了一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如前述的方法。本专利技术对比现有技术有如下的有益效果:本专利技术通过先将电子文本进行自动结构化,用树形图表达文本结构,用户可在树形图上调整文本结构(例如可以通过简单的拖曳操作实现结构上的编辑),最后系统将调整后的文本结构自动化转换成新的电子文本。相较于传统技术,本专利技术能够通过树形图所展现的文本内容的知识结构,让用户能全面迅速的理解电子文本对应的内容,并方便的在树形图上开展基于知识结构的编辑操作,一方面加大了用户对文本内容的把握,另一方面提高了编辑的精准度和工作效率。附图说明在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。图1示出了本专利技术的基于结构化的文本编辑方法的一实施例的流程图。图2示出了本专利技术的基于结构化的文本编辑方法的另一实施例的流程图。图3示出了本专利技术的基于结构化的文本编辑系统的一实施例的原理图。图4示出了本专利技术实施例中的自动结构化处理模块的原理图。图5示出了本专利技术实施例中的将文本进行自动结构化处理步骤的流程图。具体实施方式以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。图1示出了本专利技术的基于结构化的文本编辑方法的本文档来自技高网...

【技术保护点】
1.一种基于结构化的文本编辑方法,其特征在于,包括:/n步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;/n步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;/n步骤3:将处理后的知识结构显示在界面上供用户编辑;/n步骤4:将用户编辑后的知识结构自动转换为新的电子文本。/n

【技术特征摘要】
1.一种基于结构化的文本编辑方法,其特征在于,包括:
步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
步骤3:将处理后的知识结构显示在界面上供用户编辑;
步骤4:将用户编辑后的知识结构自动转换为新的电子文本。


2.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤1中的待编辑的电子文本是同一文本或多个文本。


3.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤2进一步包括:
步骤a:将字符串文本按照换行符进行分隔;
步骤b:加载序号,其中序号分为多个等级的序号;
步骤c:创建字典格式的数据;
步骤d:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行不同等级序号的检索;
步骤e:输出嵌套形式的字典格式的数据。


4.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,步骤b中加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号。


5.根据权利要求4所述的基于结构化的文本编辑方法,其特征在于,在步骤b和步骤c之间还包括:
从字符串文本中识别并分隔出目录和/或结论对应的一段文本。


6.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,在步骤2中,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。


7.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤3中的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。


8.一种基于结构化的文本编辑系统,其特征在于,系统包括:
第一格式转换模块,用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
自动结构化处理模块,用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
知识结构编辑模块,用于将处理后的知识结构显示在界面上并由用户进行编辑;
第二格式转换模块,用于将用户编辑...

【专利技术属性】
技术研发人员:马正方谭红马也驰
申请(专利权)人:上海颐为网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1