文本目录生成方法及装置制造方法及图纸

技术编号:37244974 阅读:13 留言:0更新日期:2023-04-20 23:25
本申请提供一种文本目录生成方法及装置,其中所述文本目录生成方法包括:获取待处理文本;将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。实现了对不包含标题样式的文本进行目录提取,得到与文本对应的具有完整目录层级结构的文本目录,解决了对于无标题样式的文本无法提取目录的问题,提高了文本目录提取的效率和准确度。提高了文本目录提取的效率和准确度。提高了文本目录提取的效率和准确度。

【技术实现步骤摘要】
文本目录生成方法及装置


[0001]本申请涉及文本处理
,特别涉及文本目录生成方法。本申请同时涉及文本目录生成装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的企业或机构存储有大量多源异构的文本数据,当用户想要就某一领域的信息进行了解时,可以搜索到很多相关的电子文档数据以及网页数据,用户获得的数据量大,通常获得的文本内容也会非常庞杂。
[0003]现有技术中,为了能够让用户快速获得文档的主要信息,通常会根据文档中文本内容的标题样式对文档进行目录提取,然而这种目录提取方法完全依赖于文本中的标题样式,针对多种格式类型的无标题样式的文档,如何以具有层级结构的文档目录形式,让用户快速得知哪些文档含有自己想要的信息就成为了亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了文本目录生成方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了文本目录生成装置,一种计算设备,以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种文本目录生成方法,包括:
[0006]获取待处理文本;
[0007]将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;
[0008]根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;
[0009]基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。
[0010]可选地,获取待处理文本,包括:
[0011]获取待处理文档;
[0012]对所述待处理文档进行文本提取操作,提取所述待处理文档中的原始文本;
[0013]按照预设的文本调整策略对所述原始文本进行调整处理,根据调整处理结果确定待处理文本。
[0014]可选地,将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句,包括:
[0015]基于预设的语句划分规则,将所述待处理文本划分为至少一个待识别文本;
[0016]根据每个待识别文本在所述待处理文本中的排版顺序,依次向所述目录分类模型输入待识别文本,获得所述目录分类模型输出的所述候选目录语句;
[0017]其中,所述候选目录语句中包含的子候选目录语句,按照每个待识别文本在所述待处理文本中的排版顺序排列。
[0018]可选地,根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:
[0019]确定所述候选目录语句在所述待处理文本中的属性特征;
[0020]根据所述属性特征对所述候选目录语句进行分类,获得至少一个候选目录语句集合;
[0021]根据每个候选目录语句集合的共有属性特征确定目录划分规则;
[0022]根据所述目录划分规则对所述候选目录语句进行等级划分,确定所述候选目录语句对应的目录等级信息。
[0023]可选地,根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:
[0024]确定所述候选目录语句中包含的每个子候选目录语句在所述待处理文本中的属性特征;
[0025]根据所述候选目录语句中包含的每个子候选目录语句以及每个子候选目录语句对应的属性特征构建待划分目录文本;
[0026]将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息。
[0027]可选地,将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息包括:
[0028]将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息;
[0029]判断所述候选目录语句中是否包含除所述已选目录语句之外的候选目录语句;
[0030]若包含,确定所述候选目录语句中除已选目录语句之外的候选目录语句对应的待输入目录文本,将所述待输入目录文本作为所述待划分目录文本,并执行将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息的步骤;
[0031]若未包含,则执行基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录的步骤。
[0032]可选地,根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:
[0033]确定所述候选目录语句在所述待处理文本中的属性特征;
[0034]根据每个候选目录语句以及每个候选目录语句对应的属性特征构建初始目录文本;
[0035]将所述初始目录文本输入至第i级目录等级划分模型进行处理,得到所述候选目录语句中目标目录语句对应的目录等级信息,其中,i从1开始取值,且i为正整数;
[0036]判断所述候选目录语句中是否存在除所述目标目录语句外的子候选目录语句;
[0037]若是,基于所述候选目录语句中除所述目标目录语句外的子候选目录语句及其对应的属性特征构建中间目录文本,并将所述中间目录文本作为所述初始目录文本,i自增1,并执行将所述初始目录文本输入至第i级目录等级划分模型进行处理,得到所述候选目录语句中目标目录语句对应的目录等级信息的步骤;
[0038]若否,则执行所述基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录的步骤。
[0039]可选地,基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录,包括:
[0040]基于所述目录等级信息,按照所述候选目录语句在所述待处理文本中的排版顺序创建与所述待处理文本对应的目录。
[0041]可选地,所述目录分类模型的训练如下:
[0042]获取样本对;
[0043]提取所述样本对中的原始语句输入至初始目录分类模型进行处理,获得所述原始语句对应的预测结果;
[0044]基于样本对中的样本标签和所述原始语句对应的预测结果对初始目录分类模型进行调参,直至获得满足训练停止条件的所述目录分类模型。
[0045]根据本申请实施例的第二方面,提供了一种文本目录生成装置,包括:
[0046]获取模块,用于获取待处理文本;
[0047]处理模块,用于将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;
[0048]确定模块,用于根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;
[0049]创建模块,用于基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。
[0050]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0051]存储器和处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本目录生成方法,其特征在于,包括:获取待处理文本;将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,包括:获取待处理文档;对所述待处理文档进行文本提取操作,提取所述待处理文档中的原始文本;按照预设的文本调整策略对所述原始文本进行调整处理,根据调整处理结果确定待处理文本。3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句,包括:基于预设的语句划分规则,将所述待处理文本划分为至少一个待识别文本;根据每个待识别文本在所述待处理文本中的排版顺序,依次向所述目录分类模型输入待识别文本,获得所述目录分类模型输出的所述候选目录语句;其中,所述候选目录语句中包含的子候选目录语句,按照每个待识别文本在所述待处理文本中的排版顺序排列。4.根据权利要求1

3任意一项方法,其特征在于,所述根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:确定所述候选目录语句在所述待处理文本中的属性特征;根据所述属性特征对所述候选目录语句进行分类,获得至少一个候选目录语句集合;根据每个候选目录语句集合的共有属性特征确定目录划分规则;根据所述目录划分规则对所述候选目录语句进行等级划分,确定所述候选目录语句对应的目录等级信息。5.根据权利要求1

3任意一项方法,其特征在于,所述根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:确定所述候选目录语句中包含的每个子候选目录语句在所述待处理文本中的属性特征;根据所述候选目录语句中包含的每个子候选目录语句以及每个子候选目录语句对应的属性特征构建待划分目录文本;将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息。6.根据权利要求5所述的方法,其特征在于,将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息包括:将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息;
判断所述候选目录语句中是否包含除所述已选目录语句之外的候选目录语句;若包含,确定所述候选目录语句中除已选目录语句之外的候选目录语句对应的待输入目录文本,将所述待输入目录文本作为所述待划分目录文本,并执行将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息的步骤;若未包含,则执行基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录的步骤。7.根据权利要...

【专利技术属性】
技术研发人员:姬子明李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1