【技术实现步骤摘要】
文本目录生成方法及装置
[0001]本申请涉及文本处理
,特别涉及文本目录生成方法。本申请同时涉及文本目录生成装置、一种计算设备,以及一种计算机可读存储介质。
技术介绍
[0002]随着互联网技术的发展,越来越多的企业或机构存储有大量多源异构的文本数据,当用户想要就某一领域的信息进行了解时,可以搜索到很多相关的电子文档数据以及网页数据,用户获得的数据量大,通常获得的文本内容也会非常庞杂。
[0003]现有技术中,为了能够让用户快速获得文档的主要信息,通常会根据文档中文本内容的标题样式对文档进行目录提取,然而这种目录提取方法完全依赖于文本中的标题样式,针对多种格式类型的无标题样式的文档,如何以具有层级结构的文档目录形式,让用户快速得知哪些文档含有自己想要的信息就成为了亟待解决的问题。
技术实现思路
[0004]有鉴于此,本申请实施例提供了文本目录生成方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了文本目录生成装置,一种计算设备,以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种文本目录生成方法,包括:
[0006]获取待处理文本;
[0007]将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;
[0008]根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;
[0009]基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。 ...
【技术保护点】
【技术特征摘要】
1.一种文本目录生成方法,其特征在于,包括:获取待处理文本;将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句;根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息;基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,包括:获取待处理文档;对所述待处理文档进行文本提取操作,提取所述待处理文档中的原始文本;按照预设的文本调整策略对所述原始文本进行调整处理,根据调整处理结果确定待处理文本。3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入至目录分类模型进行处理,获得所述待处理文本对应的候选目录语句,包括:基于预设的语句划分规则,将所述待处理文本划分为至少一个待识别文本;根据每个待识别文本在所述待处理文本中的排版顺序,依次向所述目录分类模型输入待识别文本,获得所述目录分类模型输出的所述候选目录语句;其中,所述候选目录语句中包含的子候选目录语句,按照每个待识别文本在所述待处理文本中的排版顺序排列。4.根据权利要求1
‑
3任意一项方法,其特征在于,所述根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:确定所述候选目录语句在所述待处理文本中的属性特征;根据所述属性特征对所述候选目录语句进行分类,获得至少一个候选目录语句集合;根据每个候选目录语句集合的共有属性特征确定目录划分规则;根据所述目录划分规则对所述候选目录语句进行等级划分,确定所述候选目录语句对应的目录等级信息。5.根据权利要求1
‑
3任意一项方法,其特征在于,所述根据所述候选目录语句在所述待处理文本中的属性特征,确定所述候选目录语句对应的目录等级信息,包括:确定所述候选目录语句中包含的每个子候选目录语句在所述待处理文本中的属性特征;根据所述候选目录语句中包含的每个子候选目录语句以及每个子候选目录语句对应的属性特征构建待划分目录文本;将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息。6.根据权利要求5所述的方法,其特征在于,将所述待划分目录文本输入至目录等级划分模型进行处理,确定所述候选目录语句中包含的每个子候选目录语句对应的目录等级信息包括:将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息;
判断所述候选目录语句中是否包含除所述已选目录语句之外的候选目录语句;若包含,确定所述候选目录语句中除已选目录语句之外的候选目录语句对应的待输入目录文本,将所述待输入目录文本作为所述待划分目录文本,并执行将所述待划分目录文本输入至目录等级划分模型进行处理,获得所述候选目录语句中已选目录语句对应的目录等级信息的步骤;若未包含,则执行基于所述候选目录语句和所述目录等级信息创建与所述待处理文本对应的目录的步骤。7.根据权利要...
【专利技术属性】
技术研发人员:姬子明,李长亮,李小龙,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。