文档标题树的生成方法、系统、设备及可读存储介质技术方案

技术编号:32365363 阅读:20 留言:0更新日期:2022-02-20 03:38
本发明专利技术公开了一种文档标题树的生成方法,包括:抽取待解析文档的标题数据,得到每个标题数据对应的节点集合;从节点集合任意选取第一节点,并对第一节点对应的标题数据进行向量化处理,得到第一节点向量;基于第一节点向量构建初始标题树;判断初始标题树是否需要加入新的节点向量;若需要,则从节点集合的剩余节点向量中获取第二节点,并对第二节点进行初始化处理,得到第二节点向量;基于第二节点向量确定是否对初始标题树进行添加边处理;若是,则根据第二节点向量及第一节点向量更新初始标题树,得到更新标题树;判断更新标题树是否需要加入新的节点向量;若不需要,将更新标题树作为目标标题树,以提高文档标题树生成的准确性。确性。确性。

【技术实现步骤摘要】
文档标题树的生成方法、系统、设备及可读存储介质


[0001]本专利技术实施例涉及数据处理领域,尤其涉及一种文档标题树的生成方法、系统、设备及可读存储介质。

技术介绍

[0002]自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的重要组成部分,主要实现将语义信息按照一定的语法和语义规则生成人类可以理解的语言表达形式。根据文本的长短,NLG可以分为语句生成和文档生成。文档通常包含标题和段落等两部分。标题之间有一定的层级和归属关系,可以看成是一种树形结构。
[0003]和语句结构上不同,标题是一种具有多层级、上下级所属关系和同级关系(并列、递进、转折等)等特点的复杂树形结构,现有的语句解析通常是对语法结构和单词属性进行标注,但标题自身包含语言内容,其解析和标注还涉及语义嵌入等过程,从而导致对标题解析不准确。

技术实现思路

[0004]有鉴于此,本专利技术实施例的目的是提供一种文档标题树的生成方法、系统、设备及可读存储介质,用以解决现有文档标题树生成不准确的问题。
[0005]为实现上述目的,本专利技术实施例提供了一种文档标题树的生成方法,包括:
[0006]抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
[0007]从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
[0008]基于所述第一节点向量构建初始标题树;
[0009]判断所述初始标题树是否需要加入新的节点向量;
[0010]若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
[0011]基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
[0012]若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
[0013]判断所述更新标题树是否需要加入新的节点向量;
[0014]若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
[0015]进一步地,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:
[0016]若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:
[0017]从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
[0018]基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;
[0019]若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
[0020]判断所述更新标题树是否需要加入新的节点向量。
[0021]进一步地,所述判断所述初始标题树是否需要加入新的节点向量包括:
[0022]通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;
[0023]通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值;
[0024]将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
[0025]进一步地,所述对所述第二节点向量进行初始化处理包括:
[0026]获取所述第二节点向量在所述待解析文档中的属性信息,并对所述属性信息进行向量化处理,得到属性向量;
[0027]基于所述属性向量以及所述初始标题树对所述第二节点向量进行初始化处理。
[0028]进一步地,所述基于所述第二节点向量确定是否对所述初始标题树进行添加边处理包括:
[0029]基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;
[0030]将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
[0031]进一步地,所述根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树包括:
[0032]若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值;
[0033]基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量;
[0034]基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
[0035]进一步地,所述基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树之前,包括:
[0036]根据所述第三概率值确定所述第一更新节点向量与所述第二更新节点向量之间的边的方向。
[0037]为实现上述目的,本专利技术实施例提供了一种文档标题树的生成系统,包括:
[0038]抽取模块,用于抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
[0039]选取模块,用于从所述节点集合选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
[0040]构建模块,用于基于所述第一节点向量构建初始标题树;
[0041]第一判断模块,用于判断所述初始标题树是否需要加入新的节点向量;
[0042]获取模块,用于若判断为需要加入新的节点向量,则从所述节点集合的剩余节点
向量中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
[0043]确定模块,用于基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
[0044]更新模块,用于若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
[0045]第二判断模块,用于判断所述更新标题树是否需要加入新的节点向量;
[0046]映射模块,用于若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
[0047]为实现上述目的,本专利技术实施例提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文档标题树的生成方法的步骤。
[0048]为实现上述目的,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行上述的文档标题树的生成方法的步骤。
[0049]本专利技术实施例提供的文档标题树的生成方法、系统、设备及可读存储介质,通过对待解析文档的标题数据进行标题树的构建,在标题树的构建过程中,基于判断标题树是否需要加入新节点,以将所有节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档标题树的生成方法,其特征在于,包括:抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;基于所述第一节点向量构建初始标题树;判断所述初始标题树是否需要加入新的节点向量;若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;判断所述更新标题树是否需要加入新的节点向量;若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。2.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;判断所述更新标题树是否需要加入新的节点向量。3.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述初始标题树是否需要加入新的节点向量包括:通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值;将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。4.根据权利要求3所述的文档标题树的生成方法,其特征在于,所述对所述第二节点向量进行初始化处理包括:获取所述第二节点向量在所述待解析文档中的属性信息,并对所述属性信息进行向量化处理,得到属性向量;基于所述属性向量以及所述初始标题树对所述第二节点向量进行初始化处理。5.根据权利要求4所述的文档标题树的生成方法,其特征在于,所述基于所述第二节点向量确定是否对所述初始标题树进行添加边处理包括:基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二
概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;将所述...

【专利技术属性】
技术研发人员:王超李果夫
申请(专利权)人:平安资产管理有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1