当前位置: 首页 > 专利查询>清华大学专利>正文

文档处理方法、文档摘要生成方法及装置制造方法及图纸

技术编号:36202511 阅读:21 留言:0更新日期:2023-01-04 11:56
本发明专利技术提供一种文档处理方法、文档摘要生成方法及装置,文档处理方法包括:获取待处理文档集以及关键词集;将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中,得到待测序列;确定各待测序列的困惑度,并基于各待测序列的困惑度确定各待处理文档的第一评分结果;基于各待处理文档的第一评分结果对待处理文档集进行筛选,得到目标文档。文档摘要生成方法包括:基于关键词集中的各关键词从待处理文档集中抽取目标文档;基于目标文档生成摘要。本发明专利技术能够有效提高目标文档的有效性,进而保证了摘要的生成效果。进而保证了摘要的生成效果。进而保证了摘要的生成效果。

【技术实现步骤摘要】
文档处理方法、文档摘要生成方法及装置


[0001]本专利技术涉及自然语言理解
,尤其涉及一种文档处理方法、文档摘要生成方法及装置。

技术介绍

[0002]随着互联网的快速发展,文档信息急剧膨胀,如何对海量文档信息进行处理以得到相关性较高的目标文档,在多文档摘要生成、信息检索、开放领域问答等过程中起到尤为关键的作用。
[0003]现有文档处理方法通常采用统计信息的方法,即,利用词频、逆文档频率等统计信息衡量候选文档与关键词之间的相关性,并基于该相关性进行目标文档的抽取。
[0004]然而,基于统计信息的方法虽然不需要训练,但受制于现有的统计信息只考虑到文档中的单词与关键词的完全匹配,导致不含关键词但含有相关语义上下文的文档被误过滤,从而无法保证得到的目标文档的有效性。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种文档处理方法、文档摘要生成方法及装置。
[0006]本专利技术提供一种文档处理方法,包括:
[0007]获取待处理文档集以及关键词集;
[0008]将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列;
[0009]确定各所述待测序列的困惑度,并基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果;
[0010]基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档。
[0011]根据本专利技术提供的文档处理方法,所述将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列,包括:
[0012]从预设的模板集中确定一个或多个目标模板;
[0013]基于所述目标模板将所述关键词插入至所述待处理文档中,得到所述待测序列;其中,所述目标模板用于表征所述关键词与所述待处理文档的位置关系。
[0014]根据本专利技术提供的文档处理方法,所述确定各所述待测序列的困惑度,包括:
[0015]将所述待测序列输入至预训练语言模型,得到所述待测序列的词向量矩阵;
[0016]基于所述词向量矩阵确定所述待测序列的困惑度。
[0017]根据本专利技术提供的文档处理方法,所述基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果,包括:
[0018]获取所述待处理文档对应的各所述待测序列的困惑度的均值,得到平均困惑度;
[0019]基于所述平均困惑度确定所述待处理文档的第一评分结果。
[0020]根据本专利技术提供的文档处理方法,还包括:获取所述待处理文档的第二评分结果;其中,所述第二评分结果是基于所述关键词集中的各所述关键词在所述待处理文档中的统计信息得到的;
[0021]所述基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档,包括:
[0022]对所述待处理文档的第一评分结果以及所述待处理文档的第二评分结果进行融合处理,得到所述待处理文档的综合评分结果;
[0023]基于各所述待处理文档的综合评分结果对所述待处理文档集进行筛选,得到目标文档。
[0024]根据本专利技术提供的文档处理方法,所述对所述待处理文档的第一评分结果以及所述待处理文档的第二评分结果进行融合处理,得到所述待处理文档的综合评分结果,包括:
[0025]对所述第一评分结果和所述第二评分结果均进行归一化处理;
[0026]基于预设的权值对归一化处理后的所述第一评分结果以及归一化处理后的所述第二评分结果进行加权求和,得到所述待处理文档的综合评分结果。
[0027]本专利技术提供一种文档摘要生成方法,包括:
[0028]基于关键词集中的各关键词从待处理文档集中抽取目标文档;其中,所述目标文档是基于如上述任一种所述的文档处理方法对所述待处理文档集中的各待处理文档进行处理得到的;
[0029]基于所述目标文档生成摘要。
[0030]本专利技术还提供一种文档处理装置,包括:
[0031]数据获取单元,用于获取待处理文档集以及关键词集;
[0032]第一处理单元,用于将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列;
[0033]第二处理单元,用于确定各所述待测序列的困惑度,并基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果;
[0034]第三处理单元,用于基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档。
[0035]本专利技术还提供一种文档摘要生成装置,包括:
[0036]第一计算单元,用于基于关键词集中的各关键词从待处理文档集中抽取目标文档;其中,所述目标文档是基于如上述任一种所述的文档处理方法对所述待处理文档集中的各待处理文档进行处理得到的;
[0037]第二计算单元,用于基于所述目标文档生成摘要。
[0038]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文档处理方法或文档摘要生成方法。
[0039]本专利技术提供的文档处理方法、文档摘要生成方法及装置,通过获取待处理文档集以及关键词集,将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中得到待测序列,并确定各待测序列的困惑度,基于各待测序列的困惑度确定各待处理文档的第
一评分结果,以基于各待处理文档的第一评分结果对待处理文档集进行筛选得到目标文档,能够充分考虑关键词与待处理文档的语义相关性,保证了通过文档处理得到的目标文档的有效性;在基于目标文档生成摘要的过程中,进一步保证了摘要的生成效果,从而根据生成的摘要能够实现信息的快速浏览、获取和使用。
附图说明
[0040]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本专利技术提供的文档处理方法的流程示意图;
[0042]图2是本专利技术提供的文档摘要生成方法的流程示意图;
[0043]图3是本专利技术提供的文档处理装置的结构示意图;
[0044]图4是本专利技术提供的文档摘要生成装置的结构示意图;
[0045]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0046]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]下面结合图1描述本专利技术的文档处理方法。本专利技术文档处理方法由计算机等电子设备或其中的硬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:获取待处理文档集以及关键词集;将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列;确定各所述待测序列的困惑度,并基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果;基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档。2.根据权利要求1所述的文档处理方法,其特征在于,所述将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列,包括:从预设的模板集中确定一个或多个目标模板;基于所述目标模板将所述关键词插入至所述待处理文档中,得到所述待测序列;其中,所述目标模板用于表征所述关键词与所述待处理文档的位置关系。3.根据权利要求1所述的文档处理方法,其特征在于,所述确定各所述待测序列的困惑度,包括:将所述待测序列输入至预训练语言模型,得到所述待测序列的词向量矩阵;基于所述词向量矩阵确定所述待测序列的困惑度。4.根据权利要求1所述的文档处理方法,其特征在于,所述基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果,包括:获取所述待处理文档对应的各所述待测序列的困惑度的均值,得到平均困惑度;基于所述平均困惑度确定所述待处理文档的第一评分结果。5.根据权利要求1所述的文档处理方法,其特征在于,还包括:获取所述待处理文档的第二评分结果;其中,所述第二评分结果是基于所述关键词集中的各所述关键词在所述待处理文档中的统计信息得到的;所述基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档,包括:对所述待处理文档的第一评分结果以及所述待处理文档的第二评分结果进行融合处理,得到所述待处理文档的综合评分结果;基于各所述待处理文档的综合评分结果对所述待处...

【专利技术属性】
技术研发人员:李涓子涂尚卿侯磊于济凡祝方韦张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1