当前位置: 首页 > 专利查询>清华大学专利>正文

文档处理方法、文档摘要生成方法及装置制造方法及图纸

技术编号:36202511 阅读:35 留言:0更新日期:2023-01-04 11:56
本发明专利技术提供一种文档处理方法、文档摘要生成方法及装置,文档处理方法包括:获取待处理文档集以及关键词集;将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中,得到待测序列;确定各待测序列的困惑度,并基于各待测序列的困惑度确定各待处理文档的第一评分结果;基于各待处理文档的第一评分结果对待处理文档集进行筛选,得到目标文档。文档摘要生成方法包括:基于关键词集中的各关键词从待处理文档集中抽取目标文档;基于目标文档生成摘要。本发明专利技术能够有效提高目标文档的有效性,进而保证了摘要的生成效果。进而保证了摘要的生成效果。进而保证了摘要的生成效果。

【技术实现步骤摘要】
文档处理方法、文档摘要生成方法及装置


[0001]本专利技术涉及自然语言理解
,尤其涉及一种文档处理方法、文档摘要生成方法及装置。

技术介绍

[0002]随着互联网的快速发展,文档信息急剧膨胀,如何对海量文档信息进行处理以得到相关性较高的目标文档,在多文档摘要生成、信息检索、开放领域问答等过程中起到尤为关键的作用。
[0003]现有文档处理方法通常采用统计信息的方法,即,利用词频、逆文档频率等统计信息衡量候选文档与关键词之间的相关性,并基于该相关性进行目标文档的抽取。
[0004]然而,基于统计信息的方法虽然不需要训练,但受制于现有的统计信息只考虑到文档中的单词与关键词的完全匹配,导致不含关键词但含有相关语义上下文的文档被误过滤,从而无法保证得到的目标文档的有效性。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种文档处理方法、文档摘要生成方法及装置。
[0006]本专利技术提供一种文档处理方法,包括:
[0007]获取待处理文档集以及关键词集;/>[0008]将所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:获取待处理文档集以及关键词集;将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列;确定各所述待测序列的困惑度,并基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果;基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档。2.根据权利要求1所述的文档处理方法,其特征在于,所述将所述关键词集中的关键词分别插入至所述待处理文档集中的各待处理文档中,得到待测序列,包括:从预设的模板集中确定一个或多个目标模板;基于所述目标模板将所述关键词插入至所述待处理文档中,得到所述待测序列;其中,所述目标模板用于表征所述关键词与所述待处理文档的位置关系。3.根据权利要求1所述的文档处理方法,其特征在于,所述确定各所述待测序列的困惑度,包括:将所述待测序列输入至预训练语言模型,得到所述待测序列的词向量矩阵;基于所述词向量矩阵确定所述待测序列的困惑度。4.根据权利要求1所述的文档处理方法,其特征在于,所述基于各所述待测序列的困惑度确定各所述待处理文档的第一评分结果,包括:获取所述待处理文档对应的各所述待测序列的困惑度的均值,得到平均困惑度;基于所述平均困惑度确定所述待处理文档的第一评分结果。5.根据权利要求1所述的文档处理方法,其特征在于,还包括:获取所述待处理文档的第二评分结果;其中,所述第二评分结果是基于所述关键词集中的各所述关键词在所述待处理文档中的统计信息得到的;所述基于各所述待处理文档的第一评分结果对所述待处理文档集进行筛选,得到目标文档,包括:对所述待处理文档的第一评分结果以及所述待处理文档的第二评分结果进行融合处理,得到所述待处理文档的综合评分结果;基于各所述待处理文档的综合评分结果对所述待处...

【专利技术属性】
技术研发人员:李涓子涂尚卿侯磊于济凡祝方韦张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1