一种多文档摘要生成质量评估方法技术

技术编号:44916348 阅读:13 留言:0更新日期:2025-04-08 18:58
本发明专利技术提供了一种多文档摘要生成质量评估方法,方法包括:构建问答对的方式,针对每个文档生成问题及其对应的答案作为答案参考;接着,基于当前需要评估的摘要对问题进行答案生成;然后,基于能否回答问题、回答问题的准确性以及对摘要中是否包含异常句子获取当前需要评估的摘要的生成状态值。本发明专利技术能够不依赖于参考标准对多文档摘要的生成质量进行分析。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及一种多文档摘要生成质量评估方法


技术介绍

1、在新闻报道、知识科普、信息汇编等领域中,针对同一个事件通常会有来自多个来源的多个文档记录,提供丰富的观点和不同的理解。而对于读者来说,庞大的文章数量和文字内容会让读者产生疲劳。这刺激了对于多文档摘要生成的需求。目前,大语言模型能够有效针对文档进行摘要生成。而对于生成多文档摘要,可以采用单文档摘要生成后汇总,长上下文大语言模型(如claude-3或gemini-1.5-pro)直接输出或者检索增强生成(rag)的方式。目前的长上下文大语言模型可以处理数十万个令牌的序列。但对于多篇文档的情况,信息量大,且多篇文档中的内容质量不统一,甚至可能有矛盾冲突的信息。因此,如何合理客观的衡量不同模型生成的多文档摘要的质量是值得探讨的课题。当前大多数关于摘要评估的方式,主要集中在单文档摘要以及输入内容几千个标记的任务上,以基于参考摘要的方式进行判断。而对于多文档摘要,更加要考虑参考摘要的质量以及基于人类判断的相关性。通常来说,在基于参考的评估中,候选摘要于标准参考摘要的重叠越高,就意味着本文档来自技高网...

【技术保护点】

1.一种多文档摘要生成质量评估方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,当前需要评估的摘要对应的生成状态值满足如下条件:

3.根据权利要求1所述的方法,其特征在于,所述预设的问答对生成指令信息包括:问答对的生成数量、基于文档的关键信息生成问题以及问题的答案基于对应的文档得到。

4.根据权利要求1所述的方法,其特征在于,所述预设的候选异常句子描述信息包括:语句不连贯、语句重复、语法问题和因果省略。

5.根据权利要求1所述的方法,其特征在于,所述预设的目标异常句子筛选条件信息包括如下条件:

...

【技术特征摘要】

1.一种多文档摘要生成质量评估方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,当前需要评估的摘要对应的生成状态值满足如下条件:

3.根据权利要求1所述的方法,其特征在于,所述预设的问答对生成指令信息包括:问答对的生成数量、基于文档的关键信息生成问题以及问题的答案基于对应的文档得到。

4.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:赵菲菲俞笑李沅曜禹宁孔庆超王童跃方省罗引
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1