【技术实现步骤摘要】
本专利技术涉及数据处理领域,特别是涉及一种多文档摘要生成质量评估方法。
技术介绍
1、在新闻报道、知识科普、信息汇编等领域中,针对同一个事件通常会有来自多个来源的多个文档记录,提供丰富的观点和不同的理解。而对于读者来说,庞大的文章数量和文字内容会让读者产生疲劳。这刺激了对于多文档摘要生成的需求。目前,大语言模型能够有效针对文档进行摘要生成。而对于生成多文档摘要,可以采用单文档摘要生成后汇总,长上下文大语言模型(如claude-3或gemini-1.5-pro)直接输出或者检索增强生成(rag)的方式。目前的长上下文大语言模型可以处理数十万个令牌的序列。但对于多篇文档的情况,信息量大,且多篇文档中的内容质量不统一,甚至可能有矛盾冲突的信息。因此,如何合理客观的衡量不同模型生成的多文档摘要的质量是值得探讨的课题。当前大多数关于摘要评估的方式,主要集中在单文档摘要以及输入内容几千个标记的任务上,以基于参考摘要的方式进行判断。而对于多文档摘要,更加要考虑参考摘要的质量以及基于人类判断的相关性。通常来说,在基于参考的评估中,候选摘要于标准参考摘要
...【技术保护点】
1.一种多文档摘要生成质量评估方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,当前需要评估的摘要对应的生成状态值满足如下条件:
3.根据权利要求1所述的方法,其特征在于,所述预设的问答对生成指令信息包括:问答对的生成数量、基于文档的关键信息生成问题以及问题的答案基于对应的文档得到。
4.根据权利要求1所述的方法,其特征在于,所述预设的候选异常句子描述信息包括:语句不连贯、语句重复、语法问题和因果省略。
5.根据权利要求1所述的方法,其特征在于,所述预设的目标异常句子筛选条件信息包括如下
...
【技术特征摘要】
1.一种多文档摘要生成质量评估方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,当前需要评估的摘要对应的生成状态值满足如下条件:
3.根据权利要求1所述的方法,其特征在于,所述预设的问答对生成指令信息包括:问答对的生成数量、基于文档的关键信息生成问题以及问题的答案基于对应的文档得到。
4.根据权利要求1所述的方法,其特...
【专利技术属性】
技术研发人员:赵菲菲,俞笑,李沅曜,禹宁,孔庆超,王童跃,方省,罗引,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。