一种基于句法结构删减的自动文摘事实性增强方法技术

技术编号:39295810 阅读:34 留言:0更新日期:2023-11-07 11:03
本发明专利技术是一种基于句法结构删减的自动文摘事实性增强方法,涉及大数据资源服务、数据挖掘技术。本发明专利技术方法包括:分析待纠错摘要文本语法结构获取对应的语法依存树;后序遍历语法依存树,根据语法依存关系尝试剪枝子树,获得候选摘要,并在按序访问下一子树前先将被剪枝子树还原;预先在服务器部署多个事实评价指标模型;实时调用服务器上多个事实评价指标模型,对每个候选摘要进行事实性评价,优选当后一摘要在所有事实评价指标上都优于前一摘要时,认为后一摘要更优,输出最佳摘要。本发明专利技术首次将语法结构删减应用于后纠错方案,极大地扩充了可以应对的错误范围,提高了自动文摘模型生成摘要的事实准确性,能广泛地作用于已有的自动文摘模型中。自动文摘模型中。自动文摘模型中。

【技术实现步骤摘要】
一种基于句法结构删减的自动文摘事实性增强方法


[0001]本专利技术涉及大数据资源服务、数据挖掘
,具体涉及一种基于句法结构删减的自动文摘事实性增强方法。

技术介绍

[0002]自动文摘技术可以自动化地对文章内容进行总结和压缩,在保留原文关键信息的基础上生成更小规模的摘要文本。近些年来,随着人工智能技术的快速发展,生成摘要文本在流畅性与概括能力上都得到了显著的提升,但是仍存在一个显著问题,即事实准确性问题。
[0003]自动文摘模型的事实准确问题是指摘要文本与原文存在事实不一致的情况。据统计,生成式摘要模型产生的摘要结果中至少有30%存在事实错误,这严重地影响到了生成式摘要模型在实际场景中的应用。事实错误不但出现频率高,表现形式也颇为繁多,研究者们简单地将错误类型进行了归纳,具体类型及说明如下表1,在参考文献1(Pagnoni A,Balachandran V,Tsvetkov Y.Understanding factuality in abstractive summarization with FRANK:A benchmar本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于句法结构删减的自动文摘事实性增强方法,其特征在于,包括如下步骤:步骤1:将待纠错摘要文本输入语法依存树构建模块,语法依存树构建模块输出所述摘要文本对应的语法依存树,语法依存树中记录单词之间的语法依存关系;步骤2:剪枝模块对语法依存树进行剪枝操作,获得候选摘要集;预先将语法依存关系分类,分为三类:第一类语法依存关系所引导的子树能直接删减;第二类语法依存关系所引导的子树能删减,但要核查删减后的文本语法准确性,若语法出现错误则不能删减子树;第三类语法依存关系所引导的子树不能删减;剪枝模块对语法依存树进行后序遍历,依次访问每个子树,判断引导子树的节点与该节点的父节点间的语法依存关系类型,对于属于第一类和第二类的语法依存关系,则尝试剪枝该节点引导的子树,若能删减子树,生成一个删减子树后的候选摘要;在后续遍历过程中,先将被剪枝的子树还原,然后继续按序访问下一个子树,尝试剪枝子树,生成候选摘要;在对语法依存树遍历完成后,获得一个候选摘要集;步骤3:预先在服务器部署多个事实评价指标模型;将每个事实评价指标模型的实现进行封装并统一调用形式,部署在服务器并开放调用接口;步骤4:最佳摘要输出模块实时调用服务器上多个事实评价指标模型,对候选摘要集中的每个候选摘要及原始摘要进行事实性评价,根据评价结果输出最佳摘要。2.根据权利要求1所述的方法,其特征在于,所述的步骤2中...

【专利技术属性】
技术研发人员:胡鼎新张星玥李奕阳李雨泽李蕾周延泉
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1