一种基于句法结构删减的自动文摘事实性增强方法技术

技术编号:39295810 阅读:15 留言:0更新日期:2023-11-07 11:03
本发明专利技术是一种基于句法结构删减的自动文摘事实性增强方法,涉及大数据资源服务、数据挖掘技术。本发明专利技术方法包括:分析待纠错摘要文本语法结构获取对应的语法依存树;后序遍历语法依存树,根据语法依存关系尝试剪枝子树,获得候选摘要,并在按序访问下一子树前先将被剪枝子树还原;预先在服务器部署多个事实评价指标模型;实时调用服务器上多个事实评价指标模型,对每个候选摘要进行事实性评价,优选当后一摘要在所有事实评价指标上都优于前一摘要时,认为后一摘要更优,输出最佳摘要。本发明专利技术首次将语法结构删减应用于后纠错方案,极大地扩充了可以应对的错误范围,提高了自动文摘模型生成摘要的事实准确性,能广泛地作用于已有的自动文摘模型中。自动文摘模型中。自动文摘模型中。

【技术实现步骤摘要】
一种基于句法结构删减的自动文摘事实性增强方法


[0001]本专利技术涉及大数据资源服务、数据挖掘
,具体涉及一种基于句法结构删减的自动文摘事实性增强方法。

技术介绍

[0002]自动文摘技术可以自动化地对文章内容进行总结和压缩,在保留原文关键信息的基础上生成更小规模的摘要文本。近些年来,随着人工智能技术的快速发展,生成摘要文本在流畅性与概括能力上都得到了显著的提升,但是仍存在一个显著问题,即事实准确性问题。
[0003]自动文摘模型的事实准确问题是指摘要文本与原文存在事实不一致的情况。据统计,生成式摘要模型产生的摘要结果中至少有30%存在事实错误,这严重地影响到了生成式摘要模型在实际场景中的应用。事实错误不但出现频率高,表现形式也颇为繁多,研究者们简单地将错误类型进行了归纳,具体类型及说明如下表1,在参考文献1(Pagnoni A,Balachandran V,Tsvetkov Y.Understanding factuality in abstractive summarization with FRANK:A benchmark for factuality metrics.arXiv preprint arXiv:2104.13346.2021Apr 27)记载。
[0004]表1事实准确性错误的分类
[0005][0006]事实准确性问题的研究主要有两大方向,一是对摘要事实准确性的评估,二是对于事实准确性问题的改善。摘要事实准确性评估模型有多种实现方式,有基于数据增强方
法构建的数据集训练实现,也有基于文本蕴含模型、依存关系分析或问答模型实现,各个评价模型对于不同错误类型的敏感程度也有所不同。对于事实准确性问题的改善包括对于模型训练数据的清洗与纠正,对于模型结构的改进,以及对于生成摘要的后纠错。其中后纠错方法能直接适用于不同实现形式的自动文摘模型,具有极高的通用性,近些年越来越受到人们的重视。
[0007]后纠错模型以可能带有事实错误的摘要文本作为输入,在参考原文的基础上,输出事实错误被纠正的摘要。常见的后纠错模型都是基于transformer结构的序列到序列模型,不同模型之间的区别主要在于训练数据的差异。序列到序列的后纠错模型的训练数据由错误摘要、纠正后摘要、参考原文三个部分组成。由于事实性错误种类繁多,且较为隐蔽,人工标注成本极高,因此后纠错模型训练数据集的构建往往需要使用数据增强的方法。但是受限于数据增强方法生成的错误摘要与真实存在的错误摘要之间的差异,这类后纠错模型在真实场景中表现不稳定。还有一类后纠错模型是对摘要文本的语法结构进行微调。例如通过问答模型,检查摘要文本中的实体词,并将不正确的实体词替换。这类后纠错模型具有较强的稳定性与可解释性,但是前人的工作中由于纠错手段单一,能应对的错误类型有限,还具有很大的提高空间。
[0008]上述两类后纠错模型存在共同的缺陷,即纠错手段单一,能应对的错误类型有限。纠错手段单一是指仅使用替换作为主要纠错手段,序列到序列纠错模型虽然并不涉及具体的语法结构调整,但是由于训练数据构建过程中,错误摘要往往是通过替换原有摘要的语法结构得到,因此仅从结果上看,替换操作是其最常使用的纠错手段。应对错误类型有限是指仅以实体词作为纠错对象,这仅能覆盖一小部分错误类型,经过统计,在22.5%的错误摘要中甚至不含有可以被识别的实体词。
[0009]表2不包含可识别实体摘要句数量统计
[0010]数据集摘要句总数未包含可识别实体摘要句数量占比FRANK(CNN/DM部分)391592123.5%FRANK(XSUM部分)102719218.7%FRANK4842111322.5%
[0011]FRANK数据集是一个基于真实摘要模型产生的错误人为标注的数据集,其中包含由9个摘要系统产生的2250条摘要数据。该数据集除了简单地给出摘要中是否包含事实错误外,还注明了错误的类型,方便研究者进行后续的进一步筛选与实验。FRANK(CNN/DM部分)与FRANK(XSUM部分)是FRANK数据集中按照原文数据来源不同抽样构建的两个部分。
[0012]目前,在使用后纠错方式提高事实准确性的工作中,Zhu等人在2020年最先尝试通过实体替换等数据增强方式构建训练数据,训练BART模型直接输出纠正后的摘要,但是使用这种方式生成的训练数据与真实存在的错误摘要之间存在差距,因此该纠错模型对于真实环境下的错误摘要纠错效果不佳。Balachandran等人在2022年通过填空模型改进了数据增强方式,这样生成的错误摘要与真实错误摘要更加接近,但是受限于训练数据,训练出来的模型仍只能使用实体替换作为主要纠错手段。Fabbri等人在2022年通过文本简化模型构建出来的训练数据集进一步优化了纠错模型的效果,训练出来的模型能删减一些错误内容,但是依旧只能识别实体上的错误。
[0013]除此之外,也有一些后纠错方法借助已有的自然语言处理技术直接对摘要文本进
行调整。例如Dong等人在2020年使用问答模型检查并纠正摘要中的错误实体(参考文献2:Dong Y,Wang S,Gan Z,et al.Multi

fact correction in abstractive text summarization[J].arXiv preprint arXiv:2010.02443,2020.),Chen等人在2021年通过替换摘要中的实体生成候选摘要,并从候选摘要中选出事实性最佳的摘要(参考文献3:Chen S,Zhang F,Sone K,et al.Improving faithfulness in abstractive summarization with contrast candidate generation and selection[J].arXiv preprint arXiv:2104.09061,2021.)。但这些方法同样也存在纠错范围上的限制,仅能使用实体替换作为主要纠错手段。

技术实现思路

[0014]本专利技术针对现有纠错模型的纠错效果不佳、纠错手段主要仅为实体替换等问题,提出一种基于句法结构删减的自动文摘事实性增强方法,通过采用后纠错的形式对文摘中可能存在的事实错误进行修正,构建语法依存树指导删减操作的进行,以提高模型生成摘要的事实准确性,并适用于各种已有的摘要模型,具有极高的通用性。
[0015]本专利技术的一种基于句法结构删减的自动文摘事实性增强方法,包括如下步骤:
[0016]步骤1:将待纠错摘要文本输入语法依存树构建模块,语法依存树构建模块分析待纠错摘要文本语法结构,输出摘要文本对应的语法依存树。
[0017]语法依存树中记录摘要文本中单词之间的语法依存关系。
[0018]步骤2:剪枝模块对语法依存树进行剪枝操作,获得候选摘要集。
[0019]预先将语法依存关系分类,分为三类:第一类语法依存关系所引导的子树能直接删减;第二类语法依存关系所引导的子树能删减,但本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句法结构删减的自动文摘事实性增强方法,其特征在于,包括如下步骤:步骤1:将待纠错摘要文本输入语法依存树构建模块,语法依存树构建模块输出所述摘要文本对应的语法依存树,语法依存树中记录单词之间的语法依存关系;步骤2:剪枝模块对语法依存树进行剪枝操作,获得候选摘要集;预先将语法依存关系分类,分为三类:第一类语法依存关系所引导的子树能直接删减;第二类语法依存关系所引导的子树能删减,但要核查删减后的文本语法准确性,若语法出现错误则不能删减子树;第三类语法依存关系所引导的子树不能删减;剪枝模块对语法依存树进行后序遍历,依次访问每个子树,判断引导子树的节点与该节点的父节点间的语法依存关系类型,对于属于第一类和第二类的语法依存关系,则尝试剪枝该节点引导的子树,若能删减子树,生成一个删减子树后的候选摘要;在后续遍历过程中,先将被剪枝的子树还原,然后继续按序访问下一个子树,尝试剪枝子树,生成候选摘要;在对语法依存树遍历完成后,获得一个候选摘要集;步骤3:预先在服务器部署多个事实评价指标模型;将每个事实评价指标模型的实现进行封装并统一调用形式,部署在服务器并开放调用接口;步骤4:最佳摘要输出模块实时调用服务器上多个事实评价指标模型,对候选摘要集中的每个候选摘要及原始摘要进行事实性评价,根据评价结果输出最佳摘要。2.根据权利要求1所述的方法,其特征在于,所述的步骤2中...

【专利技术属性】
技术研发人员:胡鼎新张星玥李奕阳李雨泽李蕾周延泉
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1