面向科技文献的文本摘要与简化联合任务的方法及装置制造方法及图纸

技术编号:41437233 阅读:22 留言:0更新日期:2024-05-28 20:31
面向科技文献的文本摘要与简化联合任务的方法及装置,能够简化复杂的专业术语,增加文章的可读性,使其为广泛受众理解,提高文本简化的效果。方法包括:(1)将Eureka Alert数据集的每个部分作为一个单独的文档,使用<doc‑sep>作为特殊的输入标记,将文本输入长度设置为1024,输出文本长度设置为256,使用PLOS数据集作为中间预训练的PRIMERA模型;(2)通过数据增强扩展数据集并引入额外的变化和复杂性,通过运用英德回译,引入语义多样性以及相同内容的替代表达;(3)采用中间预训练探索作为补充的额外有价值数据;(4)利用非似然损失在训练生成模型时引入惩罚机制,使模型谨慎选择生成的内容。

【技术实现步骤摘要】

本专利技术涉及数据处理的,尤其涉及一种面向科技文献的文本摘要与简化联合任务的方法,以及一种面向科技文献的文本摘要与简化联合任务的装置。


技术介绍

1、随着信息的爆炸式增长,越来越多的新任务对文字信息处理提出了更高的要求。在一些新兴领域,如人工智能、医学生物等都需要摘要和简化的文本任务来广泛传播专业知识。由于不同领域的研究学者通过科学文献共享研究数据,分享科学知识并且能让大众接受对于加速科学的发展显得更加至关重要。

2、虽然在文本摘要生成研究方面取得了很多进展,但在科学文献中对简化摘要的研究仍然有限。在为科学文档生成摘要时,通常会倾向于不简化专业术语。这种倾向经常导致摘要中使用与输入文本相当复杂的术语,甚至降低可读性。


技术实现思路

1、为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种面向科技文献的文本摘要与简化联合任务的方法,其能够简化复杂的专业术语,增加文章的可读性,使其更容易为广泛受众理解,提高文本简化的效果。

2、本专利技术的技术方案是:一种面向科技文献的文本摘要与简本文档来自技高网...

【技术保护点】

1.面向科技文献的文本摘要与简化联合任务的方法,其特征在于:其包括以下步骤:

2.根据权利要求1所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:所述步骤(4)中,

3.根据权利要求2所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:所述步骤(4)中,使用的总损失函数为负对数似然损失和简化损失函数的和,其中λ为一个超参数,通过实验来调整:

4.根据权利要求3所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:该方法还包括步骤(5),使用相关性、可读性、事实性、简化性、综合评分这五个标准来评估生成文本的质量。

...

【技术特征摘要】

1.面向科技文献的文本摘要与简化联合任务的方法,其特征在于:其包括以下步骤:

2.根据权利要求1所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:所述步骤(4)中,

3.根据权利要求2所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:所述步骤(4)中,使用的总损失函数为负对数似然损失和简化损失函数的和,其中λ为一个超参数,通过实验来调整:

4.根据权利要求3所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:该方法还包括步骤(5),使用相关性、可读性、事实性、简化性、综合评分这五个标准来评估生成文本的质量。

5.根据权利要求4所述的面向科技文献的文本摘要与简化联合任务的方法,其特征在于:所述步骤(5)中,相关性采用rouge-1、rouge-2和rouge-l的f1分数作为评估摘要有效性的指标;可读性使用fkgl和dcrs,fkgl用于评估理解文本所需的美国学校年级水平,较低的fkgl分数表示更好的文本可读性,dcrs通过将文本与被认为对美国四年级学生熟...

【专利技术属性】
技术研发人员:张寒李昱璇姜丹肖克晶曹少中彭伟康睿哲
申请(专利权)人:北京印刷学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1