基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置制造方法及图纸

技术编号:37709969 阅读:23 留言:0更新日期:2023-06-02 00:01
基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置,包括:获取舆情文本作为训练数据,并对训练数据进行预处理;对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词;通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据;将训练数据与标签数据送入PEGASUS中进行训练;训练后的模型,先基于输入文本生成实体链,再基于输入文本与实体链生成摘要,计算摘要的忠实度与多样性得分,选择最优的摘要作为最终输出。本发明专利技术提高舆情文本摘要自动生成的多样性与忠实度,解决生成舆情文本摘要多样性不足、内容幻觉与实体退化的问题。内容幻觉与实体退化的问题。内容幻觉与实体退化的问题。

【技术实现步骤摘要】
基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置


[0001]本专利技术属于互联网信息服务
,涉及基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置。

技术介绍

[0002]近年来,随着互联网各类应用中对用户生成内容功能的支持,尤其是互联网社交网络、博客、微博等信息发布平台的兴盛,个人表达自己观点的渠道日益畅通,手段日益便捷。然而,在网络舆情事件发生时,公众对事件所持有的情绪、意见、态度以文本的形式,在较短的时间内快速表达出来,互联网上的文本数据数量快速攀升,客观、准确地知晓公众对舆情事件的情绪、意见、态度迫在眉睫。为了在舆情事件发生时,在海量的互联网数据中准确地找到有效的信息,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。目前文本摘要按照输出类型可分为抽取式摘要和生成式摘要:抽取式文本摘要和生成式文本摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。
[0003]抽取式方法从原文中选取关键词、关键句组成摘本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,包括:获取舆情文本作为训练数据,并对训练数据进行预处理;对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词;通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据;将训练数据与标签数据送入PEGASUS进行训练;训练后的模型,先基于输入文本生成实体链,再基于输入文本与实体链生成摘要,计算过度生成摘要的忠实度与多样性得分,选择最优的摘要作为最终输出。2.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述对训练数据进行预处理,包括:使用舆情文本作为训练数据,对舆情文本数据进行清洗,去掉原始数据中的符号表情、特殊字符以及URL。3.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词,包括:使用TextRank算法辅以人工选择训练数据的关键语句,对训练数据中的关键句子整个进行屏蔽或者删除,并将其作为剩余句子的伪摘要;使用jieba分词算法对伪摘要进行分词,筛选分词词性,将名词、地点名词以及时间名词作为实体词进行保留。4.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据,包括:使用

|

串联同一句子的实体词,组成句子实体链,使用

|||

串联不同句子实体链,构成整个摘要实体链;使用[CONTENT]作为摘要实体链的头,[SUMMARY]作为摘要实体链与伪摘要的分割,将摘要实体链与伪摘要进行合并作为标签数据。5.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,训练模型,包括:设置输入模型的训练数...

【专利技术属性】
技术研发人员:孙鹤立黄小勇褚旭光何亮何晖
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1