【技术实现步骤摘要】
基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置
[0001]本专利技术属于互联网信息服务
,涉及基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置。
技术介绍
[0002]近年来,随着互联网各类应用中对用户生成内容功能的支持,尤其是互联网社交网络、博客、微博等信息发布平台的兴盛,个人表达自己观点的渠道日益畅通,手段日益便捷。然而,在网络舆情事件发生时,公众对事件所持有的情绪、意见、态度以文本的形式,在较短的时间内快速表达出来,互联网上的文本数据数量快速攀升,客观、准确地知晓公众对舆情事件的情绪、意见、态度迫在眉睫。为了在舆情事件发生时,在海量的互联网数据中准确地找到有效的信息,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。目前文本摘要按照输出类型可分为抽取式摘要和生成式摘要:抽取式文本摘要和生成式文本摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。
[0003]抽取式方法从原文中选取 ...
【技术保护点】
【技术特征摘要】
1.基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,包括:获取舆情文本作为训练数据,并对训练数据进行预处理;对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词;通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据;将训练数据与标签数据送入PEGASUS进行训练;训练后的模型,先基于输入文本生成实体链,再基于输入文本与实体链生成摘要,计算过度生成摘要的忠实度与多样性得分,选择最优的摘要作为最终输出。2.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述对训练数据进行预处理,包括:使用舆情文本作为训练数据,对舆情文本数据进行清洗,去掉原始数据中的符号表情、特殊字符以及URL。3.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词,包括:使用TextRank算法辅以人工选择训练数据的关键语句,对训练数据中的关键句子整个进行屏蔽或者删除,并将其作为剩余句子的伪摘要;使用jieba分词算法对伪摘要进行分词,筛选分词词性,将名词、地点名词以及时间名词作为实体词进行保留。4.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,所述通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据,包括:使用
‘
|
’
串联同一句子的实体词,组成句子实体链,使用
‘
|||
’
串联不同句子实体链,构成整个摘要实体链;使用[CONTENT]作为摘要实体链的头,[SUMMARY]作为摘要实体链与伪摘要的分割,将摘要实体链与伪摘要进行合并作为标签数据。5.根据权利要求1所述的基于PEGASUS与实体链的舆情文本摘要生成方法,其特征在于,训练模型,包括:设置输入模型的训练数...
【专利技术属性】
技术研发人员:孙鹤立,黄小勇,褚旭光,何亮,何晖,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。