基于案件要素异构图的舆情新闻抽取式摘要方法技术

技术编号:29156816 阅读:27 留言:0更新日期:2021-07-06 22:56
本发明专利技术基于案件要素异构图的舆情新闻抽取式摘要方法,属于自然语言处理领域。本发明专利技术包括:构建案件舆情新闻数据集;首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。本发明专利技术采用异构图表示不同节点的方式,通过对句子节点与案件要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明专利技术通过融合案件要素进行有效筛选包含较多关键词的句子,实现了舆情摘要的抽取式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

【技术实现步骤摘要】
基于案件要素异构图的舆情新闻抽取式摘要方法
本专利技术涉及基于案件要素异构图的舆情新闻抽取式摘要方法,属于自然语言处理领域。
技术介绍
案件舆情摘要可以看做一个面向特定领域的摘要,目前针对该任务主要有抽取式和生成式两类方法。其中抽取式摘要直接从原文中抽取重要的句子作为摘要句,因为句子来自于原文,流畅度和忠实度较好,在实际场景下取得了很好的效果。传统的抽取式摘要方法包括基于主题模型的方法,基于图排序的方法。(1)基于主题模型的方法是通过狄利克雷分布(LDA)模型得到文本主题,然后采用不同的算法计算句子和主题的相似度来得到摘要句,例如Liu将LDA建立的主题分成重要和非重要两类,并使用词频、位置等统计特征和LDA特征一起计算句子权重。Wu提出一种方法考虑时间演化的基础上同时考虑主题的演化,最后将标题作为摘要输出。(2)基于图排序的方法是将句子作为顶点,句子之间的相似度作为边的权重,根据顶点的权重的分数来确定关键句,例如Mihalcea等通过TextRank图排序算法抽取文本中重要度较高的句子形成摘要。另一类抽取式摘要方法主要是基于深度神经网本文档来自技高网...

【技术保护点】
1.基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,首先构建案件舆情新闻数据集;通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系;最后对句子进行分类,生成摘要。/n

【技术特征摘要】
1.基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,首先构建案件舆情新闻数据集;通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系;最后对句子进行分类,生成摘要。


2.根据权利要求1所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述构建案件舆情新闻数据集包括:
通过爬虫技术爬取基于百度百科案件舆情文本;
首先构造一个包含案件名称的案件库,根据案件名称在百度百科词条中去搜索,搜索结果以网页的形式展现,以网页内容第一条为摘要;把网页第二条描述案件相关的内容定义为案件要素,其数量平均为5个,经过筛选与预处理形成json格式文件,通过人工对数据集进行清洗、标注得到案件舆情新闻数据集。


3.根据权利要求1所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图包括:
通过词嵌入和位置嵌入分别对案件舆情新闻正文和案件要素进行特征编码,利用CNN与BiLSTM编码器提取句子特征,将获得的句子特征和案件要素特征构建异构图提取文档特征,再对文档特征采用基于图注意力机制融入案件要素的方法对句子进行有效地过滤筛选,采用图注意力同时学习和更新主任务模型和辅助模型的参数。


4.根据权利要求1所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述构建案件舆情新闻数据集的具体步骤如下:
Step1.1、通过爬虫技术爬取案件舆情新闻文本,共爬取14214篇文档,每一篇爬取的文档包含着摘要、案件要素以及对于案件描述的正文;
Step1.2、对案件舆情新闻数据集中的正文及案件要素进行过滤筛选,过滤筛选的方式如下所示:(1)去除文本内容中的多余符号、超链接和特殊字符;(2)去除正文中相同的案件要素信息;
Step1.3、采用人工标注,获得案件舆情数据集;首先对正文中的每一句话打上标签,1为候选摘要,0则不是候选摘要。


5.根据权利要求1所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图的具体步骤如下:
Step2.1、使用卷积神经网络CNN得到词局部特征,同时用双向长短期记忆网络BiLSTM获得句子全局特征,最后拼接词局部特征和句子全局特征,得到句子特征表示;
Step2.2、案件要素的编码,采用Word2Vec编码模块对案件要素特征、词特征进行编码,得到案件要素特征表示、词特征表示;
Step2.3、引入在句子中的词来连接句子,计算TF-IDF值作为案件要素节点与句子节点之间的边权重,同理计算词节点与句子节点之间的TF-IDF值作为它们之间边的权重;利用得到的句子特征表示、案件要素特征表示、词特征表示、案件要素节点与句子节点之间的边权重、词节点与句子节点之间的边权重来构建异构图;
Step2.4、在构建异构图中,已经对案件要素节点与句子节点之间边的权重通过TF-IDF初始化得到,通过注意力层更新权重值,得到权重值高的句子,通过词节点再建立句子间的联系,得到句子间的权重,最后通过两个注意力拼接就得到文档中的与案件相关的句子排序。


6.根据权利要求5所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述Step2.1的具体步骤如下:
Step2.1.1、在句子编码层,首先将句子分词获得词级信息进行词嵌入表示,转换成句子向量,作为输入;
编码器读取输入序列D={s1,s2,…,sn},是含有n个句子的文档,上下文的表征向量是H={h1,h2,…,hn},表示有n个句子节点的向量表示,即也表示正文中句子的数目;s={w1,w2,…,wm}是含有m个词的句子,卷积层窗口内的m个词s={wi,wi+1,wi+2,…,wi+m-1}采用xi;i+m-1表示,m个词局部特征用ls表示,具体如下:
ls=g(Wxi:i+m-1+b)(1)
其中b是一个偏置项,g是一个非线性的激活函数,w是卷积运算中的滤波器,能提取卷积窗口内的连续词之间的特征;获得词局部特征,便于与词节点和案件要素节点建立联系,局部特征也便于增强句子节点间的联系;
Step2.1.2、句子全局特征用gs表示,采用BiLSTM,作为一种序列化模型,对输入的句子进行逐词编码,BiLSTM包含前向和后向LSTM,






其中,和分别表示前向LSTM和后向LSTM网络,hsi表示i时刻的输入,将前向和后向编码向量拼接得到输入序列句子节点s的全局向量表征
最后,通过CNN得到的词局部特征和BiLSTM得到的句子全局特征的拼接作为句子节点s矩阵表示:



式(4)中n表示正文中句子的数目,ds是每个句子输入时的特征矩阵的维数。


7.根据权利要求5所述的基于案件要素异构图的舆情新闻抽取式摘要方法,其特征在于,所述Step2.2的具体步骤如下:
Step2.2.1、在异构图中节点包含句子节点集合S、词节点集...

【专利技术属性】
技术研发人员:余正涛李刚黄于欣相艳朱恩昌张勇丙
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1