当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于图注意网络的灾难信息过滤方法及系统技术方案

技术编号:33310142 阅读:11 留言:0更新日期:2022-05-06 12:21
本发明专利技术公开了一种基于图注意网络的灾难信息过滤方法,具有这样的特征,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括以下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果。其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。本发明专利技术还公开了一种基于图注意网络的灾难信息过滤系统,包括预处理部和信息过滤部。包括预处理部和信息过滤部。包括预处理部和信息过滤部。

【技术实现步骤摘要】
一种基于图注意网络的灾难信息过滤方法及系统


[0001]本专利技术属于机器学习领域,具体涉及一种基于图注意网络的灾难信息过滤方法及系统。

技术介绍

[0002]社交媒体已经成为紧急情况下分享信息的重要媒介。社交媒体和传统新闻来源的主要区别在于能够实时收到受影响人群的反馈。救援组织可以从这一双向沟通渠道中获益,向人们通报情况,并从受影响人群收到的最新情况中获得见解。因此,从社交平台上的帖子中提取危机信息,可以充分利用情境意识,从而更快地做出反应。
[0003]大多数研究都将社交媒体中的信息提取作为二进制文本分类问题。研究表明,在灾难发生时,社交媒体作为主要信息来源的作用。有些研究专注于从帖子中过滤相关信息,而另一些研究则提出了注释方案,将帖子分类为细粒度标签,这些标签考虑了人们在灾难发生前、期间和之后发布帖子的态度、信息源和决策行为。为了推进社会媒体危机监测解决方案的状态,最近几年推出了相关的倡议。其中之一是始于2018年的文本检索会议的事件流跟踪。该专题旨在将与灾难相关的推文分类为多种信息类型。
[0004]同时,帖子分类是一项具有挑战性的短文本自然语言处理任务。这是因为帖子没有足够的上下文信息,而且包含固有的嘈杂,例如拼写错误、缩略词、表情符号等。此外,在多标签的情况下,分类任务变得更加困难,因为一条帖子可能同时属于一个或多个标签。早期的文本分类研究将特征工程和模型训练作为不同的子任务。随着端到端深度学习方法和注意机制的出现,多标签文本分类领域取得了显著进展。传统方法可以适当地截取文本的特征。/>[0005]然而,这些方法忽略了文本语料库中词语之间的结构信息和关系。预先训练过的语言模型,如BERT,在文本分类任务中变得越来越流行。然而,由于BERT仅捕获本地上下文信息,BERT嵌入不能充分捕获关于语言词汇的全局信息。为了解决这一问题,理解词汇表中单词之间的全局关系,基于图的方法,如图卷积网络和图注意网络是很有前景的。
[0006]最近的研究利用了BERT和图网络相结合的优势。对于输入句子,采用BERT嵌入方法获取局部上下文信息,采用图嵌入方法提取句子中每个单词的全局信息,然后用BERT连接。然后,BERT和图卷积网络的两种表示通过自我注意机制相互作用来执行分类任务。
[0007]然而,目前还缺乏有效的系统来将相关帖子映射到更细粒度的标签上。这种细粒度的标签对危机应对者尤其有价值,因为他们可以过滤关键信息,以快速做出灾难响应。

技术实现思路

[0008]本专利技术是为了解决上述问题而进行的,目的在于提供一种基于图注意网络的灾难信息过滤方法及系统。
[0009]本专利技术提供了一种基于图注意网络的灾难信息过滤方法,具有这样的特征,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括
以下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果。其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。
[0010]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,BERT编码器捕捉推文的语义,并表示为一个低维向量。
[0011]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤2中,使用可学习的距离度量,以监督的方式,学习帖子向量和标签向量之间的相似性。
[0012]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤2中,信息过滤网络模型学习了TREC

IS数据集,并采用了来自TREC

IS挑战作者的可行动信息定义。
[0013]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤2中,使用累计警报值来评估信息过滤网络模型的表现,以识别推文中的可操作信息。
[0014]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤2中,采用元学习的方式来学习输入特征和多标签输出之间的映射。
[0015]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤2中,使用监督学习的方法训练关系网络来学习相似度。
[0016]在本专利技术提供的基于图注意网络的灾难信息过滤方法中,还可以具有这样的特征:其中,步骤S3包括如下步骤:步骤S3

1,将预处理后的数据依次输入到信息过滤网络模型中并进行一次迭代;步骤S3

2,进行迭代后,采用最后一层的模型参数分别计算出损失误差,然后将损失误差反向传播,从而更新模型参数;步骤S3

3,重复步骤S3

1到S3

2直至达到训练完成条件,得到训练后的信息过滤网络模型。
[0017]本专利技术提供了一种基于图注意网络的灾难信息过滤系统,具有这样的特征,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括:预处理部,对数据集中的帖子进行预处理,得到预处理后的数据;信息过滤部,搭建信息过滤网络模型,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果。其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。
[0018]专利技术的作用与效果
[0019]根据本专利技术所涉及的基于图注意网络的灾难信息过滤方法,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,因为包括以下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把预处理后的数据输入信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入训练完成的信息过滤网络模型,得到分类结果.其中,信息过滤网络模型包括BERT编码器、图注意网络以及关系网络。
[0020]因此,本专利技术采用BERT编码器和音图注意网络结合的模型,该模型能够将推文的上下文化表示与推文及其标签之间的相关性集成在一起。因此能够自动将推文分类为多标
签信息类型,并从庞大的社交媒体数据中过滤关键信息。
[0021]此外,本专利技术的基于图注意网络的灾难信息过滤方法及系统特别适合在社交平台中使用。
附图说明
[0022]图1是本专利技术的实施例中基于图注意网络的灾难信息过滤方法的流程图;
[0023]图2是本专利技术的实施例中信息过滤网络的结构示意图;以及
[0024]图3是本专利技术的实施例中图注意网络的结构示意图。
具体实施方式
[0025]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图注意网络的灾难信息过滤方法,其特征在于,使用图注意网络理解帖子的单词和相应信息类型之间的相关性,过滤得到可执行的信息,包括如下步骤:步骤1,对数据集中的帖子进行预处理,得到预处理后的数据;步骤2,搭建信息过滤网络模型;步骤3,把所述预处理后的数据输入所述信息过滤网络模型中进行训练,得到训练完成的信息过滤网络模型;步骤4,将待分类的帖子输入所述训练完成的信息过滤网络模型,得到分类结果,其中,信息过滤网络包括BERT编码器、图注意网络以及关系网络。2.根据权利要求1所述的基于图注意网络的灾难信息过滤方法,其特征在于:其中,所述BERT编码器捕捉推文的语义,并表示为一个低维向量。3.根据权利要求1所述的基于图注意网络的灾难信息过滤方法,其特征在于:其中,步骤2中,使用可学习的距离度量,以监督的方式,学习帖子向量和标签向量之间的相似性。4.根据权利要求1所述的基于图注意网络的灾难信息过滤方法,其特征在于:其中,步骤2中,所述信息过滤网络模型学习了TREC

IS数据集,并采用了来自TREC

IS挑战作者的可行动信息定义。5.根据权利要求1所述的基于图注意网络的灾难信息过滤方法,其特征在于:其中,步骤2中,使用累计警报值来评估所述信息过滤网络模型的表现,以识别推文中的可操作信息。6.根据权利要求1所述的基于图注意网络的灾难信息过滤方法...

【专利技术属性】
技术研发人员:何梦雨冯瑞
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1