一种面向开放域的突发事件新闻识别方法及存储介质技术

技术编号:37494695 阅读:17 留言:0更新日期:2023-05-07 09:32
本发明专利技术提供一种面向开放域的突发事件新闻识别方法及存储介质,面向开放域的突发事件新闻识别方法包括以下步骤:从预处理的开放域新闻数据集中筛选出标注数据集和开放数据集及将标注数据集和开放数据集混合得到开放混合数据集,得到预训练完成后的文本特征提取器,构建自适应决策边界模型作为分类模型及得到各类别突发事件的质心和最佳决策半径并根据质心和最佳决策半径设计判定函数,利用文本特征提取器、分类模型和判定函数进行实时开放新闻环境下的突发事件识别和分类。本申请将检测突发事件和分类突发事件合并在统一框架中,实现了从开放域新闻数据中自动化地检测出突发事件新闻并完成分类,提高了从海量新闻中识别突发事件的效果。别突发事件的效果。别突发事件的效果。

【技术实现步骤摘要】
一种面向开放域的突发事件新闻识别方法及存储介质


[0001]本专利技术涉及自然语言处理文本分类
,具体涉及一种面向开放域的突发事件新闻识别方法及存储介质。

技术介绍

[0002]在自然语言处理文本分类领域,预训练语言模型和神经网络经过良好的训练能够分辨出不同类型的突发事件新闻,并展现出良好的性能。在开放新闻环境下高效精确识别突发事件新闻的核心,在于排除大量非突发事件新闻的干扰。但是本申请的专利技术人经过研究发现,目前大部分突发事件新闻识别技术存在以下两个问题:一是过多依赖数据标注,然而实际标注过程中非突发事件新闻远多于突发事件新闻,因而非突发事件新闻标注工作十分繁重,若不利用非突发事件新闻标注数据进行监督学习又会影响开放域中识别和分类突发事件新闻的性能,而且由于人工标注难以总括各种非突发事件新闻,标注信息还需要持续的维护和更新,因此会增大标注工作量和任务成本,导致人工成本高昂而可行性较低;二是多采用分阶段框架,遵循先检测突发事件再分类的流程,虽能提升突发事件新闻识别的精度,但却牺牲了识别的响应速度。

技术实现思路

[0003]针对现有大部分突发事件新闻识别技术存在的技术问题,本专利技术提供一种面向开放域的突发事件新闻识别方法,该方法提出一种以开放集识别算法为基础的开放领域突发事件识别框架,在降低人工标注成本的前提下,同时完成突发事件检测任务和突发事件分类任务,简化识别框架;通过自适应决策边界模型,一方面可以在不需要非突发事件标注信号监督的情况下,排除非突发事件新闻的干扰,降低标注工作量和维护成本,另一方面可以使用最佳决策边界判定突发事件及其类型;另外针对新闻数据噪声嘈杂的特点,提出融合多层语义的文本表示改善策略,进而改善输入自适应决策边界模型的文本表示向量,优化突发事件识别结果,有利于实际场景中的大规模突发事件新闻自动标注、自动监测和自动识别。
[0004]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0005]一种面向开放域的突发事件新闻识别方法,包括以下步骤:
[0006]S1、采用爬虫工具获得不限新闻主题的开放域新闻数据集D,对开放域新闻数据集D的数据进行预处理得到预处理的开放域新闻数据集D';从预处理的开放域新闻数据集D'中筛选出两部分数据,一是突发事件相关的新闻数据并为每个数据标注对应的事件类别标签记为标注数据集D1,二是非突发事件的新闻数据无需标注记为开放数据集D2,将标注数据集D1和开放数据集D2混合得到开放混合数据集D3;所述预处理的标注数据集D1作为训练集,开放混合数据集D3作为评测集;
[0007]S2、构建基于融合深度语义的BERT模型作为文本特征提取器M1,利用标注数据集D1结合焦点损失函数对文本特征提取器M1进行多分类监督学习预训练,得到预训练完成后的
文本特征提取器M1',通过M1'可以得到每条新闻样本的文本向量以此作为后续分类器的输入特征;
[0008]S3、假设特征空间中各类别突发事件的向量表示均存在球形决策边界,球形决策边界由质心和半径构成,各类别的突发事件新闻被限制在各自的边界内,边界外的则是非突发事件新闻,首先通过所述输入特征得到K类突发事件的质心c
k
,然后构建自适应决策边界模型作为分类模型M2,在所述标注数据集D1上基于边界损失函数对K类突发事件的最佳半径进行梯度下降学习,最小化经验风险和开放空间风险,获得K类突发事件的最佳决策半径Δk,最后根据所述K类突发事件的质心c
k
和最佳决策半径Δk设计判定函数F,通过判定函数F实现开放域新闻中的突发事件识别和分类;
[0009]S4、利用所述文本特征提取器M1'、分类模型M2和判定函数F进行实时开放新闻环境下的突发事件识别和分类。
[0010]进一步,所述步骤S1中对开放域新闻数据集D的数据进行预处理、从预处理的开放域新闻数据集D'中筛选出两部分数据以及突发事件新闻数据标注,包括以下步骤:
[0011]S11、数据预处理完成后的新闻至少包含发布时间、消息来源、事件发生时间、事件发生位置在内的新闻要素,具体步骤包括:
[0012]S111、剔除超文本标记干扰,使用正则化方法清洗新闻文本中的超文本标记;
[0013]S112、剔除无法表达关键信息的新闻文本;
[0014]S113、剔除新闻稿格式信息,减少新闻文本中的无用噪音;
[0015]S12、根据突发事件新闻类别设定分类标签L={1,

,K},其中K表示突发事件新闻类别的标签总数,即包括K种具体的突发事件新闻类别;
[0016]S13、根据每种具体突发事件的标签名称和相关性强的近义词定义规则检索词,根据所述检索词从预处理的开放域新闻数据集D'中初步筛选出待标突发事件数据,对初步筛选后的待标数据进行人工标注的二次筛选,得到标注数据集D1={(s1,l1),

,(s
i
,l
i
),

,(s
n
,l
n
)},其中l
i
∈L,s
i
和l
i
分别为第i条标注样本的文本内容和类别标签,n为标注样本的总条数;
[0017]S14、从预处理的开放域新闻数据集D'中根据新闻主题检索筛选出与突发事件无关的新闻数据得到开放数据集D2;
[0018]S15、将所述标注数据集D1和开放数据集D2混合得到开放混合数据集D3用于评测任务。
[0019]进一步,所述步骤S2中得到预训练完成后的文本特征提取器M1'的构造过程,包括以下步骤:
[0020]S21、输入数据处理,将所述标注数据集D1中文本序列长度截断为预设的最大长度:在每个文本序列最前面加入[CLS]标记,添加标记后的文本序列,若长度大于预设的最大长度则截断文本序列,若长度小于预设的最大长度则使用空标识符[UNK]补全序列,输入的每一个新闻文本都视作由单个字构成的序列T=[CLS,T1,

,T
N
],其中N表示文本的最大长度,H表示BERT模型隐藏层的维度大小,CLS表示文本起始位置的标记;
[0021]S22、构建基于融合深度语义的BERT模型作为文本特征提取器M1,根据BERT不同层级能够捕获不同语义信息的特点,对BERT的多层语义进行融合,BERT模型由12层Transformer结构块耦合组成,每层Transformer结构可以得到文本向量表示E
i
,其中i=
{1,2

,12};按照自底向上的策略顺次选取m层Transformer结构得到向量{E1,

,E
m
},对其中每个E
i
进行平均池化操作,再依次进行维度拼接得到融合深度语义的文本向量x
i
,计算方式如下:
[0022][0023]其中,Mean表示平均池化操作,Conc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向开放域的突发事件新闻识别方法,其特征在于,包括以下步骤:S1、采用爬虫工具获得不限新闻主题的开放域新闻数据集D,对开放域新闻数据集D的数据进行预处理得到预处理的开放域新闻数据集D';从预处理的开放域新闻数据集D'中筛选出两部分数据,一是突发事件相关的新闻数据并为每个数据标注对应的事件类别标签记为标注数据集D1,二是非突发事件的新闻数据无需标注记为开放数据集D2,将标注数据集D1和开放数据集D2混合得到开放混合数据集D3;所述预处理的标注数据集D1作为训练集,开放混合数据集D3作为评测集;S2、构建基于融合深度语义的BERT模型作为文本特征提取器M1,利用标注数据集D1结合焦点损失函数对文本特征提取器M1进行多分类监督学习预训练,得到预训练完成后的文本特征提取器M1',通过M1'可以得到每条新闻样本的文本向量以此作为后续分类器的输入特征;S3、假设特征空间中各类别突发事件的向量表示均存在球形决策边界,球形决策边界由质心和半径构成,各类别的突发事件新闻被限制在各自的边界内,边界外的则是非突发事件新闻,首先通过所述输入特征得到K类突发事件的质心c
k
,然后构建自适应决策边界模型作为分类模型M2,在所述标注数据集D1上基于边界损失函数对K类突发事件的最佳半径进行梯度下降学习,最小化经验风险和开放空间风险,获得K类突发事件的最佳决策半径Δk,最后根据所述K类突发事件的质心c
k
和最佳决策半径Δk设计判定函数F,通过判定函数F实现开放域新闻中的突发事件识别和分类;S4、利用所述文本特征提取器M1'、分类模型M2和判定函数F进行实时开放新闻环境下的突发事件识别和分类。2.根据权利要求1所述的面向开放域的突发事件新闻识别方法,其特征在于,所述步骤S1中对开放域新闻数据集D的数据进行预处理、从预处理的开放域新闻数据集D'中筛选出两部分数据以及突发事件新闻数据标注,包括以下步骤:S11、数据预处理完成后的新闻至少包含发布时间、消息来源、事件发生时间、事件发生位置在内的新闻要素,具体步骤包括:S111、剔除超文本标记干扰,使用正则化方法清洗新闻文本中的超文本标记;S112、剔除无法表达关键信息的新闻文本;S113、剔除新闻稿格式信息,减少新闻文本中的无用噪音;S12、根据突发事件新闻类别设定分类标签L={1,

,K},其中K表示突发事件新闻类别的标签总数,即包括K种具体的突发事件新闻类别;S13、根据每种具体突发事件的标签名称和相关性强的近义词定义规则检索词,根据所述检索词从预处理的开放域新闻数据集D'中初步筛选出待标突发事件数据,对初步筛选后的待标数据进行人工标注的二次筛选,得到标注数据集D1={(s1,l1),

,(s
i
,l
i
),

,(s
n
,l
n
)},其中l
i
∈L,s
i
和l
i
分别为第i条标注样本的文本内容和类别标签,n为标注样本的总条数;S14、从预处理的开放域新闻数据集D'中根据新闻主题检索筛选出与突发事件无关的新闻数据得到开放数据集D2;S15、将所述标注数据集D1和开放数据集D2混合得到开放混合数据集D3用于评测任务。3.根据权利要求1所述的面向开放域的突发事件新闻识别方法,其特征在于,所述步骤
S2中得到预训练完成后的文本特征提取器M1'的构造过程,包括以下步骤:S21、输入数据处理,将所述标注数据集D1中文本序列长度截断为预设的最大长度:在每个文本序列最前面加入[CLS]标记,添加标记后的文本序列,若长度大于预设的最大长度则截断文本序列,若长度小于预设的最大长度则使用空标识符[UNK]补全序列,输入的每一个新闻文本都视作由单个字构成的序列T=[CLS,T1,

,T
N
],其中N表示文本的最大长度,H表示BERT模型隐藏层的维度大小,CLS表示文本起始位置的标记;S22、构建基于融合深度语义的BERT模型作为文本特征提取器M1,根据BERT不同层级能够捕获不同语义信息的特点,对BERT的多层语义进行融合,BERT模型由12层Transformer结构块耦合组成,每层Transformer结构可以得到文本向量表示E
i
,其中i={1,2

,12};按照自底向上的策略顺次选取m层Transformer结构得到向量{E1,

,E
m
},对其中每个E
i
进行平均池化操作,再依次进行维度拼接得到融合深度语义的文本向量x
i
,计算方式如下:其中,Mean表示平均池化操作,Concat表示维度拼接操作;然后,经过全连接层和激活函数得到每条新闻文本的类别概率分布P
i
,计算方式如下:P
i
=σ(W
h
x
i
+b
h
)其中,h是BERT模型隐藏层维度,W
h
是全连接层的权值,...

【专利技术属性】
技术研发人员:葛继科胡庭恺陈祖琴陈超程文俊武承志刘苏刘浩因杨照旭余文成董焱郑育杰
申请(专利权)人:重庆科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1