一种基于深度学习的新闻事件活动名称抽取方法技术

技术编号:31381803 阅读:24 留言:0更新日期:2021-12-15 11:30
本发明专利技术公开了一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称;本发明专利技术具有抽取新闻事件活动名称完整、准确和高效的优点。准确和高效的优点。准确和高效的优点。

【技术实现步骤摘要】
一种基于深度学习的新闻事件活动名称抽取方法


[0001]本专利技术涉及新闻文本内容信息抽取领域,更为具体的,涉及一种基于深度学习的新闻事件活动名称抽取方法。

技术介绍

[0002]新媒体时代下,我们每天接收到的新闻资讯数据呈现爆炸式增长,快速掌握新闻资讯内容成为迫切任务。自动抽取新闻事件活动名称能够满足用户便捷查看当前发生各个热点事件的需求,也可用于推荐、去重、提升事件排行榜单等业务场景,具有十分重要的实际意义。
[0003]目前新闻事件活动名抽取多采用序列标注技术方向来实现,是一个类似于实体识别但又难于实体识别的任务。实际生产中面临着许多难点问题:如中文分词问题,错误的分词会导致最后抽取的事件活动名称不完整,出现中文词语被错误截断的问题;另外由于事件活动名相对实体而言往往更长,较长的文本信息就需要考虑上下文信息捕捉与传递误差的问题,否则容易出现信息抽取不完全;事件活动名称往往包含更复杂的语法特征,结构信息相对于实体而言也更复杂更多变。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,为解决上述问题,提供一种基于深度学习的新闻事件活动名称抽取方法,解决背景中的问题,具有抽取新闻事件活动名称完整、准确和高效的优点。
[0005]本专利技术的目的是通过以下方案实现的:一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。
[0006]进一步地,步骤S1包括子步骤:S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。
[0007]进一步地,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。
[0008]进一步地,步骤S3包括子步骤:S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候选集合,其中表示候选事件活动名称的数量,表示第r个事件活动名称;S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。
[0009]进一步地,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。
[0010]进一步地,步骤S13中包括子步骤:S131,设置标注争议判定阈值为,设置数据质量过审阈值;S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一条数据产生M种不同的标注结果,M为正整数;第i种标注结果的数量为m
i
,i=1,2,...,M,计算标注争议判定权重如下:其中,求取最大值的函数;S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:无争议,有争议;S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记为;S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据数量占总文本数量的比例,计算公式如下:;S136,若S135的计算结果满足条件,则将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,
数量最多的第i个标注结果;若S135的计算结果不满足条件,则重复步骤S132至S135,直至满足条件后将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,数量最多的第i个标注结果。
[0011]进一步地,构建所述文本字符编码层包括子步骤:使用预训练模型BERT对文本进行字符级编码,将输入的新闻文本的每个字符j转换为设定的维度的实数向量,维度记为p。
[0012]进一步地,构建所述文本分词编码层包括子步骤:S2A1,对输入的新闻文本进行分词,并根据BMES规则进行分词标注;S2A2,定义分词编码矩阵,其中,第一行为BMES规则中B对应的分词编码、第二行为BMES规则中M对应的分词编码、第三行为BMES规则中E对应的分词编码、第四行为BMES规则中S对应的分词编码;S2A3,通过分词编码矩阵将输入新闻文本的每个字符j转化为维度为p的实数向量,并构建分词嵌入矩阵,其中H的第j行为,L输入新闻文本的字符数量。
[0013]进一步地,构建所述文本词语编码层包括子步骤:S2B1,统计输入新闻文本的字符数量L;S2B2,构建初始化分词表示矩阵,初始化Q中的每一个元素均为0;S2B3,构建字符嵌入矩阵,其中U的第j行是;S2B4,基于利用BMES规则进行的分词标注,更新分词表示矩阵为;S2B5,按照如下公式计算输入新闻文本的词语嵌入矩阵:其中,表示矩阵乘法。
[0014]进一步地,构建文本特征融合层包括子步骤:S2C1,将步骤S2A3得到的分词嵌入矩阵、步骤S2B3得到的字符嵌入矩阵、步骤S2B5得到的词语嵌入矩阵依次进行拼接,得到三维文本表示矩阵;S2C2,构建卷积神经网络层对进行卷积操作,并得到卷积后的融合三维文本表示矩阵;
S2C3,构建最大池化层P对在第二维度上执行最大池化得到融合文本表示矩阵;S2C4,构建上下文语义融合层,采用双向长短期记忆神经网络对融合文本表示矩阵进行上下文语义融合,得到上下文文本表示矩阵。
[0015]进一步地,步骤S2B4包括子步骤:S2B41,初始化文本词语首字符统计;S2B42,若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为S,则令;若输入新闻文本的第l个字符根据BMES规则进行分词标注后得到的标注为B,则令,令;若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为M或E,则令,其中;S2B43,对输入新闻文本从第一个字符开始依次对每一个字符执行步骤S2B42,从而完成更新后的分词表示矩阵,记为。
[0016]进一步地,构建所述事件活动名称抽取层包括子步骤:采用CRF算法将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的新闻事件活动名称抽取方法,其特征在于,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。2.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S1包括子步骤:S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。3.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。4.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S3包括子步骤:S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候选集合,其中表示候选事件活动名称的数量,表示第r个事件活动名称;S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。5.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。6.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S13中包括子步骤:S131,设置标注争议判定阈值为,设置数据质量过审阈值;S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一条数据产生M种不同的标注结果,M为正整数;第i种标注结果的数量为m
i
,i=1,2,...,M,计算标注争议判定权重如下:
其中,求取最大值的函数;S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:无争议,有争议;S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记为;S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据数量占总文本数量的比例,计算公式如下:;S136,若S135的计算结果满足条件,则将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,数量最多的第i个标注结果;若S135的计算结果不满足条件,则重复步骤S132至S135,直至满足条件后将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,数量最多的第i个标注结果。7.根据权利要求3所述的基于深度学习的新闻事件活动名称...

【专利技术属性】
技术研发人员:杨瀚朱婷婷温序铭
申请(专利权)人:成都索贝数码科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1