【技术实现步骤摘要】
一种基于深度学习的新闻事件活动名称抽取方法
[0001]本专利技术涉及新闻文本内容信息抽取领域,更为具体的,涉及一种基于深度学习的新闻事件活动名称抽取方法。
技术介绍
[0002]新媒体时代下,我们每天接收到的新闻资讯数据呈现爆炸式增长,快速掌握新闻资讯内容成为迫切任务。自动抽取新闻事件活动名称能够满足用户便捷查看当前发生各个热点事件的需求,也可用于推荐、去重、提升事件排行榜单等业务场景,具有十分重要的实际意义。
[0003]目前新闻事件活动名抽取多采用序列标注技术方向来实现,是一个类似于实体识别但又难于实体识别的任务。实际生产中面临着许多难点问题:如中文分词问题,错误的分词会导致最后抽取的事件活动名称不完整,出现中文词语被错误截断的问题;另外由于事件活动名相对实体而言往往更长,较长的文本信息就需要考虑上下文信息捕捉与传递误差的问题,否则容易出现信息抽取不完全;事件活动名称往往包含更复杂的语法特征,结构信息相对于实体而言也更复杂更多变。
技术实现思路
[0004]本专利技术的目的在于克服现有技术的不足,为解决上述问题,提供一种基于深度学习的新闻事件活动名称抽取方法,解决背景中的问题,具有抽取新闻事件活动名称完整、准确和高效的优点。
[0005]本专利技术的目的是通过以下方案实现的:一种基于深度学习的新闻事件活动名称抽取方法,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的新闻事件活动名称抽取方法,其特征在于,包括步骤:S1,收集新闻文本数据并标注其中的新闻事件活动名称,构建新闻事件活动名称数据集;S2,利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型,并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型;S3,利用步骤S2中训练好的新闻事件活动名称抽取模型,对输入的新闻文本进行预测,获得新闻文本中包含的新闻事件活动名称。2.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S1包括子步骤:S11,对收集的新闻文本数据,根据中文语句分割符号进行分句后,记录分句后的新闻文本数量K,K为正整数;S12,将完成分句的K条新闻文本数据,复制N份并分发给N个相互独立的标注系统进行数据标注,N为正整数;S13,构建评价中心服务,收集N个标注系统的已标注数据,对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统,直至标注争议消除,并在满足预选设定的条件后生成新闻事件活动名称数据集。3.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S2中所述构建新闻事件活动名称抽取模型包括构建:文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。4.根据权利要求1所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S3包括子步骤:S31,按照中文语句分割符号对收集到的新闻文本数据进行分句,将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型;S32,利用所述新闻事件活动名称抽取模型,获得新闻文本包含的事件活动名称候选集合,其中表示候选事件活动名称的数量,表示第r个事件活动名称;S33,对新闻事件活动名称进行后处理,得到输入新闻文本数据中所包含的事件名称预测结果。5.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S12中在所述复制N份并分发给N个相互独立的标注系统后,由N位新闻从业人员进行数据标注。6.根据权利要求2所述的基于深度学习的新闻事件活动名称抽取方法,其特征在于,步骤S13中包括子步骤:S131,设置标注争议判定阈值为,设置数据质量过审阈值;S132,基于N个标注系统的相同文本内容的已标注数据,若N个标注系统对于同一条数据产生M种不同的标注结果,M为正整数;第i种标注结果的数量为m
i
,i=1,2,...,M,计算标注争议判定权重如下:
其中,求取最大值的函数;S133,判定当前新闻文本的标注结果是否存在争议,判定方法如下:无争议,有争议;S134,基于步骤S133的判断结果进行处理:若当前新闻文本的标注结果有争议,则将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注,若当前新闻文本的标注结果无争议,则记录为无争议标注文本数据并统计无争议标注文本数据数量,记为;S135,对所有K条新闻文本数据重复步骤S132至S134,并计算无争议标注文本数据数量占总文本数量的比例,计算公式如下:;S136,若S135的计算结果满足条件,则将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,数量最多的第i个标注结果;若S135的计算结果不满足条件,则重复步骤S132至S135,直至满足条件后将K条新闻文本数据,及其最优标注结果导出为新闻事件活动名称数据集,其中,最优标注结果的定义为:每一条新闻文本数据在全部N个标注系统的M种标注结果中,数量最多的第i个标注结果。7.根据权利要求3所述的基于深度学习的新闻事件活动名称...
【专利技术属性】
技术研发人员:杨瀚,朱婷婷,温序铭,
申请(专利权)人:成都索贝数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。