【技术实现步骤摘要】
事件抽取方法、装置、电子设备及存储介质
[0001]本申请实施例涉及大数据处理
,尤其涉及一种事件抽取方法、装置、电子设备及存储介质。
技术介绍
[0002]随着大数据时代的到来,互联网思维和决策数据化已经开始渗入各行各业,对于新闻类型的数据,通常会以文章的形式出现在互联网中,而对于具有互联网思维和决策数据化能力的行业,其通常会对文章中的事件进行抽取,以提高决策效率。
[0003]由于新闻数据覆盖范围广、数量多,这对事件提取算法的处理时效具有较大的挑战性,而且新闻数据本身就具有较高的文本复杂性和事件复杂性,比如新闻数据大多来自不同的网站平台,由不同的编辑进行撰写,文章版面的排布以及文章的语法表达具有较大的差异,这就导致的新闻数据具有较高的文本复杂性,而新闻数据所涉及到的事件种类非常多,就算某个领域的新闻数据中所涉及的事件也高达几百甚至上千种,这就导致了新闻数据具有较高的事件复杂性。
[0004]较高的文本复杂性和事件复杂性就提高了算法从新闻数据中进行事件抽取的难度,降低了事件抽取的效率和精准度。 >
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种事件抽取方法,其特征在于,所述方法包括:获取待处理文本,并对所述待处理文本进行句子级切割,得到多个句子文本;对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本;将所述标签识别文本输入到预先训练的文本分类算法中,获取所述文本分类算法输出的各预设的事件标签对应的分类概率,并将满足预设条件的分类概率对应的事件标签确定为所述目标句子文本的目标事件标签;基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,以实现对所述目标句子文本的事件抽取。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,包括:获取新闻数据,所述新闻数据中包括多个新闻文本;对各所述新闻文本进行主题分类,得到每个所述新闻文本各自对应的文本主题;获取事件抽取所需的目标主题类型,筛选出所述目标主题类型对应的目标新闻文本,并将每个所述目标新闻文本确定为一个待处理文本。3.根据权利要求1所述的方法,其特征在于,所述对于得到多个句子文本中的任一目标句子文本,基于所述目标句子文本在所述待处理文本中的前后文,生成标签识别文本,包括:对于得到多个句子文本中的任一目标句子文本,获取所述目标句子文本在所述待处理文本中所在位置的前N个句子文本和后M个句子文本,其中N为第一预设正整数,M为第二预设正整数;将所述前N个句子文本和后M个句子文本确定为所述目标句子文本在所述待处理文本中的前后文;将所述前后文和所述目标句子文本进行组合,得到标签识别文本。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:以各事件标签下的标签识别文本样本,对文本分类算法进行训练,得到训练好的初始文本分类算法;利用蒸馏模型对初始文本分类算法进行简化压缩,得到最终的文本分类算法。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标事件标签对应的元素架构,从所述目标句子文本中抽取事件元素,包括:将所述目标事件标签和所述目标句子文本输入到预先训练的元素抽取算...
【专利技术属性】
技术研发人员:严晨,张慧,于海军,陈家树,史光华,
申请(专利权)人:上海安硕企业征信服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。