事件识别方法及装置、电子设备、介质和程序制造方法及图纸

技术编号:30697641 阅读:22 留言:0更新日期:2021-11-06 09:33
本公开的实施例提供了一种事件识别方法及装置、电子设备、介质和程序,其中,方法包括:获取信息文本;利用预先训练得到的事件类型识别模型,预测所述信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果;其中,事件类型列表包括预先设定的多个事件类型;基于第一预测结果,确定信息文本对应的事件类型。本公开技术方案能够对信息文本实现有效的事件识别,提高了识别信息文本对应事件类型的准确性。准确性。准确性。

【技术实现步骤摘要】
事件识别方法及装置、电子设备、介质和程序


[0001]本公开涉及数据处理
,特别涉及事件识别方法及装置、电子设备、介质和程序。

技术介绍

[0002]舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
[0003]随着互联网技术的快速发展,网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,这不仅有利于对企业的舆情信息进行分析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。
[0004]现有技术对企业的舆情信息进行事件识别时,直接提取舆情信息中存在的预设事件关键词作为事件。在实现本公开的过程中,本专利技术人通过研究发现,由于预设事件关键词有限,有些舆情信息中不存在预设事件关键词,此时无法针对舆情信息进行有效的事件识别。

技术实现思路

[0005]本公开的目的在于提供一种事件识别方法及装置、电子设备、介质和程序,进而至少在一定程度上提高对舆情信息进行事件识别的准确性。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的第一方面,提供一种事件识别方法,包括:
[0008]获取信息文本;
[0009]利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果;其中,事件类型列表包括预先设定的多个事件类型;
[0010]基于第一预测结果,确定信息文本对应的事件类型。
[0011]可选地,在本公开的示例性实施例中,第一预测结果包括:信息文本是事件类型列表中各事件类型的概率值和不是事件类型列表中各事件类型的概率值;
[0012]基于第一预测结果,确定信息文本对应的事件类型,包括:
[0013]获取第一预测结果中是事件类型列表中事件类型的概率值大于不是同一事件类型的概率值的事件类型,作为信息文本对应的事件类型;或者,
[0014]获取第一预测结果中是事件类型列表中事件类型的概率值大于第一预设阈值的事件类型,作为信息文本对应的事件类型;或者,
[0015]获取第一预测结果中是事件类型列表中各事件类型的概率值最大的前N个事件类型作为信息文本对应的事件类型,其中,N的取值为大于0的整数。
[0016]可选地,在本公开的示例性实施例中,确定信息文本对应的事件类型之后,还包括:
[0017]根据预先设定的事件类别列表中各事件类别与事件类型列表中各事件类型之间的对应关系,确定信息文本对应的事件类别;其中,事件类别列表包括预先设定的多个事件类别。
[0018]可选地,在本公开的示例性实施例中,还包括:
[0019]利用预先训练得到的事件类别识别模型,预测信息文本是否事件类别列表中各事件类别的概率值,得到第二预测结果;其中,事件类别列表包括预先设定的多个事件类别;
[0020]基于第二预测结果,确定信息文本对应的事件类别;
[0021]确定信息文本对应的事件类别和信息文本对应的事件类型,是否符合预先设定的事件类别列表中各事件类别与事件类型列表中各事件类型之间的对应关系;
[0022]若符合对应关系,输出信息文本对应的事件类别和/或事件类型。
[0023]可选地,在本公开的示例性实施例中,获取信息文本之后,还包括:
[0024]识别信息文本的长度是否大于预设长度;
[0025]若信息文本的长度大于预设长度,以预设长度为单位,将信息文本分割为多个文本段;
[0026]利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果,包括:
[0027]利用预先训练得到的事件类型识别模型,分别预测文本段是否事件类型列表中各事件类型的概率值;
[0028]基于文本段是否事件类型列表中各事件类型的概率值,得到第一预测结果;
[0029]否则,若信息文本的长度小于或者等于预设长度,执行利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作。
[0030]可选地,在本公开的示例性实施例中,获取信息文本之后,还包括:
[0031]识别信息文本中是否存在预设垃圾语料词集合中的词语;
[0032]若信息文本中存在预设垃圾语料词集合中的词语,不执行后续操作,或者过滤掉预设垃圾语料词集合中的词语,并对过滤掉预设垃圾语料词集合中的词语后的信息文本,执行利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作;
[0033]否则,若信息文本中不存在预设垃圾语料词集合中的词语,执行利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作。
[0034]可选地,在本公开的示例性实施例中,获取信息文本之后,还包括:
[0035]对信息文本进行实体识别;
[0036]对信息文本进行实体与信息文本之间的相关性分析,得到相关性分析结果;
[0037]利用预先训练得到的事件类型识别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果,包括:
[0038]根据相关性分析结果,对相关性高的实体,执行利用预先训练得到的事件类型识
别模型,预测信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作。
[0039]可选地,在本公开的示例性实施例中,相关性高包括以下任意一项或多项:出现的频次高、以第一人称视角出现的次数高。
[0040]可选地,在本公开的示例性实施例中,事件类型识别模型的训练,包括:
[0041]将多个事件类型预训练语料中的各事件类型预训练语料及事件类型标注信息输入事件类型识别模型,以使事件类型识别模型学习各事件类型预训练语料对应的事件类型信息;
[0042]将多个第一训练语料中的各第一训练语料及事件类型标注信息输入事件类型识别模型,经事件类型识别模型输出各第一训练语料是否事件类型列表中各事件类型的概率值;
[0043]基于多个第一训练语料是否事件类型列表中各事件类型的概率值与对应的事件类型标注信息对应的概率值,对事件类型识别模型进行训练。
[0044]可选地,在本公开的示例性实施例中,事件类别识别模型的训练,包括:
[0045]将多个事件类别预训练语料中的各事件类别预训练语料及事件类别标注信息输入事件类别识别模型,以使事件类别识别模型学习各事件类别预训练语料对应的事件类别信息;
[0046]将多个第二训练语料中的各第二训练语料及事件类别标注信息输入事件类别识别模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件识别方法,其特征在于,包括:获取信息文本;利用预先训练得到的事件类型识别模型,预测所述信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果;其中,所述事件类型列表包括预先设定的多个事件类型;基于所述第一预测结果,确定所述信息文本对应的事件类型。2.根据权利要求1所述的方法,其特征在于,所述第一预测结果包括:所述信息文本是所述事件类型列表中各事件类型的概率值和不是所述事件类型列表中各事件类型的概率值;所述基于所述第一预测结果,确定所述信息文本对应的事件类型,包括:获取所述第一预测结果中是所述事件类型列表中事件类型的概率值大于不是同一事件类型的概率值的事件类型,作为所述信息文本对应的事件类型;或者,获取所述第一预测结果中是所述事件类型列表中事件类型的概率值大于第一预设阈值的事件类型,作为所述信息文本对应的事件类型;或者,获取所述第一预测结果中是所述事件类型列表中各事件类型的概率值最大的前N个事件类型作为所述信息文本对应的事件类型,其中,N的取值为大于0的整数。3.根据权利要求1所述的方法,其特征在于,所述确定所述信息文本对应的事件类型之后,还包括:根据预先设定的事件类别列表中各事件类别与所述事件类型列表中各事件类型之间的对应关系,确定所述信息文本对应的事件类别;其中,所述事件类别列表包括预先设定的多个事件类别。4.根据权利要求1所述的方法,其特征在于,还包括:利用预先训练得到的事件类别识别模型,预测所述信息文本是否事件类别列表中各事件类别的概率值,得到第二预测结果;其中,所述事件类别列表包括预先设定的多个事件类别;基于所述第二预测结果,确定所述信息文本对应的事件类别;确定所述信息文本对应的事件类别和所述信息文本对应的事件类型,是否符合预先设定的事件类别列表中各事件类别与事件类型列表中各事件类型之间的对应关系;若符合所述对应关系,输出所述信息文本对应的事件类别和/或事件类型。5.根据权利要求1

4任一项所述的方法,其特征在于,所述获取信息文本之后,还包括:识别所述信息文本的长度是否大于预设长度;若所述信息文本的长度大于预设长度,以所述预设长度为单位,将所述信息文本分割为多个文本段;所述利用预先训练得到的事件类型识别模型,预测所述信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果,包括:利用预先训练得到的事件类型识别模型,分别预测所述文本段是否事件类型列表中各事件类型的概率值;基于所述文本段是否事件类型列表中各事件类型的概率值,得到所述第一预测结果;否则,若所述信息文本的长度小于或者等于所述预设长度,执行所述利用预先训练得
到的事件类型识别模型,预测所述信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作。6.根据权利要求1

4任一项所述的方法,其特征在于,所述获取信息文本之后,还包括:识别所述信息文本中是否存在预设垃圾语料词集合中的词语;若所述信息文本中存在所述预设垃圾语料词集合中的词语,不执行后续操作,或者过滤掉所述预设垃圾语料词集合中的词语,并对过滤掉所述预设垃圾语料词集合中的词语后的信息文本,执行所述利用预先训练得到的事件类型识别模型,预测所述信息文本是否事件类型列表中各事件类型的概率值,得到第一预测结果的操作;否则,若所述信息文本...

【专利技术属性】
技术研发人员:刘文强
申请(专利权)人:北京金堤征信服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1