事件主体识别方法及装置、电子设备、介质和程序制造方法及图纸

技术编号:30652109 阅读:13 留言:0更新日期:2021-11-04 01:13
本公开的实施例提供了一种事件主体识别方法及装置、电子设备、介质和程序,其中,方法包括:获取待分析文本,待分析文本包括信息文本和信息文本对应的至少一个事件类型;利用预先训练得到的事件主体识别模型,预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体;输出各事件类型和各事件类型关联的事件主体。本公开技术方案能够对舆情信息中事件主体进行识别。事件主体进行识别。事件主体进行识别。

【技术实现步骤摘要】
事件主体识别方法及装置、电子设备、介质和程序


[0001]本公开涉及数据处理
,特别涉及事件主体识别方法及装置、电子设备、介质和程序。

技术介绍

[0002]舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
[0003]随着互联网技术的快速发展,网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,这不仅有利于对企业的舆情信息进行分析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。
[0004]针对企业的舆情信息,尤其是舆情信息存在多个事件时,如何将舆情信息中的事件与主体(即企业)关联,使事件对应到相关企业下,以使用户准确了解关联企业主体发生的事件,对于准确判断企业的发展趋势具有重要的意义。

技术实现思路

[0005]本公开的目的在于提供一种事件主体识别方法及装置、电子设备、介质和程序,以实现对舆情信息中事件主体的识别。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的第一方面,提供一种事件主体识别方法,包括:
[0008]获取待分析文本,待分析文本包括信息文本和信息文本对应的至少一个事件类型;
[0009]利用预先训练得到的事件主体识别模型,预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体;
[0010]输出各事件类型和各事件类型关联的事件主体。
[0011]可选地,在本公开的示例性实施例中,获取待分析文本,包括:
[0012]获取信息文本;
[0013]对信息文本进行事件主体识别,得到至少一个事件类型;
[0014]将信息文本和至少一个事件类型按照预设格式拼接,或者,分别将信息文本和各事件类型按照预设格式拼接,得到待分析文本。
[0015]可选地,在本公开的示例性实施例中,将信息文本和至少一个事件类型按照预设格式拼接,包括:将信息文本、至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接;或者,
[0016]分别将信息文本和各事件类型按照预设格式拼接,包括:分别针对各事件类型,将
信息文本、各事件类型及对应的事件类型含义,按照预设格式拼接。
[0017]可选地,在本公开的示例性实施例中,利用预先训练得到的事件主体识别模型,预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体,包括:
[0018]利用事件主体识别模型,分别预测各事件类型关联的事件主体在信息文本中的起始位置和终止位置;
[0019]基于各事件类型关联的事件主体的起始位置和终止位置,从信息文本中提取得到各事件类型关联的事件主体。
[0020]可选地,在本公开的示例性实施例中,预测各事件类型关联的事件主体在信息文本中的起始位置和终止位置,包括:
[0021]分别针对各事件类型,预测信息文本中的各字符是否事件类型关联的事件主体的起始位置的概率值,以及各字符是否事件类型关联的事件主体的终止位置的概率值;
[0022]基于起始位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的起始位置;
[0023]基于终止位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的终止位置。
[0024]可选地,在本公开的示例性实施例中,基于起始位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的起始位置;基于终止位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的终止位置,包括:
[0025]获取起始位置的概率值中,大于预设概率阈值的概率值的个数,得到第一数量;
[0026]获取终止位置的概率值中,大于预设概率阈值的概率值的个数,得到第二数量;
[0027]比较第一数量与第二数量是否相等;
[0028]若第一数量与第二数量相等,以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置,以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置。
[0029]可选地,在本公开的示例性实施例中,基于起始位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的起始位置;基于终止位置的概率值与预设概率阈值之间的关系,确定事件类型关联的事件主体的终止位置,还包括:
[0030]若第一数量与第二数量不相等,以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置,以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置;并针对第一数量与第二数量中数值少的起始位置的概率值或终止位置的概率值,使用修正函数召回数值少的起始位置的概率值或终止位置的概率值中大于修正函数阈值的概率值,以补齐第一数量与第二数量之间的差值,并以大于修正函数阈值的概率值的字符在信息文本中的位置作为相应的起始位置或终止位置。
[0031]可选地,在本公开的示例性实施例中,获取信息文本之后,还包括:
[0032]识别信息文本的长度是否大于预设长度;
[0033]若信息文本的长度大于预设长度,以预设长度为单位,将信息文本分割为多个文本段,并分别以多个文本段中的各文本段作为信息文本,执行对信息文本进行事件主体识别,得到至少一个事件类型的操作、以及将信息文本和至少一个事件类型按照预设格式拼接,或者,分别将信息文本和各事件类型按照预设格式拼接,得到待分析文本的操作。
[0034]否则,若信息文本的长度不大于预设长度,直接执行对信息文本进行事件主体识别,得到至少一个事件类型的操作。
[0035]可选地,在本公开的示例性实施例中,利用预先训练得到的事件主体识别模型,预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体之后,还包括:
[0036]将多个文本段对应的事件类型关联的事件主体进行汇总,得到待分析文本对应的各事件类型关联的事件主体。
[0037]可选地,在本公开的示例性实施例中,输出各事件类型和各事件类型关联的事件主体,包括:
[0038]输出待分析文本对应的各事件类型关联的事件主体。
[0039]可选地,在本公开的示例性实施例中,事件主体识别模型的训练包括:
[0040]将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型,以使事件类型识别模型学习各预训练语料中事件类型和事件主体之间的关联信息;
[0041]将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型,经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体;...

【技术保护点】

【技术特征摘要】
1.一种事件主体识别方法,其特征在于,包括:获取待分析文本,所述待分析文本包括信息文本和所述信息文本对应的至少一个事件类型;利用预先训练得到的事件主体识别模型,预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体;输出所述各事件类型和所述各事件类型关联的事件主体。2.根据权利要求1所述的方法,其特征在于,所述获取待分析文本,包括:获取所述信息文本;对所述信息文本进行事件主体识别,得到所述至少一个事件类型;将所述信息文本和所述至少一个事件类型按照预设格式拼接,或者,分别将所述信息文本和所述各事件类型按照预设格式拼接,得到所述待分析文本。3.根据权利要求2所述的方法,其特征在于,所述将所述信息文本和所述至少一个事件类型按照预设格式拼接,包括:将所述信息文本、所述至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接;或者,所述分别将所述信息文本和所述各事件类型按照预设格式拼接,包括:分别针对各事件类型,将所述信息文本、所述各事件类型及对应的事件类型含义,按照预设格式拼接。4.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的事件主体识别模型,预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体,包括:利用所述事件主体识别模型,分别预测各事件类型关联的事件主体在所述信息文本中的起始位置和终止位置;基于所述各事件类型关联的事件主体的起始位置和终止位置,从所述信息文本中提取得到所述各事件类型关联的事件主体。5.根据权利要求4所述的方法,其特征在于,所述预测各事件类型关联的事件主体在所述信息文本中的起始位置和终止位置,包括:针对各事件类型,分别预测所述信息文本中的各字符是否所述事件类型关联的事件主体的起始位置的概率值,以及各字符是否所述事件类型关联的事件主体的终止位置的概率值;基于所述起始位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的起始位置;基于所述终止位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的终止位置。6.根据权利要求5所述的方法,其特征在于,所述基于所述起始位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的起始位置;基于所述终止位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的终止位置,包括:获取所述起始位置的概率值中大于所述预设概率阈值的概率值的个数,得到第一数量;获取所述终止位置的概率值中大于所述预设概率阈值的概率值的个数,得到第二数量;
比较所述第一数量与所述第二数量是否相等;若所述第一数量与所述第二数量相等,以所述第一数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述起始位置,以所述第二数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述终止位置。7.根据权利要求6所述的方法,其特征在于,所述基于所述起始位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的起始位置;基于所述终止位置的概率值与预设概率阈值之间的关系,确定所述事件类型关联的事件主体的终止位置,还包括:若所述第一数量与所述第二数量不相等,以所述第一数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述起始位置,以所述第二数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述终止位置;并对所述第一数量与所述第二数量中数值少的所述起始位置的概率值或所述终止位置的概率值,使用修正函数召回所述数值少的所述起始位置的概率值或所述终止位置的概率值中大于修正函数阈值的概率值,以补齐所述第一数量与所述第二数量之间的差值,并以所述大于修正函数阈值的概率值的字符在所述信息文本中的位置作为相应的所述起始位置或所述终止位置。8.根据权利要求2所述的方法,其特征在于,所述获取信息文本之后,还包括:识别所述信息文本的长度是否大于预设长度;若所述信息文本的长度大于预设长度,以所述预设长度为单位,将所述信息文本分割为多个文本段,并分别以所述多个文本段中的各文本段作为信息文本,执行所述对所述信息文本进行事件主体识别,得到所述至少一个事件类型的操作、以及所述将所述信息文本和所述至少一个事件类型按照预设格式拼接,或者,分别将所述信息文本和所述各事件类型按照...

【专利技术属性】
技术研发人员:刘文强
申请(专利权)人:北京金堤征信服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1