事件语句处理方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:23085127 阅读:9 留言:0更新日期:2020-01-11 01:10
本发明专利技术实施例提供了一种事件语句处理方法、装置、计算机设备和可读存储介质,涉及数据处理技术领域。首先对事件语句中的每个单词进行映射,得到事件语句对应的向量化语句,对向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,得到深层向量化语句,再将深层向量化语句与向量化语句进行拼接,得到拼接后的语句向量,对语句向量进行编码,得到事件语句的编码特征,并利用训练得到的事件检测模型,对事件语句的编码特征进行解码,得到事件语句的事件主体,同时对事件语句的编码特征进行事件类型的检测,得到事件语句的事件类型,进而实现了同时对事件语句事件类型的检测以及对事件语句事件主体的抽取。

Event statement processing method, device, computer equipment and readable storage medium

【技术实现步骤摘要】
事件语句处理方法、装置、计算机设备和可读存储介质
本专利技术涉及数据处理
,具体而言,涉及一种事件语句处理方法、装置、计算机设备和可读存储介质。
技术介绍
互联网上每天都会产生大量的数据,描述许多已经发生的事件。对发生的公共事件或者特定行业内所发生的事件进行区分和主体识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策,降低风险,具有重要的实际应用价值和研究意义。目前,现有大多的方法都只进行事件类型的检测,并没有进行事件主体抽取,任务单一,不具备较强的实际应用价值。
技术实现思路
基于上述研究,本专利技术提供了一种事件语句处理方法、装置、计算机设备和可读存储介质。本专利技术的实施例可以这样实现:第一方面,本专利技术实施例提供一种事件语句处理方法,包括:对事件语句中的每个单词进行映射,得到所述事件语句对应的向量化语句;对所述向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句;将所述深层向量化语句与所述向量化语句进行拼接,得到拼接后的语句向量;对所述语句向量进行编码,以得到所述事件语句的编码特征;利用训练得到的事件检测模型,对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体,并对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型。在可选的实施方式中,所述将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句的步骤包括:使用多头自注意力机制,将线性变换后的向量化语句复制到多个语义空间;针对于每个所述语义空间,在该语义空间中,随机初始化得到一目标向量化语句,将该语义空间中的线性变换后的向量化语句与所述目标向量化语句进行第一矩阵运算,得到第一语义矩阵;将所述第一语义矩阵与该语义空间中的线性变换后的向量化语句进行第二矩阵运算,得到第二语义矩阵;将每个所述语义空间的第二语义矩阵进行拼接,得到所述深层向量化语句。在可选的实施方式中,所述对所述语句向量进行编码,以得到所述事件语句的编码特征的步骤包括:根据双向长短期记忆网络对所述语句向量进行编码,得到第一方向和第二方向的输出;将所述第一方向和第二方向的输出进行拼接,得到所述事件语句的编码特征。在可选的实施方式中,所述事件检测模型包括单向长短期记忆网络;所述对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体的步骤包括:利用所述单向长短期记忆网络对所述事件语句的编码特征进行解码,得到所述事件语句中每一个单词属于事件主体的概率;根据所述事件语句中每一个单词属于事件主体的概率,得到所述事件语句的事件主体。在可选的实施方式中,所述事件检测模型还包括卷积神经网络和全连接网络;所述对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型的步骤包括:根据所述卷积神经网络对所述事件语句的编码特征进行池化操作,得到池化操作后的编码特征;将池化操作后的编码特征输入至所述全连接网络,得到所述事件语句属于每个事件类型的概率;根据所述事件语句属于每个事件类型的概率,得到所述事件语句的事件类型。在可选的实施方式中,所述事件检测模型通过以下步骤训练得到:对训练数据集中的每个事件语句进行事件主体标记和事件类型标记,得到标记后的事件语句;针对于每个所述标记后的事件语句,将该标记后的事件语句的编码特征输入至待训练的事件检测模型进行训练,并基于预设损失函数,通过反向传播算法对所述待训练的事件检测模型的参数进行调整,直到所述预设损失函数的输出小于预设阈值。在可选的实施方式中,所述训练数据集中的每个事件语句的事件主体标记通过BIO标注方法实现。第二方面,本专利技术实施例提供一种事件语句处理装置,所述装置包括映射模块、拼接模块、编码模块以及处理模块;所述映射模块用于对事件语句中的每个单词进行映射,得到所述事件语句对应的向量化语句,对所述向量化语句进行线性变换,并利用将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句;所述拼接模块用于将所述深层向量化语句与所述向量化语句进行拼接,得到拼接后的语句向量;所述编码模块用于对所述语句向量进行编码,以得到所述事件语句的编码特征;所述处理模块用于利用训练得到的事件检测模型,对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体,并对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型。第三方面,本专利技术实施例提供一种计算机设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行前述实施方式中任意一项所述的事件语句处理方法。第四方面,本专利技术实施例提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述实施方式中任意一项所述的事件语句处理方法。本专利技术实施例提供的事件语句处理方法、装置、计算机设备和可读存储介质,首先对事件语句中的每个单词进行映射,得到事件语句对应的向量化语句,对向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,得到深层向量化语句,再将深层向量化语句与向量化语句进行拼接,得到拼接后的语句向量,再得到语句向量后对语句向量进行编码,得到事件语句的编码特征,并利用训练得到的事件检测模型,对事件语句的编码特征进行解码,得到事件语句的事件主体,同时对事件语句的编码特征进行事件类型的检测,得到事件语句的事件类型,进而实现了同时对事件语句事件类型的检测以及对事件语句事件主体的抽取,具有较强的实际应用价值。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例所提供的电子设备的一种方框示意图。图2为本专利技术实施例所提供的事件语句处理方法的一种流程示意图。图3为本专利技术实施例所提供的事件语句处理方法的另一种流程示意图。图4为本专利技术实施例所提供的事件语句处理方法的又一种流程示意图。图5为本专利技术实施例所提供的事件语句处理方法的又一种流程示意图。图6为本专利技术实施例所提供的事件语句处理方法的又一种流程示意图。图7为本专利技术实施例所提供的事件语句处理方法的又一种流程示意图。图8为本专利技术实施例所提供的事件语句处理装置的一种方框示意图。图标:100-电子设备;10-事件语句处理装置;11-映射模块;12-拼接模块;13-编码模块;14-处理模块;20-存储器;30-处理器;40-通信单元。具体实施方式为使本本文档来自技高网...

【技术保护点】
1.一种事件语句处理方法,其特征在于,包括:/n对事件语句中的每个单词进行映射,得到所述事件语句对应的向量化语句;/n对所述向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句;/n将所述深层向量化语句与所述向量化语句进行拼接,得到拼接后的语句向量;/n对所述语句向量进行编码,以得到所述事件语句的编码特征;/n利用训练得到的事件检测模型,对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体,并对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型。/n

【技术特征摘要】
1.一种事件语句处理方法,其特征在于,包括:
对事件语句中的每个单词进行映射,得到所述事件语句对应的向量化语句;
对所述向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句;
将所述深层向量化语句与所述向量化语句进行拼接,得到拼接后的语句向量;
对所述语句向量进行编码,以得到所述事件语句的编码特征;
利用训练得到的事件检测模型,对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体,并对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型。


2.根据权利要求1所述的事件语句处理方法,其特征在于,所述将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句的步骤包括:
使用多头自注意力机制,将线性变换后的向量化语句复制到多个语义空间;
针对于每个所述语义空间,在该语义空间中,随机初始化得到一目标向量化语句,将该语义空间中的线性变换后的向量化语句与所述目标向量化语句进行第一矩阵运算,得到第一语义矩阵;
将所述第一语义矩阵与该语义空间中的线性变换后的向量化语句进行第二矩阵运算,得到第二语义矩阵;
将每个所述语义空间的第二语义矩阵进行拼接,得到所述深层向量化语句。


3.根据权利要求1所述的事件语句处理方法,其特征在于,所述对所述语句向量进行编码,以得到所述事件语句的编码特征的步骤包括:
根据双向长短期记忆网络对所述语句向量进行编码,得到第一方向和第二方向的输出;
将所述第一方向和第二方向的输出进行拼接,得到所述事件语句的编码特征。


4.根据权利要求1所述的事件语句处理方法,其特征在于,所述事件检测模型包括单向长短期记忆网络;
所述对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体的步骤包括:
利用所述单向长短期记忆网络对所述事件语句的编码特征进行解码,得到所述事件语句中每一个单词属于事件主体的概率;
根据所述事件语句中每一个单词属于事件主体的概率,得到所述事件语句的事件主体。


5.根据权利要求1所述的事件语句处理方法,其特征在于,所述事件检测模型还包括卷积神经网络和全连接网络;
所述对所述事...

【专利技术属性】
技术研发人员:徐猛付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1