事件元素生成方法、系统、终端及存储介质技术方案

技术编号:38016084 阅读:12 留言:0更新日期:2023-06-30 10:41
本发明专利技术提供了一种事件元素生成方法、系统、终端及存储介质,该方法包括:根据词汇集合构建字前缀树和字前缀向量矩阵,对样本文本进行编码处理,得到文本表示向量,对文本表示向量进行解码处理,得到文本解码结果,根据文本解码结果分别确定每个字的字概率分布,将字前缀向量矩阵与字概率分布进行融合,得到词表概率分布;根据词表概率分布构建事件元素集合。本发明专利技术通过将字前缀向量矩阵与字概率分布进行融合,能有效地在字概率分布中添加词汇先验知识,进而提高了词表概率分布的准确性,基于词表概率分布构建事件元素集合,提高了事件元素生成的准确性。素生成的准确性。素生成的准确性。

【技术实现步骤摘要】
事件元素生成方法、系统、终端及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种事件元素生成方法、系统、终端及存储介质。

技术介绍

[0002]事件抽取通常由触发词检测、事件类型识别、论元识别和论元角色分类四部分组成,将事件抽取过程中抽取到的触发词和论元统称为事件元素,事件元素和触发词决定了事件类别,随着大数据技术的发展,事件元素生成问题越来越受人们所重视。
[0003]现有的事件元素生成过程中,一般采用编码器

解码器结构,在编码器端对原文进行编码表示,获取每个字的向量表示,在解码器端逐步生成事件元素信息,但仅采用编解码的方式进行事件元素生成时,会出现词汇预测不准确的现象,进而导致事件元素生成准确性低下。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种事件元素生成方法、系统、终端及存储介质,旨在解决现有的事件元素生成准确性低下的问题。
[0005]本专利技术实施例是这样实现的,一种事件元素生成方法,所述方法包括:
[0006]根据词汇集合构建字前缀树,并根据所述字前缀树构建字前缀向量矩阵,所述字前缀树用于表征所述词汇集中每个字的词汇范围;
[0007]对样本文本进行编码处理,得到文本表示向量,并对所述文本表示向量进行解码处理,得到文本解码结果,所述文本表示向量包括所述样本文本中每个字的表示向量;
[0008]根据所述文本解码结果,分别确定所述样本文本中每个字在所述词汇集合中的字概率分布,并将所述字前缀向量矩阵与所述字概率分布进行融合,得到词表概率分布;
[0009]根据所述词表概率分布构建事件元素集合。
[0010]优选的,所述对样本文本进行编码处理,得到文本表示向量,包括:
[0011]对所述样本文本进行触发词和论元的抽取,得到事件触发词和事件论元,并对所述事件论元进行论元分隔;
[0012]对所述事件触发词和论元分隔后的所述事件论元进行排序,得到元素文本序列,并对所述元素文本序列进行向量表示,得到所述文本表示向量。
[0013]优选的,所述根据所述词表概率分布构建事件元素集合,包括:
[0014]根据所述词表概率分布,分别确定各样本文本中的事件字符,并查询各事件字符对应的所述事件触发词和所述事件论元;
[0015]根据各事件字符对应的所述事件触发词和所述事件论元生成事件元素,并根据各事件元素构建所述事件元素集合。
[0016]优选的,所述对所述文本表示向量进行解码处理采用的公式包括:
[0017][0018]其中,W
Q
,W
K
和W
V
为编码器中的训练参数,S
n+1
为解码器中上层的隐层表征,S
n
为所述文本解码结果,E是所述文本表示向量,d
k
表示E和S的维度。
[0019]优选的,所述根据所述文本解码结果,分别确定所述样本文本中每个字在所述词汇集合中的字概率分布采用的公式包括:
[0020]P
vocab
=softmax(S
n
W
S
)
[0021]其中,P
vocab
是所述字概率分布;
[0022]所述将所述字前缀向量矩阵与所述字概率分布进行融合采用的公式包括:
[0023][0024]其中,b为预设的学习参数,为所述词表概率分布,c是所述字前缀向量矩阵中的共现字向量。
[0025]优选的,所述根据所述字前缀树构建字前缀向量矩阵,包括:
[0026]分别获取所述字前缀树中每个字在所述词汇集合中的索引,得到第一索引,并分别获取所述每个字后一个字在所述词汇集合中的索引,得到第二索引;
[0027]根据所述第一索引和所述第二索引确定共现字向量,并根据所述共现字向量生成所述字前缀向量矩阵。
[0028]优选的,所述根据词汇集合构建字前缀树,包括:
[0029]分别查询所述词汇集合中各词汇的词汇类型,并根据所述词汇类型对所述词汇进行筛选;
[0030]根据筛选后的所述词汇,分别查询各字符对应的词组,并以各字符为前缀树原点,根据查询到的所述词组进行数构建,得到所述字前缀树。
[0031]本专利技术实施例的另一目的在于提供一种事件元素生成系统,所述系统包括:
[0032]矩阵构建模块,用于根据词汇集合构建字前缀树,并根据所述字前缀树构建字前缀向量矩阵,所述字前缀树用于表征所述词汇集中每个字的词汇范围;
[0033]编码解码模块,用于对样本文本进行编码处理,得到文本表示向量,并对所述文本表示向量进行解码处理,得到文本解码结果,所述文本表示向量包括所述样本文本中每个字的表示向量;
[0034]向量融合模块,用于根据所述文本解码结果,分别确定所述样本文本中每个字在所述词汇集合中的字概率分布,并将所述字前缀向量矩阵与所述字概率分布进行融合,得到词表概率分布;
[0035]集合构建模块,用于根据所述词表概率分布构建事件元素集合。
[0036]本专利技术实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
[0037]本专利技术实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0038]本专利技术实施例,通过字前缀树构建字前缀向量矩阵,有效地保障了与字概率分布之间的融合,通过将字前缀向量矩阵与字概率分布进行融合,能有效地在字概率分布中添加词汇先验知识,进而提高了词表概率分布的准确性,基于词表概率分布构建事件元素集合,提高了事件元素生成的准确性。
附图说明
[0039]图1是本专利技术第一实施例提供的事件元素生成方法的流程图;
[0040]图2是本专利技术第一实施例提供的字前缀树的示意图;
[0041]图3是本专利技术第一实施例提供的事件元素生成模型的结构示意图;
[0042]图4是本专利技术第二实施例提供的事件元素生成方法的流程图;
[0043]图5是本专利技术第三实施例提供的事件元素生成系统的结构示意图;
[0044]图6是本专利技术第四实施例提供的终端设备的结构示意图。
具体实施方式
[0045]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0046]为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。
[0047]实施例一
[0048]请参阅图1,是本专利技术第一实施例提供的事件元素生成方法的流程图,该事件元素生成方法可以应用于任一终端设备或系统,该事件元素生成方法包括步骤:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件元素生成方法,其特征在于,所述方法包括:根据词汇集合构建字前缀树,并根据所述字前缀树构建字前缀向量矩阵,所述字前缀树用于表征所述词汇集中每个字的词汇范围;对样本文本进行编码处理,得到文本表示向量,并对所述文本表示向量进行解码处理,得到文本解码结果,所述文本表示向量包括所述样本文本中每个字的表示向量;根据所述文本解码结果,分别确定所述样本文本中每个字在所述词汇集合中的字概率分布,并将所述字前缀向量矩阵与所述字概率分布进行融合,得到词表概率分布;根据所述词表概率分布构建事件元素集合。2.如权利要求1所述的事件元素生成方法,其特征在于,所述对样本文本进行编码处理,得到文本表示向量,包括:对所述样本文本进行触发词和论元的抽取,得到事件触发词和事件论元,并对所述事件论元进行论元分隔;对所述事件触发词和论元分隔后的所述事件论元进行排序,得到元素文本序列,并对所述元素文本序列进行向量表示,得到所述文本表示向量。3.如权利要求2所述的事件元素生成方法,其特征在于,所述根据所述词表概率分布构建事件元素集合,包括:根据所述词表概率分布,分别确定各样本文本中的事件字符,并查询各事件字符对应的所述事件触发词和所述事件论元;根据各事件字符对应的所述事件触发词和所述事件论元生成事件元素,并根据各事件元素构建所述事件元素集合。4.如权利要求1所述的事件元素生成方法,其特征在于,所述对所述文本表示向量进行解码处理采用的公式包括:其中,W
Q
,W
K
和W
V
为编码器中的训练参数,S
n+1
为解码器中上层的隐层表征,S
n
为所述文本解码结果,E是所述文本表示向量,d
k
表示E和S的维度。5.如权利要求4所述的事件元素生成方法,其特征在于,所述根据所述文本解码结果,分别确定所述样本文本中每个字在所述词汇集合中的字概率分布采用的公式包括:P
vocab
=softmax(S
n
W...

【专利技术属性】
技术研发人员:贾文雷王亦宁刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1