【技术实现步骤摘要】
事件信息抽取方法、装置及电子设备
[0001]本申请涉及自然语言处理
,尤其涉及一种事件信息抽取方法、装置及电子设备。
技术介绍
[0002]事件信息抽取是指把含有事件信息的非结构化的文本以结构化的形式呈现出来。事件信息抽取作为一种重要的信息抽取手段,广泛应用于事理图谱、情景生成、新闻摘要、信息检索等领域。
[0003]相关技术中,通常采用基于模式匹配的事件信息抽取方法对文本进行事件信息抽取,其中基于模式匹配的事件信息抽取方法是指首先构建不同事件类型的抽取模式或规则,再根据文本所匹配的模式或规则抽取事件信息,但是,这种方式需要预先由专业人员人工完成模式或规则创建工作,因此人力成本高,且对于不同领域场景下的事件信息抽取,需要创建不同的抽取模式或规则,因此可移植性较差。
技术实现思路
[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本申请提出一种事件信息抽取方法、装置及电子设备,以解决相关技术中的事件抽取方法存在的人力成本高、可移植性差的技术问题。
...
【技术保护点】
【技术特征摘要】
1.一种事件信息抽取方法,其特征在于,包括:获取待处理的语句;将所述语句输入序列标注模型,以获取所述语句对应的向量,以及所述语句中的实体以及触发词;针对每个实体触发词对,对所述语句对应的向量、对中触发词在所述语句中的位置向量、对中实体在所述语句中的位置向量进行拼接,得到拼接后向量;将多个所述拼接后向量输入文本分类模型,以获取所述语句中的事件信息。2.根据权利要求1所述的事件信息抽取方法,其特征在于,在将所述语句输入序列标注模型之前,还包括:获取依次连接的初始序列标注模型和初始文本分类模型;获取训练数据,其中,所述训练数据包括:样本语句以及对应的样本事件信息;以所述训练数据中的样本语句为输入,以所述样本语句对应的样本事件信息为输出,结合所述初始分类模型输出的预测事件信息和所述样本事件信息对所述初始序列标注模型和所述初始文本分类模型的系数进行联合调整,以实现训练。3.根据权利要求2所述的事件信息抽取方法,其特征在于,所述初始序列标注模型包括:依次连接的经过预训练的语义表示层、双向神经网络层、图向量层和实体触发词抽取层;其中,所述语义表示层,用于获取所述语句中各个字对应的向量;所述双向神经网络层和所述图向量层,用于结合所述各个字对应的向量,获取所述语句对应的向量;所述实体触发词抽取层,用于结合所述语句对应的向量,抽取所述语句中的实体以及触发词。4.根据权利要求3所述的事件信息抽取方法,其特征在于,所述以所述训练数据中的样本语句为输入,以所述样本语句对应的样本事件信息为输出,结合所述初始分类模型输出的预测事件信息和所述样本事件信息对所述初始序列标注模型和所述初始文本分类模型的系数进行联合调整,包括:以所述训练数据中的样本语句为输入,以所述样本语句对应的样本事件信息为输出,结合所述初始分类模型输出的预测事件信息和所述样本事件信息对所述初始序列标注模型中所述语义表示层的后3层系数、所述双向神经网络层的系数、所述图向量层的系数、所述实体触发词抽取层的系数、以及所述初始文本分类模型的系数进行联合调整。5.根据权利要求2所述的事件信息抽取方法,其特征在于,所述以所述训练数据中的样本语句为输入,以所述样本语句对应的样本事件信息为输出,结合所述初始分类模型输出的预测事件信息和所述样本事件信息对所述初始序列标注模型和所述初始文本分类模型的系数进行联合调整,包括:将所述样本语句输入依次连接的所述初始序列标注模型和所述初始文本分类模型,以获取所述初始序列标注模型输出的序列标注结果,以及所述初始文本分类模型输出的预测事件信息;结合所述序列标注结果、所述样本语句对应的样本事件信息、所述初始序列标注模型的第一损失函数以及所述初始序列标注模型的第一权重,确定第一损失函数值;
结合所述预测事件信息、所述样本语句对应的样本事件信息、所述初始文本分类模型的第二损失函数以及所述初始文本分类模型的第二权重,确定第二损失函数值;结合所述第一损失函数值以及所述第二损失函数值,对所述初始序列标注模型以及所述初始文本分类模型的系数进行调整。6.根据权利要求5所述的事件信息抽取方法,其特征在于,所述以所述训练数据中的样本语句为输入,以所述样本语句对应的样本事件信息为输出,结合所述初始分类模型输出的预测事件信息和所述样本事件信息对所述初始序列标注模型和所述初始文本分类模型的系数进行联合调整,还包括:结合所述第一损失函数值以及所述第二损失函数值,对所述第一权重和所述第二权重进行动态调整,实现所述初始序列标注模型的训练速度和所述初始文本分类模型的训练速度一致。...
【专利技术属性】
技术研发人员:王马明,顾松庠,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。