This specification provides an event element extraction method, device, computing device and storage medium, in which the event element extraction method includes: acquiring input text and determining the relational eigenvectors of each word in the input text; obtaining arguments of each word in the input text through the semantic role annotation model based on the relational eigenvectors of each word in the input text; The named entity recognition method obtains the entity word contained in the input file, the type and location information of the entity word; determines the type of event element to be extracted according to the event type of the input text, and elements the corresponding words of the argument and the entity word based on the type of event element to be extracted, the argument, the type and location information of the entity word. Align to determine the name of the event element type and the corresponding entity word in the input text.
【技术实现步骤摘要】
事件元素抽取方法、装置、计算设备及存储介质
本说明书涉及事件检测
,特别涉及一种事件元素抽取方法、装置、计算设备及计算机可读存储介质。
技术介绍
现有技术中事件检测(EventDetection,ED)应用场景非常广泛,其目标是识别出输入文本中我们关心的关键事件,用于进一步的分析。比如在金融风控领域,我们可以通过检测”公司股权转让事件”来分析公司经营情况和策略。目前的事件检测技术用户体验较差。
技术实现思路
有鉴于此,本说明书实施例提供了一种事件元素抽取方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面,提供了事件元素抽取方法,包括:获取输入文本,确定所述输入文本中每个词的关系特征向量,其中所述关系特征向量通过将对应词的词嵌入、谓词嵌入和用以表征该词是否在谓词上下文窗口中的标记拼接得到;基于所述输入文本中每个词的关系特征向量通过语义角色标注模型得到所述输入文本中每个词的论元,其中所述语义角色标注模型用以识别事件文本中具有动作方向的论元,所述论元包括对应的词、语义角色类型及位置信息;通过命名实体识别方法得到所述输 ...
【技术保护点】
1.一种事件元素抽取方法,包括:获取输入文本,确定所述输入文本中每个词的关系特征向量,其中所述关系特征向量通过将对应词的词嵌入、谓词嵌入和用以表征该词是否在谓词上下文窗口中的标记拼接得到;基于所述输入文本中每个词的关系特征向量通过语义角色标注模型得到所述输入文本中每个词的论元,其中所述语义角色标注模型用以识别事件文本中具有动作方向的论元,所述论元包括对应的词、语义角色类型及位置信息;通过命名实体识别方法得到所述输入文件包含的实体词、所述实体词的类型及位置信息;根据所述输入文本的事件类型确定需要提取的事件元素类型,基于需要提取的事件元素类型、所述论元、所述实体词的类型及位置信 ...
【技术特征摘要】
1.一种事件元素抽取方法,包括:获取输入文本,确定所述输入文本中每个词的关系特征向量,其中所述关系特征向量通过将对应词的词嵌入、谓词嵌入和用以表征该词是否在谓词上下文窗口中的标记拼接得到;基于所述输入文本中每个词的关系特征向量通过语义角色标注模型得到所述输入文本中每个词的论元,其中所述语义角色标注模型用以识别事件文本中具有动作方向的论元,所述论元包括对应的词、语义角色类型及位置信息;通过命名实体识别方法得到所述输入文件包含的实体词、所述实体词的类型及位置信息;根据所述输入文本的事件类型确定需要提取的事件元素类型,基于需要提取的事件元素类型、所述论元、所述实体词的类型及位置信息将所述论元对应的词与所述实体词进行元素对齐,确定所述输入文本中所述事件元素类型的名称和对应的实体词。2.根据权利要求1所述的方法,其中所述语义角色标注模型通过以下步骤得到:根据原始样本集中每个事件样本的每个词的词嵌入、谓词嵌入和用以表征该词是否在谓词上下文窗口中的标记拼接得到该词的关系特征向量;对每个事件样本进行语义角色标注,得到该事件样本中每个词对应的论元;根据所述原始样本集中每个事件样本的每个词、该词的关系特征向量、该词对应的论元生成语义角色训练样本集;通过所述语义角色训练样本集训练语义角色标注模型,所述角色标注模型使得每个事件样本的每个词的关系特征向量与该词对应的论元相关联。3.根据权利要求2所述的方法,其中所述原始样本集中每个事件样本的每个词关系特征向量通过BiLSTM+CRF序列标注算法得到。4.根据权利要求2所述的方法,其中所述对每个事件样本进行语义角色标注,得到该事件样本中每个词对应的论元包括:采用BIEO序列标记法对每个事件样本进行序列标记,得到该事件样本每个事件元素的语义角色类型及其位置信息,将每个事件元素的语义角色类型及其位置信息作为该事件元素对应的论元。5.根据权利要求2所述的方法,其中在所述对每个事件样本进行语义角色标注,得到该事件样本中每个词对应的论元之前还包括:对论元的语义角色类型进行自定义。6.根据权利要求1所述的方法,其中在所述根据所述输入文本的事件类型确定需要提取的事件元素类型之前还包括:基于事件样本的事件类型确定每个事件类型需要提取的事件元素类型,所述需要提取的事件元素类型包括元素名称、元素实体词类型和元素语义角色类型;根据多个事件类型中每个事件类型的需要提取的事件元素类型生成事件元素配置库。7.根据权利要求1所述的方法,其中所述根据所述输入文本的事件类型确定需要提取的事件元素类型,基于需要提取的事件元素类型、所述论元、所述实体词的类型及位置信息将所述论元对应的词与所述实体词进行元素对齐,确定所述输入文本中与所述事件元素类型对应的实体词以及该实体词的位置信息包括:基于所述论元的语义角色类型及位置信息和所述实体词的类型及位置信息按照如下公式计算任一语义角色的词与任一实体词两两之间的交叠系数C(A,B):其中,A是所述输入文本中任一实体词,B是所述输入文本中语义角色类型对应的词,|A|是A的起止位置确定的区间大小,|B|是B的起止位置确定的区间大小;|A∩B|是A、B的起止位置的交集确定的区间大小;基于交叠系数大于设定值的项得到候选元素集,每个候选元素包括实体词、实体词类型、语义角色类型和位置信息;根据所述输入文本的事件类型确定需要提取的事件元素类型,所述需要提取的事件元素类型所包含的元素名称、元素实体词类型和元素语义角色类型;判断每个所述候选元素的实体词类型和语义角色类型是否分别与所述需要提取的事件元素类型所包含的元素实体词类型和元素语义角色类型均匹配;若判断结果为是则将实体词类型和元素实体词类型、语义角色类型和元素语义角色类型均匹配的候选元素作为所述输入文本的事件元素,所述输入文本的事件元素包括对应的事件元素名称和实体词。8.根据权利要求1所述的方法,其中在所述根据所述输入文本的事件类型确定需要提取的事件元素类型之前还包括:调用预先设置的事件检测模型;通过所述事件检测模型计算输入文本与事件模板库中多个事件模板文本之间的相似度,其中,所述事件模板库根据事件类型及所述事件类型对应的事件样本生成,所述事件模板库包含用作所述事件模板文本的事件样本,每个所述事件模板文本具有对应的事件类型;输出与所述输入文本相似度最高的事件模板文本对应的事件类型。9.根据权利要求8所述的方法,其中所述事件检测模型通过以下步骤得到:根据事件类型及所述事件类型对应的事件样本生成训练样本集,其中,所述训练样本集包含多个事件样本组,每个所述事件样本组包含两个事件样本,每个所述事件样本组对应一个事件类型匹配标记,若所述事件样本组中的两个事件样本为同一事件类型,所述事件样本组的匹配标记被记为第一标记值;若所述事件样本组中的两个事件样本为不同事件类型,所述事件样本组的匹配标记被记为第二标记值,所述第二标记值与所述第一标记值不同;通过所述训练样本集对事件检测模型进行训练,得到所述事件检测模型,所述事件检测模型用来计算输入的两个事件的相似度。10.根据权利要求9所述的方法,其中所述事件样本组通过将各所述事件类型对应的事件样本进行两两组合得到。11.根据权利要求9所述的方法,其中所述事件检测模型通过具有注意力机制的深度神经网络生成。12.根据权利要求8所述的方法,还包括:向所述事件模板库中添加自定义事件类型及对应的事件模板文本。13.根据权利要求8所述的方法,其中所述多个事件模板文本为所述事件模板库中事件模板文本的全量。14.根据权利要求8所述的方法,其中当所述事件模板库中事件模板文本的数量超过设定值时,将所述输入文本包含的至少一个关键词作为触发词,从所述事件模板库中选取包含所述触发词的事件模板文本得到所述多个事件模板文本。15.根据权利要求8所述的方法,其中当所述事件模板库中事件模板文本的数量超过设定值时,根据语句相似度过滤方法,从所述事件模板库中选取与所述输入文本语义最相似的前n个事件模板文本得到所述多个事件模板文本,n为自然数。16.根据权利要求8所述的方法,其中所述通过所述事件检测模型计算输入文本与事件模板库中多个事件模板文本之间的相似度步骤包括:通过分词方式将输入文本q和事件模板文本t分别转化成由词向量构成的向量形式;对于q中的词x对应的词向量Wqx,采用t对应的所有词向量进行注意力机制计算,得到...
【专利技术属性】
技术研发人员:陈若田,温祖杰,张家兴,赵剑波,王恩旭,姜海波,周芸,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。