【技术实现步骤摘要】
事件元素提取方法、装置、设备及存储介质
本申请实施例涉及计算机
,特别涉及一种事件元素提取方法、装置、设备及存储介质。
技术介绍
事件元素提取是指从自然语言文本中提取出事件的信息,例如事件类型、事件参与者以及其他能够代表事件主旨的词语等,并以结构化的形式呈现出来。因此,通过事件元素提取可以从大量语料信息中挖掘出用户感兴趣的事件,可应用于新闻资讯分析、文章内容提炼、知识库构建、信息检索等多种领域。相关技术中,事件元素可以包括触发元素、施事元素和受事元素,从样本语料信息中提取事件元素,获取该事件元素的同义词,作为另一事件元素,以构建事件元素词典,并且还会自动化标注事件元素词典中的每个事件元素的类型。后续即可将事件元素词典与某一语料信息进行匹配,从而提取出该语料信息中的事件元素。但是,上述方案需要预先标注事件元素词典中的每个事件元素的类型,操作繁琐。并且,由于语料信息的复杂性,很多事件元素不是固定的,上述方案只能提取出预先设定的事件元素,查全率低,灵活性差。
技术实现思路
本申请实 ...
【技术保护点】
1.一种事件元素提取方法,其特征在于,所述方法包括:/n从第一语料信息中,提取目标事件的第一触发元素;/n基于实体元素提取模型,对所述第一语料信息进行处理,得到所述第一语料信息中的第一实体元素;/n将所述第一触发元素与所述第一实体元素确定为所述目标事件的第一事件元素;/n其中,所述实体元素提取模型根据从第二语料信息中提取的第二事件元素训练得到,所述第二事件元素包括所述目标事件的第二触发元素和第二实体元素,所述目标事件的实体元素包括所述目标事件的施事元素或受事元素中的至少一种。/n
【技术特征摘要】
1.一种事件元素提取方法,其特征在于,所述方法包括:
从第一语料信息中,提取目标事件的第一触发元素;
基于实体元素提取模型,对所述第一语料信息进行处理,得到所述第一语料信息中的第一实体元素;
将所述第一触发元素与所述第一实体元素确定为所述目标事件的第一事件元素;
其中,所述实体元素提取模型根据从第二语料信息中提取的第二事件元素训练得到,所述第二事件元素包括所述目标事件的第二触发元素和第二实体元素,所述目标事件的实体元素包括所述目标事件的施事元素或受事元素中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述基于实体元素提取模型,对所述第一语料信息进行处理,得到所述第一语料信息中的第一实体元素之前,所述方法还包括:
从第二语料信息中,提取所述目标事件的第二事件元素;
根据所述第二事件元素,训练实体元素提取模型,所述实体元素提取模型用于从任一语料信息中提取实体元素。
3.根据权利要求2所述的方法,其特征在于,所述目标事件的触发元素包括触发词语,所述从第二语料信息中,提取所述目标事件的第二事件元素,包括:
将所述目标事件的触发词语集合与所述第二语料信息进行匹配;
从所述第二语料信息中提取所述触发词语集合中包括的触发词语,作为所述第二触发元素;
根据所述第二触发元素在所述第二语料信息中的句法成分,确定所述第二触发元素对应的第二实体元素。
4.根据权利要求2所述的方法,其特征在于,所述目标事件的触发元素包括触发词语或触发短语中的至少一种,所述触发短语包括至少两个词语,所述从第二语料信息中,提取所述目标事件的第二事件元素,包括:
将所述目标事件的触发词语模式集合与所述第二语料信息进行匹配,所述触发词语模式集合中包括至少一个触发词语模式,所述触发词语模式包括所述目标事件的触发词语和用于与所述触发词语组合的辅助词语;
当所述第二语料信息中包括任一触发词语以及所述触发词语对应的辅助词语,且所述触发词语与所述辅助词语之间不存在否定词时,将所述触发词语与所述辅助词语进行组合,得到触发短语;
根据所述触发词语在所述第二语料信息中的句法成分,确定所述触发词语对应的实体元素,作为第二实体元素;
根据所述触发词语和所述辅助词语在所述第二语料信息中的句法成分,确定所述触发短语对应的实体元素,作为所述第二实体元素。
5.根据权利要求4所述的方法,其特征在于,所述当所述第二语料信息中包括任一触发词语以及所述触发词语对应的辅助词语,且所述触发词语与所述辅助词语之间不存在否定词时,将所述触发词语与所述辅助词语进行组合,得到触发短语,包括:
当所述第二语料信息中包括所述触发词语以及所述触发词语对应的辅助词语,所述触发词语与所述辅助词语之间不存在否定词,且所述触发词语与所述辅助词语之间的距离不大于第一预设距离时,将所述触发词语与所述辅助词语进行组合,得到触发短语。
6.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
对所述目标事件的事件类型名称进行分词,得到多个目标词语;
将所述多个目标词语中属于动词的触发词语与对应的同义词添加至触发词语集合中;
分别将所述多个目标词语中的每个目标词语与对应的同义词组合成一个词语集合,得到多个词语集合;
从每个词语集合中选取任一词语,将选取的多个词语进行组合,得到所述触发词语模式,添加至触发词语模式集合中。
7.根据权利要求2所述的方法,其特征在于,所述第二事件元素满足以下条件中的至少一种:
所述第二触发元素在所述第二语料信息中的词性为动词;
所述第二触发元素在所述第二语料信息中的句法成分为谓语;
所述第二事件元素的长度不小于预设值;
所述第二实体元素在所述第二语料信息中的词性为名词;
所述第二实体元素不属于预设的类型词语,所述预设的类型词语表示特定类型但无法表示属于所述特定类型的特定对象。
8.根据权利要求2所述的方法,其特征在于,所述根据所述第二事件元素,训练实体元素提取模型,包括:
根据所述第二实体元素,对所述第二语料信...
【专利技术属性】
技术研发人员:刘志煌,
申请(专利权)人:腾讯云计算北京有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。