【技术实现步骤摘要】
一种自学习事件抽取方法及其应用
本专利技术涉及事件抽取的
技术介绍
生产异常指的是生产过程中出现的进度延迟或生产停工的现象,一般包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常、水电异常等多种形式。生产异常会造成生产浪费,并严重影响企业的生产能力,是生产中迫切希望克服的问题。在解决该问题的方案中,一种常用的手段是决策者通过对工业生产过程的异常日志进行解读,找出和异常相关的信息,如产生原因、发展过程等,基于这些信息作出有效决策,减少生产异常。现有技术中,对工业过程异常日志这类事件信息的解读可通过事件抽取的方式完成,其中所述事件抽取是指的从非结构化的信息中抽取出用户感兴趣的内容,并将其进行结构化呈现的过程。事件抽取过程通常可分为事件识别任务和角色分类任务,其中,事件识别任务用于判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务,可进一步包括触发词(trigger)识别和事件类型分类;角色分类任务是基于词对的多分类任务,用以判断句子中任意一对触发词和实体之间的角色关系,可进一步包括 ...
【技术保护点】
1.一种自学习事件抽取方法,其特征在于:包括:/nS2通过事件信息的句向量、每个句向量内包含的候选词-角色映射,对不同句子内的不同角色所对应的候选词向量进行自学习筛选,获得触发词向量集。/n
【技术特征摘要】
1.一种自学习事件抽取方法,其特征在于:包括:
S2通过事件信息的句向量、每个句向量内包含的候选词-角色映射,对不同句子内的不同角色所对应的候选词向量进行自学习筛选,获得触发词向量集。
2.根据权利要求1所述的事件抽取方法,其特征在于:所述筛选过程包括:
S20:获得含有所述候选词-角色映射信息编码的编码后句向量;
S21:将每个编码后句向量依次输入第一分类器中,获得其中不同角色对应的候选词向量为触发词的概率,其中超过第一阈值概率的候选词向量标注为触发词向量,由此得到全部句向量中的全部触发词的向量集;
优选的,所述编码通过第二Transformer编码器实现。
3.根据权利要求2所述的事件抽取方法,其特征在于:所述第一分类器使用Softmax交叉熵损失函数,设置为二分类问题,所述第一阈值概率为70%。
4.根据权利要求1所述的事件抽取方法,其特征在于:还包括:
S3:根据S2获得的触发词向量集,及其对应的句向量,判断每个触发词向量在每个句向量中属于一种特定类型的事件的发生概率,其中发生概率最高且超过第三阈值的事件类型即为该触发词向量在该句向量下的事件类型;优选的,所述第三阈值为60%。
5.根据权利要求4所述的事件抽取方法,其特征在于:所述发生概率为所述触发词向量与所述句向量的加权概率,即其为所述触发词向量属于该特定类型事件的概率与其权值的乘积加上所述句向量属于该特定类型事件的概率与其权值的乘积;优选的,所述权值通过Attention模型获得。
6.根据权利要求5所述的事件抽取方法...
【专利技术属性】
技术研发人员:朱远发,张伟文,王德培,赖泰驱,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。