一种事件角色的标注方法和计算机设备、计算机可读存储介质技术

技术编号:33532606 阅读:35 留言:0更新日期:2022-05-19 02:06
本发明专利技术提供一种事件角色的标注方法,其包括如下步骤:S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;S4,优化概率:对模型进行训练,优化句子中事件

【技术实现步骤摘要】
一种事件角色的标注方法和计算机设备、计算机可读存储介质


[0001]本专利技术涉及计算机
,具体涉及一种事件角色标注模型的标注方法。

技术介绍

[0002]事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是多事件)、涉及该事件的论元、以及论元在该事件中扮演的角色。在NLP领域中,和该想法相似的任务是事件抽取。在事件抽取过程中,一个事件往往被更形式化的定义为包含了事件触发词(表示事件的核心词)、事件类型、事件论元(事件的参与者)和事件论元角色(事件论元在事件中充当的角色),因此事件抽取任务就是识别出上述事件要素并进行结构化组织。
[0003]在给定的事件角色标注数据集中,未经过分词,使用斯坦福分词器对数据分词后,发现数据集中存在891条分词错误,例如句子“转租了一间餐饮店,在办营业执照时,但在注消税务证时有笔房屋使用税,请问一下这段由他还是我出?”,其中一个实体为“税务证”,分词后为“转租/了/一/间/餐饮店/,/在/办/营业/执照/时/,/但/在/注消/税务/证时/有笔/房屋/使用税/,/请/问/一下/这段/由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种事件角色的标注方法,其特征在于,包括如下步骤:S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;S2,特征抽取:使用双向LSTM(Long short

term memory)编码,将其转换为向量码,得到句子中每个字符的特征表示;S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;S4,优化概率:对模型进行训练,优化句子中事件

论元

角色三元组的概率。2.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,给定句子S=c0,c1,c2,

,c
n
,c0是在句子首部增加的一个虚根节点,用于预测事件。3.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,模型的输入部分包括字符嵌入char embedding和BERT embedding,其可表示为其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。4.根据权利要求1所述的事件角色的标注方法,其特征在于,S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所...

【专利技术属性】
技术研发人员:夏振涛谈辉李艳朱立烨石雁
申请(专利权)人:永中软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1