当前位置: 首页 > 专利查询>苏州大学专利>正文

使用局部学习完成简易事件抽取的方法技术

技术编号:22330352 阅读:34 留言:0更新日期:2019-10-19 12:19
本发明专利技术公开了一种使用局部学习完成简易事件抽取的方法。本发明专利技术一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明专利技术的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。

Using local learning to complete simple event extraction

【技术实现步骤摘要】
使用局部学习完成简易事件抽取的方法
本专利技术涉及简易事件抽取领域,具体涉及一种使用局部学习完成简易事件抽取的方法。
技术介绍
简易事件定义为动词和它的宾语直接连接的事件,用于描述场景。例如:打篮球、踢足球、吃早餐、打电话。我们将简易事件抽取问题转化为命名实体识别问题,从句子中识别出事先定义的事件要素类别实例。实体识别任务经过多年研究,已经取得很好的进展。目前主要研究难点在于:在不同领域和不同应用中,通常要识别新实体类别,很难对应快速构建高性能系统。在构建新实体类别识别系统时,通常需要有标注语料来训练模型,而这时很难制定出详实准确的实体标注规范,且标注数据费时费力。另外,领域自适应问题也是一个非常突出的问题,即实体识别系统在新领域文本上标注性能下降幅度较大。目前,常见的实体识别方法大致可以分为:1)基于规则和词典的方法;2)基于传统机器学习模型的方法;3)基于深度学习的方法。在三种方法的基础上,还有一些系统构建在它们之间的混合之上。现有相关技术:1、数据构建:专家标注,即数据标注人员为所在领域的专家或者标注规范制定人员,以此来获取高质量的标注数据。众包标注。众包是一种分布式的问题解决和标注模式,通过将数据和标注规范提供给非专业人员。经过简单培训后进行标注,最后将有标注的数据提供给众包数据发布者。过程中往往会设置部分的“陷阱”,之后根据非专业人员的标注表现,提供一定奖励。远程监督。假设一开始存在少量人工标注数据和实体词表情况下,远程监督方法用该词表在大规模无标注语料中进行匹配,匹配上的字符串就认为是正确的标注。2、基于深度学习的实体识别方法:目前最常用的模型是BiLSTM-CRF模型,模型的为链式结构分为Embedding层(用向量表示输入的字或词),双向LSTM层(在向量表示的基础上对整句话建模抽取隐含表示),线性层(串联字符与标签的映射关系)以及最后的CRF层(串联标签与标签的映射关系)构成。实验结果表明BiLSTM-CRF获得了更好的效果,已经达到或者超过了基于丰富特征的CRF模型。在特征方面,该模型不需要特别好的特征工程,使用词向量以及字符向量就可以达到很好的效果。传统技术存在以下技术问题:1、数据构建:1)专家标注人数一般较少,标注速度慢,无法获得成规模的标注语料,无法满足实际的应用需求。2)众包标注的人员对数据领域没有太多经验,在标注前需要制定详细的标注规范,并且需要经过一段时间的培训。不同的标注员对于规范和语料有不同的理解和标注习惯,导致标注结果中存在大量的标注不一致或错误标注,导致标注数据质量低下。例:标注员1:包装严实送到没有磕碰。标注员2:{包装@EVENT}严实送到没有磕碰。“包装”在这句话的上下文情境中不表示为简易事件,属于标注不一致的例子。3)远程监督受限于已经构建的种子资源的规模和质量,很多未登录资源容易被遗漏。数据构造过度依赖匹配准则和算法,所以远程监督获取的数据存在两个问题——漏标和错标。例1:我喜欢Beyond的{不再犹豫@SONG}和再见理想。【漏标】例2:我{不再犹豫@SONG}直接去了车站。【错标】在例1中,“再见理想”也是一首歌,由于词表里没有,导致漏标。在例2中,“不再犹豫”不是歌名,属于错标。4)对于标注所使用的标注规范,需要紧密结合实际任务和数据,经过不断完善才能最终敲定。目前面向电商领域的事件标注规范几乎没有。2、基于神经网络的命名实体识别模型:目前神经网络模型已被广泛应用于多个自然语言处理任务上,较传统模型取得了不小的进步。但它也暴露出很多缺点:1)数据问题:神经网络模型能取得不错的效果是建立在大数据的基础上的,与传统的机器学习算法相比,神经网络需要更多的数据。最终的模型效果很大程度上与提供的数据有关,数据质量尤为重要。2)可解释能力较弱,对于预测出的结果没有可利用的特征对其进行解释。3)计算成本上往往比传统算法更加昂贵,由于训练数据的增加和网络深度的增加,需要更多的计算资源。
技术实现思路
本专利技术要解决的技术问题是提供一种使用局部学习完成简易事件抽取的方法,通过把事件抽取问题转化为命名实体识别问题。然后根据电商领域丰富事件资源给出简易事件的定义,根据实际标注情况不断迭代出详细的实体标注规范。使用小规模专家标注和大规模众包标注,从中抽取出事件资源列表。再利用远程监督的方法,对大规模无标注数据进行标注。使用局部学习方法来尝试解决远程监督获取的数据中存在的漏标和错标问题,从而提高基于神经网络的实体识别模型。为了解决上述技术问题,本专利技术提供了一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。远程监督语料构建过程:首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。用所述实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。基于BiLSTM-CRF的识别模型:BiLSTM-CRF模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,BiLSTM-CRF已经取得良好效果,要素标注转换成序列标注时采用BIEO标签,其中B-XX表示要素XX的第一个汉字,E-XX表示要素的最后一个汉字,要素的其他汉字标注为I-XX,而非要素汉字都标注为O。在BiLSTM-CRF模型中,对于输入的汉字序列,首先通过双向LSTM来构造神经元特征,然后组合这些特征输入到CRF层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向LSTM和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到CRF层,使用标注模块获取实体标签;字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入;使用一个Looking-up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化;在给定中文句子的字序列时,过查表获取对应的字向量表示。特征提取:基于输入字向量序列,我们通过双向LSTM和一个线性层来提取特征这些特征将用于CRF实体标注模块。LSTM是长短期记忆网络,是一种循环神经网络,可以很好地对自然语言句子建模。我们将双向LSTM对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示通过下列公式计算得到其中W和b都是模型参数。上面的公式就是把字符映射到标签上,最终的序列就是由标签集中的标签组成。实体标注:最终使用CRF层进行解码,使模型能够学习到标签与标签之间的依赖关系。求解计算公式如下:在参数训练时,采用Log-likelihood来计算损失值。人工标注序列的概率为:损失值为:训练的优化目标是最本文档来自技高网
...

【技术保护点】
1.一种使用局部学习完成简易事件抽取的方法,其特征在于,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。远程监督语料构建过程:首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。用所述实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。基于BiLSTM‑CRF的识别模型:BiLSTM‑CRF模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,BiLSTM‑CRF已经取得良好效果,要素标注转换成序列标注时采用BIEO标签,其中B‑XX表示要素XX的第一个汉字,E‑XX表示要素的最后一个汉字,要素的其他汉字标注为I‑XX,而非要素汉字都标注为O。在BiLSTM‑CRF模型中,对于输入的汉字序列,首先通过双向LSTM来构造神经元特征,然后组合这些特征输入到CRF层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向LSTM和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到CRF层,使用标注模块获取实体标签;字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入;使用一个Looking‑up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化;在给定中文句子的字序列时,过查表获取对应的字向量表示。特征提取:基于输入字向量序列,我们通过双向LSTM和一个线性层来提取特征...

【技术特征摘要】
1.一种使用局部学习完成简易事件抽取的方法,其特征在于,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。远程监督语料构建过程:首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。用所述实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。基于BiLSTM-CRF的识别模型:BiLSTM-CRF模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,BiLSTM-CRF已经取得良好效果,要素标注转换成序列标注时采用BIEO标签,其中B-XX表示要素XX的第一个汉字,E-XX表示要素的最后一个汉字,要素的其他汉字标注为I-XX,而非要素汉字都标注为O。在BiLSTM-CRF模型中,对于输入的汉字序列,首先通过双向LSTM来构造神经元特征,然后组合这些特征输入到CRF层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向LSTM和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到CRF层,使用标注模块获取实体标签;字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入;使用一个Looking-up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化;在给定中文句子的字序列时,过查表获取对应的字向量表示。特征提取:基于输入字向量序列,我们通过双向LSTM和一个线性层来提取特征这些特征将用于CRF实体标注模块。LSTM是长短期记忆网络,是一种循环神经网络,可以很好地对自然语言句子建模。我们将双向LSTM对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示通过下列公式计算得到其中W和b都是模型参数。上面的公式就是把字符映射到标签上,最终的序列就是由标签集中的标签组成。实体标注:最终使用CRF...

【专利技术属性】
技术研发人员:陈文亮王铭涛杨耀晟张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1