使用局部学习完成简易事件抽取的方法技术

技术编号：22330352 阅读：34 留言：0更新日期：2019-10-19 12:19

本发明专利技术公开了一种使用局部学习完成简易事件抽取的方法。本发明专利技术一种使用局部学习完成简易事件抽取的方法，包括：标注规范构建过程：根据框架下的三类：动宾、双动词、其他，给出具体事件定义。本发明专利技术的有益效果：尝试解决远程监督获取的数据中存在的漏标和错标问题，提高模型对于命名实体的识别性能。

Using local learning to complete simple event extraction

全部详细技术资料下载

【技术实现步骤摘要】
使用局部学习完成简易事件抽取的方法
本专利技术涉及简易事件抽取领域，具体涉及一种使用局部学习完成简易事件抽取的方法。
技术介绍
简易事件定义为动词和它的宾语直接连接的事件，用于描述场景。例如：打篮球、踢足球、吃早餐、打电话。我们将简易事件抽取问题转化为命名实体识别问题，从句子中识别出事先定义的事件要素类别实例。实体识别任务经过多年研究，已经取得很好的进展。目前主要研究难点在于：在不同领域和不同应用中，通常要识别新实体类别，很难对应快速构建高性能系统。在构建新实体类别识别系统时，通常需要有标注语料来训练模型，而这时很难制定出详实准确的实体标注规范，且标注数据费时费力。另外，领域自适应问题也是一个非常突出的问题，即实体识别系统在新领域文本上标注性能下降幅度较大。目前，常见的实体识别方法大致可以分为：1)基于规则和词典的方法；2)基于传统机器学习模型的方法；3)基于深度学习的方法。在三种方法的基础上，还有一些系统构建在它们之间的混合之上。现有相关技术：1、数据构建：专家标注，即数据标注人员为所在领域的专家或者标注规范制定人员，以此来获取高质量的标注数据。众包标注。众包是一种分布式的问题解决和标注模式，通过将数据和标注规范提供给非专业人员。经过简单培训后进行标注，最后将有标注的数据提供给众包数据发布者。过程中往往会设置部分的“陷阱”，之后根据非专业人员的标注表现，提供一定奖励。远程监督。假设一开始存在少量人工标注数据和实体词表情况下，远程监督方法用该词表在大规模无标注语料中进行匹配，匹配上的字符串就认为是正确的标注。2、基于深度学习的实体识别方法：目前最常用的模型...

【技术保护点】
1.一种使用局部学习完成简易事件抽取的方法，其特征在于，包括：标注规范构建过程：根据框架下的三类：动宾、双动词、其他，给出具体事件定义。在这基础上根据实际语料给出符合定义的例子，对于存在歧义的地方提供注意事项。规范的构建需要不断迭代，根据实际情况不断完善，最终形成一个条理清晰直观明了的文档。远程监督语料构建过程：首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训，然后获得一定规模的人工标注数据，将这部分数据中的实体抽取出来，构建实体词表。用所述实体词表在大规模未标注文本中进行匹配，得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据，训练出一个性能较好的简易事件识别模型。基于BiLSTM‑CRF的识别模型：BiLSTM‑CRF模型把识别任务当作序列标注任务来处理，模型输入时汉字序列，输出是标签序列。在命名实体识别任务上，BiLSTM‑CRF已经取得良好效果，要素标注转换成序列标注时采用BIEO标签，其中B‑XX表示要素XX的第一个汉字，E‑XX表示要素的最后一个汉字，要素的其他汉字标注为I‑XX，而非要素汉字都标注为O。在BiLSTM...

【技术特征摘要】
1.一种使用局部学习完成简易事件抽取的方法，其特征在于，包括：标注规范构建过程：根据框架下的三类：动宾、双动词、其他，给出具体事件定义。在这基础上根据实际语料给出符合定义的例子，对于存在歧义的地方提供注意事项。规范的构建需要不断迭代，根据实际情况不断完善，最终形成一个条理清晰直观明了的文档。远程监督语料构建过程：首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训，然后获得一定规模的人工标注数据，将这部分数据中的实体抽取出来，构建实体词表。用所述实体词表在大规模未标注文本中进行匹配，得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据，训练出一个性能较好的简易事件识别模型。基于BiLSTM-CRF的识别模型：BiLSTM-CRF模型把识别任务当作序列标注任务来处理，模型输入时汉字序列，输出是标签序列。在命名实体识别任务上，BiLSTM-CRF已经取得良好效果，要素标注转换成序列标注时采用BIEO标签，其中B-XX表示要素XX的第一个汉字，E-XX表示要素的最后一个汉字，要素的其他汉字标注为I-XX，而非要素汉字都标注为O。在BiLSTM-CRF模型中，对于输入的汉字序列，首先通过双向LSTM来构造神经元特征，然后组合这些特征输入到CRF层进行标签预测。整个模型分为三个主要部分：1)字向量表示：把输入字串表示为字向量，即把离散型输入转换成低维神经元输入；2)特征抽取：通过双向LSTM和线性变换把字向量转换成神经元特征；3)实体标注：把特征输入到CRF层，使用标注模块获取实体标签；字向量表示：通过一个神经表达层把离散型输入汉字转换成低维神经元输入；使用一个Looking-up表，表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中，向量的所有数值作为模型的参数，在迭代过程中随同其他参数一起优化；在给定中文句子的字序列时，过查表获取对应的字向量表示。特征提取：基于输入字向量序列，我们通过双向LSTM和一个线性层来提取特征这些特征将用于CRF实体标注模块。LSTM是长短期记忆网络，是一种循环神经网络，可以很好地对自然语言句子建模。我们将双向LSTM对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示通过下列公式计算得到其中W和b都是模型参数。上面的公式就是把字符映射到标签上，最终的序列就是由标签集中的标签组成。实体标注：最终使用CRF...

【专利技术属性】
技术研发人员：陈文亮，王铭涛，杨耀晟，张民，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人