一种基于标注的事件抽取方法技术

技术编号：20866684 阅读：94 留言：0更新日期：2019-04-17 09:23

本发明专利技术属于信息抽取技术领域，公开了一种基于标注的事件抽取方法，结合标注与神经网络来进行事件抽取，首先进行数据处理得到一个事件实体的标注标签，然后用神经网络来训练标注好的数据，得到结构化的事件抽取的结果；对于输入的句子，通过实体识别和基于神经网络的事件抽取模型，直接得到有事件的实体标签；本发明专利技术提供的方法由于可直接得到有事件的实体标签，因此不会造成错误传递，没有冗余信息，有效降低错误率；另一方面本发明专利技术提供的基于标注的事件抽取方法，通过改进类别的权重的方式来得到损失函数，可缓解类别不平衡所引起的模型倾向预测较多数据类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标注的事件抽取方法
本专利技术属于信息抽取
，更具体地，涉及一种基于标注的事件抽取方法。
技术介绍
信息抽取技术是从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息，并输出结构化的信息。譬如，在微信读书软件中可以根据读者阅览的历史书籍，通过抽取获得读者的兴趣偏好，推送与读者兴趣相关的书籍。在新闻领域中，对很长的新闻通过事件抽取，用最短时间让读者了解新闻表达的内容。事件抽取不仅可以应用在互联网领域，可以应用到其他领域中，比如医疗领域，通过诊断说明书以及病患的症状表述，可以很快锁定病患的疾病情况，可以让患者对病状的了解更加明确。在信息抽取领域中，事件抽取(EventExtraction)是信息抽取研究中最具有挑战性的任务之一，其主要研究的是如何从非结构化的文本信息抽取出结构化的事件信息。例如一个新闻事件中，抽取事件的时间、地点、参与者等形成一个结构化的文本信息。目前事件抽取的方法有很多，有基于传统的机器学习方法，如隐马尔可夫(HiddenMarkovModel，HMM)、条件随机场(Conditionalrandomfield，CRF)等，也有基于神经网络的深度学习方法，其主要代表有卷积神经网络(Convolutionneuralnetwork，CNN)、循环神经网络(Recurrentneuralnetwork，RNN)、长短时记忆网络(Longandshortmemorynetwork，LSTM)。传统机器学习方法中，通过对文本信息进行分句、分词、实体识别、句法和依存关系，利用自然语言处理的工具提取候选词的上下文的词义特征和语...

【技术保护点】
1.一种基于标注的事件抽取方法，其特征在于，包括如下步骤：(1)构建语料库：以待抽取的内容作为语料，所有语料的集合作为事件抽取的语料库，对语料库的语料进行分段分句；对语料库的句子进行分类，筛选出包含实体和事件的句子；(2)把语料文本随机分配形成两个数据集，分别为训练集、测试集；(3)对语料进行标注：对句子中的实体以{边界位置‑事件‑实体}的形式来进行标注：实体位置信息{B(实体开始)、I(实体内部)、E(实体结尾)、S(单个实体)}、事件类型{根据语料预先定义好的关系类型进行编码}、实体类型信息，句子中的其他部分全部标记为指定的标签。(4)以Bi‑LSTM作为神经网络模型，将标注好的语料正向和逆向分别输入到Bi‑LSTM的两个LSTM网络中，分别得到正向和逆向的特征向量，将这两个特征向量拼接在一起得到上下文特征向量；根据上下文特征向量计算预测的标注标签概率，根据标注标签概率建立损失函数；(5)对网络参数进行初始化，输入训练数据对神经网络模型的参数进行优化；在测试集上对神经网络模型进行评估，当在测试集合上的抽取准确率在预设阈值区间内，判定神经网络模型达到收敛；(6)将待抽取文本输入训练好...

【技术特征摘要】
1.一种基于标注的事件抽取方法，其特征在于，包括如下步骤：(1)构建语料库：以待抽取的内容作为语料，所有语料的集合作为事件抽取的语料库，对语料库的语料进行分段分句；对语料库的句子进行分类，筛选出包含实体和事件的句子；(2)把语料文本随机分配形成两个数据集，分别为训练集、测试集；(3)对语料进行标注：对句子中的实体以{边界位置-事件-实体}的形式来进行标注：实体位置信息{B(实体开始)、I(实体内部)、E(实体结尾)、S(单个实体)}、事件类型{根据语料预先定义好的关系类型进行编码}、实体类型信息，句子中的其他部分全部标记为指定的标签。(4)以Bi-LSTM作为神经网络模型，将标注好的语料正向和逆向分别输入到Bi-LSTM的两个LSTM网络中，分别得到正向和逆向的特征向量，将这两个特征向量拼接在一起得到上下文特征向量；根据上下文特征向量计算预测的标注标签概率，根据标注标签概率建立损失函数；(5)对网络参数进行初始化，输入训练数据对神经网络模型的参数进行优化；在测试集上对神经网络模型进行评估，当在测试集合上的抽取准确率在预设阈值区间内，判定神经网络模型达到收敛；(6)将待抽取文本输入训练好的神经网络模型中，预测序列每一个字符的标签预测结果；依据标签预测结果对文本进行拼接，得到结构化的事件抽取结果。2.如权利要求1所述的基于标注的时间抽取方法，其特征在于，所述实体是指客观存在并且可相互区别的事物，事件是指发生在某个特定时间段由一个或多个角色参与的一个或多个动作组成的事情或者状态的改变。3.如权...

【专利技术属性】
技术研发人员：王家奎，
申请(专利权)人：园宝科技武汉有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人