一种基于序列标注的事件抽取方法技术

技术编号：17467256 阅读：88 留言：0更新日期：2018-03-15 04:51

本发明专利技术公开了一种基于序列标注的事件抽取方法，包括以下几个步骤：步骤1，对输入文本进行预处理；步骤2，利用LSTM+CRF网络对文本的字序列进行标注；步骤3，归并标注结果，得到事件元素；步骤4，将提取出的事件及其元素填充到设计好的模板，形成一句话描述。其主要解决的问题是如何从上市公司各类重大事项的公告中，抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。

An event extraction method based on sequence annotation

The invention discloses a sequence labeling method based on event extraction, including the following steps: Step 1, to input text preprocessing; step 2, using the LSTM+CRF network to the text of the word sequence labeling; step 3, merge the annotation results, event elements; step 4, filling into the design of a good template the extracted events and elements, the formation of a phrase to describe. The main problem is how to extract loans, mergers and other events from the announcements of major events of listed companies, and to give descriptions of human language forms. It saves the human cost of reading a large number of company announcements every day by financial practitioners.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于序列标注的事件抽取方法
本专利技术涉及一种事件抽取方法，具体讲是基于序列标注的事件抽取方法。
技术介绍
随着数据的增长以及数字化媒体信息的爆炸，信息抽取变得越来越重要且困难。普遍存在的问题是，大多数数据最初都是非结构化的，如用自然语言描述的文本，使得机器难以直接理解。这使得当数据量特别大的时候，自动化的信息检索和信息抽取变得很难。狭义的信息抽取即文本挖掘，即通过使用NLP(自然语言处理)技术，从不同新闻、博客等来源的文本中抽取信息，并以结构化的方式存储。事件作为一种从文本中抽取出来的信息，表征了实体之间在特定时间、空间的行为关系。因此，事件抽取也是关系抽取的一种。比如贷款事件，可以表示为<公司>向<银行>贷款<金额>，<期限>。目前，主流的事件抽取系统主要存在三个问题；一是分别在不同阶段提取实体和事件，存在传播误差。首先，运用命名实体识别人名、地名、机构名。然后，将这些作过实体标注的文本作为输入进行事件及其元素抽取。这样，命名实体识别的错误会影响事件的判断。二是大多数已有工作多采用N元语法模型(N一般不大于3)，无法对长距离依赖建模。三是，对于具体的领域，往往需要构建大量的人工特征。做好特征选择代价是很大的，如专家知识的获取、最优特征的选择，并且可移植性很差。近年来，深度学习方法采用分层处理去学习数据的层次化特征表示，并在众多领域获得了相当好的结果。沿着这个趋势，最近越来越多的自然语言处理(NLP)研究采用了深度学习方法。传统方法解决NL...
一种基于序列标注的事件抽取方法

【技术保护点】
一种基于序列标注的事件抽取方法，其特征在于：包括以下几个步骤：步骤1，对输入文本进行预处理，过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声；将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子，以便模型高效地处理；步骤2，利用LSTM+CRF网络对文本的字序列进行标注；经过大量的参数调整，最终确定单层双向LSTM网络结构；双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断；单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数，LSTM的结果需要利用维特比算法进行解码，得到句子级别的最优标注结果；步骤3，归并标注结果；将标注结果中同类型且连续的标注提取出来，并保留具有完整的“B”到“E”标记的结果作为识别到的实体，将实体中“公司”替换发布公告的公司名；步骤4，形成一句话描述；将提取出的事件及其元素填充到设计好的模板。

【技术特征摘要】
1.一种基于序列标注的事件抽取方法，其特征在于：包括以下几个步骤：步骤1，对输入文本进行预处理，过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声；将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子，以便模型高效地处理；步骤2，利用LSTM+CRF网络对文本的字序列进行标注；经过大量的参数调整，最终确定单层双向LSTM网络结构；双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断；单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数，LSTM的结果需要利用维特比算法进行解码，得到句子级别的最优标注结果；步骤3，归并标注结果；将标注结果中同类型且连续的标注提取出来，并保留具有完整的“B”到“E”标记的结果作为识别到的实体，将实体中“...

【专利技术属性】
技术研发人员：赵二超，韩伟，
申请(专利权)人：成都蓝景信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人