一种基于序列标注的事件抽取方法技术

技术编号:17467256 阅读:88 留言:0更新日期:2018-03-15 04:51
本发明专利技术公开了一种基于序列标注的事件抽取方法,包括以下几个步骤:步骤1,对输入文本进行预处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注;步骤3,归并标注结果,得到事件元素;步骤4,将提取出的事件及其元素填充到设计好的模板,形成一句话描述。其主要解决的问题是如何从上市公司各类重大事项的公告中,抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。

An event extraction method based on sequence annotation

The invention discloses a sequence labeling method based on event extraction, including the following steps: Step 1, to input text preprocessing; step 2, using the LSTM+CRF network to the text of the word sequence labeling; step 3, merge the annotation results, event elements; step 4, filling into the design of a good template the extracted events and elements, the formation of a phrase to describe. The main problem is how to extract loans, mergers and other events from the announcements of major events of listed companies, and to give descriptions of human language forms. It saves the human cost of reading a large number of company announcements every day by financial practitioners.

【技术实现步骤摘要】
一种基于序列标注的事件抽取方法
本专利技术涉及一种事件抽取方法,具体讲是基于序列标注的事件抽取方法。
技术介绍
随着数据的增长以及数字化媒体信息的爆炸,信息抽取变得越来越重要且困难。普遍存在的问题是,大多数数据最初都是非结构化的,如用自然语言描述的文本,使得机器难以直接理解。这使得当数据量特别大的时候,自动化的信息检索和信息抽取变得很难。狭义的信息抽取即文本挖掘,即通过使用NLP(自然语言处理)技术,从不同新闻、博客等来源的文本中抽取信息,并以结构化的方式存储。事件作为一种从文本中抽取出来的信息,表征了实体之间在特定时间、空间的行为关系。因此,事件抽取也是关系抽取的一种。比如贷款事件,可以表示为<公司>向<银行>贷款<金额>,<期限>。目前,主流的事件抽取系统主要存在三个问题;一是分别在不同阶段提取实体和事件,存在传播误差。首先,运用命名实体识别人名、地名、机构名。然后,将这些作过实体标注的文本作为输入进行事件及其元素抽取。这样,命名实体识别的错误会影响事件的判断。二是大多数已有工作多采用N元语法模型(N一般不大于3),无法对长距离依赖建模。三是,对于具体的领域,往往需要构建大量的人工特征。做好特征选择代价是很大的,如专家知识的获取、最优特征的选择,并且可移植性很差。近年来,深度学习方法采用分层处理去学习数据的层次化特征表示,并在众多领域获得了相当好的结果。沿着这个趋势,最近越来越多的自然语言处理(NLP)研究采用了深度学习方法。传统方法解决NLP问题采用了浅层模型和高维度、极稀疏的特征向量,表征能力有限。而深度学习采用端到端的深层次模型,可以自动地构建词法、句法甚至语义特征,并从整体上去优化性能。
技术实现思路
因此,为了解决上述不足,本专利技术在此提供一种基于序列标注的事件抽取方法。其主要原理是从上市公司各类重大事项的公告中,将事件的各元素(如对于贷款事件,包括借贷人、银行、金额等)自动抽取出来,并填充到模板形成一句人类语言形式的事件描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。本专利技术是这样实现的,构造一种基于序列标注的事件抽取方法,其特征在于:包括以下几个步骤:步骤1,对输入文本进行预处理,过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声。将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便后续模型高效地处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注,经过大量的参数调整,最终确定单层双向LSTM网络结构。双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断。单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数,LSTM的结果需要利用维特比算法进行解码,得到句子级别的最优标注结果;步骤3,归并标注结果,将标注结果中同类型且连续的标注提取出来,并保留具有完整的“B”到“E”标记的结果作为识别到的实体,将实体中“公司”替换发布公告的公司名;步骤4,形成一句话描述。将提取出的事件及其元素填充到设计好的模板。根据本专利技术所述一种基于序列标注的事件抽取方法,其特征在于:对于步骤1来讲,同时用规则提前识别文中的数字实体,并用统一的符号代替,用于后续模型继续判断数字实体的子类型(金额、期限)。该手段可以减轻模型负担及提升数字的识别效果。根据本专利技术所述一种基于序列标注的事件抽取方法,其特征在于:对于步骤4来讲,核心算法模块的训练需要大量的人工标注数据;人工地标注了数千篇公司公告用以训练,使得模型能够很好地适应具体应用场景;另外,为了加快训练速度和增加泛化性,提前利用无监督的word2vec模型对大量无标注的公告进行训练,得到字向量,该字向量用于深度学习模型输入层的初始化。本专利技术具有如下优点:本专利技术在此提供一种基于序列标注的事件抽取方法,其主要解决的问题是如何从上市公司各类重大事项的公告中,抽取出贷款、合并等事件并给出人类语言形式描述。通过上述实施具有如下有益效果:(1)将事件抽取建模为序列标注问题,避免了级联模型的传播误差,从整体上优化识别效果;(2)采用了深度学习技术,避免了人工构造特征。系统不受专家知识的约束,可以方便地拓展到其它事件类型的抽取工作中;(3)利用了CRF约束,进一步优化了识别效果;(4)相比传统金融数据公司,我们采用了自动化的方式抽取事件信息。该结果具有丰富性、高效性,可进一步用于量化交易、股票公告简讯推送。附图说明图1是本专利技术所述基于序列标注的事件抽取方法的流程框图;图2是本专利技术所述基于序列标注的事件抽取方法的举例标注结果示意图。具体实施方式下面将结合附图1-图2对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术通过改进在此提供一种基于序列标注的事件抽取方法。实施时,从非结构化数据中进行事件抽取可以使得信息抽取系统从各方面获益。比如,可以根据用户偏好和识别到的事件对用户作个性化的新闻推荐。另外,事件抽取对风险分析系统,舆情监控系统,决策支持系统都很有帮助。本专利主要解决的问题是如何从上市公司各类重大事项的公告中,抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。本专利将事件抽取建模为序列标注问题,即对输入文本的每个字标注其是否是某类事件元素的起始(B-)、中间(I-)、结尾(E-)或不属于(O)任何事件。为了方便描述核心内容,另举一个简化的例子,“X公司向Y银行贷款Z元人民币”。标注结果参见图2:另外,当单个字构成实体就用“S-”标记。将各字的标注按起始、中间、结尾的顺序进行归并可以得到完整的事件类型及其元素。上面例子可以得到事件元素“X公司”、“Y银行”和“Z元人名币”。本专利的序列标注模块采用了LSTM深度神经网络,输入为稠密的字向量,输出为每个字对应的标记状态的概率分布,也是一个向量。要得到最终事件的输出,需要确定每个字对应的状态。最简单的方法是取每个字的标记状态概率分布中概率最大的那个状态。如上例中的“公”对应的I-ORG的概率为0.85,E-ORG为0.05,B-BANK为0.03,其它状态总共为0.07。因此,“公”最终的输出状态为I-ORG。然而,该方案忽略了标记之间的强依赖性。“X”选择了B-ORG,那么它后边字的状态为I-ORG和E-ORG的概率大大增加。因此,将字级别似然函数替换为类似于CRF的句子级别的似然函数(sentencelevellog-likelihood,SSL),用于描述这种约束关系。前者简单地累加句子中各字的损失,后者从整体考虑句子的损失。本专利技术包括以下几个步骤:步骤1,对输入文本进行预处理。过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声。将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便模型高效地处理。用规则提前识别文中的数字实体,并用统一的符号代替,用于后续模型继续判断数字实体的子类型(金额、期限本文档来自技高网
...
一种基于序列标注的事件抽取方法

【技术保护点】
一种基于序列标注的事件抽取方法,其特征在于:包括以下几个步骤:步骤1,对输入文本进行预处理,过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声;将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便模型高效地处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注;经过大量的参数调整,最终确定单层双向LSTM网络结构;双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断;单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数,LSTM的结果需要利用维特比算法进行解码,得到句子级别的最优标注结果;步骤3,归并标注结果;将标注结果中同类型且连续的标注提取出来,并保留具有完整的“B”到“E”标记的结果作为识别到的实体,将实体中“公司”替换发布公告的公司名;步骤4,形成一句话描述;将提取出的事件及其元素填充到设计好的模板。

【技术特征摘要】
1.一种基于序列标注的事件抽取方法,其特征在于:包括以下几个步骤:步骤1,对输入文本进行预处理,过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声;将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子,以便模型高效地处理;步骤2,利用LSTM+CRF网络对文本的字序列进行标注;经过大量的参数调整,最终确定单层双向LSTM网络结构;双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断;单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数,LSTM的结果需要利用维特比算法进行解码,得到句子级别的最优标注结果;步骤3,归并标注结果;将标注结果中同类型且连续的标注提取出来,并保留具有完整的“B”到“E”标记的结果作为识别到的实体,将实体中“...

【专利技术属性】
技术研发人员:赵二超韩伟
申请(专利权)人:成都蓝景信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1