一种处理带格式风格文本的要素内容抽取方法技术

技术编号:28466392 阅读:17 留言:0更新日期:2021-05-15 21:32
本发明专利技术的一种处理带格式风格文本的要素内容抽取方法及系统,方法包括如下步骤:S100、事件检测;S200、事件定义;S300、文本标注;S400、模型训练;S500、特征提取;S600、标签预测;系统包括事件检测模块和要素级别实体抽取模块,事件检测模块将文本生成对应的句子向量;采用BiLSTM

【技术实现步骤摘要】
一种处理带格式风格文本的要素内容抽取方法


[0001]本专利技术属于文本处理
,具体来说是一种处理带格式风格文本的要素内容抽取方法。

技术介绍

[0002]传统意义上债券信息收集主要依靠人工筛选或正则匹配的形式来进行,该场景下的工作效率和系统录入准确率都不甚高。而在AI时代,利用自然语言处理(NLP)技术对银行间市场中的非结构化文本进行结构化后入库,从而及时有效地管理各种债券信息,是十分具有实用效益的。

技术实现思路

[0003]1.专利技术要解决的技术问题
[0004]本专利技术的目的在于解决现有的文本数据采集提取需要人工筛选录入,效率低下的问题。
[0005]2.技术方案
[0006]为达到上述目的,本专利技术提供的技术方案为:
[0007]本专利技术的一种处理带格式风格文本的要素内容抽取方法,所述方法具体包括如下步骤:
[0008]S100、事件检测;
[0009]S200、事件定义;
[0010]S300、文本标注;
[0011]S400、模型训练;
[0012]S500、特征提取;
[0013]S600、标签预测。
[0014]优选的,所述步骤S100具体为首先将文本中的事件触发词和事件元素都抽取出来如:发行人、债券品种、债券金额等实体元素。之后根据实体触发词和实体元素对应到相应的独立事件。
[0015]优选的,所述步骤S200具体为基于Ideal平台上所发布的信息,确定事件类型,首先定义触发词如:违约、发行等事件触发词。之后基于触发词再定义相关事件元素。
[0016]优选的,所述步骤S300具体为如果任务为事件检测,则对文本进行事件类型、事件触发词、事件元素标注。如果任务为实体识别,对相关文本进行BIO标注,其中B为begin代表某个实体类型开始,I为immediate表示某实体的中间位置,O为other代表其他,不是实体。
[0017]优选的,所述步骤S400中的模型训练具体为将批注好的句子级语料先进行分词,获取token级别的序列信息和注意力信息。将这些序列信息输入到预训练BERT模型中,在BERT模型中经过注意力机制、线性层来提取字向量表示,再输送到BiLSTM

CRF模型中,预测词向量的标签,将预测的标签和真实标签进行比较计算并反馈。不断重复这个过程,以得到
训练后用于要素级别实体抽取的模型。
[0018]优选的,所述步骤S500具体为进行预测时,模型会对输入的文本进行向量化,并通过BERT获取信息向量,得到特征。
[0019]优选的,所述步骤S600具体为将获得的特征输入BILSTM

CRF中,已经学习过的模型进行预测出标签,最后根据标签进行实体的抽取。
[0020]一种处理带格式风格文本的要素内容抽取系统,包括事件检测模块和要素级别实体抽取模块,所述事件检测模块采用BiLSTM

Maxpooling作为句子编码器,将文本生成对应的句子向量;采用BiLSTM

CRF对长文本中的句子进行标注,从而区分出每个相关的独立事件,所述要素级别实体抽取模块采用预训练好的BERT模型进行特征提取,得到句子中每个字的嵌入向量,采用BiLSTM

CRF结构捕捉双向的语义依赖,再加入CRF对标签之间的依赖性建模,利用CRF来学习一个最优路径,进行实体级别的标签预测。
[0021]3.有益效果
[0022]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0023]本专利技术的一种处理带格式风格文本的要素内容抽取方法及系统,所述方法具体包括如下步骤:S100、事件检测;S200、事件定义;S300、文本标注;S400、模型训练;S500、特征提取;S600、标签预测;系统包括事件检测模块和要素级别实体抽取模块,所述事件检测模块采用BiLSTM

Maxpooling作为句子编码器,将文本生成对应的句子向量;采用BiLSTM

CRF对长文本中的句子进行标注,从而区分出每个相关的独立事件,所述要素级别实体抽取模块采用预训练好的BERT模型进行特征提取,得到句子中每个字的嵌入向量,采用BiLSTM

CRF结构捕捉双向的语义依赖,再加入CRF对标签之间的依赖性建模,利用CRF来学习一个最优路径,进行实体级别的标签预测,可以提升文本数据的采集和录入的时间,提升效率节约人工成本。
附图说明
[0024]图1为本专利技术的一种处理带格式风格文本的要素内容抽取方法的流程图;
[0025]图2为本专利技术的一种处理带格式风格文本的要素内容抽取系统的结构示意图。
具体实施方式
[0026]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0027]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0028]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同;本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0029]实施例1
[0030]参照附图1,本实施例的一种处理带格式风格文本的要素内容抽取方法,所述方法具体包括如下步骤:
[0031]S100、事件检测;
[0032]S200、事件定义;
[0033]S300、文本标注;
[0034]S400、模型训练;
[0035]S500、特征提取;
[0036]S600、标签预测。
[0037]步骤S100具体为首先将文本中的事件触发词和事件元素都抽取出来如:发行人、债券品种、债券金额等实体元素。之后根据实体触发词和实体元素对应到相应的独立事件。
[0038]步骤S200具体为基于Ideal平台上所发布的信息,确定事件类型,首先定义触发词如:违约、发行等事件触发词。之后基于触发词再定义相关事件元素。
[0039]步骤S300具体为如果任务为事件检测,则对文本进行事件类型、事件触发词、事件元素标注。如果任务为实体识别,对相关文本进行BIO标注,其中B为begin代表某个实体类型开始,I为immediate表示某实体的中间位置,O为other代表其他,不是实体。
[0040]步骤S40本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理带格式风格文本的要素内容抽取方法,其特征在于,所述方法具体包括如下步骤:S100、事件检测;S200、事件定义;S300、文本标注;S400、模型训练;S500、特征提取;S600、标签预测。2.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法,其特征在于:所述步骤S100具体为对文本中相关的独立事件进行检测。3.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法,其特征在于:所述步骤S200具体为根据业务相关逻辑,定义相关的独立事件。4.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法,其特征在于:所述步骤S300具体为根据任务定义对相关文本进行句子级语料标注。5.根据权利要求4所述的一种处理带格式风格文本的要素内容抽取方法,其特征在于:所述步骤S400中的模型训练具体为将批注好的句子级语料通过预训练BERT模型提取字向量表示,再输送到BiLSTM

CRF模型中进行命名实体识别的训练,以得到训练后用于要素级别实体抽取的模型...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1