一种处理带格式风格文本的要素内容抽取方法技术

技术编号：28466392 阅读：17 留言：0更新日期：2021-05-15 21:32

本发明专利技术的一种处理带格式风格文本的要素内容抽取方法及系统，方法包括如下步骤：S100、事件检测；S200、事件定义；S300、文本标注；S400、模型训练；S500、特征提取；S600、标签预测；系统包括事件检测模块和要素级别实体抽取模块，事件检测模块将文本生成对应的句子向量；采用BiLSTM

全部详细技术资料下载

【技术实现步骤摘要】
一种处理带格式风格文本的要素内容抽取方法

[0001]本专利技术属于文本处理
，具体来说是一种处理带格式风格文本的要素内容抽取方法。

技术介绍

[0002]传统意义上债券信息收集主要依靠人工筛选或正则匹配的形式来进行，该场景下的工作效率和系统录入准确率都不甚高。而在AI时代，利用自然语言处理(NLP)技术对银行间市场中的非结构化文本进行结构化后入库，从而及时有效地管理各种债券信息，是十分具有实用效益的。

技术实现思路

[0003]1.专利技术要解决的技术问题
[0004]本专利技术的目的在于解决现有的文本数据采集提取需要人工筛选录入，效率低下的问题。
[0005]2.技术方案
[0006]为达到上述目的，本专利技术提供的技术方案为：
[0007]本专利技术的一种处理带格式风格文本的要素内容抽取方法，所述方法具体包括如下步骤：
[0008]S100、事件检测；
[0009]S200、事件定义；
[0010]S300、文本标注；
[0011]S400、模型训练；
[0012]S500、特征提取；
[0013]S600、标签预测。
[0014]优选的，所述步骤S100具体为首先将文本中的事件触发词和事件元素都抽取出来如：发行人、债券品种、债券金额等实体元素。之后根据实体触发词和实体元素对应到相应的独立事件。
[0015]优选的，所述步骤S200具体为基于Ideal平台上所发布的信息，确定事件类型，首先定义触...

【技术保护点】

【技术特征摘要】
1.一种处理带格式风格文本的要素内容抽取方法，其特征在于，所述方法具体包括如下步骤：S100、事件检测；S200、事件定义；S300、文本标注；S400、模型训练；S500、特征提取；S600、标签预测。2.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法，其特征在于：所述步骤S100具体为对文本中相关的独立事件进行检测。3.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法，其特征在于：所述步骤S200具体为根据业务相关逻辑，定义相关的独立事件。4.根据权利要求1所述的一种处理带格式风格文本的要素内容抽取方法，其特征在于：所述步骤S300具体为根据任务定义对相关文本进行句子级语料标注。5.根据权利要求4所述的一种处理带格式风格文本的要素内容抽取方法，其特征在于：所述步骤S400中的模型训练具体为将批注好的句子级语料通过预训练BERT模型提取字向量表示，再输送到BiLSTM
‑
CRF模型中进行命名实体识别的训练，以得到训练后用于要素级别实体抽取的模型...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人