一种融合正则表达式的金融文本关系抽取与分类方法技术

技术编号：31094201 阅读：37 留言：0更新日期：2021-12-01 13:02

本发明专利技术公开了一种融合正则表达式的金融文本关系抽取与分类方法。该方法对金融文本编码后识别出文本中包含的关系实体对并进行标记；将金融文本依次和各项正则表达式进行匹配，将匹配结果转换为正则表达式标签，最后将该标签与标记结果融合，通过深度神经网络对实体对之间包含的关系进行抽取与分类。本发明专利技术实现了融合了正则表达式信息的金融文本端到端关系抽取与分类，逻辑结构清晰，层次分明，无需人工标注，节约了人力成本，提升了工作效率，准确率高，实用性强。实用性强。实用性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合正则表达式的金融文本关系抽取与分类方法

[0001]本专利技术属于自然语言处理与金融的交叉领域，特别涉及一种融合正则表达式的金融文本关系抽取与分类方法。

技术介绍

[0002]自然语言处理等技术的创新与发展，极大的提高了金融行业的科技生产力。从金融新闻和公告等文本中自动抽取重大金融事件关系并进行分类，能有效节省从业人员的人力成本，显著提高工作效率。
[0003]目前已知金融领域的文本关系抽取与分类技术，存在下列不足：1）现有金融文本的关系抽取方法需要事先对金融文本进行人工标注，再进行关系分类，而实际场景中原始金融文本都是无标注的，使得这些方法在实际中的应用受到很大限制；2）现有基于深度神经网络进行金融领域关系抽取的方法不能有效利用符合人类逻辑的规则信息，无法捕获到金融文本中的一些重要特征，影响了关系抽取的准确性。

技术实现思路

[0004]针对现有技术不足，本专利技术提出一种融合正则表达式的金融文本关系抽取与分类方法。本专利技术方法依靠有逻辑的先验知识，融合正则表达式信息，提升了金融文本关系分

【技术保护点】

【技术特征摘要】
1.一种融合正则表达式的金融文本关系抽取与分类方法，其特征在于，包括以下步骤：（1）将金融文本库中的金融文本进行编码，将金融文本中的每个词都转换为词向量，通过深度神经网络对各个词向量进行标注，识别出金融文本中包含的关系实体对，对该关系实体对进行标记，得到标注结果；（2）将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配，将匹配结果转换为该金融文本的正则表达式标签，将步骤（1）得到的对标注结果输入双向长短期记忆网络，所述双向长短期记忆网络输出特征；（3）将步骤（2）得到的正则表达式标签与双向长短期记忆网络的输出特征进行拼接，通过深度神经网络完成金融文本关系分类，并通过查询关系类型索引C对应的关系类型，得到最终的金融文本关系抽取结果。2.如权利要求1所述的一种融合正则表达式的金融文本关系抽取与分类方法，其特征在于，所述步骤（1）具体过程如下：（1.1）从金融文本库中取出一个金融文本，将其进行分词，得到以词为单位进行表示的金融文本S：其中，s代表金融文本分好的词，n为总词数；（1.2）使用Embedding映射方法将分好词的金融文本S映射为高维词向量集合E：所述高维词向量集合，其中代表金融文本中各词s对应的词向量；（1.3）将词向量集合通过由BERT、全连接神经网络FC1、条件随机场CRF组成的深度神经网络得到实体对标注结果L：。3.如权利要求2所述一种融合正则表达式的金融文本关系抽取与分类方法，其特征在于，步骤（2）具体过程如下：（2.1）将金融文本S与正则表达式库中的正则表达式依次匹...

【专利技术属性】
技术研发人员：王海涛，刘昭然，许浩，周丹，焦旭，马雪环，王天放，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人