基于自然语言处理技术的金融情报语义分析方法和系统技术方案

技术编号:29308519 阅读:24 留言:0更新日期:2021-07-17 02:03
本发明专利技术公开了一种基于自然语言处理技术的金融情报语义分析方法和系统,本发明专利技术涉及自然语言处理技术领域。该基于自然语言处理技术的金融情报语义分析方法和系统,通过BERT+CRF模块中BERT模型参数固定住,训练CRF相关的模型参数,在获得比较好的效果之后,可以通过BERT模型和CRF模型联合让识别率较高,在通过添加模块将拆分摘要模块传来的关键词的前后添加【KW

Semantic analysis method and system of financial intelligence based on natural language processing technology

【技术实现步骤摘要】
基于自然语言处理技术的金融情报语义分析方法和系统


[0001]本专利技术涉及自然语言处理
,具体为一种基于自然语言处理技术的金融情报语义分析方法和系统。

技术介绍

[0002]当今社会,每天都会产生数以万计的公司金融舆情数据,人们很难在短时间内提取,消化这些情报。通过自然语言处理的相关技术,在短时间内自动地结构化这些金融舆情数据,以方便人们分析,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
[0003]目前金融情报语义分析过程中,主要是基于BiLSTM+CRF模型,BiLSTM的识别率偏低;而在标签分类方面,大多数的系统是没有对标签进行目标依赖的,并且标签数量一般在10

30个之间,但是没有依赖的标签分类无法将公司和标签对应起来;标签的数量过少可能无法满足业务上面的需求,为此,本领域的技术人员提出了一种基于自然语言处理技术的金融情报语义分析方法和系统。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于自然语言处理技术的金融情报语义分析方法和系统,解决了BiLSTM的识别率偏低、或者没有依赖的标签分类无法将公司和标签对应起来;标签的数量过少可能无法满足业务上面需求的问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于自然语言处理技术的金融情报语义分析方法,具体包括以下步骤:
[0008]S1、首先通过数据采集模块从网络上收集一批新闻数据,再使用去重模块将收集的新闻数据按照simhash的方式进行去重,保证去重后的数据在9000

10001的区间值之间,再通过拆分摘要模块将每一遍新闻中的句子单独拆分开,作为摘要句,并标出摘要句子中的公司名称字符所在的位置,同时将数据传入BIO标注模块和添加模块中;
[0009]S2、然后通过BIO标注模块将公司名称字符所在的位置转化为BIO标注,每个公司名开头的第一个字符标记为B,其他字符标记为I,句子中的其他字符标记为O,当BERT+CRF模块中BERT模型参数固定住,训练CRF相关的模型参数,在获得比较好的效果之后,再将BERT模型和CRF模型联合在一起进行微调,最终取得了F1 score较好的结果,F1 score是综合考虑了模型查准率和查全率的计算结果,F1

score越大自然说明模型质量更高并通过提取模块对数据中的公司名称(可能是全称,可能是简称,也可能是品牌名称)进行提取;
[0010]S3、其次再根据公司已有的数据库筛选模块,将提取出来的公司名称和公司的全称对应上,当已有的数据库筛选模块为筛选到与公司名称对应上的公司全称时,通过网络
筛选模块扩大筛选范围,直至从网络上提取出来公司名称和公司的全称对应上,再通过结果对应模块将公司的全称提取并传入拼接模块中,同时添加模块将拆分摘要模块传来的关键词的前后添加【KW

E】特殊字符,此时拼接模块将标签名称和摘要用【SEP】字符拼凑在一起,在经过网络连接模块中的BERT模型将输出的词向量输入到两层全连接的神经网络中,最终后面接195个sigmoid二分类任务,Sigmoid函数是一个在生物学中常见的S型函数,于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间,并通过对接模块将修正金融事件的标签和公司关联起来,最后通过数据收集模块统计一段时间内公司所有的标签,根据标签的权重大小,在计算风险模块上计算这家公司的营销风险指数。
[0011]一种基于自然语言处理技术的金融情报语义分析系统,包括数据预处理单元,所述数据预处理单元的第一输出端与实体识别单元的输入端连接,所述数据预处理单元的第二输出端与标签分类单元的第一输入端连接,所述实体识别单元的输出端与实体链接单元的输入端连接,所述实体链接单元的输出端与标签分类单元的第二输入端连接,所述标签分类单元的输出端与风险计算单元的输入端连接。
[0012]优选的,所述数据预处理单元包括数据采集模块、去重模块和拆分摘要模块,所述数据采集模块的输出端与去重模块的输入端连接,所述去重模块的输出端与拆分摘要模块的输入端连接。
[0013]优选的,所述实体识别单元包括BIO标注模块、BERT+CRF模块和提取模块,所述BIO标注模块的输出端与BERT+CRF模块的输入端连接,所述BERT+CRF模块的输出端与提取模块的输入端连接。
[0014]优选的,所述实体链接单元包括数据库筛选模块、网络筛选模块和结果对应模块,所述数据库筛选模块的第一输出端与网络筛选模块的输入端连接,所述数据库筛选模块的第二输出端与结果对应模块的第一输入端连接,所述网络筛选模块的输出端与结果对应模块的第二输入端连接。
[0015]优选的,所述标签分类单元包括添加模块、拼接模块、网络连接模块和对接模块,所述添加模块的输出端与拼接模块的第一输入端连接,所述拼接模块的输出端与网络连接模块的输入端连接,所述网络连接模块的输出端与对接模块的输入端连接。
[0016]优选的,所述风险计算单元包括数据收集模块和计算风险模块。
[0017]优选的,所述拆分摘要模块的输出端与添加模块的输入端连接。
[0018]优选的,所述结果对应模块的输出端与拼接模块的第二输入端连接。
[0019]优选的,所述数据收集模块的输出端与计算风险模块的输入端连接。
[0020](三)有益效果
[0021]本专利技术提供了一种基于自然语言处理技术的金融情报语义分析方法和系统。具备以下有益效果:
[0022](1)、该基于自然语言处理技术的金融情报语义分析方法和系统,通过BERT+CRF模块中BERT模型参数固定住,训练CRF相关的模型参数,在获得比较好的效果之后,再将BERT模型和CRF模型联合在一起进行微调,最终取得了F1 score较好的结果,并通过提取模块将数据中的公司名称,这样可以通过BERT模型和CRF模型联合让识别率较高,提高识别效果。
[0023](2)、该基于自然语言处理技术的金融情报语义分析方法和系统,通过添加模块将
拆分摘要模块传来的关键词的前后添加【KW

E】特殊字符,此时拼接模块将标签名称和摘要用【SEP】字符拼凑在一起,经过网络连接模块并通过对接模块将修正金融事件的标签和公司关联起来,这样可以添加特殊符号和标签分类,将金融事件的标签和公司快速地关联起来,提高系统效率。
[0024](3)、该基于自然语言处理技术的金融情报语义分析方法和系统,通过网络连接模块中的BERT模型将输出的词向量输入到两层全连接的神经网络中,最终后面接195个sigmoid二分类任务,这样可以通过195个sigmoid二分类任务,提高金融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理技术的金融情报语义分析方法,其特征在于:具体包括以下步骤:S1、首先通过数据采集模块(6)从网络上收集一批新闻数据,再使用去重模块(7)将收集的新闻数据按照simhash的方式进行去重,保证去重后的数据在9000

10001的区间值之间,再通过拆分摘要模块(8)将每一遍新闻中的句子单独拆分开,作为摘要句,并标出摘要句子中的公司名称字符所在的位置,同时将数据传入BIO标注模块(9)和添加模块(14)中;S2、然后通过BIO标注模块(9)将公司名称字符所在的位置转化为BIO标注,每个公司名开头的第一个字符标记为B,其他字符标记为I,句子中的其他字符标记为O,当BERT+CRF模块(10)中BERT模型参数固定住,训练CRF相关的模型参数,在获得比较好的效果之后,再将BERT模型和CRF模型联合在一起进行微调,最终取得了F1 score较好的结果,并通过提取模块(11)对数据中的公司名称进行提取;S3、其次再根据公司已有的数据库筛选模块(12),将提取出来的公司名称和公司的全称对应上,当已有的数据库筛选模块(12)为筛选到与公司名称对应上的公司全称时,通过网络筛选模块(13)扩大筛选范围,直至从网络上提取出来公司名称和公司的全称对应上,再通过结果对应模块(20)将公司的全称提取并传入拼接模块(15)中,同时添加模块(14)将拆分摘要模块(8)传来的关键词的前后添加【KW

E】特殊字符,此时拼接模块(15)将标签名称和摘要用【SEP】字符拼凑在一起,经过网络连接模块(16)中的BERT模型将输出的词向量输入到两层全连接的神经网络中,最终后面接195个sigmoid二分类任务,并通过对接模块(17)将修正金融事件的标签和公司关联起来,最后通过数据收集模块(18)统计一段时间内公司所有的标签,根据标签的权重大小,在计算风险模块(19)上计算这家公司的营销风险指数。2.根据权利要求1所述的基于自然语言处理技术的金融情报语义分析系统,包括数据预处理单元(1),其特征在于:所述数据预处理单元(1)的第一输出端与实体识别单元(2)的输入端连接,所述数据预处理单元(1)的第二输出端与标签分类单元(3)的第一输入端连接,所述实体识别单元(2)的输出端与实体链接单元(4)的输入端连接,所述实体链接单元(4)的输出端与标签分类单元(3)的第二输入端连接,所述标签分...

【专利技术属性】
技术研发人员:方正平
申请(专利权)人:安徽智侒信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1