【技术实现步骤摘要】
基于自然语言处理技术的金融情报语义分析方法和系统
[0001]本专利技术涉及自然语言处理
,具体为一种基于自然语言处理技术的金融情报语义分析方法和系统。
技术介绍
[0002]当今社会,每天都会产生数以万计的公司金融舆情数据,人们很难在短时间内提取,消化这些情报。通过自然语言处理的相关技术,在短时间内自动地结构化这些金融舆情数据,以方便人们分析,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
[0003]目前金融情报语义分析过程中,主要是基于BiLSTM+CRF模型,BiLSTM的识别率偏低;而在标签分类方面,大多数的系统是没有对标签进行目标依赖的,并且标签数量一般在10
‑
30个之间,但是没有依赖的标签分类无法将公司和标签对应起来;标签的数量过少可能无法满足业务上面的需求,为此,本领域的技术人员提出了一种基于自然语言处理技术的金融情报语义分析方法和系统。< ...
【技术保护点】
【技术特征摘要】
1.基于自然语言处理技术的金融情报语义分析方法,其特征在于:具体包括以下步骤:S1、首先通过数据采集模块(6)从网络上收集一批新闻数据,再使用去重模块(7)将收集的新闻数据按照simhash的方式进行去重,保证去重后的数据在9000
‑
10001的区间值之间,再通过拆分摘要模块(8)将每一遍新闻中的句子单独拆分开,作为摘要句,并标出摘要句子中的公司名称字符所在的位置,同时将数据传入BIO标注模块(9)和添加模块(14)中;S2、然后通过BIO标注模块(9)将公司名称字符所在的位置转化为BIO标注,每个公司名开头的第一个字符标记为B,其他字符标记为I,句子中的其他字符标记为O,当BERT+CRF模块(10)中BERT模型参数固定住,训练CRF相关的模型参数,在获得比较好的效果之后,再将BERT模型和CRF模型联合在一起进行微调,最终取得了F1 score较好的结果,并通过提取模块(11)对数据中的公司名称进行提取;S3、其次再根据公司已有的数据库筛选模块(12),将提取出来的公司名称和公司的全称对应上,当已有的数据库筛选模块(12)为筛选到与公司名称对应上的公司全称时,通过网络筛选模块(13)扩大筛选范围,直至从网络上提取出来公司名称和公司的全称对应上,再通过结果对应模块(20)将公司的全称提取并传入拼接模块(15)中,同时添加模块(14)将拆分摘要模块(8)传来的关键词的前后添加【KW
‑
E】特殊字符,此时拼接模块(15)将标签名称和摘要用【SEP】字符拼凑在一起,经过网络连接模块(16)中的BERT模型将输出的词向量输入到两层全连接的神经网络中,最终后面接195个sigmoid二分类任务,并通过对接模块(17)将修正金融事件的标签和公司关联起来,最后通过数据收集模块(18)统计一段时间内公司所有的标签,根据标签的权重大小,在计算风险模块(19)上计算这家公司的营销风险指数。2.根据权利要求1所述的基于自然语言处理技术的金融情报语义分析系统,包括数据预处理单元(1),其特征在于:所述数据预处理单元(1)的第一输出端与实体识别单元(2)的输入端连接,所述数据预处理单元(1)的第二输出端与标签分类单元(3)的第一输入端连接,所述实体识别单元(2)的输出端与实体链接单元(4)的输入端连接,所述实体链接单元(4)的输出端与标签分类单元(3)的第二输入端连接,所述标签分...
【专利技术属性】
技术研发人员:方正平,
申请(专利权)人:安徽智侒信信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。