一种提升金融风险防控领域舆情实体识别率的方法技术

技术编号:25709550 阅读:21 留言:0更新日期:2020-09-23 02:56
本发明专利技术涉及互联网技术领域,具体是一种提升金融风险防控领域舆情实体识别率的方法,包括以下步骤:S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等。本发明专利技术的有益效果为利用基于深度学习的方法,通过分别训练基于NLP预训练模型的通用领域NER模型和基于NLP预训练模型的专用领域NER模型,再将二者抽取结果进行融合,从而提高金融领域舆情实体识别的抽取率。

【技术实现步骤摘要】
一种提升金融风险防控领域舆情实体识别率的方法
本专利技术涉及互联网
,具体是一种提升金融风险防控领域舆情实体识别率的方法。
技术介绍
在金融风险防控领域,需要对网络舆情进行有效监测。一是需要监控位列监控名单的企业及产品,二是需要及时发现新的金融实体;通常情况下,都是利用自然语言处理技术中的命名实体识别技术,抽取舆情中属于“机构”标签的实体作为该舆情的实体。中国专利号201610037682.2提供一种舆情事件实体的分析方法及装置,涉及互联网
,目的在于解决舆情监控系统不能准确分析出该舆情事件所涉及的人物和机构,导致用户不能通过舆情监控系统准确定位舆情事件产生的源头,从而导致不能及时确定解决该舆情事件的最佳引导方式的问题。本专利技术的技术方案包括:获取信息集合,并对信息集合进行分词;提取分词后的信息集合中的人物实体及机构实体;分别统计共同提及次数、人物实体提及次数以及机构实体提及次数;根据共同提及次数确定人物实体与机构实体之间的关联关系;根据人物实体提及次数和/或机构实体提及次数、人物实体与机构实体之间的关联关系确定舆情事件实本文档来自技高网...

【技术保护点】
1.一种提升金融风险防控领域舆情实体识别率的方法,其特征在于,包括以下步骤:/nS1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;/nS2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;/nS3.选取深度学习NLP预训练模型,诸如bert预训练模型等;/nS4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等;/nS5.构建训练NER任务的整体模型,利用S1中收集到的通用语料训练该整体模型,得到通用类实体提取模型,利用S2中收集到的金融领域专用语料,训练该整体模型,得到金融...

【技术特征摘要】
1.一种提升金融风险防控领域舆情实体识别率的方法,其特征在于,包括以下步骤:
S1.收集通用领域语料,诸如百度百科,维基百科,人民日报等,对语料中的通用实体进行BIO标签标注;
S2.收集金融领域语料,只对语料中的金融简称、金融新实体等专用实体进行BIO标签标注,不对通用实体进行BIO标注;
S3.选取深度学习NLP预训练模型,诸如bert预训练模型等;
S4.挑选适合NER任务的下游模型,诸如bilstm_crf模型等;
S5.构建训练NER任务的整体模型,利用S1中收集到的通用语料训练该整体模型,得到通用类实体提取模型,利用S2中收集到的金融领域专用语料,训练该整体模型,得到金融领域专用类实体提取模型;
S6.对于需要抽取实体的舆情,分别利用S5中训练得到的两个模型,独立进行抽取,通用实体提取模型负责提取诸如实体全称、常见实体等通用类实体,金融领域新实体提取模型负责提取实体简称、新实体等专业类实体,融合两个模型得到的实体抽取结果,即得到该舆情的实体抽取结果。


2.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于:所述S1中BIO标签为针对训练语料,将语料中的NER实体,通过BIO的方式进行标注的一种标注方式,其中PER表示人名,LOC表示地点,ORG表示机构,其余的词语为O。


3.根据权利要求1所述的一种提升金融风险防控领域舆情实体识别率的方法,其特征在于...

【专利技术属性】
技术研发人员:郑杰文
申请(专利权)人:广州商品清算中心股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1