一种基于NLP文本多标签分类的政策匹配系统技术方案

技术编号：37573276 阅读：19 留言：0更新日期：2023-05-15 07:50

本发明专利技术提供了一种基于NLP文本多标签分类的政策匹配系统，包括数据采集模块、标签挖掘模块、文本分类模块、企业画像模块和政策推荐模块。本发明专利技术的优点在于：可以更加及时、快速的挖掘政策文本标签，政策文本可以更加快速的到达用户手中，文本分类器效果好。文本分类器效果好。文本分类器效果好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP文本多标签分类的政策匹配系统

[0001]本专利技术涉及信息获取系统
，尤其涉及一种基于NLP文本多标签分类的政策匹配系统。

技术介绍

[0002]原来,企业家需要通过政府的官方网站,新闻媒体等方式来获取最新的政策资讯。然而,这样很难保证企业家们能第一时间获取到信息。后来,有人基于TF
‑
IDF,BM25等算法开发了政策资讯的检索系统。这一类算法是基于词频进行统计得到的相似度,召回率很低,很难保证所有相关的资讯全部找到,效果自然也不好。随后,出现了许多基于条件和标签的政策匹配方案。基于条件的匹配方案会有企业数据缺失,政策条件维度过多等等问题；基于标签的匹配方案会有标签更新不及时,政策标签和企业标签之间不匹配等等问题。
[0003]目前基于标签的政策企业匹配主流方案流程如下：
[0004]1、人工阅读政策,根据企业的需求制定相关的政策标签体系；
[0005]2、采用人工标注的形式,对政策文本进行标签标注；
[0006]3、采用文本分类算法训练一个文本分类器,新采集的政策用分类器标注标签；
[0007]4、将所有的政策和标签存入数据库中,建立标签检索系统,让用户自己检索感兴趣的标签。
[0008]这样的技术方案存在以下的问题：
[0009]1、政策标签体系完全是人工制定,很难保证更新的及时性；
[0010]2、政策文本的标签完全是人工标注,标注的成本非常高；
[0011]3、如果标签内容过多,用户很难根据标签进行...

【技术保护点】

【技术特征摘要】
1.一种基于NLP文本多标签分类的政策匹配系统，其特征在于：包括数据采集模块、标签挖掘模块、文本分类模块、企业画像模块和政策推荐模块；其中，数据采集模块将从各地的政府资讯网站上采集海量的政策资讯文本,并且对文本进行基础的数据处理；标签挖掘模块，对处理完成后的政策文本数据,使用Text Rank算法抽取文本中的关键词语，然后,再人工对抽取出来的关键词进行清洗,整理出来用户关心的,可以用于推荐的关键词，再对这些关键词进行分组整理,整理出一套政策的标签体系,并且建立关键词和标签之间的映射关系,方便后续使用，对于以后新获取到的政策,提取文本中的关键词,方便新标签的挖掘；文本分类模块，通过两种方式进行分类，一种是根据关键词和标签的映射关系而设计的分类器C1；另一种是基于BERT神经网络的文本分类器C2，使用C1分类器对政策文本进行预标注,然后再人工修正这个标签，这种方式可以快速的得到大量高精度的标注数据，文本分类器C2采用的是BERT+softmax的神经网络架构,采用macro F1的评价指标，对于以新挖掘到的标签,先使用C1分类器进行分类,等到达一定的量之后再进行人工标注,重新训练并更新C2分类器，使两个模块有机的结合；企业画像模块，构建企业画像标签用于之后的政策推荐模块；政策推荐模块，将政策文本标签和企业画像标签联合起来进行推荐。2.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员：徐立群，李正，郭海涛，
申请(专利权)人：安徽智侒信信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人