一种基于NLP文本多标签分类的政策匹配系统技术方案

技术编号:37573276 阅读:19 留言:0更新日期:2023-05-15 07:50
本发明专利技术提供了一种基于NLP文本多标签分类的政策匹配系统,包括数据采集模块、标签挖掘模块、文本分类模块、企业画像模块和政策推荐模块。本发明专利技术的优点在于:可以更加及时、快速的挖掘政策文本标签,政策文本可以更加快速的到达用户手中,文本分类器效果好。文本分类器效果好。文本分类器效果好。

【技术实现步骤摘要】
一种基于NLP文本多标签分类的政策匹配系统


[0001]本专利技术涉及信息获取系统
,尤其涉及一种基于NLP文本多标签分类的政策匹配系统。

技术介绍

[0002]原来,企业家需要通过政府的官方网站,新闻媒体等方式来获取最新的政策资讯。然而,这样很难保证企业家们能第一时间获取到信息。后来,有人基于TF

IDF,BM25等算法开发了政策资讯的检索系统。这一类算法是基于词频进行统计得到的相似度,召回率很低,很难保证所有相关的资讯全部找到,效果自然也不好。随后,出现了许多基于条件和标签的政策匹配方案。基于条件的匹配方案会有企业数据缺失,政策条件维度过多等等问题;基于标签的匹配方案会有标签更新不及时,政策标签和企业标签之间不匹配等等问题。
[0003]目前基于标签的政策企业匹配主流方案流程如下:
[0004]1、人工阅读政策,根据企业的需求制定相关的政策标签体系;
[0005]2、采用人工标注的形式,对政策文本进行标签标注;
[0006]3、采用文本分类算法训练一个文本分类器,新采集的政策用分类器标注标签;
[0007]4、将所有的政策和标签存入数据库中,建立标签检索系统,让用户自己检索感兴趣的标签。
[0008]这样的技术方案存在以下的问题:
[0009]1、政策标签体系完全是人工制定,很难保证更新的及时性;
[0010]2、政策文本的标签完全是人工标注,标注的成本非常高;
[0011]3、如果标签内容过多,用户很难根据标签进行政策检索。

技术实现思路

[0012]为了克服上述现有技术的不足,本专利技术提供一种可以更加及时、快速的挖掘政策文本标签,政策文本可以更加快速的到达用户手中,文本分类器效果好的基于NLP文本多标签分类的政策匹配系统。
[0013]为解决上述技术问题,本专利技术提供的技术方案为:一种基于NLP文本多标签分类的政策匹配系统,包括数据采集模块、标签挖掘模块、文本分类模块、企业画像模块和政策推荐模块;
[0014]其中,数据采集模块将从各地的政府资讯网站上采集海量的政策资讯文本,并且对文本进行基础的数据处理;
[0015]标签挖掘模块,对处理完成后的政策文本数据,使用TextRank算法抽取文本中的关键词语,然后,再人工对抽取出来的关键词进行清洗,整理出来用户关心的,可以用于推荐的关键词,再对这些关键词进行分组整理,整理出一套政策的标签体系,并且建立关键词和标签之间的映射关系,方便后续使用,对于以后新获取到的政策,提取文本中的关键词,方便新标签的挖掘;
[0016]文本分类模块,通过两种方式进行分类,一种是根据关键词和标签的映射关系而设计的分类器C1;另一种是基于BERT神经网络的文本分类器C2,使用C1分类器对政策文本进行预标注,然后再人工修正这个标签,这种方式可以快速的得到大量高精度的标注数据,文本分类器C2采用的是BERT+softmax的神经网络架构,采用macroF1的评价指标,对于以新挖掘到的标签,先使用C1分类器进行分类,等到达一定的量之后再进行人工标注,重新训练并更新C2分类器,使两个模块有机的结合;
[0017]企业画像模块,构建企业画像标签用于之后的政策推荐模块;
[0018]政策推荐模块,将政策文本标签和企业画像标签联合起来进行推荐。
[0019]进一步地,所述数据采集模块对文本进行基础的数据处理的步骤包括,
[0020]1)使用正则表达式去除和政策文本不相关的信息,包括HTML标签,JavaScript代码,导航栏的信息等等,然后再用simhash算法对文本进行去重,
[0021]2)使用智能文档处理技术,对网站中包含的压缩包文件进行解析,提取word文档,excel文档以及PDF文件中的文本信息,
[0022]3)使用phash(perceptualhashalgorithm)对图片进行去重,然后使用OCR技术提取网站图片中的文本,保留下来有用的文本信息。
[0023]进一步地,所述政策推荐模块,将政策文本标签和企业画像标签联合起来进行推荐的步骤包括,
[0024]1)首先用独热编码将政策文本标签转化为向量,再使faiss(FacebookAISimilarity Search)对所有的政策向量构建索引,记作I;
[0025]2)采用专家打分法,给每一个政策文本标签和企业画像标签之间判定相关性分数,并由此构建企业

政策标签转化的权重矩阵W;
[0026]3)对于每一个企业,用独热编码将标签转化为向量,然后用W矩阵对向量进行线性变换,得到最终的企业向量;
[0027]4)用企业向量在索引I中进行检索,获取相似度靠前的政策文本,作为推荐文本返回给用户。
[0028]本专利技术与现有技术相比的优点在于:
[0029]1、可以更加及时,快速的挖掘文本标签;
[0030]2、可以更加快捷地解析政策文本;
[0031]3、提高了文本分类器的效果。
附图说明
[0032]图1为本专利技术的系统架构图。
[0033]图2为本专利技术的数据采集模块的工作流程图。
[0034]图3为本专利技术的标签挖掘模块的工作流程图。
[0035]图4为本专利技术的文本分类模块的工作流程图。
[0036]图5为本专利技术的企业画像模块的工作流程图。
[0037]图6为本专利技术的政策推荐模块的工作流程图。
Search)对所有的政策向量构建索引,记作I;
[0051]采用专家打分法,给每一个政策文本标签和企业画像标签之间判定相关性分数,并由此构建企业

政策标签转化的权重矩阵W;
[0052]对于每一个企业,我们依然用独热编码将标签转化为向量,然后用W矩阵对向量进行线性变换,得到最终的企业向量;
[0053]用企业向量在索引I中进行检索,获取相似度靠前的政策文本,作为推荐文本返回给用户。
[0054]以上的五个模块组合在一起,构成了一个完整的多标签政策匹配方案。
[0055]本专利技术及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本专利技术的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本专利技术创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP文本多标签分类的政策匹配系统,其特征在于:包括数据采集模块、标签挖掘模块、文本分类模块、企业画像模块和政策推荐模块;其中,数据采集模块将从各地的政府资讯网站上采集海量的政策资讯文本,并且对文本进行基础的数据处理;标签挖掘模块,对处理完成后的政策文本数据,使用Text Rank算法抽取文本中的关键词语,然后,再人工对抽取出来的关键词进行清洗,整理出来用户关心的,可以用于推荐的关键词,再对这些关键词进行分组整理,整理出一套政策的标签体系,并且建立关键词和标签之间的映射关系,方便后续使用,对于以后新获取到的政策,提取文本中的关键词,方便新标签的挖掘;文本分类模块,通过两种方式进行分类,一种是根据关键词和标签的映射关系而设计的分类器C1;另一种是基于BERT神经网络的文本分类器C2,使用C1分类器对政策文本进行预标注,然后再人工修正这个标签,这种方式可以快速的得到大量高精度的标注数据,文本分类器C2采用的是BERT+softmax的神经网络架构,采用macro F1的评价指标,对于以新挖掘到的标签,先使用C1分类器进行分类,等到达一定的量之后再进行人工标注,重新训练并更新C2分类器,使两个模块有机的结合;企业画像模块,构建企业画像标签用于之后的政策推荐模块;政策推荐模块,将政策文本标签和企业画像标签联合起来进行推荐。2.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:徐立群李正郭海涛
申请(专利权)人:安徽智侒信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1