一种政策数据智能入库方法技术

技术编号:30316879 阅读:10 留言:0更新日期:2021-10-09 23:15
本发明专利技术实施例涉及数据处理技术领域,公开了一种政策数据智能入库方法,该方法包括:获取原始政策数据;对原始政策数据进行有效性分类,得到每一原始政策数据的有效性类型及有效概率值,以进行分流,得到若干政策分组,对原始政策数据进行数据规范化处理,得到最终政策数据并入库。相比传统采用人工进行收录入库的方式,本发明专利技术实施例通过深度学习实现了政策数据在收录、分类、规范化处理等流程中的智能化,大幅减少了政策数据入库的人力成本,且逻辑回归分类模型可在线学习针对新型政策数据分类的业务逻辑,从而对政策数据的分类将越来越精准,避免了人工操作时存在的错漏,提高了准确率。率。率。

【技术实现步骤摘要】
一种政策数据智能入库方法


[0001]本专利技术涉及数据处理
,尤其涉及一种政策数据智能入库方法。

技术介绍

[0002]为了提高行政效率与透明度,配合简政放权的施政理念,满足用户在信息时代对政策信息的即时获取需求,各地政府及机关单位均将大量政策信息上传至电子政务平台。然而,各地政府所发布的政策信息在数据格式上并不统一,且部分政策信息存在不规范现象,这使得政策信息的检索与入库无法直接进行。对此,现有的方法是针对性地培训收录人员进行政策信息的规范处理与筛选入库,而随着政策数据的数据量日益增大,收录人员的需求量也越来越多,造成人力成本上涨;此外,人工操作始终存在错误、遗漏等情况,难以保证准确率。

技术实现思路

[0003]本专利技术实施例公开一种政策数据智能入库方法,通过深度学习实现了政策数据在收录、分类、规范化处理等流程中的智能化,大幅减少了政策数据入库的人力成本,且逻辑回归分类模型可在线学习针对新型政策数据分类的业务逻辑,从而对政策数据的分类将越来越精准,避免了人工操作时存在的错漏,提高了准确率。
[0004]本专利技术实施例公开一种政策数据智能入库方法,所述方法包括:
[0005]获取原始政策数据;
[0006]对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值;
[0007]基于所述有效性类型及所述有效概率值分流所述原始政策数据,得到若干政策分组;其中,每一所述政策分组中包含若干原始政策数据;
[0008]对所述原始政策数据进行数据规范化处理,得到最终政策数据;
[0009]对所述最终政策数据进行入库。
[0010]作为一种可选的实施方式,在本专利技术实施例中,所述获取原始政策数据,包括:
[0011]对应于行政区划信息及机构信息设置政策数据来源目录;
[0012]基于分布式消息队列以及流式处理框架,针对政策数据来源目录获取批量政策数据;
[0013]对所述批量政策数据进行预处理,得到所述原始政策数据。
[0014]作为一种可选的实施方式,在本专利技术实施例中,所述对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值,包括:
[0015]基于预设有效性指标建立损失函数;
[0016]基于所述损失函数采用逻辑回归分类模型对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值;
[0017]其中,所述有效性类型包括有效、待定及无效,且有效性类型为无效的原始政策数
据不具备有效概率值。
[0018]作为一种可选的实施方式,在本专利技术实施例中,所述基于所述有效性类型及所述有效概率值分流所述原始政策数据,得到若干政策分组,包括:
[0019]设定第一有效阈值及第二有效阈值;
[0020]将有效性类型为有效,或有效概率值不低于所述第一有效阈值的原始政策数据分流至政策数据有效库;
[0021]对有效性类型为无效,或者有效概率值低于所述第二有效阈值的原始政策数据进行筛除;
[0022]将有效性类型为待定,或有效概率值低于所述第一有效阈值且不低于所述第二有效阈值的原始政策数据分流至政策数据有效中介库。
[0023]作为一种可选的实施方式,在本专利技术实施例中,在所述将有效性类型为待定,或有效概率值低于所述第一有效阈值且不低于所述第二有效阈值的原始政策数据分流至政策数据有效中介库之后,所述方法还包括:
[0024]基于专家经验对所述政策数据有效中介库中的原始政策数据进行分类,得到有效性类型为有效/无效的再分类原始政策数据;
[0025]将有效性类型为有效的所述再分类原始政策数据分流至所述政策数据有效库,以及,将有效性类型为无效的所述再分类原始政策数据进行筛除;
[0026]分析所述再分类原始政策数据的数据特征;
[0027]基于所述数据特征更新所述损失函数。
[0028]作为一种可选的实施方式,在本专利技术实施例中,所述对所述原始政策数据进行数据规范化处理,得到最终政策数据,包括:
[0029]基于行政区划词库建立高斯混合模型,对所述原始政策数据进行区划修正,得到第一中间数据;
[0030]以及,基于专家规则构造正则表达式,对所述第一中间数据进行文字格式规范化,得到第二中间数据;
[0031]基于公文类型词库,采用中文分词算法对所述第二中间数据进行政策文本分类,得到所述最终政策数据。
[0032]作为一种可选的实施方式,在本专利技术实施例中,在所述对所述原始政策数据进行数据规范化处理,得到最终政策数据之后,以及,在所述对所述最终政策数据进行入库之前,所述方法还包括:
[0033]设置规范校验模型,对所述最终政策数据进行规范性校验;
[0034]将通过规范性校验的最终政策数据设为规范政策数据,并将所述规范政策数据入库至政策规范数据库;
[0035]将未通过规范性校验的最终政策数据设为非标政策数据;
[0036]采用预设规范化规则将所述非标政策数据调整为所述规范政策数据,并执行所述将所述规范政策数据入库至政策规范数据库的步骤。
[0037]与现有技术相比,本专利技术实施例具有以下有益效果:
[0038]本专利技术实施例中,通过深度学习实现了政策数据在收录、分类、规范化处理等流程中的智能化,大幅减少了政策数据入库的人力成本,且逻辑回归分类模型可在线学习针对
新型政策数据分类的业务逻辑,从而对政策数据的分类将越来越精准,避免了人工操作时存在的错漏,提高了准确率。
附图说明
[0039]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本专利技术实施例公开的一种政策数据智能入库方法的流程示意图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]需要说明的是,本专利技术的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本专利技术实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0043]本专利技术实施例公开了一种政策数据智能入库方法,通过深度学习实现了政策数据在收录、分类、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政策数据智能入库方法,其特征在于,所述方法包括:获取原始政策数据;对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值;基于所述有效性类型及所述有效概率值分流所述原始政策数据,得到若干政策分组;其中,每一所述政策分组中包含若干原始政策数据;对所述原始政策数据进行数据规范化处理,得到最终政策数据;对所述最终政策数据进行入库。2.根据权利要求1所述的方法,其特征在于,所述获取原始政策数据,包括:对应于行政区划信息及机构信息设置政策数据来源目录;基于分布式消息队列以及流式处理框架,针对政策数据来源目录获取批量政策数据;对所述批量政策数据进行预处理,得到所述原始政策数据。3.根据权利要求1所述的方法,其特征在于,所述对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值,包括:基于预设有效性指标建立损失函数;基于所述损失函数采用逻辑回归分类模型对所述原始政策数据进行有效性分类,得到每一所述原始政策数据的有效性类型及有效概率值;其中,所述有效性类型包括有效、待定及无效,且有效性类型为无效的原始政策数据不具备有效概率值。4.根据权利要求3所述的方法,其特征在于,所述基于所述有效性类型及所述有效概率值分流所述原始政策数据,得到若干政策分组,包括:设定第一有效阈值及第二有效阈值;将有效性类型为有效,或有效概率值不低于所述第一有效阈值的原始政策数据分流至政策数据有效库;将有效性类型为无效,或者有效概率值低于所述第二有效阈值的原始政策数据进行筛除;将有效性类型为待定,或有效概率值低于所述第一有效阈值且不低于所述第二有效阈值的原始...

【专利技术属性】
技术研发人员:黄裕福洪基伟谢健伟
申请(专利权)人:广州政企互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1