一种基于bert的政府公共数据智能入库方法及系统技术方案

技术编号:37194795 阅读:28 留言:0更新日期:2023-04-20 22:54
本申请涉及一种基于bert的政府公共数据智能入库方法及系统,其方法包括:基于爬虫获取政府公共数据的文章标题;基于预设的一类规则表组对所述文章标题进行初步分类,获取第一已分类标题和未分类标题;基于预设的bert预训练模型和所述第一已分类标题获取分类模型,基于所述分类模型对所述未分类标题进行二次分类,得到第二已分类标题;基于所述第一已分类标题和所述第二已分类标题确定已分类公共数据;基于预设的二类规则表组对所述已分类公共数据进行信息标准化处理,存储进数据库。本申请具有便于对政府公共数据进行智能入库,提高数据分类的效率和准确性的效果。数据分类的效率和准确性的效果。数据分类的效率和准确性的效果。

【技术实现步骤摘要】
一种基于bert的政府公共数据智能入库方法及系统


[0001]本申请涉及数据处理的
,尤其是涉及一种基于bert的政府公共数据智能入库方法及系统。

技术介绍

[0002]各地各级政府都有对应门户或者官方网站,定时发布政策类、通知类、公示类、新闻热点类、公告类等数据,从而方便用户在信息时代对政府信息的有效获取。
[0003]由于全国各地各类网站数量众多,政府公共数据的数据量也比较大。为了方便查询或者检索目标政府信息,需要将政府信息和关联类数据进行汇总整理和分类。
[0004]现有的方法是通过在获取政府公共数据后,人工核验政府公共数据,将公共数据按照类别存储进数据库中。但是人工操作效率较低,且容易出现纰漏,导致数据分类的高效性和准确性欠缺。

技术实现思路

[0005]为了便于对政府公共数据进行智能入库,提高数据分类的效率和准确性,本申请提供一种基于bert的政府公共数据智能入库方法及系统。
[0006]第一方面,本申请提供一种基于bert的政府公共数据智能入库方法,采用如下的技术方案:一种基于bert的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于bert的政府公共数据智能入库方法,其特征在于,包括:基于爬虫获取政府公共数据的文章标题;基于预设的一类规则表组对所述文章标题进行初步分类,获取第一已分类标题和未分类标题;基于预设的bert预训练模型和所述第一已分类标题获取分类模型,基于所述分类模型对所述未分类标题进行二次分类,得到第二已分类标题;基于所述第一已分类标题和所述第二已分类标题确定已分类公共数据;基于预设的二类规则表组对所述已分类公共数据进行信息标准化处理,存储进数据库。2.根据权利要求1所述的一种基于bert的政府公共数据智能入库方法,其特征在于,所述一类规则表组包括通知类规则表、政策类规则表、公示类规则表和负样本规则表,所述基于预设的一类规则表组对所述文章标题进行初步分类,获取第一已分类标题和未分类标题包括:基于所述通知类规则表、所述政策类规则表和所述公示类规则表从所述文章标题内匹配通知类标题、政策类标题和公示类标题,将所述通知类标题、所述政策类标题和所述公示类标题作为第一已分类标题;基于所述负样本规则表从所述文章标题内获取负样本标题;获取所述文章标题内除所述第一已分类标题和所述负样本标题之外的标题作为未分类标题。3.根据权利要求2所述的一种基于bert的政府公共数据智能入库方法,其特征在于,所述分类模型包括第一模型和第二模型,所述基于预设的bert预训练模型和所述第一已分类标题获取分类模型,基于所述分类模型对所述未分类标题进行二次分类,得到第二已分类标题包括:基于所述第一已分类标题和所述负样本标题对预设的bert预训练模型进行训练,得到所述第一模型和所述第二模型;基于所述第一模型对所述待核验数据进行有效性分类,得到有效标题;基于所述第二模型对所述有效标题进行二次分类,得到第二已分类标题。4.根据权利要求3所述的一种基于bert的政府公共数据智能入库方法,其特征在于,所述基于所述第一已分类标题对预设的bert预训练模型进行训练,得到第一模型包括:基于所述第一已分类标题获取正样本训练数据;基于所述负样本标题获取负样本训练数据;基于所述正样本训练数据和所述负样本训练数据对预设的bert预训练模型进行第一训练,得到第一模型。5.根据权利要求3所述的一种基于bert的政府公共数据智能入库方法,其特征在于,所述基于所述第一已分类标题对预设的bert预训练模型进行训练,得到第二模型包括:基于所述第一已分类标题获取通知类训练数据、政策类训练数据以及公示类训练数据;基于所述通知类训练数据、所述政策类训练数据以及...

【专利技术属性】
技术研发人员:李哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1