政策信息的处理方法、装置、及存储介质、电子装置制造方法及图纸

技术编号:22186072 阅读:17 留言:0更新日期:2019-09-25 03:37
本发明专利技术提供了一种政策信息的处理方法、装置、及存储介质、电子装置,其中,该方法包括:获取在多个数据来源中爬取到的政策信息;对政策信息进行预处理,得到目标文档,其中,目标文档中包括政策信息中的文字信息;提取目标文档中的关键词;将提取出的关键词输入第一模型,得到与政策信息匹配的主题分类标签,其中,第一模型为预先利用多个训练样本对进行训练得到的深度学习模型,每个训练样本对包括用于作为深度学习模型的输入数据的多个关键词、以及用于作为深度学习模型的输出数据的训练目标的至少一个主题分类标签;将政策信息与匹配的主题分类标签关联并存储至检索数据库。通过本发明专利技术,解决了现有技术中的政策信息分布分散、检索困难的问题。

Processing methods, devices, storage media and electronic devices of policy information

【技术实现步骤摘要】
政策信息的处理方法、装置、及存储介质、电子装置
本专利技术涉及数据检索领域,具体而言,涉及一种政策信息的处理方法、装置、及存储介质、电子装置。
技术介绍
目前政府的政策信息主要分布在不同政府的网站,网络是发布、查看、获取政府信息的最主要途径和手段。但是,由于各种政策的类型不同、发布时间不同、管理部门不同,导致政策信息非常分散,如果有需要的企业和个人需要了解需求的政策非常困难,需要花费大量的时间和精力在各个政府的网站上寻找,无法快速的找到需要的信息。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种政策信息的处理方法、装置、及存储介质、电子装置,以至少解决现有技术中的政策信息分布分散、检索困难的问题。根据本专利技术的一个实施例,提供了一种政策信息的处理方法,包括:获取在多个数据来源中爬取到的政策信息;对政策信息进行预处理,得到目标文档,其中,目标文档中包括政策信息中的文字信息;提取目标文档中的关键词;将提取出的关键词输入第一模型,得到与政策信息匹配的主题分类标签,其中,第一模型为预先利用多个训练样本对进行训练得到的深度学习模型,每个训练样本对包括用于作为深度学习模型的输入数据的多个关键词、以及用于作为深度学习模型的输出数据的训练目标的至少一个主题分类标签;将政策信息与匹配的主题分类标签关联并存储至检索数据库。进一步地,获取在多个数据来源中爬取到的政策信息,包括:从云服务器中下载预先配置的目标应用容器;执行目标应用容器中针对多个数据来源的爬取操作;提取爬取到的网址中的政策信息。进一步地,提取目标文档中的关键词,包括:基于词频-逆向文件频率模型抽取目标文档中的关键词;利用预设的词向量对应关系,确定每个关键词的词嵌入向量。进一步地,在将提取出的关键词输入第一模型,得到与政策信息匹配的主题分类标签之前,该方法还包括:获取用于作为初始模型的全连接神经网络分类模型;获取多个训练样本对;利用多个训练样本对训练全连接神经网络分类模型,得到第一模型。进一步地,获取多个训练样本对,包括:获取多个政策文档;对每个政策文档进行预处理,得到对应于每个政策文档的词汇袋,其中,每个词汇袋中包括对应的政策文档中的词汇;将多个词汇袋输入文档主题生成模型,得到多个主题,以及每个主题对应的多个主题分类标签,其中,每个训练样本对包括用于作为输入的词汇袋和用于作为输出的训练目标的、与词汇袋对应的多个主题分类标签。进一步地,在将政策信息与匹配的主题分类标签关联并存储至检索数据库之后,该方法还包括:获取待查询的主题分类标签;在检索数据库中确定待查询的主题分类标签对应的多个政策信息;在每个政策信息中提取指定属性的内容,其中,指定属性为待对比的属性;以预设显示方式,对比的显示多个政策信息的指定属性的内容。进一步地,将政策信息与匹配的主题分类标签关联并存储至检索数据库,包括:在政策信息中提取立项时间;基于立项时间将政策信息插入主题分类标签对应的政策信息链表中,其中,政策信息链表中用于以立项时间的顺序存储对应的主题分类标签的政策信息;在检索数据库中确定待查询的主题分类标签对应的多个政策信息,包括:查找主题类型标签对应的链表的表头地址;以预设显示方式,对比的显示多个政策信息的指定属性的内容,包括:展示预设地图模板;从链表的表头地址起始,重复执行以下步骤直至预设地图模板上标示出链表中的每个政策信息:获取链表中当前轮询到的政策信息,在对应的政策信息中提取立项城市,并以预设标识标示在预设地图模板中立项城市对应的位置。根据本专利技术的另一个实施例,提供了一种政策信息的处理装置,包括:该装置包括:第一获取模块,用于获取在多个数据来源中爬取到的政策信息;预处理模块,用于对政策信息进行预处理,得到目标文档,其中,目标文档中包括政策信息中的文字信息;提取模块,用于提取目标文档中的关键词;输入模块,用于将提取出的关键词输入第一模型,得到与政策信息匹配的主题分类标签,其中,第一模型为预先利用多个训练样本对进行训练得到的深度学习模型,每个训练样本对包括用于作为深度学习模型的输入数据的多个关键词、以及用于作为深度学习模型的输出数据的训练目标的至少一个主题分类标签;存储模块,用于将政策信息与匹配的主题分类标签关联并存储至检索数据库。进一步地,第一获取模块包括:下载单元,用于从云服务器中下载预先配置的目标应用容器;执行单元,用于执行目标应用容器中针对多个数据来源的爬取操作;提取单元,用于提取爬取到的网址中的政策信息。进一步地,提取模块包括:抽取单元,用于基于词频-逆向文件频率模型抽取目标文档中的关键词;确定单元,用于利用预设的词向量对应关系,确定每个关键词的词嵌入向量。进一步地,该装置还包括:第二获取模块,用于在将提取出的关键词输入第一模型,得到与政策信息匹配的主题分类标签之前,获取用于作为初始模型的全连接神经网络分类模型;第三获取模块,用于获取多个训练样本对;训练模块,用于利用多个训练样本对训练全连接神经网络分类模型,得到第一模型。进一步地,第三获取模块包括:第一获取单元,用于获取多个政策文档;预处理单元,用于对每个政策文档进行预处理,得到对应于每个政策文档的词汇袋,其中,每个词汇袋中包括对应的政策文档中的词汇;输入单元,用于将多个词汇袋输入文档主题生成模型,得到多个主题,以及每个主题对应的多个主题分类标签,其中,每个训练样本对包括用于作为输入的词汇袋和用于作为输出的训练目标的、与词汇袋对应的多个主题分类标签。进一步地,该装置还包括:第四获取模块,用于在将政策信息与匹配的主题分类标签关联并存储至检索数据库之后,获取待查询的主题分类标签;确定模块,用于在检索数据库中确定待查询的主题分类标签对应的多个政策信息;第五获取模块,用于在每个政策信息中提取指定属性的内容,其中,指定属性为待对比的属性;显示模块,用于以预设显示方式,对比的显示多个政策信息的指定属性的内容。进一步地,存储模块包括:第二获取单元,用于在政策信息中提取立项时间;插入单元,用于基于立项时间将政策信息插入主题分类标签对应的政策信息链表中,其中,政策信息链表中用于以立项时间的顺序存储对应的主题分类标签的政策信息;确定模块包括:查找单元,用于查找主题类型标签对应的链表的表头地址;显示模块包括:展示单元,用于展示预设地图模板;执行单元,用于从链表的表头地址起始,重复执行以下步骤直至预设地图模板上标示出链表中的每个政策信息:获取链表中当前轮询到的政策信息,在对应的政策信息中提取立项城市,并以预设标识标示在预设地图模板中立项城市对应的位置。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,通过爬取方式爬取政策信息,得到文字信息,进而通过提取关键词,以预设的训练模型得到政策信息对应的主题分类标签,解决了相关技术中现有技术中的政策信息分布分散、检索困难的技术问题,通过整合爬取到的政策信息,并利用预先训练的主题分类标签来对本文档来自技高网...

【技术保护点】
1.一种政策信息的处理方法,其特征在于,所述方法包括:获取在多个数据来源中爬取到的政策信息;对所述政策信息进行预处理,得到目标文档,其中,所述目标文档中包括所述政策信息中的文字信息;提取所述目标文档中的关键词;将提取出的关键词输入第一模型,得到与所述政策信息匹配的主题分类标签,其中,所述第一模型为预先利用多个训练样本对进行训练得到的深度学习模型,每个所述训练样本对包括用于作为所述深度学习模型的输入数据的多个关键词、以及用于作为所述深度学习模型的输出数据的训练目标的至少一个主题分类标签;将所述政策信息与匹配的主题分类标签关联并存储至检索数据库。

【技术特征摘要】
1.一种政策信息的处理方法,其特征在于,所述方法包括:获取在多个数据来源中爬取到的政策信息;对所述政策信息进行预处理,得到目标文档,其中,所述目标文档中包括所述政策信息中的文字信息;提取所述目标文档中的关键词;将提取出的关键词输入第一模型,得到与所述政策信息匹配的主题分类标签,其中,所述第一模型为预先利用多个训练样本对进行训练得到的深度学习模型,每个所述训练样本对包括用于作为所述深度学习模型的输入数据的多个关键词、以及用于作为所述深度学习模型的输出数据的训练目标的至少一个主题分类标签;将所述政策信息与匹配的主题分类标签关联并存储至检索数据库。2.根据权利要求1所述的方法,其特征在于,所述获取在多个数据来源中爬取到的政策信息,包括:从云服务器中下载预先配置的目标应用容器;执行所述目标应用容器中针对所述多个数据来源的爬取操作;提取爬取到的网址中的政策信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述目标文档中的关键词,包括:基于词频-逆向文件频率模型抽取所述目标文档中的关键词;利用预设的词向量对应关系,确定每个所述关键词的词嵌入向量。4.根据权利要求1所述的方法,其特征在于,在将提取出的关键词输入第一模型,得到与所述政策信息匹配的主题分类标签之前,所述方法还包括:获取用于作为初始模型的全连接神经网络分类模型;获取多个所述训练样本对;利用多个所述训练样本对训练所述全连接神经网络分类模型,得到第一模型。5.根据权利要求4所述的方法,其特征在于,所述获取多个所述训练样本对,包括:获取多个政策文档;对每个所述政策文档进行预处理,得到对应于每个所述政策文档的词汇袋,其中,每个所述词汇袋中包括对应的政策文档中的词汇;将多个所述词汇袋输入文档主题生成模型,得到多个主题,以及每个所述主题对应的多个所述主题分类标签,其中,每个所述训练样本对包括用于作为输入的所述词汇袋和用于作为输出的训练目标的、与所述词汇袋对应的多个所述主题分类标签。6.根据权利要求1所述的方法,其特征在于,在将所述政策信息与匹配的主题分类标签关联并存储至检索数据库之后,所述方法还包括:获取待查询的主题分类标签;在所述检索数据库中确定所述待查询...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1