政策信息的处理方法、装置、及存储介质、电子装置制造方法及图纸

技术编号：22186072 阅读：17 留言：0更新日期：2019-09-25 03:37

本发明专利技术提供了一种政策信息的处理方法、装置、及存储介质、电子装置，其中，该方法包括：获取在多个数据来源中爬取到的政策信息；对政策信息进行预处理，得到目标文档，其中，目标文档中包括政策信息中的文字信息；提取目标文档中的关键词；将提取出的关键词输入第一模型，得到与政策信息匹配的主题分类标签，其中，第一模型为预先利用多个训练样本对进行训练得到的深度学习模型，每个训练样本对包括用于作为深度学习模型的输入数据的多个关键词、以及用于作为深度学习模型的输出数据的训练目标的至少一个主题分类标签；将政策信息与匹配的主题分类标签关联并存储至检索数据库。通过本发明专利技术，解决了现有技术中的政策信息分布分散、检索困难的问题。

Processing methods, devices, storage media and electronic devices of policy information

全部详细技术资料下载

【技术实现步骤摘要】
政策信息的处理方法、装置、及存储介质、电子装置
本专利技术涉及数据检索领域，具体而言，涉及一种政策信息的处理方法、装置、及存储介质、电子装置。
技术介绍
目前政府的政策信息主要分布在不同政府的网站，网络是发布、查看、获取政府信息的最主要途径和手段。但是，由于各种政策的类型不同、发布时间不同、管理部门不同，导致政策信息非常分散，如果有需要的企业和个人需要了解需求的政策非常困难，需要花费大量的时间和精力在各个政府的网站上寻找，无法快速的找到需要的信息。针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种政策信息的处理方法、装置、及存储介质、电子装置，以至少解决现有技术中的政策信息分布分散、检索困难的问题。根据本专利技术的一个实施例，提供了一种政策信息的处理方法，包括：获取在多个数据来源中爬取到的政策信息；对政策信息进行预处理，得到目标文档，其中，目标文档中包括政策信息中的文字信息；提取目标文档中的关键词；将提取出的关键词输入第一模型，得到与政策信息匹配的主题分类标签，其中，第一模型为预先利用多个训练样本对进行训练得到的深度学习模型，每个训练样本对包括用于作为深度学习模型的输入数据的多个关键词、以及用于作为深度学习模型的输出数据的训练目标的至少一个主题分类标签；将政策信息与匹配的主题分类标签关联并存储至检索数据库。进一步地，获取在多个数据来源中爬取到的政策信息，包括：从云服务器中下载预先配置的目标应用容器；执行目标应用容器中针对多个数据来源的爬取操作；提取爬取到的网址中的政策信息。进一步地，提取目标文档中的关键词，包括...

【技术保护点】
1.一种政策信息的处理方法，其特征在于，所述方法包括：获取在多个数据来源中爬取到的政策信息；对所述政策信息进行预处理，得到目标文档，其中，所述目标文档中包括所述政策信息中的文字信息；提取所述目标文档中的关键词；将提取出的关键词输入第一模型，得到与所述政策信息匹配的主题分类标签，其中，所述第一模型为预先利用多个训练样本对进行训练得到的深度学习模型，每个所述训练样本对包括用于作为所述深度学习模型的输入数据的多个关键词、以及用于作为所述深度学习模型的输出数据的训练目标的至少一个主题分类标签；将所述政策信息与匹配的主题分类标签关联并存储至检索数据库。

【技术特征摘要】
1.一种政策信息的处理方法，其特征在于，所述方法包括：获取在多个数据来源中爬取到的政策信息；对所述政策信息进行预处理，得到目标文档，其中，所述目标文档中包括所述政策信息中的文字信息；提取所述目标文档中的关键词；将提取出的关键词输入第一模型，得到与所述政策信息匹配的主题分类标签，其中，所述第一模型为预先利用多个训练样本对进行训练得到的深度学习模型，每个所述训练样本对包括用于作为所述深度学习模型的输入数据的多个关键词、以及用于作为所述深度学习模型的输出数据的训练目标的至少一个主题分类标签；将所述政策信息与匹配的主题分类标签关联并存储至检索数据库。2.根据权利要求1所述的方法，其特征在于，所述获取在多个数据来源中爬取到的政策信息，包括：从云服务器中下载预先配置的目标应用容器；执行所述目标应用容器中针对所述多个数据来源的爬取操作；提取爬取到的网址中的政策信息。3.根据权利要求1所述的方法，其特征在于，所述提取所述目标文档中的关键词，包括：基于词频-逆向文件频率模型抽取所述目标文档中的关键词；利用预设的词向量对应关系，确定每个所述关键词的词嵌入向量。4.根据权利要求1所述的方法，其特征在于，在将提取出的关键词输入第一模型，得到与所述政策信息匹配的主题分类标签之前，所述方法还包括：获取用于作为初始模型的全连接神经网络分类模型；获取多个所述训练样本对；利用多个所述训练样本对训练所述全连接神经网络分类模型，得到第一模型。5.根据权利要求4所述的方法，其特征在于，所述获取多个所述训练样本对，包括：获取多个政策文档；对每个所述政策文档进行预处理，得到对应于每个所述政策文档的词汇袋，其中，每个所述词汇袋中包括对应的政策文档中的词汇；将多个所述词汇袋输入文档主题生成模型，得到多个主题，以及每个所述主题对应的多个所述主题分类标签，其中，每个所述训练样本对包括用于作为输入的所述词汇袋和用于作为输出的训练目标的、与所述词汇袋对应的多个所述主题分类标签。6.根据权利要求1所述的方法，其特征在于，在将所述政策信息与匹配的主题分类标签关联并存储至检索数据库之后，所述方法还包括：获取待查询的主题分类标签；在所述检索数据库中确定所述待查询...

【专利技术属性】
技术研发人员：吴壮伟，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人