一种政策关键信息提取方法和装置、存储介质、电子设备制造方法及图纸

技术编号:26597806 阅读:27 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种政策关键信息提取方法和装置、存储介质、电子设备。方法包括以下步骤:从多个数据来源获取政策信息;根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。采用本发明专利技术的技术方案,能够实现对政策进行类别标注,并提取申报类政策文本中的支持条件、支持资金数额、申报时间关键信息;标注解析后的政策信息可用于多维数据分析和对企业的定向推送。

【技术实现步骤摘要】
一种政策关键信息提取方法和装置、存储介质、电子设备
本专利技术属于信息检索
,尤其涉及一种政策关键信息提取方法和装置、存储介质、电子设备。
技术介绍
产业政策是国家用来发展产业的必要工具,对优化产业结构和推动经济发展具有重要价值。目前,我国政策文件大多分布于中央和地方各级政府部门网站。现有的产业政策网站主要对不同来源的政策文件进行汇总,但并未对政策文本包含的关键信息进行解析。汇总后的政策数量庞大,不具有针对性,难以为用户提供更加多维和精准的政策分析。少数政策分析平台采用人工标注的方式对政策文本内容进行解析,但此种方式人工成本高,能分析的政策数量有限,难以利用大量政策信息进行全面的数据分析。
技术实现思路
为了解决现有技术中存在的技术问题,本专利技术提供了如下技术方案。本专利技术提供了一种政策关键信息提取方法,包括以下步骤:从多个数据来源获取政策信息;根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。本专利技术中,所述基于优惠政策的关键词包含:申报单位、申报材料、申报方式和/或资金支持方式。本专利技术中,所述根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本,包括:根据所述关键词对所述政策信息进行全量匹配,得到第一组申报类政策集合;将所述第一组申报类政策集合之外的政策信息输入预先训练得到的文本分类模型,得到第二组申报类政策集合;根据所述第一组申报类政策集合和第二组申报类政策集合得到所述申报类政策文本。本专利技术中,按照下述方式训练得到所述文本分类模型:从所述第一组申报类政策集合中抽取政策信息,构造正样本;从所述第一组申报类政策集合之外的政策信息中抽取非申报类的政策信息,构造负样本,所述负样本和正样本的数量相同;基于所述正样本和负样本训练得到所述文本分类模型。本专利技术中,所述对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取所述政策关键信息,包括:对所述申报类政策文本进行第一次分句处理,得到多个句子及其在所述申报类政策文本中的第一位置信息;对所述句子进行第二次分句处理,得到多个子句以及所述子句在所述句子中的第二位置信息;将所述子句与预定义的正则表达式进行匹配;提取成功匹配的子句中的数字和时间分别作为所述支持金额和申报时间;将未成功匹配的子句与成功匹配的子句进行语义相似度计算,提取计算结果不小于预设阈值的未成功匹配的子句中的数字和时间分别作为支持金额和申报时间;根据所述第一位置信息和第二位置信息,提取与识别为包含支持金额的子句的距离满足预设标准的句子作为申报类政策的申报条件。本专利技术中,所述与识别为包含支持金额的子句的距离满足预设标准的句子包括以下的一种或多种:所述包含支持金额的子句所在的句子;与所述包含支持金额的子句位于同一段落的句子;所述包含支持金额的子句所在的句子前后预设范围内的句子。本专利技术中,政策关键信息提取方法还包括:对获取的政策信息标注政策标签;获取企业的企业标签;在提取政策关键信息后,依据预先标注的企业标签和所述政策标签进行匹配度计算,依据计算结果为所述企业生成包括所述政策关键信息的推荐列表。本专利技术还提供一种政策关键信息提取装置,包括:获取模块,用于从多个数据来源获取政策信息;分类模块,用于根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;提取模块,用于对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。本专利技术还提供一种电子设备,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现上述政策关键信息提取方法。本专利技术还提供一种存储介质,用于存储计算机程序,当所述计算机程序被执行时,实现上述政策关键信息提取方法。本专利技术的有益效果是:本专利技术的政策关键信息提取方法和系统,能够依据不同政策关键词对各政府部门发布的全量政策进行分类和关键信息提取,极大降低了人工标注的成本。与目前人工提取的政策关键信息相比,本申请对政策信息提取的维度更广,粒度更细,为后续的定向推送和数据分析功能提供了更全面的数据支撑。附图说明图1为本专利技术所述政策关键信息提取方法的流程图;图2为本专利技术所述政策关键信息提取装置的结构示意图。具体实施方式为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。存储器可以包括随机存储器(RandomAccessMemory,RAM),也可以包括只读存储器(Read-OnlyMemory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。显示屏用于显示各个应用程序的用户界面。除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。实施例一如图1所示,本专利技术提供了一种政策关键信息提取方法,包括以下步骤:S102、从多个数据来源获取政策信息;S104、根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;S106、对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。本专利技术根据基于优惠政策的关键词对所述政策信息进行分类,同时对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。采用本专利技术技术方案,能够依据不同政策关键词对各政府部门发布的全量政策进行分类和关键信息提取,极大降低了人工标注的成本。与目前人工提取的政策关键信息相比,本申请对政策信息提取的维度更广,粒度更细,为后续的定向推送和数据分析功能提供了更全面的数据支撑。本专利技术政策关键信息的提取也可用于本文档来自技高网...

【技术保护点】
1.一种政策关键信息提取方法,其特征在于,包括以下步骤:/n从多个数据来源获取政策信息;/n根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;/n对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。/n

【技术特征摘要】
1.一种政策关键信息提取方法,其特征在于,包括以下步骤:
从多个数据来源获取政策信息;
根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本;
对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取政策关键信息,所述政策关键信息包含:政策支持的申报条件、支持金额以及申报时间。


2.如权利要求1所述的政策关键信息提取方法,其特征在于,所述基于优惠政策的关键词包含:申报单位、申报材料、申报方式和/或资金支持方式。


3.如权利要求2所述的政策关键信息提取方法,其特征在于,所述根据基于优惠政策的关键词对所述政策信息进行分类,得到所述政策信息中的申报类政策文本,包括:
根据所述关键词对所述政策信息进行全量匹配,得到第一组申报类政策集合;
将所述第一组申报类政策集合之外的政策信息输入预先训练得到的文本分类模型,得到第二组申报类政策集合;
根据所述第一组申报类政策集合和第二组申报类政策集合得到所述申报类政策文本。


4.如权利要求3所述的政策关键信息提取方法,其特征在于,按照下述方式训练得到所述文本分类模型:
从所述第一组申报类政策集合中抽取政策信息,构造正样本;
从所述第一组申报类政策集合之外的政策信息中抽取非申报类的政策信息,构造负样本,所述负样本和正样本的数量相同;
基于所述正样本和负样本训练得到所述文本分类模型。


5.如权利要求4所述的政策关键信息提取方法,其特征在于,所述对所述申报类政策文本进行正则表达匹配和语义相似度计算,提取所述政策关键信息,包括:
对所述申报类政策文本进行第一次分句处理,得到多个句子及其在所述申报类政策文本中的第一位置信息;
对所述句子进行第二次分句处理,得到多个子句以及所述子句在所述句子中的第二位置信息;
将所述子句与预定义的正则表达式进行匹配;...

【专利技术属性】
技术研发人员:孙会峰邢婷冷小萱李健诚
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1