【技术实现步骤摘要】
一种政策自动化解析方法、装置、电子设备及存储介质
[0001]本申请涉及信息处理
,具体涉及一种政策自动化解析方法、装置、电子设备及存储介质。
技术介绍
[0002]政策是政府根据社会发展的经济需要,结合实际情况而制定的一系列支持产业和企业发展的措施。为促进整个地区的经济发展,政府机关单位会在平台网站中发布具有奖励性质的政策文件,供企业和个人进行申报。政策文件中通常包含具体的奖励信息以及相对应的条件信息,奖励信息指企业可实际获取到的优惠如金额补贴、税收补贴等;条件信息则是申报时企业或个人所需满足的资质条件如经营地、年营收额等。政策匹配的主要目的和作用是为了让政策快速触达企业,让企业被动了解政策;辅助政府动态预测政策下发前、下发后可能触达的企业量级范围,对于部分政策的预算框定起到有效的数据样本支持。
[0003]然而,在实际使用过程中,现有政策自动化解析方法依托于业务人员的经验知识,信息抽取效率低下;基于字符规则的正则抽取方式泛化性不足;对政策的解析度不足,信息抽取不够完善;抽取过程中使用到的模型迭代成本高、扩展性差等问题。
技术实现思路
[0004]本申请实施例提供一种政策自动化解析方法、装置、电子设备及存储介质,以解决传统人工解析或基于正则解析方式导致的解析效率低、人力成本高、抽取信息精度低等问题。
[0005]第一方面,本申请实施例提供了一种政策自动化解析方法,包括:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标 ...
【技术保护点】
【技术特征摘要】
1.一种政策自动化解析方法,其特征在于,包括:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对所述第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取所述第一标签政策文本短句对应的标签数据,所述标签数据为标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,所述类别数据为类别:文本对数据;根据所述第一标签政策文本短句对应的标签:值数据,以及所述第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。2.如权利要求1的政策自动化解析方法,其特征在于,所述对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句之前,还包括:获取政策文件;对所述政策文件进行内容抽取,得到所述政策文件的政策内容文本;将所述政策文件的政策内容文本拆分成若干个政策文本短句。3.如权利要求2的政策自动化解析方法,其特征在于,所述对所述政策文件进行内容抽取,得到所述政策文件的政策内容文本,还包括:获取所述政策文件的格式;当所述政策文件的格式为第一格式时,使用三方库获取所述政策文件对应的政策内容文本;当所述政策文件的格式为第二格式时,通过OCR接口识别出所述政策文件对应的政策内容文本。4.如权利要求1或3的政策自动化解析方法,其特征在于,所述对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句,还包括:使用文本分类TextCNN模型对所述政策文件中政策文本短句进行分类,得到分类后的政策文本短句,所述分类后的政策文本短句包括第一类型的政策文本短句。5.如权利要求1的政策自动化解析方法,其特征在于,所述对所述第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句,包括:基于标签预测模型对所述第一类型的政策文本短句进行标签预测,当所述第一类型的政策文本短句有标签归属时,所述第一类型的政策文本短句为第一标签政策文本短句;当所述第一类型的政策文本短句没有标签归属时,所述第一类型的政策文本短句为第二标签政策文本短句。6.如权利要求1的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测,还包括:将所述第一类型的政策文本短句输入所述标签预测模型,所述标签预测模型输出所述第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出所述第一文本表示向量与所述若干标签表示向量之间的最大相似度;
当所述最大相似度不低于相似度阈值时,判定所述第一类型的政策文本短句有标签归属,所述第一类型的政策文本短句为第一标签政策文本短句;获取所述最大相似度对应的标签表示向量的标签;将所述最大相似度对应的标签表示向量的标签作为所述第一标签政策文本短句对应的标签。7.如权利要求6的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测,还包括:当所述最大相似度低于相似度阈值时,判定所述第一类型的政策文本短句没有标签归属,所述第一类型的政策文本短句为第二标签政策文本短句。8.如权利要求7的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测之前,还包括:获取标签预测训练数据集,所述标签预测训练数据集包括N个第一短句向量和M个第二短句向量,所述N个第一短句向量的标签均为第一标签,所述M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由所述N个第一短句向量中任意N
‑
1个第一短句向量组成的第一平均表示向量;根据所述第一平均表示向量以及所述N个第一短句向量中剩下的第一短句向量构建正样本,得到...
【专利技术属性】
技术研发人员:程云辉,高晓丽,姚伟华,郭咏春,吴晓晴,
申请(专利权)人:上海亿通国际股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。