一种政策自动化解析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38706075 阅读:12 留言:0更新日期:2023-09-08 14:46
本申请实施例公开了一种政策自动化解析方法、装置、电子设备及存储介质。在本申请实施例中,能够对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取第一标签政策文本短句对应的标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别:文本对数据;根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。本申请提高了政策自动化解析效率,降低了人力解析成本,并且抽取信息精度高。并且抽取信息精度高。并且抽取信息精度高。

【技术实现步骤摘要】
一种政策自动化解析方法、装置、电子设备及存储介质


[0001]本申请涉及信息处理
,具体涉及一种政策自动化解析方法、装置、电子设备及存储介质。

技术介绍

[0002]政策是政府根据社会发展的经济需要,结合实际情况而制定的一系列支持产业和企业发展的措施。为促进整个地区的经济发展,政府机关单位会在平台网站中发布具有奖励性质的政策文件,供企业和个人进行申报。政策文件中通常包含具体的奖励信息以及相对应的条件信息,奖励信息指企业可实际获取到的优惠如金额补贴、税收补贴等;条件信息则是申报时企业或个人所需满足的资质条件如经营地、年营收额等。政策匹配的主要目的和作用是为了让政策快速触达企业,让企业被动了解政策;辅助政府动态预测政策下发前、下发后可能触达的企业量级范围,对于部分政策的预算框定起到有效的数据样本支持。
[0003]然而,在实际使用过程中,现有政策自动化解析方法依托于业务人员的经验知识,信息抽取效率低下;基于字符规则的正则抽取方式泛化性不足;对政策的解析度不足,信息抽取不够完善;抽取过程中使用到的模型迭代成本高、扩展性差等问题。

技术实现思路

[0004]本申请实施例提供一种政策自动化解析方法、装置、电子设备及存储介质,以解决传统人工解析或基于正则解析方式导致的解析效率低、人力成本高、抽取信息精度低等问题。
[0005]第一方面,本申请实施例提供了一种政策自动化解析方法,包括:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据;根据第一标签政策文本短句对应的标签:值数据,以及第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。
[0006]在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句之前,还包括:获取政策文件;对政策文件进行内容抽取,得到政策文件的政策内容文本;将政策文件的政策内容文本拆分成若干个政策文本短句。
[0007]在一些实施例中,对政策文件进行内容抽取,得到政策文件的政策内容文本,还包括:获取政策文件的格式;当政策文件的格式为第一格式时,使用三方库获取政策文件对应的政策内容文本;当政策文件的格式为第二格式时,通过OCR接口识别出政策文件对应的政策内容文本。
[0008]在一些实施例中,对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句,还包括:使用文本分类TextCNN模型对政策文件中政策文本短句进行分类,得到分
类后的政策文本短句,分类后的政策文本短句包括第一类型的政策文本短句。
[0009]在一些实施例中,对第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句,包括:基于标签预测模型对第一类型的政策文本短句进行标签预测,当第一类型的政策文本短句有标签归属时,第一类型的政策文本短句为第一标签政策文本短句;当第一类型的政策文本短句没有标签归属时,第一类型的政策文本短句为第二标签政策文本短句。
[0010]在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:将第一类型的政策文本短句输入标签预测模型,标签预测模型输出第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出第一文本表示向量与若干标签表示向量之间的最大相似度;当最大相似度不低于相似度阈值时,判定第一类型的政策文本短句有标签归属,第一类型的政策文本短句为第一标签政策文本短句;获取最大相似度对应的标签表示向量的标签;将最大相似度对应的标签表示向量的标签作为第一标签政策文本短句对应的标签。
[0011]在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测,还包括:当最大相似度低于相似度阈值时,判定第一类型的政策文本短句没有标签归属,第一类型的政策文本短句为第二标签政策文本短句。
[0012]在一些实施例中,基于标签预测模型对第一类型的政策文本短句进行标签预测之前,还包括:获取标签预测训练数据集,标签预测训练数据集包括N个第一短句向量和M个第二短句向量,N个第一短句向量的标签均为第一标签,M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由N个第一短句向量中任意N

1个第一短句向量组成的第一平均表示向量;根据第一平均表示向量以及N个第一短句向量中剩下的第一短句向量构建正样本,得到N个正样本;获取由N个第一短句向量中任意H个第一短句向量组成的2
N

1个第二平均表示向量,H为正整数且1≤H≤N;根据2
N

1个第二平均表示向量以及M个第二短句向量构建负样本,得到M*(2
N

1)个负样本;将N个正样本、M*(2
N

1)个负样本、N个第一短句向量和M个第二短句向量作为更新后的标签预测训练数据集;利用更新后的标签预测训练数据集对标签预测模型进行训练,得到训练完成的标签预测模型。
[0013]在一些实施例中,通过命名实体识别模型抽取第一标签政策文本短句对应的标签数据,标签数据为标签:值数据,包括:将第一标签政策文本短句输入语言表征模型,语言表征模型输出第一标签政策文本短句中每个词的词嵌入向量;将词嵌入向量传入双向长短期记忆网络模型,双向长短期记忆网络输出每个词的预测类别的初始分数;将每个词的预测类别的初始分数输入条件随机场模型,通过条件随机场模型学习每个词的预测类别之间的约束规则后输出第一标签政策文本短句中每个词的预测类别,得到第一标签政策文本短句对应的标签:值数据。
[0014]在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,类别数据为类别:文本对数据,包括:将第二标签政策文本短句输入语义匹配模型中,语义匹配模型输出第二类型的政策文本短句对应的第二文本表示向量;通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据。
[0015]在一些实施例中,通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,还包括:若通过聚类模型不能确定出第二文本表示向量的类型,则根据第二文本表示向量增加新的类别,并同步更新聚类模型。
[0016]在一些实施例中,通过聚类模型确定出第二文本表示向量的类型,得到第二标签政策文本短句对应的类别:文本对数据之前,还包括:获取已标注类型的第二标签政策文本短句数据集;基于语义匹配模型,将第二标签政策文本短句数据集中每个已标注类型的第二标签政策文本短句转换为句向量,得到句向量数据集;利用句向量数据集对聚类模型进行无监督训练,得到训练后的聚类模型。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政策自动化解析方法,其特征在于,包括:对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句;对所述第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句;通过命名实体识别模型抽取所述第一标签政策文本短句对应的标签数据,所述标签数据为标签:值数据;通过语义匹配模型以及聚类模型获取第二标签政策文本短句对应的类别数据,所述类别数据为类别:文本对数据;根据所述第一标签政策文本短句对应的标签:值数据,以及所述第二标签政策文本短句对应的类别:文本对数据,完成政策文件自动化解析。2.如权利要求1的政策自动化解析方法,其特征在于,所述对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句之前,还包括:获取政策文件;对所述政策文件进行内容抽取,得到所述政策文件的政策内容文本;将所述政策文件的政策内容文本拆分成若干个政策文本短句。3.如权利要求2的政策自动化解析方法,其特征在于,所述对所述政策文件进行内容抽取,得到所述政策文件的政策内容文本,还包括:获取所述政策文件的格式;当所述政策文件的格式为第一格式时,使用三方库获取所述政策文件对应的政策内容文本;当所述政策文件的格式为第二格式时,通过OCR接口识别出所述政策文件对应的政策内容文本。4.如权利要求1或3的政策自动化解析方法,其特征在于,所述对政策文件中政策文本短句进行分类,得到第一类型的政策文本短句,还包括:使用文本分类TextCNN模型对所述政策文件中政策文本短句进行分类,得到分类后的政策文本短句,所述分类后的政策文本短句包括第一类型的政策文本短句。5.如权利要求1的政策自动化解析方法,其特征在于,所述对所述第一类型的政策文本短句进行标签预测,得到第一标签政策文本短句和第二标签政策文本短句,包括:基于标签预测模型对所述第一类型的政策文本短句进行标签预测,当所述第一类型的政策文本短句有标签归属时,所述第一类型的政策文本短句为第一标签政策文本短句;当所述第一类型的政策文本短句没有标签归属时,所述第一类型的政策文本短句为第二标签政策文本短句。6.如权利要求1的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测,还包括:将所述第一类型的政策文本短句输入所述标签预测模型,所述标签预测模型输出所述第一类型的政策文本短句对应的第一文本表示向量;获取若干标签表示向量,每个标签表示向量与一种标签下所有相关文本向量的平均向量相对应;确定出所述第一文本表示向量与所述若干标签表示向量之间的最大相似度;
当所述最大相似度不低于相似度阈值时,判定所述第一类型的政策文本短句有标签归属,所述第一类型的政策文本短句为第一标签政策文本短句;获取所述最大相似度对应的标签表示向量的标签;将所述最大相似度对应的标签表示向量的标签作为所述第一标签政策文本短句对应的标签。7.如权利要求6的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测,还包括:当所述最大相似度低于相似度阈值时,判定所述第一类型的政策文本短句没有标签归属,所述第一类型的政策文本短句为第二标签政策文本短句。8.如权利要求7的政策自动化解析方法,其特征在于,所述基于标签预测模型对所述第一类型的政策文本短句进行标签预测之前,还包括:获取标签预测训练数据集,所述标签预测训练数据集包括N个第一短句向量和M个第二短句向量,所述N个第一短句向量的标签均为第一标签,所述M个第二短句向量的标签均为第二标签,M和N均为正整数;获取由所述N个第一短句向量中任意N

1个第一短句向量组成的第一平均表示向量;根据所述第一平均表示向量以及所述N个第一短句向量中剩下的第一短句向量构建正样本,得到...

【专利技术属性】
技术研发人员:程云辉高晓丽姚伟华郭咏春吴晓晴
申请(专利权)人:上海亿通国际股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1