政策文件智能解析与结构化方法及系统技术方案

技术编号:32247727 阅读:27 留言:0更新日期:2022-02-09 17:51
本发明专利技术属于人工智能技术领域,具体涉及政策文件智能解析与结构化方法及系统。方法包括S1,将政策文件按条目分层进行拆解,获得不同分层层级的数据并进行存储;S2,对数据结构树的不同区域进行数据识别,获得需要的政策文件信息数据;S3,使用图卷积网络和训练出的政策条件奖励识别模型,识别出包含奖励措施和奖励措施对应的申报条件信息;S4,根据政策预训练模型,以增加下游任务的形式,训练出政策标签提炼模型,将申报条件信息提炼成标签,同时将各个奖励措施归纳到对应的行业和产业领域。本发明专利技术具有节约人工成本,能实现对复杂政策文本的深度解析,能自动抽取政策文本的奖励措施和申报条件的特点。申报条件的特点。申报条件的特点。

【技术实现步骤摘要】
政策文件智能解析与结构化方法及系统


[0001]本专利技术属于人工智能
,具体涉及政策文件智能解析与结构化方法及系统。

技术介绍

[0002]政策是政府机关为了统筹社会的健康发展,设定的奋斗目标以及为了实现该目标需要采取的步骤和措施。特别的,为了推动经济的进步和产业结构的优化,权力机关会经常性的下发具有引导性的政策文本,这些政策文本往往包含了具体的奖励措施和对应的条件,对象一般是企业和个人。政策奖励意味着企业可以享受到的权益,而政策条件则是享受该权益所需要满足的条件。
[0003]面对庞大的政策文本,个人或企业往往难以根据自身所具有的条件申报对应的奖励。现有的政策软件及网站往往也只是简单对政策文本进行分类,没有深入政策解析其奖励措施和申报条件。
[0004]现有的政策解析技术十分简单,通常针对大量政策,人工将政策拆解,并且将知识归纳到数据库中;或者使用正则表达式对政策中一些固定的表达拆解;另外,或者采用基于自然语言处理技术,对政策文本进行语义解析。
[0005]因此,现有的政策解析技术存在以下缺点:1.人工解析费时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.政策文件智能解析与结构化方法,其特征在于,包括如下步骤;S1,将政策文件按条目分层进行拆解,获得不同分层层级的数据并以数据结构树的形式进行存储;S2,对数据结构树的不同区域进行数据识别,获得需要的政策文件信息数据;S3,使用图卷积网络和基于已建立的政策预训练模型训练出的政策条件奖励识别模型,识别出包含奖励措施和奖励措施对应的申报条件信息;S4,根据已建立的政策预训练模型,以增加下游任务的形式,训练出政策标签提炼模型,将申报条件信息提炼成标签,同时将各个奖励措施归纳到对应的行业和产业领域。2.根据权利要求1所述的政策文件智能解析与结构化方法,其特征在于,步骤S2包括如下步骤:步骤S21,在数据结构树中政策的头部及尾部区域,以正则表达式与命名实体识别结合的方式识别政策名;步骤S22,在数据结构树中政策的头部及尾部区域,以命名实体识别的方式识别发布部门;步骤S23,在数据结构树中政策的头部及尾部区域,以关键词检索的方式识别发布地区;步骤S24,在数据结构树中政策的头部及尾部区域,识别发布时间,截止时间,并将不同风格的时间描述成统一格式文本。3.根据权利要求1所述的政策文件智能解析与结构化方法,其特征在于,所述政策预训练模型的构建方法如下:将获取到的真实政策文本,权力机关文书以及维基百科文本进行数据清洗,去除非自然语言部分,所述自然语言部分包括图片和链接;将文本用句号隔开,限制最大长度为512,超出最大长度部分截断;将文本转换成训练需要的数据中,每个字符以90%的概率保持不变,10%的概率使用字符[MASK]替换当前字符;将两个句子拼接到一起作为输入,按照[句子1,句子2]的方式送入基于变换器的双向编码器表示模型,基于变换器的双向编码器表示模型在训练中的输出为:预测句子1,句子2是否连贯,并且预测字符[MASK]原本对应的字符;根据反向传播原理来更新政策预训练模型的参数,完成训练目的。4.根据权利要求1所述的政策文件智能解析与结构化方法,其特征在于,步骤S3包括如下步骤:S31,将数据结构树视为一个含有多个节点的有向无环图,每个节点均对应一段文本,利用政策预训练模型将每段文本均计算为一个低维向量;S32,利用图卷积网络,让每个节点的低维向量与周围节点的低维向量结合,重新计算一个新的向量,并将所述新的向量替代节点原来的低维向量;S33,根据所述新的...

【专利技术属性】
技术研发人员:赵康康夏聪
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1