基于政策文本分类和关键信息识别的政策文本分析方法技术

技术编号:35540366 阅读:43 留言:0更新日期:2022-11-09 15:08
本发明专利技术公开了一种基于政策文本分类和关键信息识别的政策文本分析方法,属于自然语言处理技术领域。本发明专利技术提供的政策文本分类器通过在原始段落中增加分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类型完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息。提供的政策信息识别器通过在所构建的政策文本要素体系下预测空缺内容标签的方式同样简化了文本实体的识别难度,并且在训练数据规模较小时有较好的表现。现。现。

【技术实现步骤摘要】
基于政策文本分类和关键信息识别的政策文本分析方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于政策文本分类和关键信息识别的政策文本分析方法。

技术介绍

[0002]通常情况下,政策文件的文本结构划分具有标准可循,甚至用词上也有统一的标准。对政策文件的内容和结构进行自动化地识别、分析,对于提高政策文件分析效率尤为重要。近些年,自然语言处理技术迅猛发展,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此,对于具有结构化的文本内容的政策文件而言,自然语言处理技术不失为分析政策文件文本内容的一种有效手段。
[0003]目前,具有较高分类、识别精度的政策文件文本内容识别方法很少,部分学者采用无监督学习的方式训练文本分类识别模型以用于识别政策文本内容,但由于缺乏对政策文本内容的分类、识别标准,导致训练而得的文本分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练文本分类识别模型,但同样没有统一的标准对政策文本内容作标签标注,导致训练而得的文本分类识别模型同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,步骤包括:S1,基于预训练的政策文本分类器对输入的段落,预测输出所述段落的类型;S2,基于预训练的政策信息识别器对完成分类的各所述段落进一步在实体级别抽取出关键信息。2.根据权利要求1所述的基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,步骤S1中,所述政策文本分类器预测所述段落的类型的方法具体包括步骤:S11,对于给定的政策文件中的所述段落,使用模板函数将转换为语言模型的输入,在原始的所述段落中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;S12,所述语言模型预测出填入所述掩码位置的标签;S13,标签转换器将所述标签映射为事先构建的政策文件要素体系的标签词集合中对应的标签词作为预测得到的所述段落的类型。3.根据权利要求2所述的基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,训练所述语言模型的方法步骤包括:A1,对于作为训练样本的每个,计算所述标签词集合中的每个标签词填入所述掩码位置的概率分数;A2,通过softmax函数计算概率分布;A3,根据和,并利用所构造的损失函数,计算模型预测损失;A4,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出所述语言模型;若否,则调整模型参数后返回步骤A1继续进行迭代训练。4.根据权利要求2所述的基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,所述语言模型为由若干个语言子模型融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:B1,定义模板函数集合,所述模板函数集合中包含若干个不同的所述模板函数
;B2,对于作为训练样本的每个,通过对应的所述语言子模型,计算所述标签词集合中的每个标签词填入所述掩码位置的概率分数;B3,对关联每个所述模板函数的进行融合得到;B4,通过softmax函数计算概率分布;B5,根据和,并利用所构造的损失函数,计算模型预测损失;B6,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出所述融合语言模型;若否,则调整模型参数后返回步骤B2继续进行迭代训练。5.根据权利要求4所述的基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,所述语言模型或所述语言子模型为BERT语言模型。6.根据权利要求1所述的基于政策文本分类和关键信息识别的政策文本分析方法,其特征在于,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具

供给型、政策工具

环境型、政策工具

需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,其中,所述政策工具

供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;所述政策工具

环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;所述政策工具

【专利技术属性】
技术研发人员:杨象笋李响胡奇韬王江华
申请(专利权)人:天道金科股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1