基于提示学习的政策文本分类方法技术

技术编号:35923890 阅读:41 留言:0更新日期:2022-12-10 11:12
本发明专利技术公开了一种基于提示学习的政策文本分类方法,属于自然语言处理技术领域。本发明专利技术构建了一套完整的政策文件要素体系,通过将政策文件中的的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。提供的政策文本分类器通过在原始段落中增加分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类型完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,提高了段落分类的准确度。准确度。准确度。

【技术实现步骤摘要】
基于提示学习的政策文本分类方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于提示学习的政策文本分类方法。

技术介绍

[0002]政策文件的文本结构划分具有标准可循,甚至用词上也有统一的标准。对政策文件的段落类型进行自动化地识别,对于提高政策文件内容分析的针对性和效率尤为重要。近些年,自然语言处理技术迅猛发展,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此,对于具有结构化的文本内容的政策文件而言,自然语言处理技术不失为对政策文件中的段落进行分类的一种有效手段。
[0003]目前,具有较高分类精度的政策文件段落类型识别方法很少,部分学者采用无监督学习的方式训练段落分类识别模型以用于识别政策文件的段落类型,但由于缺乏对政策文件段落的分类、标准,导致训练而得的段落分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练段落分类识别模型,但同样没有统一的标准对政策文件的段落类型作标签标注,导致训练而得的段落分类识别模型同样不够稳定,且获取大量用于监督学习本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于提示学习的政策文本分类方法,其特征在于,步骤包括:S1,对于给定的政策文件中的段落,使用模板函数将转换为语言模型的输入,在原始的所述段落中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;S2,所述语言模型预测出填入所述掩码位置的标签;S3,标签转换器将所述标签映射为事先构建的政策文件要素体系的标签词集合中对应的标签词作为预测得到的所述段落的类型。2.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,训练所述语言模型的方法步骤包括:A1,对于作为训练样本的每个,计算所述标签词集合中的每个标签词填入所述掩码位置的概率分数;A2,通过softmax函数计算概率分布;A3,根据和,并利用所构造的损失函数,计算模型预测损失;A4,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出所述语言模型;若否,则调整模型参数后返回步骤A1继续进行迭代训练。3.根据权利要求2所述的基于提示学习的政策文本分类方法,其特征在于,的计算方法通过以下公式(1)表达:计算方法通过以下公式(1)表达:通过softmax函数(2)表达计算:公式(1)

(2)中,表示所述标签词的标签;表示文本分类任务的标签集合。4.根据权利要求3所述的基于提示学习的政策文本分类方法,其特征在于,所构造的所述损失函数通过以下公式(3)表达:公式(3)中,表示微调系数;表示模型预测的分布与真实分布间的差距;表示模型预测的分数与真实分数间的差距。5.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,所述语言模型为由若干个语言子模型融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:B1,定义模板函数集合,所述模板函数集合中包含若干个不同的所述模板函数;B2,对于作为训练样本的每个,通过对应的所述语言子模型,计算所述标签词集
合中的每个标签词填入所述掩码位置的概率分数;B3,对关联每个所述模板函数的进行融合得到;B4,通过softmax函数计算概率分布;B5,...

【专利技术属性】
技术研发人员:李响唐嘉成周凌一陈思明魏忠钰戴鼎璋王江华王思皓
申请(专利权)人:天道金科股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1