公文信息抽取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:43809723 阅读:21 留言:0更新日期:2024-12-27 13:26
本申请提供一种公文信息抽取方法、装置、存储介质及电子设备。其中,电子设备获取待处理公文;通过预先训练的要素抽取模型对待处理公文进行处理,得到待处理公文中的公文要素以及与公文要素对应的公文段落;根据公文要素以及公文要素对应的公文段落,生成用于指示预设大语言模型对公文段落进行优化的提示词;将提示词发送给预设大语言模型进行处理,得到优化后的公文段落。如此,由于要素抽取模型进行了有针对性地训练,擅长抽取较为准确的公文要素,并利用大语言模型进行对公文要素对应的公文段落进行优化,从而能够从待处理公文中抽取较为准确且完整的公文信息。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,具体而言,涉及一种公文信息抽取方法、装置、存储介质及电子设备


技术介绍

1、公文,即公务文件,是指政府机关、企事业单位、社会团体等在行政管理活动或日常工作中,为了传达决策、指示、通知、报告、请示、批复等目的而形成的正式文件。而随着业务的持续扩展,单位内累积的公文数量急剧增加,种类和内容也趋向多样化和复杂化。目前,传统的电子文档管理方式已显不足,其整理与分类工作完全依赖人工操作,而文档的标签分类又受个人主观判断影响较大,这不仅降低了查询效率,也容易造成错误。在这种形势下,引入人工智能技术以提升单位公文管理水平,实现对公文关键要素的自动提取,构建起系统化的公文关系和网络流转脉络,显得尤为迫切和重要。通过智能化管理,不仅能提高工作效率,还能确保公文管理的准确性和规范性,从而促进单位内部信息资源的有效利用和知识传承。

2、需要说明的是,公文要素抽取包括了文档解析和要素抽取两个主要环节,在文档解析阶段主要是对不同类型、不同格式的公文进行全文内容的识别。在要素抽取阶段,目前主要是将问题转化为序列标注问题,通过深度学习技术对文本本文档来自技高网...

【技术保护点】

1.一种公文信息抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的公文信息抽取方法,其特征在于,所述根据所述公文要素以及所述公文要素对应的公文段落,生成用于指示预设大语言模型对所述公文段落进行优化的提示词,包括:

3.根据权利要求1所述的公文信息抽取方法,其特征在于,所述方法还包括所述要素抽取模型的训练方法,所述训练方法包括:

4.根据权利要求3所述的公文信息抽取方法,其特征在于,所述根据所述第一模型损失与所述第二模型损失,得到所述待训练模型的综合损失,包括:

5.根据权利要求4所述的公文信息抽取方法,其特征在于,所述第一模型损...

【技术特征摘要】

1.一种公文信息抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的公文信息抽取方法,其特征在于,所述根据所述公文要素以及所述公文要素对应的公文段落,生成用于指示预设大语言模型对所述公文段落进行优化的提示词,包括:

3.根据权利要求1所述的公文信息抽取方法,其特征在于,所述方法还包括所述要素抽取模型的训练方法,所述训练方法包括:

4.根据权利要求3所述的公文信息抽取方法,其特征在于,所述根据所述第一模型损失与所述第二模型损失,得到所述待训练模型的综合损失,包括:

5.根据权利要求4所述的公文信息抽取方法,其特征在于,所述第一模型损失的权重随着迭代次数的增加而降低,所述第二模型损失的权重随着迭代次数的增加而增加。

【专利技术属性】
技术研发人员:刘树衎胡彬孙乔张显峰
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1