一种基于大语言模型与深度学习模型的公告信息抽取方法技术

技术编号：45921007 阅读：19 留言：0更新日期：2025-07-25 17:49

本发明专利技术提供一种基于大语言模型与深度学习模型的公告信息抽取方法，包括以下步骤：S1：将待处理公告输入基于LoRA微调后的大语言模型，得到公告信息提取结果，保存至数据库；S2：所述数据库基于模糊匹配，得到与当前待处理公告有关联关系的候选集；S3：将待处理公告和候选集一同输入微调BERT模型，进行关联关系判断；S4：如果判断出候选集中存在与当前待处理公告相关联的公告，则使用相关公告的部分信息替换公告信息提取结果的部分信息。所述基于大语言模型与深度学习模型的公告信息抽取方法能准确定位到公告中的信息，并且根据要求做下一步的推理，能够提高系统抽取的准确率问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种大语言模型，尤其是涉及一种基于大语言模型与深度学习模型的公告信息抽取方法。

技术介绍

1、目前在工程信息咨询领域，一般采用条件随机场(crf)模型等方法从公告中进行信息提取。所述公告均来自工程信息领域，分为招标公告和中标公告。公告正文中包括项目描述、招标信息、参与方信息、重要日期节点等内容。这些公告通常以结构化或半结构化文本的形式发布，内容复杂多样。信息提取的关键在于从这些杂乱的文本中准确识别和抽取出如项目所在的省份、城市、开标时间等关键信息。公告的表现形式通常包含文本、表格、链接、附件等，并且公告内容的篇幅通常在千字以上，这给信息提取增加了一定的难度。

2、所述条件随机场(crf)结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。所述条件随机场是一类最适合预测任务的判别模型，其中相邻的上下文信息或状态会影响当前预测。crf在命名实体识别、词性标注、基因预测、降噪和对象检测问题

【技术保护点】

1.一种基于大语言模型与深度学习模型的公告信息抽取方法，包括以下步骤：

2.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤S1中，对大语言模型基于LoRA进行调整，包括以下步骤：

3.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤S2中，所述模糊匹配是数据库基于公告的标题、所在的省份、城市信息，采用编辑距离算法，筛选出与当前待处理公告相似度最高的公告，筛选出的公告集构成候选集。

4.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤S3中，对B...

【技术特征摘要】

1.一种基于大语言模型与深度学习模型的公告信息抽取方法，包括以下步骤：

2.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤s1中，对大语言模型基于lora进行调整，包括以下步骤：

3.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤s2中，所述模糊匹配是数据库基于公告的标题、所在的省份、城市信息，采用编辑距离算法，筛选出与当前待处理公告相似度最高的公告，筛选出的公告集构成候选集。

4.根据权利要求1所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：步骤s3中，对bert模型进行关联关系判断的训练，包括以下步骤：

5.根据权利要求4所述的基于大语言模型与深度学习模型的公告信息抽取方法，其特征在于：当前待处理公告与数据库中人工标注的...

【专利技术属性】
技术研发人员：邓蔚，韩阳，
申请(专利权)人：北京瑞达恒建筑咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人