基于大语言模型的招投标文件信息抽取方法及系统技术方案

技术编号：44832205 阅读：32 留言：0更新日期：2025-04-01 19:33

本发明专利技术公开了一种基于大语言模型的招投标文件信息抽取方法及系统，属于信息处理技术领域，包括：在标书领域收集多个文件样本，基于文件格式将文件样本转化为标准样本，组合所有标准样本生成标准样本集；构建大语言模型，提取标准样本包含的第一标签，计算第一标签对应的重要程度值，基于评估值对大语言模型进行参数调节，生成标准模型；标准模型基于第一标签对应的重要程度值依次提取招投标文件的标签信息，将缺失标签与关联信息组合生成补充信息；汇总补充信息和标签信息，生成抽取信息，基于招投标主题规则对抽取信息进行分析，输出招投标文件对应的策略建议。通过本发明专利技术可以提高招投标文件信息抽取的准确性和完整性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理，具体涉及一种基于大语言模型的招投标文件信息抽取方法及系统。

技术介绍

1、招投标文件通常包含大量的结构化和非结构化数据，传统的招投标文件信息抽取方法主要依赖人工阅读和理解，这种方法不仅耗时耗力，而且容易受到人为因素影响，导致信息抽取的不准确和不全面。随着深度学习技术的发展，特别是大语言模型（largelanguage models，llms）的出现，促进了自然语言处理（natural language processing，nlp）领域的进步。这些模型通过在大规模文本数据上进行预训练，能够学习到丰富的语言表示，从而在多种nlp任务上取得了显著的性能提升。然而，尽管大语言模型在文本理解方面展现出巨大潜力，将其直接应用于招投标文件的信息抽取仍面临挑战。招投标文件的专业性和复杂性要求模型不仅要有强大的语言理解能力，还需要对特定领域的知识有一定的掌握。

2、类似的现有技术有公开号为cn117764058a的中国专利申请，公开了一种招投标文件字段抽取方法、装置、设备及介质，涉及文件数据处理
招投标文件字...

【技术保护点】

1.一种基于大语言模型的招投标文件信息抽取方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于所述文件格式将所述文件样本转化为标准样本包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，S2还包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述基于所述重要程度值将所有所述第一标签划分为第一类标签、第二类标签和第三类标签包括以下步骤：

5.根据权利要求1所述的方法，其特征在于，基于以下步骤输出评估值：

6.根据权利要求5所述的方法，其特征在于，所述生成标准模型包括：

<...

【技术特征摘要】

1.一种基于大语言模型的招投标文件信息抽取方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于所述文件格式将所述文件样本转化为标准样本包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，s2还包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述基于所述重要程度值将所有所述第一标签划分为第一类标签、第二类标签和第三类标签包括以下步骤：

5.根据权利要求1...

【专利技术属性】
技术研发人员：李雄文，王艳，孙文文，徐文，唐乐，邓佳楠，潘琳，石玉琼，
申请(专利权)人：中交厦门电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人