一种基于NLP技术的招投标要素抽取方法、系统及存储介质技术方案

技术编号:37971020 阅读:12 留言:0更新日期:2023-06-30 09:46
本发明专利技术提供了一种基于NLP信息抽取技术的招投标要素抽取方法,包括以下步骤:S1、获取招投标原始文件;S2、获得一个预训练模型A;S3、获取标注训练样本;S4、对标注样本进行数据增强;S5、训练句子潜在要素类型识别模型B;S6、训练要素及关系抽取模型C;S7、数据经过标准化模块输出结果;一种基于NLP信息抽取技术的招投标要素抽取系统,包括处理器以及存储器;一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于NLP技术的招标要素抽取方法及电子系统。本发明专利技术的优点在于:大幅提高开发效率,减少开发成本,突破了传统模型512文本长度的限制,可以高效要素嵌套,要素信息抽取的召回率高。要素信息抽取的召回率高。要素信息抽取的召回率高。

【技术实现步骤摘要】
一种基于NLP技术的招投标要素抽取方法、系统及存储介质


[0001]本专利技术涉及招投标
,尤其涉及一种基于NLP技术的招投标要素抽取方法、系统及存储介质。

技术介绍

[0002]招投标文件是招采人为某项采购需求发布的申请信息、招采内容公告信息以及后续评比、中标等流程中发布的内容信息。不同的地区、招采流程和过程,其结构框架和编写格式可能略微不同。常见的有招采公告,评标公告,中标公告,变更澄清公告等等(以下统称为招投标文件),由于招投标文件中记载有招采过程和结果等重要信息,这些信息具有重要的分析和关注的价值,例如抽取大量中标文件的招采商品(项目)名称、预算金额、中标金额。中标单位、工程地点进行招采人、中标人画像分析,企业经营信用分析等。
[0003]目前主流的方法为利用BERT+BILSTM+CRF进行要素识别,然后利用分类模型判别要素间存在的关系,但在应用于招标中标公告中关键字段和关系抽取的实践中存在如下困难:
[0004]1)训练模型需要大量高质量的人工标柱数据,而这些标柱数据的获得需要大量人力物力财力;
[0005]2)目前方法主要是抽取单个句子间两个实体的关系,这一任务被称为句子级别关系抽取。然而,招投标文件中大量的实体关系是由多个句子联合表达的;
[0006]3)BERT要求的输入长度最大为512,而招投标文件实际文本长度远大于这个限制;且目前公开预训练模型是基于通用语料而非招投标领域专用,因此,期望提供改进的招投标要素抽取方案和获得一个招投标领域的预训练模型。

技术实现思路

[0007]为了克服上述现有技术的不足,本专利技术提供一种大幅提高开发效率,减少开发成本,突破了传统模型512文本长度的限制,可以高效要素嵌套,要素信息抽取的召回率高的基于NLP技术的招投标要素抽取方法、系统及存储介质。
[0008]为解决上述技术问题,本专利技术提供的技术方案为:一种基于NLP信息抽取技术的招投标要素抽取方法,包括以下步骤:
[0009]S1、获取招投标原始文件,从互联网中获招投标文件信息;
[0010]S2、将原始文件转换为纯文本文档,利用正则方法去除特殊字符串,根据规则将纯文本切分为句子集合并按行使用换行符\n拼接成新的文本文档,获得的预训练预料,对预料进行分词后对BERT进行训练,获得一个招投标领域的基于Transformer网络结构预训练模型A;
[0011]S3、获取标注训练样本,使用正则表达式匹配到的一部分数据,利用通用语言模型基于大量多样prompt模板匹配到的数据,最后人工校对获取到最后完整的样本;
[0012]S4、对标注样本进行数据增强:对大量招投标文件语料进行分词、聚类、筛选获得
要素关键字段语料,利用数据增强技术生成更多的训练样本;
[0013]S5、训练句子潜在要素类型识别模型B,将要素类型归纳汇总,分类,将M个要素归纳为N类,构建一个要素标签与要素类型有对应关系的要素字典表,训练一个基于句子级别的NER识别模型来识别句子可能蕴含的要素类型,将标注数据利用要素label标签通过要素字典表获取其所在句的类型,利用预训练模型获取CLS层特征作为句子表征,将一个句子表征作为一个token利用multi

head思想,构造出token

pair矩阵,通过GlobalPointer方法,获取句子的蕴含的要素类别,最后按照要素类型结合规则策略将同一具有要素类型标记的句子进行拼接组合,获得已知其蕴含要素信息类型的目标段落文本;
[0014]S6、训练要素及关系抽取模型C,从S5识别到的不同类型的段落集合中获取到该类型蕴含的所有要素信息以及要素间的关系;
[0015]S7、数据经过标准化模块输出结果:每个要素、每组关系对均有一个标准模型用于其标准化,一条新获取到的招投标原始文件,经过清洗处理,利用上述步骤获取到的模型A、B、C即可获取到该文件的要素信息,然后根据各要素信息的标准化输出格式标准化处理,如日期、金额、地址、电话、邮箱等抽取去的初步结果格式是多样的,最后的输出结果需要通过一个格式标准化模块统一格式,最后输出。
[0016]进一步地,所述S6的具体步骤包括,
[0017]S61、拿到要抽取信息的句子集合,根据句子集合类型构造schema:根据地址、联系人等信息,构造一个schema={中标单位名称:[地址,联系人,电话,中标金额]};
[0018]S62、构造模型输入,固定前缀prompt的形式,采用的是schema+text的拼接形式作为输入;
[0019]S63、模型输入信息经过预训练模型获取到token级别表征向量通过全连接层映射为维度为输出要素类型数量的特征向量,将所述特征向量通过sigmoid来判断该token是否为要素的开始或结尾,根据要素的开始和结尾即可完整的拿到要素信息。
[0020]进一步地,所述S61具体包括,
[0021]S611、首先获取要素“中标单位名称”,schema+text的拼接形式为中标单位名称+X,通过模型B获取到“中标单位名称”的开始和截止位置从而获取到“中标单位名称”位Y;
[0022]S612、获取Y的地址:schema+text的拼接形式为Y的地址+X,通过模型B获取到“地址”的开始和截止位置从而获取到“地址”;
[0023]S613、以此类推分别获取到Y的联系人,Y的电话,Y的中标金额。
[0024]进一步地,所述S613中不仅获取到中标金额的具体数字,还获取中标金额的单位是元还是万元。
[0025]一种基于NLP信息抽取技术的招投标要素抽取系统,包括处理器以及存储器,所述存储器用于存储所述处理的指令文件和算法模型;所述处理器配置包含招投标文件的数据获取模块、数据清洗模块、上述基于NLP技术的招标要素抽取方法的抽取模块、抽取结果的输出模块。
[0026]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于NLP技术的招标要素抽取方法及电子系统。
[0027]本专利技术与现有技术相比的优点在于:
[0028]基于少量标注数据,使得多种prompt模板模型中和数据增强技术获取大量标注样
本,最后人工校验样本获得大量高质量标注数据,标注数据的数量和质量是后续的模型的关键;将目前主流的抽取模型算法改进为基于BERT+GlobalPointer、在Ernie基础上进行预训练的prompt提示模型进行二级联合信息抽取,实现了:
[0029]1、大幅提高开发效率、减少开发成本,基于少量样本,即可完成模型的开发;
[0030]2、突破了传统模型512文本长度的限制,模型B不受长度影响;
[0031]3、本方法选用的多级联合信息抽取模型均为预测要素的开始和结尾,解决了传统方法不能高效解决要素嵌套的问题;
[0032]4、schema里面有多少个要素类别,要素识别中每次取一个类别作为p本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NLP信息抽取技术的招投标要素抽取方法,其特征在于,包括以下步骤:S1、获取招投标原始文件,从互联网中获招投标文件信息;S2、将原始文件转换为纯文本文档,利用正则方法去除特殊字符串,根据规则将纯文本切分为句子集合并按行使用换行符\n拼接成新的文本文档,获得的预训练预料,对预料进行分词后对BERT进行训练,获得一个招投标领域的基于Transformer网络结构预训练模型A;S3、获取标注训练样本,使用正则表达式匹配到的一部分数据,利用通用语言模型基于大量多样prompt模板匹配到的数据,最后人工校对获取到最后完整的样本;S4、对标注样本进行数据增强:对大量招投标文件语料进行分词、聚类、筛选获得要素关键字段语料,利用数据增强技术生成更多的训练样本;S5、训练句子潜在要素类型识别模型B,将要素类型归纳汇总,分类,将M个要素归纳为N类,构建一个要素标签与要素类型有对应关系的要素字典表,训练一个基于句子级别的NER识别模型来识别句子可能蕴含的要素类型,将标注数据利用要素label标签通过要素字典表获取其所在句的类型,利用预训练模型获取CLS层特征作为句子表征,将一个句子表征作为一个token利用multi

head思想,构造出token

pair矩阵,通过GlobalPointer方法,获取句子的蕴含的要素类别,最后按照要素类型结合规则策略将同一具有要素类型标记的句子进行拼接组合,获得已知其蕴含要素信息类型的目标段落文本;S6、训练要素及关系抽取模型C,从S5识别到的不同类型的段落集合中获取到该类型蕴含的所有要素信息以及要素间的关系;S7、数据经过标准化模块输出结果:每个要素、每组关系对均有一个标准模型用于其标准化,一条新获取到的招投标原始文件,经过清洗处理,利用上述步骤获取到的模型A、B、C即可获取到该文件的要素信息,然后根据各要素信息的标准化输出格式标准化处理,如日期、金额、地址、电话、邮箱等抽取去的初步结果格式是多样的,最后的输...

【专利技术属性】
技术研发人员:李正张晴晴徐立群郭海涛
申请(专利权)人:安徽智侒信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1