【技术实现步骤摘要】
一种基于NLP技术的招投标要素抽取方法、系统及存储介质
[0001]本专利技术涉及招投标
,尤其涉及一种基于NLP技术的招投标要素抽取方法、系统及存储介质。
技术介绍
[0002]招投标文件是招采人为某项采购需求发布的申请信息、招采内容公告信息以及后续评比、中标等流程中发布的内容信息。不同的地区、招采流程和过程,其结构框架和编写格式可能略微不同。常见的有招采公告,评标公告,中标公告,变更澄清公告等等(以下统称为招投标文件),由于招投标文件中记载有招采过程和结果等重要信息,这些信息具有重要的分析和关注的价值,例如抽取大量中标文件的招采商品(项目)名称、预算金额、中标金额。中标单位、工程地点进行招采人、中标人画像分析,企业经营信用分析等。
[0003]目前主流的方法为利用BERT+BILSTM+CRF进行要素识别,然后利用分类模型判别要素间存在的关系,但在应用于招标中标公告中关键字段和关系抽取的实践中存在如下困难:
[0004]1)训练模型需要大量高质量的人工标柱数据,而这些标柱数据的获得需要大量人力物力财 ...
【技术保护点】
【技术特征摘要】
1.一种基于NLP信息抽取技术的招投标要素抽取方法,其特征在于,包括以下步骤:S1、获取招投标原始文件,从互联网中获招投标文件信息;S2、将原始文件转换为纯文本文档,利用正则方法去除特殊字符串,根据规则将纯文本切分为句子集合并按行使用换行符\n拼接成新的文本文档,获得的预训练预料,对预料进行分词后对BERT进行训练,获得一个招投标领域的基于Transformer网络结构预训练模型A;S3、获取标注训练样本,使用正则表达式匹配到的一部分数据,利用通用语言模型基于大量多样prompt模板匹配到的数据,最后人工校对获取到最后完整的样本;S4、对标注样本进行数据增强:对大量招投标文件语料进行分词、聚类、筛选获得要素关键字段语料,利用数据增强技术生成更多的训练样本;S5、训练句子潜在要素类型识别模型B,将要素类型归纳汇总,分类,将M个要素归纳为N类,构建一个要素标签与要素类型有对应关系的要素字典表,训练一个基于句子级别的NER识别模型来识别句子可能蕴含的要素类型,将标注数据利用要素label标签通过要素字典表获取其所在句的类型,利用预训练模型获取CLS层特征作为句子表征,将一个句子表征作为一个token利用multi
‑
head思想,构造出token
‑
pair矩阵,通过GlobalPointer方法,获取句子的蕴含的要素类别,最后按照要素类型结合规则策略将同一具有要素类型标记的句子进行拼接组合,获得已知其蕴含要素信息类型的目标段落文本;S6、训练要素及关系抽取模型C,从S5识别到的不同类型的段落集合中获取到该类型蕴含的所有要素信息以及要素间的关系;S7、数据经过标准化模块输出结果:每个要素、每组关系对均有一个标准模型用于其标准化,一条新获取到的招投标原始文件,经过清洗处理,利用上述步骤获取到的模型A、B、C即可获取到该文件的要素信息,然后根据各要素信息的标准化输出格式标准化处理,如日期、金额、地址、电话、邮箱等抽取去的初步结果格式是多样的,最后的输...
【专利技术属性】
技术研发人员:李正,张晴晴,徐立群,郭海涛,
申请(专利权)人:安徽智侒信信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。