【技术实现步骤摘要】
基于自然语言处理技术的采购文件智能化审查方法及系统
[0001]本专利技术属于项目采购资料的智能化文本审查
,具体涉及一种基于自然语言处理技术的采购文件智能化审查方法及系统。
技术介绍
[0002]随着电网数字化转型的推动,信息中心作为项目建设主体,信息化项目数量逐年上升,2020年省公司预计下达到中心的信息化项目275个,总投资近3亿。而信息化项目全过程中涉及的模板及要求较多,计划建设部作为项目建设和招标采购的职能管理部门,项目建设过程模板、采购文件的审查均以人工处理的方式实现,效率不高且容易出错。随着审计意识的增强、项目管理精益化的提升,项目管理人员需要对技术规范书开展与可研估算工作项的点对点审查,确保技术规范书在可研范畴内且无缺漏,规避审计风险;同时需要对采购要素表及技术规范书开展关键点审核,确保采购文件的完整性和合理性。然而,由于项目数的激增,而招标工作时效性要求较高,项目管理专责需要审查的项目量两天高达59个分包,人工审查质量和时间的矛盾日益突出。一旦发生审查质量问题,势必给项目采购以及后续项目建设带来影响。因此如何克服现有技术的不足是目前采购资料的智能化文本审查
亟需解决的问题。
技术实现思路
[0003]本专利技术的目的是为了解决现有技术的不足,提供一种基于自然语言处理技术的采购文件智能化审查方法及系统,该方法主要通过对技术规范书和可研估算书中的工作项进行有效提取,再通过人工智能手段对数据进行分析、计算和比对处理,并将处理结果以审查报告形式向项目管理人员反馈,既减少人工审查中 ...
【技术保护点】
【技术特征摘要】
1.基于自然语言处理技术的采购文件智能化审查方法,其特征在于,包括如下步骤:步骤(1),通过对技术规范书与可研估算书采用web技术和框架实现文档线上模板的固化;步骤(2),导出固化后的技术规范书与可研估算书工作项部分的核心字段数据,进行数据预处理;其中,技术规范书中的核心字段包括项目前期准备、项目开发和项目推广实施;可研估算书中的核心字段包括建设费和设备购置费;步骤(3),采用相似性算法对经步骤(2)处理的技术规范书的核心字段数据、可研估算书的核心字段数据进行分析,得到审查报告。2.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,技术规范书与可研估算书均是标准的文档模板;采用web技术和控件将其固化至只能复制、识别其中的内容,无法进行修改,作为文档比对的标准。3.根据权利要求2所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,采用web技术和控件对文档进行固化的具体方法为:针对技术规范书与可研估算书中的项目文件模板,采用element组件库编写相应的表单页面;使用ActiveXObject控件将表单中的数据导出为相应word及excel文件。4.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,建设费字段包括项目开发、项目实施、集成开发、项目测试、技术咨询;设备购置费包括硬件设备购置和系统软件购置。5.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,步骤(2)中,数据预处理的方式包括文本分词、正则匹配、停用词处理、字符串处理和规约化数据。6.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,文本分词采用BiLSTM+CRF分词法。7.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,文本分词完成后,使用正则匹配的方式清洗文本字符串,把特殊符号、停用词进行过滤,得到一个词典库。8.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,规约化数据使用主成分分析算法,具体如下:原始数据X={x,x2,x3,...,x
n
}需要降到k维,x1到x
n
代表抽取的词向量矩阵;1)去中心化,每个特征向量值减去各自特征向量的平均值2)计算协方差3)用奇异值分解法求协方差矩阵的特征值与特征向量;4)对特征值从小到大排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P;5)将数据转换到k个特征向量构建的新空间中,即Y=PX,Y也就X是从n维降到k维后的结果。9.根据权利要求...
【专利技术属性】
技术研发人员:汤力,姜劲,杜洁,李芹,王菁,
申请(专利权)人:云南电网有限责任公司信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。