基于自然语言处理技术的采购文件智能化审查方法及系统技术方案

技术编号:27509759 阅读:16 留言:0更新日期:2021-03-02 18:39
本发明专利技术涉及一种基于自然语言处理技术的采购文件智能化审查方法及系统,属于项目采购资料的智能化文本审查技术领域。首先,通过对技术规范书与可研估算书采用web技术和框架实现文档线上模板的固化;导出固化后的技术规范书与可研估算书工作项部分的核心字段数据,进行数据预处理;采用相似性算法对处理后的技术规范书的核心字段数据、可研估算书的核心字段数据进行分析,得到审查报告。本发明专利技术减少人工审查中重复性、繁琐性的工作,又避免了因高负荷人工审查而出现细节性错误,易于推广应用。易于推广应用。易于推广应用。

【技术实现步骤摘要】
基于自然语言处理技术的采购文件智能化审查方法及系统


[0001]本专利技术属于项目采购资料的智能化文本审查
,具体涉及一种基于自然语言处理技术的采购文件智能化审查方法及系统。

技术介绍

[0002]随着电网数字化转型的推动,信息中心作为项目建设主体,信息化项目数量逐年上升,2020年省公司预计下达到中心的信息化项目275个,总投资近3亿。而信息化项目全过程中涉及的模板及要求较多,计划建设部作为项目建设和招标采购的职能管理部门,项目建设过程模板、采购文件的审查均以人工处理的方式实现,效率不高且容易出错。随着审计意识的增强、项目管理精益化的提升,项目管理人员需要对技术规范书开展与可研估算工作项的点对点审查,确保技术规范书在可研范畴内且无缺漏,规避审计风险;同时需要对采购要素表及技术规范书开展关键点审核,确保采购文件的完整性和合理性。然而,由于项目数的激增,而招标工作时效性要求较高,项目管理专责需要审查的项目量两天高达59个分包,人工审查质量和时间的矛盾日益突出。一旦发生审查质量问题,势必给项目采购以及后续项目建设带来影响。因此如何克服现有技术的不足是目前采购资料的智能化文本审查
亟需解决的问题。

技术实现思路

[0003]本专利技术的目的是为了解决现有技术的不足,提供一种基于自然语言处理技术的采购文件智能化审查方法及系统,该方法主要通过对技术规范书和可研估算书中的工作项进行有效提取,再通过人工智能手段对数据进行分析、计算和比对处理,并将处理结果以审查报告形式向项目管理人员反馈,既减少人工审查中重复性、繁琐性的工作,又避免了因高负荷人工审查而出现细节性错误,有助于项目管理质量的提升。
[0004]为实现上述目的,本专利技术采用的技术方案如下:
[0005]基于自然语言处理技术的采购文件智能化审查方法,包括如下步骤:
[0006]步骤(1),通过对技术规范书与可研估算书采用web技术和框架实现文档线上模板的固化;
[0007]步骤(2),导出固化后的技术规范书与可研估算书工作项部分的核心字段数据,进行数据预处理;
[0008]其中,技术规范书中的核心字段包括项目前期准备、项目开发和项目推广实施;可研估算书中的核心字段包括建设费和设备购置费;
[0009]步骤(3),采用相似性算法对经步骤(2)处理的技术规范书的核心字段数据、可研估算书的核心字段数据进行分析,得到审查报告。
[0010]进一步,优选的是,技术规范书与可研估算书均是标准的文档模板;采用web技术和控件将其固化至只能复制、识别其中的内容,无法进行修改,作为文档比对的标准。
[0011]进一步,优选的是,采用web技术和控件对文档进行固化的具体方法为:针对技术
规范书与可研估算书中的项目文件模板,采用element组件库编写相应的表单页面;使用ActiveXObject控件将表单中的数据导出为相应word及excel文件。
[0012]进一步,优选的是,建设费字段包括项目开发、项目实施、集成开发、项目测试、技术咨询;设备购置费包括硬件设备购置和系统软件购置。
[0013]进一步,优选的是,步骤(2)中,数据预处理的方式包括文本分词、正则匹配、停用词处理、字符串处理和规约化数据。
[0014]进一步,优选的是,文本分词采用BiLSTM+CRF分词法。
[0015]进一步,优选的是,文本分词完成后,使用正则匹配的方式清洗文本字符串,把特殊符号、停用词进行过滤,得到一个词典库。
[0016]进一步,优选的是,规约化数据使用主成分分析算法,具体如下:
[0017]原始数据X={x,x2,x3,...,x
n
}需要降到k维,x1到x
n
代表抽取的词向量矩阵;
[0018]1)去中心化,每个特征向量值减去各自特征向量的平均值
[0019]2)计算协方差
[0020]3)用奇异值分解法求协方差矩阵的特征值与特征向量;
[0021]4)对特征值从小到大排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P;
[0022]5)将数据转换到k个特征向量构建的新空间中,即Y=PX,Y也就X是从n维降到k维后的结果。
[0023]进一步,优选的是,所述步骤(3)中,相似性算法采用综合相似性算法,即分别采用三种不用的相似性算法计算核心字段数据的相似性,然后对各相似性利用加权平均的方式得到综合相似性,具体处
[0024]理方式如下:
[0025]字符的编辑距离相似度:
[0026]增加操作:
[0027]d1=ED(A
i-1
,B
j
)+1
[0028]删除操作:
[0029]d2=ED(A
i
,B
j-1
)+1
[0030]修改操作:
[0031][0032]取以上3个最小的一个为最小编辑距离,得到状态转移方程:
[0033][0034]上式中,d1,d2,d3分别表示增加、删除、修改操作的编辑距离相似度;A和B表示要进
行比较的两个字符串;ED为编辑距离函数;表示最小编辑距离;L
A
,L
B
分别表示当A或者B为的长度,A
i
表示A中第i个字符;B
j
表示B中第j个字符;
[0035]Jaccard系数相似度:
[0036][0037]上式中,表示A,B属性同时为0的属性个数;表示A属性为0且B属性为1的属性个数;表示A属性为1且B属性为0的属性个数;表示A,B属性同时为1的属性个数;
[0038]余弦相似度:
[0039][0040]式中,cosα为两个字符串之间的余弦距离,x
i
和y
i
为两个字符的词向量;
[0041]对以上三种相似性采用加权平均的方式得到综合相似性:
[0042][0043]式中,λ、λ、λ为三种相似度距离对应的系数;
[0044]以句子为最小检测单位,通过综合相似性得到技术规范书的核心字段数据、可研估算书的核心字段数据相似性;
[0045]输出核心字段的审查报告。
[0046]本专利技术同时提供一种基于自然语言处理技术的采购文件智能化审查系统,采用上述基于自然语言处理技术的采购文件智能化审查方法,包括:
[0047]数据采集装置,用于采集技术规范书与可研估算书;
[0048]模板固化模块,与数据采集装置相连,用于对采集到的技术规范书与可研估算书进行固化至只能复制、识别其中的内容,无法进行修改;
[0049]核心字段数据导出模块,与模板固化模块相连,用于导出固化后的技术规范书与可研估算书工作项部分的核心字段数据;
[0050]数据预处理模块,与核心字段数据到处模块相连,用于对导出的核心字段数据进行数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理技术的采购文件智能化审查方法,其特征在于,包括如下步骤:步骤(1),通过对技术规范书与可研估算书采用web技术和框架实现文档线上模板的固化;步骤(2),导出固化后的技术规范书与可研估算书工作项部分的核心字段数据,进行数据预处理;其中,技术规范书中的核心字段包括项目前期准备、项目开发和项目推广实施;可研估算书中的核心字段包括建设费和设备购置费;步骤(3),采用相似性算法对经步骤(2)处理的技术规范书的核心字段数据、可研估算书的核心字段数据进行分析,得到审查报告。2.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,技术规范书与可研估算书均是标准的文档模板;采用web技术和控件将其固化至只能复制、识别其中的内容,无法进行修改,作为文档比对的标准。3.根据权利要求2所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,采用web技术和控件对文档进行固化的具体方法为:针对技术规范书与可研估算书中的项目文件模板,采用element组件库编写相应的表单页面;使用ActiveXObject控件将表单中的数据导出为相应word及excel文件。4.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,建设费字段包括项目开发、项目实施、集成开发、项目测试、技术咨询;设备购置费包括硬件设备购置和系统软件购置。5.根据权利要求1所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,步骤(2)中,数据预处理的方式包括文本分词、正则匹配、停用词处理、字符串处理和规约化数据。6.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,文本分词采用BiLSTM+CRF分词法。7.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,文本分词完成后,使用正则匹配的方式清洗文本字符串,把特殊符号、停用词进行过滤,得到一个词典库。8.根据权利要求5所述的基于自然语言处理技术的采购文件智能化审查方法,其特征在于,规约化数据使用主成分分析算法,具体如下:原始数据X={x,x2,x3,...,x
n
}需要降到k维,x1到x
n
代表抽取的词向量矩阵;1)去中心化,每个特征向量值减去各自特征向量的平均值2)计算协方差3)用奇异值分解法求协方差矩阵的特征值与特征向量;4)对特征值从小到大排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P;5)将数据转换到k个特征向量构建的新空间中,即Y=PX,Y也就X是从n维降到k维后的结果。9.根据权利要求...

【专利技术属性】
技术研发人员:汤力姜劲杜洁李芹王菁
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1