System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种招投标文件字段抽取方法、装置、设备及介质制造方法及图纸_技高网

一种招投标文件字段抽取方法、装置、设备及介质制造方法及图纸

技术编号:40807473 阅读:5 留言:0更新日期:2024-03-28 19:30
本发明专利技术实施例提供一种招投标文件字段抽取方法、装置、设备及介质,涉及文件数据处理技术领域。所述招投标文件字段抽取方法包括:收集多个历史招投标文件,分别将每一历史招投标文件中所有预设信息类别的字段作为一个训练样本,得到训练样本集,并对训练样本集进行预处理,得到微调样本集;采用训练样本集对预先建立的深度学习模型进行训练,得到初始字段抽取模型,并采用微调样本集对初始字段抽取模型进行调优,得到目标字段抽取模型;基于目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的目标招投标文件中所有预设信息类别的字段均作为目标字段,得到目标招投标文件中的所有目标字段。本发明专利技术实施例能够提高招投标文件字段抽取效率。

【技术实现步骤摘要】

本专利技术涉及文件数据处理,具体而言,涉及一种招投标文件字段抽取方法、装置、设备及介质


技术介绍

1、现有的招投标文件字段抽取方法,主要是先获取招投标文件的所有文本数据,再采用正则匹配、关键词匹配等匹配方式从这些文本数据中抽取出目标字段。但随着招投标文件的内容趋于复杂化和格式趋于多样化,文本数据的非结构化程度也不断加深,需要依赖庞大的匹配规则库,这在一定程度上限制了招投标文件字段抽取效率。


技术实现思路

1、本专利技术实施例的目的在于提供一种招投标文件字段抽取方法、装置、设备及介质,用以实现提高招投标文件字段抽取效率的技术效果。

2、第一方面,本专利技术实施例提供一种招投标文件字段抽取方法,包括:

3、收集多个历史招投标文件,分别将每一所述历史招投标文件中所有预设信息类别的字段作为一个训练样本,得到训练样本集,并对所述训练样本集进行预处理,得到微调样本集;

4、采用所述训练样本集对预先建立的深度学习模型进行训练,得到初始字段抽取模型,并采用微调样本集对所述初始字段抽取模型进行调优,得到目标字段抽取模型;

5、基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段。

6、在上述实现过程中,通过获取训练样本集和微调样本集来建立目标字段抽取模型,基于目标字段抽取模型对目标招投标文件进行字段抽取,能够提高招投标文件字段抽取效率。

7、进一步地,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

8、将所有所述目标字段中任一预设信息类别属于统计信息的目标字段作为待核验字段,对所述待核验字段进行数据核验;

9、若所述待核验字段通过数据核验,则按照预设统计单位换算所述待核验字段的取值,将所述待核验字段的取值更新为换算值;

10、若所述待核验字段未通过数据核验,则将所述待核验字段的取值设置为空值。

11、在上述实现过程中,通过对预设信息类别属于统计信息的目标字段进行数据核验,不仅可以提前对所有统计信息类的正确数据进行统一的单位换算,而且可以初步剔除所有统计信息类的错误数据,能够进一步提高招投标文件字段抽取效率。

12、进一步地,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

13、将所有所述目标字段中所有取值不为空值的目标字段均作为非空字段,将所有所述目标字段中所有取值为空值的目标字段均作为空字段;

14、对于每一所述空字段,根据预先定义的统计规则集,判断是否可结合所有所述非空字段的取值推算所述空字段;

15、若可以结合所有所述非空字段的取值推算所述空字段,则基于所述统计规则集,结合所有所述非空字段的值计算所述空字段的推算值,将所述空字段的取值更新为所述推算值;

16、若不可以结合所有所述非空字段的取值推算所述空字段,则剔除所述空字段。

17、在上述实现过程中,通过对取值为空值的目标字段进行规则推算,不仅可以对所有目标字段中的假缺失数据进行准确补值,而且可以二次剔除所有目标字段中的真缺失数据,能够进一步提高招投标文件字段抽取效率。

18、进一步地,在所述分别将每一所述历史招投标文件中所有预设信息类别的字段作为一个训练样本,得到训练样本集之前,还包括:

19、根据预先定义的匹配规则集,分别提取每一所述历史招投标文件中所有所述预设信息类别的字段;其中,所述匹配规则集包括至少一条正则匹配规则和/或至少一条关键词匹配规则。

20、在上述实现过程中,通过根据预先定义的匹配规则集提取历史招投标文件中所有预设信息类别的字段,能够保证快速准确地获取训练样本集,有利于进一步提高招投标文件字段抽取效率。

21、进一步地,所述对所述训练样本集进行预处理,得到微调样本集,具体包括:

22、根据所述训练样本集中所有训练样本的样本标签,将所述训练样本集划分为正确训练样本集和错误训练样本集;

23、对错误训练样本集中的所有错误训练样本进行清洗处理,得到纠正训练样本集;

24、合并所述正确训练样本集和所述纠正训练样本集,得到所述微调样本集。

25、在上述实现过程中,通过对训练样本集中的错误训练样本进行清洗处理,得到微调样本集,能够采用样本准确率更高的微调样本集对初始字段抽取模型进行进一步的调优,有利于提高模型准确率。

26、进一步地,所述采用所述训练样本集训练预先建立的深度学习模型,得到初始字段抽取模型,具体包括:

27、对所述深度学习模型的模型参数进行初始化,得到初始模型;

28、采用所述训练样本集迭代训练所述初始模型,直至满足第一预设停止条件,得到中间模型;

29、判断所述中间模型输出的重构样本集与所述训练样本集的误差是否小于第一预设误差阈值;

30、若所述中间模型输出的重构样本集与所述训练样本集的误差小于所述第一预设误差阈值,则将所述中间模型作为所述初始字段抽取模型;

31、若所述中间模型输出的重构样本集与所述训练样本集的误差不小于所述第一预设误差阈值,则重新采用所述训练样本集迭代训练所述初始模型。

32、在上述实现过程中,通过采用训练样本集迭代训练初始化后的深度学习模型,得到训练后的深度学习模型,且仅在训练后的深度学习模型的准确率达标时才将其选作初始字段抽取模型,能够有效提高模型准确率。

33、进一步地,所述采用微调样本集对所述初始字段抽取模型进行调优,得到目标字段抽取模型,具体包括:

34、响应用户输入的模型参数配置请求,调整所述初始字段抽取模型的模型参数,得到微调模型;

35、采用所述微调样本集迭代训练所述微调模型,直至满足第二预设停止条件,得到优化模型;

36、判断所述优化模型输出的重构样本集与所述微调样本集的误差是否小于第二预设误差阈值;

37、若所述优化模型输出的重构样本集与所述微调样本集的误差小于所述第二预设误差阈值,则将所述优化模型作为所述目标字段抽取模型;

38、若所述优化模型输出的重构样本集与所述微调样本集的误差不小于所述第二预设误差阈值,则等待响应用户下次输入的模型参数配置请求。

39、在上述实现过程中,通过采用微调样本集迭代训练用户调参后的深度学习模型,得到优化后的深度学习模型,且仅在优化后的深度学习模型的准确率达标时才将其选作目标字段抽取模型,能够有效提高模型准确率。

40、第二方面,本专利技术实施例提供一种招本文档来自技高网...

【技术保护点】

1.一种招投标文件字段抽取方法,其特征在于,包括:

2.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

3.根据权利要求1或2所述的招投标文件字段抽取方法,其特征在于,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

4.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,在所述分别将每一所述历史招投标文件中所有预设信息类别的字段作为一个训练样本,得到训练样本集之前,还包括:

5.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,所述对所述训练样本集进行预处理,得到微调样本集,具体包括:

6.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,所述采用所述训练样本集训练预先建立的深度学习模型,得到初始字段抽取模型,具体包括:

7.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,所述采用微调样本集对所述初始字段抽取模型进行调优,得到目标字段抽取模型,具体包括:

8.一种招投标文件字段抽取装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序;所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时实现根据权利要求1至7任一项所述的招投标文件字段抽取方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行根据权利要求1至7任一项所述的招投标文件字段抽取方法。

...

【技术特征摘要】

1.一种招投标文件字段抽取方法,其特征在于,包括:

2.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

3.根据权利要求1或2所述的招投标文件字段抽取方法,其特征在于,在所述基于所述目标字段抽取模型对目标招投标文件进行字段抽取,将抽取的所述目标招投标文件中所有所述预设信息类别的字段均作为目标字段,得到所述目标招投标文件中的所有目标字段之后,还包括:

4.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,在所述分别将每一所述历史招投标文件中所有预设信息类别的字段作为一个训练样本,得到训练样本集之前,还包括:

5.根据权利要求1所述的招投标文件字段抽取方法,其特征在于,所述对所述训练样本集进行预处理,得到微调...

【专利技术属性】
技术研发人员:左云超梁达
申请(专利权)人:北京千里马网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1