System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种投标参与信息抽取方法、装置、设备及介质制造方法及图纸_技高网

一种投标参与信息抽取方法、装置、设备及介质制造方法及图纸

技术编号:40146213 阅读:7 留言:0更新日期:2024-01-24 00:23
本申请提供一种投标参与信息抽取方法、装置、设备及介质,涉及招投标数据处理技术领域,用于解决招投标数据的信息抽取的准确性较差的问题。该投标参与信息抽取方法包括:对第一招投标数据进行预处理,获得第一文本数据;将第一文本数据输入训练后的信息抽取模型,获得第一文本数据中每个投标参与字段的类别和位置信息;训练后的信息抽取模型是基于已标注的数据集进行训练得到的;根据第一文本数据中每个投标参与字段的类别和位置信息,对第一文本数据中各个投标参与字段之间的关系进行匹配,获得第一招投标数据中的投标参与信息。该方法基于投标参与字段的类别和位置信息进行信息抽取,提高了招投标数据的信息抽取的准确性。

【技术实现步骤摘要】

本申请涉及招投标数据处理,提供一种投标参与信息抽取方法、装置、设备及介质


技术介绍

1、招投标领域公开的相关公告包括中标候选人公告、评标结果公告、开标记录公告等,根据这些公告,挖掘投标过程产生的投标数据信息可以帮助企业和个人了解市场竞争情况,发现潜在商机和合作机会,优化市场营销策略,提高业务效率和竞争力。

2、命名实体识别(named entity recognition,ner)是指识别中文文本中实体的边界和类别,是本文处理中的技术基础,常用于数据挖掘领域。现有技术中,对开标记录公告数据进行ner,基于预先设置的关键词词库和正则表达式进行信息抽取处理,获得开标记录信息。然而招投标领域的信息表述复杂,不同地区有不同标准,同一地区不同行业的信息表述也不统一,一旦表述信息的方式发生变化,正则表达式和关键词词库不适配这种变化,就会导致信息抽取的准确性较差。


技术实现思路

1、本申请实施例提供一种投标参与信息抽取方法、装置、设备及介质,用于解决招投标数据的信息抽取的准确性较差的问题。

2、一方面,提供一种投标参与信息抽取方法,所述投标参与信息抽取方法包括:

3、对第一招投标数据进行预处理,获得第一文本数据;

4、将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息;其中,所述训练后的信息抽取模型是基于已标注的数据集进行训练得到的;所述已标注的数据集包括多个投标参与字段的真实类别和真实位置信息;所述每个投标参与字段的位置信息用于指示每个投标参与字段在上下文中的起始位置和结束位置;

5、根据所述第一文本数据中每个投标参与字段的类别和位置信息,对所述第一文本数据中各个投标参与字段之间的关系进行匹配,获得所述第一招投标数据中的投标参与信息;所述投标参与信息用于指示投标过程中的关键信息。

6、可选的,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

7、获取招投标领域公开的第二招投标数据;

8、对所述第二招投标数据进行预处理,获得第二文本数据;

9、分别为所述第二文本数据中每个投标参与字段标注真实类别和真实位置信息,获得第三文本数据;

10、根据所述第三文本数据,获得所述已标注的数据集。

11、可选的,所述根据所述第三文本数据,获得所述已标注的数据集的步骤包括:

12、采用bio标注法对所述第三文本数据中的每个词进行标注,获得已标注的第三文本数据;

13、根据所述已标注的第三文本数据,获得所述已标注的数据集。

14、可选的,所述根据所述已标注的第三文本数据,获得所述已标注的数据集的步骤包括:

15、按照预设的标注规则,对所述已标注的第三文本数据进行检查,获得所述已标注的数据集。

16、可选的,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

17、将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型,输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息;

18、根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差,建立目标损失函数;

19、根据所述目标损失函数调整所述初始信息抽取模型的参数,直至所述目标损失函数的输出值满足预设条件,获得所述训练后的信息抽取模型。

20、可选的,在将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型,输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息之前,所述投标参与信息抽取方法还包括:

21、采用双向长短时记忆网络bilstm和条件随机场crf的神经网络结构搭建所述初始信息抽取模型。

22、可选的,所述根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差,建立目标损失函数的步骤包括:

23、根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差,建立原始损失函数;

24、通过交叉验证法确定目标正则化参数;

25、在所述原始损失函数中增加所述目标正则化参数,建立目标损失函数。

26、一方面,提供一种投标参与信息抽取装置,所述投标参与信息抽取装置包括:

27、预处理模块,用于对第一招投标数据进行预处理,获得第一文本数据;

28、预测模块,用于将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息;其中,所述训练后的信息抽取模型是基于已标注的数据集进行训练得到的;所述已标注的数据集包括多个投标参与字段的真实类别和真实位置信息;所述每个投标参与字段的位置信息用于指示每个投标参与字段在上下文中的起始位置和结束位置;

29、信息获得模块,用于根据所述第一文本数据中每个投标参与字段的类别和位置信息,对所述第一文本数据中各个投标参与字段之间的关系进行匹配,获得所述第一招投标数据中的投标参与信息;所述投标参与信息用于指示投标过程中的关键信息。

30、一方面,提供一种电子设备,所述设备包括:

31、存储器,用于存储程序指令、解码数据以及解码数据;

32、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述任一种投标参与信息抽取方法包括的步骤。

33、一方面,提供一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述任一种投标参与信息抽取方法包括的步骤。

34、本申请实施例中,对第一招投标数据进行预处理,获得第一文本数据;将第一文本数据输入训练后的信息抽取模型,获得第一文本数据中每个投标参与字段的类别和位置信息;训练后的信息抽取模型是基于已标注的数据集进行训练得到的;已标注的数据集包括多个投标参与字段的真实类别和真实位置信息;根据第一文本数据中每个投标参与字段的类别和位置信息,对第一文本数据中各个投标参与字段之间的关系进行匹配,获得第一招投标数据中的投标参与信息。因此,在本申请实施例中,通过训练后的信息抽取模型获得投标参与字段的类别和位置信息,基于投标参与字段的类别和位置信息再进行信息抽取,考虑了不同投标参与字段之间的关系,可以从第一招投标数据中抽取出更加准确的投标参与信息。

本文档来自技高网...

【技术保护点】

1.一种投标参与信息抽取方法,其特征在于,所述投标参与信息抽取方法包括:

2.如权利要求1所述的投标参与信息抽取方法,其特征在于,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

3.如权利要求2所述的投标参与信息抽取方法,其特征在于,所述根据所述第三文本数据,获得所述已标注的数据集的步骤包括:

4.如权利要求3所述的投标参与信息抽取方法,其特征在于,所述根据所述已标注的第三文本数据,获得所述已标注的数据集的步骤包括:

5.如权利要求1-4中任一项所述的投标参与信息抽取方法,其特征在于,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

6.如权利要求5所述的投标参与信息抽取方法,其特征在于,在将所述已标注的数据集中各个投标参与字段输入初始信息抽取模型,输出所述已标注的数据集中各个投标参与字段的预测类别和预测位置信息之前,所述投标参与信息抽取方法还包括:

7.如权利要求5所述的投标参与信息抽取方法,其特征在于,所述根据所述已标注的数据集中各个投标参与字段的预测类别和真实类别之间的误差、所述已标注的数据集中各个投标参与字段的预测位置信息和真实位置信息之间的误差,建立目标损失函数的步骤包括:

8.一种投标参与信息抽取装置,其特征在于,所述投标参与信息抽取装置包括:

9.一种电子设备,其特征在于,所述设备包括:

10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的投标参与信息抽取方法包括的步骤。

...

【技术特征摘要】

1.一种投标参与信息抽取方法,其特征在于,所述投标参与信息抽取方法包括:

2.如权利要求1所述的投标参与信息抽取方法,其特征在于,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

3.如权利要求2所述的投标参与信息抽取方法,其特征在于,所述根据所述第三文本数据,获得所述已标注的数据集的步骤包括:

4.如权利要求3所述的投标参与信息抽取方法,其特征在于,所述根据所述已标注的第三文本数据,获得所述已标注的数据集的步骤包括:

5.如权利要求1-4中任一项所述的投标参与信息抽取方法,其特征在于,在将所述第一文本数据输入训练后的信息抽取模型,获得所述第一文本数据中每个投标参与字段的类别和位置信息之前,所述投标参与信息抽取方法还包括:

6....

【专利技术属性】
技术研发人员:张森许云侠黄学涛盛润唐明建张润南张大丽张纯豪畅敏温小波杨伟栋巩建田财瑞张胜为杨亮亮蔡智勇郭星辉冯波吴昊
申请(专利权)人:四川隧唐科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1