招投标信息抽取结果筛选系统及方法技术方案

技术编号:26597677 阅读:16 留言:0更新日期:2020-12-04 21:19
本发明专利技术公开了一种招投标信息抽取结果筛选系统及方法,旨在解决现有的招标信息抽取结果不准确的技术问题。本发明专利技术包括四个部分:1、配置属性权重表;2、导入抽取结果、为多个结果初始化得分;3、结合属性权重表计算每个抽取结果的属性的加权结果;4、选择加权结果的值最大的抽取结果作为最佳抽取结果。本发明专利技术的有益技术效果在于:准确性高、灵活性强、效率高。

【技术实现步骤摘要】
招投标信息抽取结果筛选系统及方法
本专利技术涉及互联网数据信息处理
,具体涉及一种招投标信息抽取结果筛选系统及方法。
技术介绍
当前,随着互联网技术的发展,越来越多企业和单位开始利用互联网发布招投标信息。随着信息量的急剧增长,投标人越来越依赖招投标检索、推送服务来获取相关的招投标信息。但是现有的招投标信息检索在数据准确性、精准匹配等方面存在着很多不足之处。一般通过网络爬虫采集到的招投标数据,抽取的过程可能会匹配到多个疑似结果,很难选出较为准确且合理的结果。目前常见的选取方案有:1)首个确定原则:匹配到的第一个结果,作为最终结果;2)随机原则:对于多个匹配的结果,随机选择一个作为最终结果。这两种办法很类似,均存在很大不确定因素,选取的最终结果,不一定是最佳。
技术实现思路
本专利技术提供一种招投标信息抽取结果筛选系统及方法,以解决现有的招标信息抽取结果不准确的技术问题。为解决上述技术问题,本专利技术采用如下技术方案:设计一种招投标信息抽取结果筛选系统,包括前置参数设置单元、初始化得分设置单元、结果得分计算单元、输出单元;前置参数设置单元,用于为抽取结果的属性分配权值;初始化得分设置单元,用于为抽取结果设置初始分数;结果得分计算单元,用于计算抽取结果经过属性加权后的分数;输出单元,用于将加权结果进行排序并提取数值最大的所述加权结果代表的抽取结果作为最终的抽取结果。进一步的,抽取结果的属性包括字符长度、正/负面词、数值范围、段落索引、抽取方式、字段标签。还设计一种招投标信息抽取结果筛选方法,包括以下步骤:S1:计算机处理器配置表示信息抽取结果的属性权重表,为每组属性分配权值;S2:计算机将抽取到的招投标信息导入内存,并为每一项信息赋予一个初始得分;S3:处理器根据每一个抽取结果的属性权值计算其最终得分;S4:选择步骤S3中最终得分最大的抽取结果作为输出的抽取结果。优选的,在步骤S3中,将初始得分依次和抽取结果的每一个属性的权值相乘,得出的结果即为最终得分。优选的,属性权重表包括所在段落索引、抽取方式、字段标签、正面词、负面词、字符长度范围匹配、数值范围。优选的,段落索引、抽取方式、字段标签为数据抽取的过程产生的附加数据。优选的,抽取方式包括权值为1的标签值对序列,权值为0.9的表格识别,以及权值为0.7的正则表达式。优选的,正面词权值为1,所述负面词权值为0.7。优选的,在步骤S4中,对所述加权结果进行逆序排列,最顶端的即为得分最高的抽取结果。与现有技术相比,本专利技术的主要有益技术效果包括:1.本专利技术处理所得信息准确度高,多个疑似结果集经过各种要素打分,能有效选出最为合理的结果,提高招投标信息检索的准确性。2.本专利技术使用设置灵活性强,可以根据属性特点配置每个打分环节的权重表,对于不同的招投标信息的提取仅需要改变预设的权值参数,即可重复利用,扩大使用范围。3.本专利技术能自动抽取最佳结果,大大减少了人工核对的工作量,有利于在保证质量的前提下提高工作效率。附图说明图1为本专利技术招投标信息抽取结果筛选方法的流程图。具体实施方式下面结合附图和实施例来说明本专利技术的具体实施方式,但以下实施例只是用来详细说明本专利技术,并不以任何方式限制本专利技术的范围。以下实施例中所涉及或依赖的程序/或方法,如无特别说明则均为本
的常规程序或简单程序,本领域技术人员均能根据具体应用场景做出常规选择或者适应性调整。实施例1:一种招投标信息抽取结果筛选系统,包括以下四个部分:(1)前置参数设置单元,用于为抽取结果的属性分配权值;通过网络爬虫爬取的招投标数据包括用于输出的正面词、负面词、字符长度范围匹配、数值范围;以及抽取过程中产生的中间数据,包括段落索引、抽取方式、字段标签。字段标签指在招投标文本中,包含项目字段(如项目名称、采购单位名称、采购单位联系人、采购单位联系方式、项目预算、中标价、中标单位等)的位置,在项目字段之前总会有相应的描述或介绍类的句子、短语、词汇,我们称之为项目字段标签,比如表一中的项目标号就是字段标签。根据历史数据收集有项目名称、采购单位名称等项目字段标签库,每类标签库包含了大多数网站对项目字段的不同叫法。抽取方式,是指采用何种方法采集到的数据,不同抽取方式对数据正确度存在一定的影响,常规来说正确度的排名顺序是:标签值对序列>表格识别>正则表达式抽取。比如设置抽取方式权重表[标签值对序列:1,表格识别:0.9,正则表达式抽取:0.7]。正面词、负面词,对于不同项目字段,配置正面、负面词库,抽取结果匹配上正面、负面词库时,会对结果进行加降权(奖励、惩罚),包含正面词汇给予奖励,包含负面词汇给予惩罚。比如设置正负面权重表[正面词正则表达式/.{2,100}(项目|工程|施工|服务|设备|采购|设计|系统)$/权重1.0;负面词正则表达式/^(\\[|[)/权重:0.7],表示出现上述词语为正面词,记为1.0,出现的不是上述词语即为负面词,记为0.7。字符长度匹配范围,对于不同项目字段(主要是字符类型的),配置字符长度范围匹配权重表,根据历史经验设定项目字段字符长度范围,对于超过范围的数据进行按权重惩罚;比如可以设置字符长度匹配范围为[字符长度>0并且字符长度≤3权重:0.2;字符长度>3并且字符长度≤5权重:0.7;字符长度>5并且字符长度≤35权重:1;字符长度>35权重:0.7]。数值范围,对于不同项目字段(主要是数值类型的,如合同金额),配置数据范围权重表,根据历史经验设定项目字段数值范围,对于超过范围的数据进行按权重惩罚。比如设置数值范围[省级项目项目金额>0并且项目金额≤50000权重:0.7;省级项目项目金额>50000并且项目金额≤10000000权重:1省级项目项目金额>10000000并且项目金额≤100000000权重:0.8;省级项目项目金额>100000000权重:0.6;市级项目项目金额>0并且项目金额≤50000权重:0.7;市级项目项目金额>50000并且项目金额≤10000000权重:1;市级项目项目金额>10000000权重:0.7]。(2)导入抽取结果、初始化得分;网络爬虫在抽取结果时,需要识别每一个结果的特征属性,比如该结果含有几个字符,是否含有某些词语,所处段落编号等等;本系统的第二部分就是为了将这些在数据抽取过程中生成的结果以及特征属性整理之后,然后将这些所有的结果放入缓存等待评价和筛选。(3)结果得分计算单元,计算每个抽取结果的加权值;具体的,为每个抽取结果赋予一个初始值,然后在第一个部分前置参数设置单元找到抽取结果的每个属性对应的权值,将初始值分别和每一个属性的权值相乘得到一个分数,然后将这些分数求和得到最终得分。(4)输出单元,将第三部分结果计算单元中每个结果本文档来自技高网
...

【技术保护点】
1.一种招投标信息抽取结果筛选系统,其特征在于,包括前置参数设置单元、初始化得分设置单元、结果得分计算单元、输出单元;/n所述前置参数设置单元,用于为抽取结果的属性分配权值;/n所述初始化得分设置单元,用于为抽取结果设置初始分数;/n所述结果得分计算单元,用于计算所述抽取结果经过属性加权后的分数;/n所述输出单元,用于将所述加权结果进行排序并提取数值最大的所述加权结果代表的抽取结果作为最终的抽取结果。/n

【技术特征摘要】
1.一种招投标信息抽取结果筛选系统,其特征在于,包括前置参数设置单元、初始化得分设置单元、结果得分计算单元、输出单元;
所述前置参数设置单元,用于为抽取结果的属性分配权值;
所述初始化得分设置单元,用于为抽取结果设置初始分数;
所述结果得分计算单元,用于计算所述抽取结果经过属性加权后的分数;
所述输出单元,用于将所述加权结果进行排序并提取数值最大的所述加权结果代表的抽取结果作为最终的抽取结果。


2.根据权利要求1所述的招投标信息抽取结果筛选系统,其特征在于,所述抽取结果的属性包括字符长度、正/负面词、数值范围、段落索引、抽取方式、字段标签。


3.一种利用权利要求1所述的招投标信息抽取结果筛选系统进行结果筛选的方法,其特征在于,包括以下步骤:
S1:计算机处理器配置表示信息抽取结果的属性权重表,为每组属性分配权值;
S2:计算机将抽取到的招投标信息导入内存,并为每一项信息赋予一个初始得分;
S3:处理器根据每一个抽取结果的属性权值计算其最终得分;
S4:选择步骤S3中最终得分最大的抽取结果作为输出...

【专利技术属性】
技术研发人员:贾新
申请(专利权)人:河南拓普计算机网络工程有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1