一种招投标采集数据自动结构化的方法、系统和介质技术方案

技术编号:34135039 阅读:12 留言:0更新日期:2022-07-14 16:24
本申请涉及一种招投标采集数据自动结构化的方法、系统和介质,其中,该方法包括:对详情页数据进行数据清洗,得到预处理数据;根据标点符号对预处理数据进行拆分,得到切分数据;将切分数据按预设规则进行数据组装,得到拼接数据;通过训练好的命名实体识别模型对拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到业务需求对应的结构化数据,通过本申请,解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,减少了采集文本的噪声,保证在输入模型解析前的文本的可靠性,改进了模型的输入方式,避免需求关键字被截断,实现了招投标数据的自动化和智能化获取。和智能化获取。和智能化获取。

【技术实现步骤摘要】
一种招投标采集数据自动结构化的方法、系统和介质


[0001]本申请涉及招投标数据处理领域,特别是涉及一种招投标采集数据自动结构化的方法、系统和介质。

技术介绍

[0002]目前,随着互联网数字化进程的不断加深,数据成为了政府或企业执行工程项目的重要判断依据,如何高效准确地从拥有海量数据的互联网中筛选出需要的目标数据,并将该目标数据处理成优质的结构化数据,是当下亟需解决的问题。尤其是在工程招投标领域,需要将招标、中标公告中所包含的数据进行结构化,并作用于工程来保证保险领域的市场分析和企业风控等环节。
[0003]目前针对相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种招投标采集数据自动结构化的方法、系统和介质,以至少解决相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题。
[0005]第一方面,本申请实施例提供了一种招投标采集数据自动结构化的方法,所述方法包括:
[0006]根据数据源的网络地址,获取业务需求对应的详情页数据;
[0007]对所述详情页数据进行数据清洗,得到预处理数据;
[0008]根据标点符号对所述预处理数据进行拆分,得到切分数据;
[0009]将所述切分数据按预设规则进行数据组装,得到拼接数据;
[0010]通过训练好的命名实体识别模型对所述拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到所述业务需求对应的结构化数据。
[0011]在其中一些实施例中,根据数据源的网络地址,获取需求对应的详情页数据包括:
[0012]以数据源的发布时间作为标识符设置定时任务,通过所述数据源的网络地址,自动获取业务需求对应的列表页数据,若所述定时任务执行异常,则发送第一预警通知;
[0013]设置采集任务,从所述列表页数据中采集详情页数据,若所述采集任务执行异常,则发送第二预警通知。
[0014]在其中一些实施例中,将所述切分数据按预设规则进行数据组装,得到拼接数据包括:
[0015]依次判断文本中未进行拼接的切分数据的长度是否小于500字符;
[0016]若是,则将所述切分数据与下一条切分数据进行拼接,继续所述判断,直到拼接后的长度不小于500字符,得到拼接数据;
[0017]若否,则返回所述切分数据作为拼接数据。
[0018]在其中一些实施例中,在通过训练好的命名实体识别模型对所述拼接数据进行解
析之前,所述方法包括:
[0019]利用训练数据对基于Bert、Bi

LSTM和CRF组合的命名实体识别模型进行细粒化训练,其中,所述训练数据中每句话的长度不超过512字符,所述细粒化训练包括基于BIO标注机制的训练和基于BIOES标注机制的训练。
[0020]在其中一些实施例中,根据标点符号对所述预处理数据进行拆分,得到切分数据包括:
[0021]以句号作为标识符拆分所述预处理数据,得到切分数据。
[0022]在其中一些实施例中,通过训练好的命名实体识别模型对所述拼接数据进行解析包括:
[0023]将训练好的基于Bert、Bi

LSTM和CRF组合的命名实体识别模型部署在分布式服务器端,对所述拼接数据进行并发分析。
[0024]在其中一些实施例中,对所述详情页数据进行数据清洗,得到预处理数据包括:
[0025]采用正则匹配清洗所述详情页数据中的html标签和噪音数据,得到预处理数据。
[0026]在其中一些实施例中,在得到所述需求对应的结构化数据之后,所述方法包括:
[0027]对所述结构化数据进行数据清洗和格式统一,并存储到MySQL数据库中,再通过规则校验将优质的结构化数据上传到云存储平台。
[0028]第二方面,本申请实施例提供了一种招投标采集数据自动结构化的系统,所述系统包括数据获取模块、数据处理模块和模型解析模块;
[0029]所述数据获取模块用于根据数据源的网络地址,获取业务需求对应的详情页数据;
[0030]所述数据处理模块用于对所述详情页数据进行数据清洗,得到预处理数据;
[0031]所述数据处理模块用于根据标点符号对所述预处理数据进行拆分,得到切分数据;
[0032]所述数据处理模块用于将所述切分数据按预设规则进行数据组装,得到拼接数据;
[0033]所述模型解析模块用于通过训练好的命名实体识别模型对所述拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到所述业务需求对应的结构化数据。
[0034]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的招投标采集数据自动结构化的方法。
[0035]相比于相关技术,本申请实施例提供的一种招投标采集数据自动结构化的方法、系统和介质,根据数据源的网络地址,获取业务需求对应的详情页数据;对详情页数据进行数据清洗,得到预处理数据;根据标点符号对预处理数据进行拆分,得到切分数据;将切分数据按预设规则进行数据组装,得到拼接数据;通过训练好的命名实体识别模型对拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到业务需求对应的结构化数据,解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,减少了采集文本的噪声,保证在输入模型解析前的文本的可靠性,改进了模型的输入方式,避免需求关键字被截断,实现了招投标数据的自动化和智能化获取。
附图说明
[0036]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0037]图1是根据本申请实施例的招投标采集数据自动结构化方法的步骤流程图;
[0038]图2是根据本申请实施例的招投标采集数据自动结构化方法的流程示意图;
[0039]图3是根据本申请实施例的招投标采集数据自动结构化系统的结构框图;
[0040]图4是根据本申请实施例的电子设备的内部结构示意图。
[0041]附图说明:31、数据获取模块;32、数据处理模块;33、模型解析模块。
具体实施方式
[0042]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招投标采集数据自动结构化的方法,其特征在于,所述方法包括:根据数据源的网络地址,获取业务需求对应的详情页数据;对所述详情页数据进行数据清洗,得到预处理数据;根据标点符号对所述预处理数据进行拆分,得到切分数据;将所述切分数据按预设规则进行数据组装,得到拼接数据;通过训练好的命名实体识别模型对所述拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到所述业务需求对应的结构化数据。2.根据权利要求1所述的方法,其特征在于,根据数据源的网络地址,获取需求对应的详情页数据包括:以数据源的发布时间作为标识符设置定时任务,通过所述数据源的网络地址,自动获取业务需求对应的列表页数据,若所述定时任务执行异常,则发送第一预警通知;设置采集任务,从所述列表页数据中采集详情页数据,若所述采集任务执行异常,则发送第二预警通知。3.根据权利要求1所述的方法,其特征在于,将所述切分数据按预设规则进行数据组装,得到拼接数据包括:依次判断文本中未进行拼接的切分数据的长度是否小于500字符;若是,则将所述切分数据与下一条切分数据进行拼接,继续所述判断,直到拼接后的长度不小于500字符,得到拼接数据;若否,则返回所述切分数据作为拼接数据。4.根据权利要求1所述的方法,其特征在于,在通过训练好的命名实体识别模型对所述拼接数据进行解析之前,所述方法包括:利用训练数据对基于Bert、Bi

LSTM和CRF组合的命名实体识别模型进行细粒化训练,其中,所述训练数据中每句话的长度不超过512字符,所述细粒化训练包括基于BIO标注机制的训练和基于BIOES标注机制的训练。5.根据权利要求1所述的方法,其特征在于,根据标...

【专利技术属性】
技术研发人员:彭兴晨何沛陈海军李冲冲
申请(专利权)人:工保科技浙江有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1