一种招投标采集数据自动结构化的方法、系统和介质技术方案

技术编号：34135039 阅读：12 留言：0更新日期：2022-07-14 16:24

本申请涉及一种招投标采集数据自动结构化的方法、系统和介质，其中，该方法包括：对详情页数据进行数据清洗，得到预处理数据；根据标点符号对预处理数据进行拆分，得到切分数据；将切分数据按预设规则进行数据组装，得到拼接数据；通过训练好的命名实体识别模型对拼接数据进行解析，分别将相同文本的解析字段输入同一个数据字典，得到业务需求对应的结构化数据，通过本申请，解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题，减少了采集文本的噪声，保证在输入模型解析前的文本的可靠性，改进了模型的输入方式，避免需求关键字被截断，实现了招投标数据的自动化和智能化获取。和智能化获取。和智能化获取。

全部详细技术资料下载

【技术实现步骤摘要】
一种招投标采集数据自动结构化的方法、系统和介质

[0001]本申请涉及招投标数据处理领域，特别是涉及一种招投标采集数据自动结构化的方法、系统和介质。

技术介绍

[0002]目前，随着互联网数字化进程的不断加深，数据成为了政府或企业执行工程项目的重要判断依据，如何高效准确地从拥有海量数据的互联网中筛选出需要的目标数据，并将该目标数据处理成优质的结构化数据，是当下亟需解决的问题。尤其是在工程招投标领域，需要将招标、中标公告中所包含的数据进行结构化，并作用于工程来保证保险领域的市场分析和企业风控等环节。
[0003]目前针对相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题，尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种招投标采集数据自动结构化的方法、系统和介质，以至少解决相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题。
[0005]第一方面，本申请实施例提供了一种招投标采集数据自动结构化的方法，所述方法包括：
[0006]根据数据源的网络地址，获取业务需求对应的详情页数据；
[0007]对所述详情页数据进行数据清洗，得到预处理数据；
[0008]根据标点符号对所述预处理数据进行拆分，得到切分数据；
[0009]将所述切分数据按预设规则进行数据组装，得到拼接数据；
[0010]通过训练好的命名实体识别模型对所述拼接数据进行解析，分别将相同文本的解析字段输入同一个数据字典，得到所述业务需...

【技术保护点】

【技术特征摘要】
1.一种招投标采集数据自动结构化的方法，其特征在于，所述方法包括：根据数据源的网络地址，获取业务需求对应的详情页数据；对所述详情页数据进行数据清洗，得到预处理数据；根据标点符号对所述预处理数据进行拆分，得到切分数据；将所述切分数据按预设规则进行数据组装，得到拼接数据；通过训练好的命名实体识别模型对所述拼接数据进行解析，分别将相同文本的解析字段输入同一个数据字典，得到所述业务需求对应的结构化数据。2.根据权利要求1所述的方法，其特征在于，根据数据源的网络地址，获取需求对应的详情页数据包括：以数据源的发布时间作为标识符设置定时任务，通过所述数据源的网络地址，自动获取业务需求对应的列表页数据，若所述定时任务执行异常，则发送第一预警通知；设置采集任务，从所述列表页数据中采集详情页数据，若所述采集任务执行异常，则发送第二预警通知。3.根据权利要求1所述的方法，其特征在于，将所述切分数据按预设规则进行数据组装，得到拼接数据包括：依次判断文本中未进行拼接的切分数据的长度是否小于500字符；若是，则将所述切分数据与下一条切分数据进行拼接，继续所述判断，直到拼接后的长度不小于500字符，得到拼接数据；若否，则返回所述切分数据作为拼接数据。4.根据权利要求1所述的方法，其特征在于，在通过训练好的命名实体识别模型对所述拼接数据进行解析之前，所述方法包括：利用训练数据对基于Bert、Bi
‑
LSTM和CRF组合的命名实体识别模型进行细粒化训练，其中，所述训练数据中每句话的长度不超过512字符，所述细粒化训练包括基于BIO标注机制的训练和基于BIOES标注机制的训练。5.根据权利要求1所述的方法，其特征在于，根据标...

【专利技术属性】
技术研发人员：彭兴晨，何沛，陈海军，李冲冲，
申请(专利权)人：工保科技浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人