一种网页信息标注及提取系统技术方案

技术编号：30443152 阅读：18 留言：0更新日期：2021-10-24 18:32

本发明专利技术涉及网络信息提取技术领域，具体涉及一种网页信息标注及提取系统，包括用户端和后台管理端；用户端包括数据标注模块、数据训练模块和数据调用模块；其中，数据标注模块，用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记，得到标记数据；数据训练模块，用于对标记数据进行训练，得到提取网页信息的调用模型；数据调用模块，用于通过调用模型对网页信息进行识别、提取，并输出识别结果。本发明专利技术提高了训练模型所需数据的质量、数量以及处理效率，也便于多人协同处理网页信息；同时训练所得的模型亦可快速对网页信息进行高准确率的识别、抽取并输出结果。准确率的识别、抽取并输出结果。准确率的识别、抽取并输出结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页信息标注及提取系统

[0001]本专利技术涉及网络信息提取
，具体涉及一种网页信息标注及提取系统。

技术介绍

[0002]目前，随着互联网技术的发展，可以运用大数据、云计算实现互联网互联互通以及信息共享，避免出现“信息孤岛”和“协同不足”的问题。比如说，随着电子招投标不断探索发展，电子招投标平台和其他系统也实现了互通互联，资源共享，提高了信息的流通性，增加了企业招投标活动的便利性。故而，电子招投标平台能让信息开放，吸引更多的投标人投标，使得招标人寻找意向投标人时有更多的选择。
[0003]虽然，招投标模式电子化与互联网大数据融合已成必然趋势，但是电子招投标的现状仍有不足的地方，电子招投标行业发展也伴随着各种困难。随着全国各地电子招投标的日益成熟，平台之间实现连接，业内可以建立一体化的信息共享体系。比如说，按照相关要求，为工程招标和企业采购搭建的第三方交易平台，充分实现招投标活动的电子化和互联网化，能够实现在线、异地电子化招标、投标和电子化评标等交易过程，并开放数据接口，可选、实时、有限地对有关招标、投标数据信息进行编辑、生成、对接、交换和发布。
[0004]对于不同的用户群体来说，他们对于招标、投标的了解程度、熟悉程度可能存在差异性，而目前的用于工程招标和企业采购的第三方交易平台，并未充分考虑用户的个体化差异，故而，不能为用户提供个性化服务，用户不能根据自己的实际需求，并结合自己的偏好、习惯及熟悉程度自主选择需要标记的数据类型；同时，也不能快速地对网页信息进行识别、抽取，也不便于多人协同...

【技术保护点】

【技术特征摘要】
1.一种网页信息标注及提取系统，包括：用户端和后台管理端；后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块；其中，用户创建模块，用于创建用户；项目创建模块，用于创建项目和项目配置，项目储存项目基本信息的model，项目配置关联项目并储存项目详细信息的model；数据创建模块，用于导入数据集并关联项目，存储数据类型和标题，并关联标记数据；兼职创建模块，用于创建兼职信息和兼职结算，兼职信息储存用户兼职相关的信息并关联用户，兼职结算储存用户兼职时的收益信息并关联用户和兼职信息；其特征在于，用户端包括数据标注模块、数据训练模块和数据调用模块；其中，数据标注模块，用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记，得到标记数据；数据训练模块，用于对标记数据进行训练，得到提取网页信息的调用模型；数据调用模块，用于通过调用模型对网页信息进行识别、提取，并输出识别结果。2.如权利要求1所述的网页信息标注及提取系统，其特征在于，数据训练模块还用于，对标记数据进行训练之前，按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据；数据训练模块用于采用机器学习算法对训练源数据进行训练得到调用模型，并将验证源数据和测试源数据代入调用模型中进行计算和调试，在调用模型训练的准确率达到预设阈值后，根据验证...

【专利技术属性】
技术研发人员：李正军，涂著刚，杨敏，汤双明，
申请(专利权)人：贵阳高新数通信息有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人