一种网页信息标注及提取系统技术方案

技术编号:30443152 阅读:18 留言:0更新日期:2021-10-24 18:32
本发明专利技术涉及网络信息提取技术领域,具体涉及一种网页信息标注及提取系统,包括用户端和后台管理端;用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。本发明专利技术提高了训练模型所需数据的质量、数量以及处理效率,也便于多人协同处理网页信息;同时训练所得的模型亦可快速对网页信息进行高准确率的识别、抽取并输出结果。准确率的识别、抽取并输出结果。准确率的识别、抽取并输出结果。

【技术实现步骤摘要】
一种网页信息标注及提取系统


[0001]本专利技术涉及网络信息提取
,具体涉及一种网页信息标注及提取系统。

技术介绍

[0002]目前,随着互联网技术的发展,可以运用大数据、云计算实现互联网互联互通以及信息共享,避免出现“信息孤岛”和“协同不足”的问题。比如说,随着电子招投标不断探索发展,电子招投标平台和其他系统也实现了互通互联,资源共享,提高了信息的流通性,增加了企业招投标活动的便利性。故而,电子招投标平台能让信息开放,吸引更多的投标人投标,使得招标人寻找意向投标人时有更多的选择。
[0003]虽然,招投标模式电子化与互联网大数据融合已成必然趋势,但是电子招投标的现状仍有不足的地方,电子招投标行业发展也伴随着各种困难。随着全国各地电子招投标的日益成熟,平台之间实现连接,业内可以建立一体化的信息共享体系。比如说,按照相关要求,为工程招标和企业采购搭建的第三方交易平台,充分实现招投标活动的电子化和互联网化,能够实现在线、异地电子化招标、投标和电子化评标等交易过程,并开放数据接口,可选、实时、有限地对有关招标、投标数据信息进行编辑、生成、对接、交换和发布。
[0004]对于不同的用户群体来说,他们对于招标、投标的了解程度、熟悉程度可能存在差异性,而目前的用于工程招标和企业采购的第三方交易平台,并未充分考虑用户的个体化差异,故而,不能为用户提供个性化服务,用户不能根据自己的实际需求,并结合自己的偏好、习惯及熟悉程度自主选择需要标记的数据类型;同时,也不能快速地对网页信息进行识别、抽取,也不便于多人协同处理网页信息。

技术实现思路

[0005]本专利技术提供一种网页信息标注及提取系统,解决了现有技术不能快速地对网页信息进行识别、抽取,也不便于多人协同处理网页信息的技术问题。
[0006]本专利技术提供的基础方案为:一种网页信息标注及提取系统,包括:
[0007]用户端和后台管理端;
[0008]后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块,用于创建用户;项目创建模块,用于创建项目和项目配置,项目储存项目基本信息的model,项目配置关联项目并储存项目详细信息的model;数据创建模块,用于导入数据集并关联项目,存储数据类型和标题,并关联标记数据;兼职创建模块,用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息;
[0009]用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。
[0010]本专利技术的工作原理及优点在于:首先,根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,对特定的网页信息进行实体、分类或是其它类型的标记,得到标记数据;随后,对标记数据进行训练,得到提取网页信息的调用模型;最后,通过调用模型对网页信息进行识别、提取,并输出识别结果。通过这样的方式,经过标记,提高了用于训练得到调用模型的标记数据的质量,可将未通过标注的数据备注并退回到任务池;调用模型包含了用户的偏好、习惯及熟悉程度的相关信息,充分考虑了用户的个体特点,即使用户为兼职人员而不是专业人员,也能够很好地开展工作,提高了用户的工作体验;在满足用户的偏好、习惯及熟悉程度的个性化的工作体验的同时,极大的提高了训练模型所需的训练数据的质量和标记效率,同时也提高了个体或企业提取网页关键信息的速度,避免出错。
[0011]本专利技术可以快速对网页信息快速识别、抽取,提高了训练数据的质量、数量以及处理效率,也便于多人协同处理网页信息。
[0012]进一步,数据训练模块还用于,对标记数据进行训练之前,按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据;数据训练模块用于采用机器学习算法对训练源数据进行训练得到调用模型,并将验证源数据和测试源数据代入调用模型中进行计算和调试,在调用模型训练的准确率达到预设阈值后,根据验证源数据和测试源数据进行调用模型的准确率验证和测试。
[0013]有益效果在于:将标记数据分为训练源数据、验证源数据和测试源数据,可充分利用标记数据进行训练、验证和测试,提高训练准确率。
[0014]进一步,数据训练模块按照预设比例6:2:2将标记数据分为训练源数据、验证源数据和测试源数据。
[0015]有益效果在于:按照这样的预设比例,训练、验证、测试的效果好,易于划分、便于实现。
[0016]进一步,数据训练模块分批次对标记数据进行训练,每批次用于训练的标记数据的数量为30条。
[0017]有益效果在于:分批次对标记数据进行训练,可以提高训练效率、减少训练时间,同时避免卡顿。
[0018]进一步,数据训练模块对标记数据进行训练,每训练一次就验证、测试一次。
[0019]有益效果在于:训练一次就立刻验证、测试一次,可以及时发现错误并进行纠正,防止出现累积误差;达到指定的训练步数或批次进行一次验证,完成一轮训练进行一次测试,通过这样的模型对比,可在迭代时对比前后两个模型在信息提取上的准确度以及差异性。
[0020]进一步,数据训练模块还用于,使用bioes编码对标记数据进行编码,对带有标记信息的HTML数据去标签。
[0021]有益效果在于:去掉带有标记信息的HTML数据的标签,可以减少对标记数据进行编码的运算量,提高编码效率。
[0022]进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,将外文格式的标记数据转换为中文格式的标记数据。
[0023]有益效果在于:将外文格式的标记数据转换为中文格式的标记数据,既便于统一数据格式,又便于用户查阅。
[0024]进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行切割,切割后的标记数据最长不超过200个字符。
[0025]有益效果在于:对标记数据进行切割,确保切割后的标记数据短于200个字符,便于后面进行训练,提高训练效率。
[0026]进一步,数据训练模块还用于,在使用bioes编码对标记数据进行编码之前,对标记数据进行jieba分词,去除停用词。
[0027]有益效果在于:标记数据进行jieba分词去除停用词,不会丢失标记数据的含义,但是可以减少训练的数据量,减少运算时间。
附图说明
[0028]图1为本专利技术一种网页信息标注及提取系统实施例1的系统结构框图。
具体实施方式
[0029]下面通过具体实施方式进一步详细的说明:
[0030]实施例1
[0031]实施例基本如附图1所示,包括:
[0032]用户端和后台管理端;
[0033]后台管理端包括用户创建模块、项目创本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页信息标注及提取系统,包括:用户端和后台管理端;后台管理端包括用户创建模块、项目创建模块、数据创建模块和兼职创建模块;其中,用户创建模块,用于创建用户;项目创建模块,用于创建项目和项目配置,项目储存项目基本信息的model,项目配置关联项目并储存项目详细信息的model;数据创建模块,用于导入数据集并关联项目,存储数据类型和标题,并关联标记数据;兼职创建模块,用于创建兼职信息和兼职结算,兼职信息储存用户兼职相关的信息并关联用户,兼职结算储存用户兼职时的收益信息并关联用户和兼职信息;其特征在于,用户端包括数据标注模块、数据训练模块和数据调用模块;其中,数据标注模块,用于根据用户的偏好、习惯及熟悉程度对待提取的网页信息进行标记,得到标记数据;数据训练模块,用于对标记数据进行训练,得到提取网页信息的调用模型;数据调用模块,用于通过调用模型对网页信息进行识别、提取,并输出识别结果。2.如权利要求1所述的网页信息标注及提取系统,其特征在于,数据训练模块还用于,对标记数据进行训练之前,按照预设比例将标记数据分为训练源数据、验证源数据和测试源数据;数据训练模块用于采用机器学习算法对训练源数据进行训练得到调用模型,并将验证源数据和测试源数据代入调用模型中进行计算和调试,在调用模型训练的准确率达到预设阈值后,根据验证...

【专利技术属性】
技术研发人员:李正军涂著刚杨敏汤双明
申请(专利权)人:贵阳高新数通信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1