基于学习数据的深度学习样本标注方法技术

技术编号:26479532 阅读:31 留言:0更新日期:2020-11-25 19:24
本发明专利技术公开了一种基于学习数据的深度学习样本标注方法,所述方法包括:采集历史学习对象的标注信息,获取所述历史学习对象对应的各章节平均标注率;根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作;这种处理方式使得全文各章节的标记数量保持在一个平均水准,降低了学习对象的学习负荷,提高了学习对象的学习效率,从而实现了对学习数据进行深度学习样本标注的目的。

【技术实现步骤摘要】
基于学习数据的深度学习样本标注方法
本专利技术涉及数据处理
,特别涉及一种基于学习数据的深度学习样本标注方法。
技术介绍
现有的学习样本标注中,主要有两种标注方式,一种是:采用人工进行手动标注的方式;这种人工手动的标注方式,标注效率低且需花费大量的时间和精力。另一种是,自动标注的方式;目前,现有技术中的自动标注方式,通常需要根据人为设置的关键字/词等作为参照,进行标注,标注准确率低,且相邻页面中的标注信息对应的标注数据量存在较大差异时,也无法自动修正处理,也需要人工介入。因此,现有的学习样本标注方法不能满足学习数据标注的实际需求。
技术实现思路
本专利技术提供一种基于学习数据的深度学习样本标注方法,旨在使全文各章节的标记数量保持在一个平均水准,降低学习对象的学习负荷。本专利技术提供了一种基于学习数据的深度学习样本标注方法,所述包括:采集历史学习对象的标注信息,获取所述历史学习对象对应的各章节平均标注率;根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;<本文档来自技高网...

【技术保护点】
1.一种基于学习数据的深度学习样本标注方法,其特征在于,所述方法包括:/n采集历史学习对象的标注信息,获取所述历史学习对象对应的各章节平均标注率;/n根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;/n根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作。/n

【技术特征摘要】
1.一种基于学习数据的深度学习样本标注方法,其特征在于,所述方法包括:
采集历史学习对象的标注信息,获取所述历史学习对象对应的各章节平均标注率;
根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率;
根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作。


2.如权利要求1所述的基于学习数据的深度学习样本标注方法,其特征在于,所述采集历史学习对象的标注信息,获取所述历史学习对象对应的各章节平均标注率,包括:
根据深度学习样本标注需求信息,对所学习的课程内容进行识别,采集历史学习对象的标注信息;
基于采集的所述历史学习对象的标注信息,计算所述历史学习对象对应的各章节平均标注率。


3.如权利要求2所述的基于学习数据的深度学习样本标注方法,其特征在于,所述基于采集的所述历史学习对象的标注信息,计算所述历史学习对象对应的各章节平均标注率,包括:
根据采集的所述历史学习对象的标注信息中的学习课程各章节对应的学习页面的数量、学习课程各章节的学习页面中每一页分别对应的字节总数和标记总数,利用公式(1),计算所述历史学习对象对应的各章节平均标注率Mark(km,km-1),则有:



其中,m为抽取的所述学习课程各章节对应的学习页面的数量,其取值范围为[2,M],am为所述学习课程各章节中第m页的字节总数,km为所述学习课程各章节中第m页的标记总数,km-1为所述学习课程各章节中第m-1页的标记总数,sum(km,km-1)为所述学习课程各章节第m页的标记总数与第m-1页的标记总数进行求和处理得到的和;Mark(km,km-1)为获取的所述各章节平均标注率。


4.如权利要求1至3任一项所述的基于学习数据的深度学习样本标注方法,其特征在于,所述根据获取的所述各章节平均标注率,计算所述历史学习对象对应的学习课程中各章节对应的标记差异率,包括:
根据获取的所述各章节平均标注率,利用公式(2),计算得到所述学习课程中各章节对应的相邻的学习页面之间的标记差异率Dif(km,km-1),则有:



其中,η为差异度参数,取值为0.2;Mark(km,km-1)为所述各章节平均标注率,Dif(km,km-1)为所述学习课程中各章节第m页的标记总数与第m-1页的标记总数之间的标记差异率。


5.如权利要求4所述的基于学习数据的深度学习样本标注方法,其特征在于,所述根据计算得到的所述学习课程中各章节对应的标记差异率,执行深度学习样本的标注操作,包括:
根据计算得到的所述学习课程中各章节对应的标记差异率,将所述标记差异率与预设差异率进行比较;
根据所述标记差异率与预设差异率的比较结果,执行深度学习样本的标注操作。


6.如权利要求5所述的基于学习数据的深度学习样本标...

【专利技术属性】
技术研发人员:崔炜
申请(专利权)人:上海松鼠课堂人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1