【技术实现步骤摘要】
本申请涉及数据标注,具体而言,涉及一种语料自动标注的方法、装置、存储介质及电子设备。
技术介绍
1、为了实现模型的分类任务,需要准备预先标注好的数据。除了需要大量的标注数据去训练模型以外,标注数据的质量直接影响预训练模型分类任务的识别效果。目前,高质量标注数据通常需要人工进行,标注员根据预设的要求,获取每一条数据,并打上相应的标签,以此提升后续训练模型的识别效果。然而,人工标注的方式效率低且需要投入大量的成本。
2、因此,如何提供一种高效的语料自动标注的方法的技术方案成为亟需解决的技术问题。
技术实现思路
1、本申请的一些实施例的目的在于提供一种语料自动标注的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以提升语料标注的效率,降低标注成本。
2、第一方面,本申请的一些实施例提供了一种语料自动标注的方法,包括:获取语料标注需求,其中,所述语料标注需求包括:语料类型、语料训练分类数量、语料标签、语料标注范围以及语料正负样本比例中的至少一种;对待标注文献进
...【技术保护点】
1.一种语料自动标注的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对待标注文献进行标题识别,包括:
3.如权利要求1或2所述的方法,其特征在于,所述对所述标题对应的内容进行处理,获取待分类文件,包括:
4.如权利要求1或2所述的方法,其特征在于,所述根据所述待分类文件和预训练分类模型,获取与所述语料标注需求对应的语料标注数据:
5.如权利要求1或2所述的方法,其特征在于,所述预训练分类模型采用时间位移机制。
6.一种语料自动标注的装置,其特征在于,包括:
7.如权利要求6
...【技术特征摘要】
1.一种语料自动标注的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对待标注文献进行标题识别,包括:
3.如权利要求1或2所述的方法,其特征在于,所述对所述标题对应的内容进行处理,获取待分类文件,包括:
4.如权利要求1或2所述的方法,其特征在于,所述根据所述待分类文件和预训练分类模型,获取与所述语料标注需求对应的语料标注数据:
5.如权利要求1或2所述的方法,其特征在于,所述预训练分类模型采用时间位移机制。
6.一种语料自动标注的装置,其特征在于,包括...
【专利技术属性】
技术研发人员:王猛,张智雄,李涵昱,刘熠,邵田,张广寅,
申请(专利权)人:中国科学院文献情报中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。