文本数据智能标注方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36031721 阅读:43 留言:0更新日期:2022-12-21 10:33
本发明专利技术涉及自然语言处理技术领域,提供了一种文本数据智能标注方法、装置、计算机设备和存储介质,包括:获取第一待标注文本数据,所述第一待标注文本数据根据标注任务信息对应的数据源检索得到;分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集;根据所述机器标注样本集和所述人工标注样本集确定标注任务当前分布;判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据。采用本方法能够提高标注效率。注数据。采用本方法能够提高标注效率。注数据。采用本方法能够提高标注效率。

【技术实现步骤摘要】
文本数据智能标注方法、装置、计算机设备和存储介质


[0001]本专利技术属于人工智能
,尤其涉及一种文本数据智能标注方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能的兴起和发展,人工智能已被广泛应用到各大领域,因此对于标注数据的需求也越来越大。现有文本数据标注一般是通过人工检索或获取一定数量文本集合之后导入到标注系统通知标注人员进行人工标注来得到标注数据。后续若将该标注数据直接用于模型训练或其他用途发现数据不理想,则再通过类似过程获得新的人工标注数据,直到获得满意数据集。由此可见,现有的数据标注过程繁琐,需要较多的人工参数且存在多次的人工迭代,使得人工标注工作量大,造成标注效率降低。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提高标注效率的文本数据智能标注方法、装置、计算机设备和存储介质。
[0004]本专利技术提供一种文本数据智能标注方法,包括:
[0005]获取第一待标注文本数据,所述第一待标注文本数据根据标注任务信息对应的数据源检索得到;
[0006]分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集;
[0007]根据所述机器标注样本集和所述人工标注样本集确定标注任务当前分布;
[0008]判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据。
[0009]在其中一个实施例中,所述根据所述机器标注样本集和所述人工标注样本集统计任务当前分布,包括:
[0010]获取所述机器标注样本集和所述人工标注样本集的并集,得到并集样本集;
[0011]统计所述并集样本集中各类别样本的样本数量,得到标注任务当前分布。
[0012]在其中一个实施例中,所述判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据,包括:
[0013]将所述标注任务当前分布与所述标注任务目标分布中的相同类别样本的样本数量作差,获得各所述类别样本的差距分布;
[0014]当所述差距分布满足预设第一误差要求时,确定所述标注任务当前分布和所述标注任务目标分布对齐,将所述标注任务当前分布作为标注数据;
[0015]当所述差距分布未满足预设第一误差要求时,对所述差距数量对应的类别样本进行数据删除或/和数据补差直至对齐,得到标注数据。
[0016]在其中一个实施例中,对所述标注任务当前分布进行数据补差,包括:
[0017]获取所述标注任务当前分布与所述标注任务目标分布的差距分布;
[0018]从所述数据源中获取预设数量的第二待标注文本数据;对所述第二待标注文本数据进行机器标注,得到补差机器标注样本集并统计补差分布;
[0019]在所述补差分布与所述差距分布不满足预设第二误差要求时,返回从所述数据源中获取预设数量的第二待标注文本数据进行迭代补差,直到所述补差分布与所述差距分布满足误差要求为止;
[0020]将满足预设第二误差要求的所述补差分布补入所述标注任务当前分布中。
[0021]在其中一个实施例中,所述分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集,包括:
[0022]将所述第一待标注数据输入至训练好的标注模型中,由所述标注模型对所述第一待标注数据进行标注,得到机器标注样本集;
[0023]将所述第一待标注数据和/或机器标注样本集进行可视化显示,接收人工输入的标注操作指令,根据所述标注操作指令对所述第一待标注数据和/或机器标注样本集进行标注,得到人工标注样本集。
[0024]在其中一个实施例中,所述分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集之前,还包括:对所述第一待标注数据进行数据加工,所述数据加工包括但不限于数据清洗转换、去重以及翻译中的任意一种或多种。
[0025]在一个实施例中,提供一种文本数据智能标注装置,包括:
[0026]数据检索模块,用于获取第一待标注文本数据,所述第一待标注文本数据根据标注任务信息对应的数据源检索得到;
[0027]数据标注模块,用于分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集;
[0028]分布统计模块,用于根据所述机器标注样本集和所述人工标注样本集确定标注任务当前分布;
[0029]分布对齐模块,用于判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据。
[0030]本专利技术还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的文本数据智能标注方法的步骤。
[0031]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述文本数据智能标注方法步骤。
[0032]上述文本数据智能标注方法、装置、计算机设备和存储介质,通过根据数据源自动检索到待标注文本数据,由机器和人工分别标注得到机器标注样本集和人工标注样本集后,根据机器标注样本集和人工标注样本集确定当前标注后数据的分布情况,再与标注任务的目标分布比较判断是否对齐,若是没有对齐则进行数据删除和/或数据补差至对齐来得到标注数据。本方法能够自动接入获取数据源,能够提供机器和人工的系统标注机制提高标注效率,并且通过动态感知和协调已标注数据分布和标注任务目标分布的差距情况对
数据进行调整,从而便于高效标注。
附图说明
[0033]图1为一个实施例中文本数据智能标注方法的应用环境图。
[0034]图2为一个实施例中文本数据智能标注方法的流程示意图。
[0035]图3为一个实施例中文本数据智能标注装置的结构框图。
具体实施方式
[0036]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0037]本申请提供的文本数据智能标注方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0038]当终端102接收到标注任务时,可以由终端102单独实现上述文本数据智能标注方法。也可以由终端102将标注任务发送给通信的服务器104,由服务器104实现上述文本数据智能标注方法。以服务器104为例,具体的,服务器10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据智能标注方法,其特征在于,包括:获取第一待标注文本数据,所述第一待标注文本数据根据标注任务信息对应的数据源检索得到;分别对所述第一待标注数据进行机器标注和人工标注,得到机器标注样本集和人工标注样本集;根据所述机器标注样本集和所述人工标注样本集确定标注任务当前分布;判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述机器标注样本集和所述人工标注样本集统计任务当前分布,包括:获取所述机器标注样本集和所述人工标注样本集的并集,得到并集样本集;统计所述并集样本集中各类别样本的样本数量,得到标注任务当前分布。3.根据权利要求1所述的方法,其特征在于,所述判断所述标注任务当前分布和标注任务目标分布是否对齐,若未对齐,对所述标注任务当前分布进行数据删除或/和数据补差直至对齐,得到标注数据,包括:将所述标注任务当前分布与所述标注任务目标分布中的相同类别样本的样本数量作差,获得各所述类别样本的差距分布;当所述差距分布满足预设第一误差要求时,确定所述标注任务当前分布和所述标注任务目标分布对齐,将所述标注任务当前分布作为标注数据;当所述差距分布未满足预设第一误差要求时,对所述差距数量对应的类别样本进行数据删除或/和数据补差直至对齐,得到标注数据。4.根据权利要求1或3所述的方法,其特征在于,对所述标注任务当前分布进行数据补差,包括:获取所述标注任务当前分布与所述标注任务目标分布的差距分布;从所述数据源中获取预设数量的第二待标注文本数据;对所述第二待标注文本数据进行机器标注,得到补差机器标注样本集并统计补差分布;在所述补差分布与所述差距分布不满足预设第二误差要求时,返回从所述数据源中获取预设数量的第二待标注文本数据进行迭代补差,直到所述补差分布与所述差距分布满足误差要求...

【专利技术属性】
技术研发人员:段炼周忠诚黄九鸣张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1