一种基于机器学习的数据标注方法和装置以及设备制造方法及图纸

技术编号:24499303 阅读:73 留言:0更新日期:2020-06-13 04:21
本发明专利技术公开了一种基于机器学习的数据标注方法和装置以及设备。其中,所述方法包括:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和对该分别标注的不同类别的数据进行关联,以及对该经关联后的不同类别的标注数据进行联合学习。通过上述方式,能够实现兼容多种类别的标注数据的联合学习。

A data annotation method, device and equipment based on machine learning

【技术实现步骤摘要】
一种基于机器学习的数据标注方法和装置以及设备
本专利技术涉及数据标注
,尤其涉及一种基于机器学习的数据标注方法和装置以及设备。
技术介绍
目前,机器学习在处理自然语言时,需要标注大量不同类别的数据。例如,机器学习在处理整形美容科室的自然语言时,需要标注的数据一般包括意图识别数据、NER(NamedEntityRecognition,命名实体识别)数据和项目对齐数据等;其中,该项目对齐数据在不同的美容医院对相同项目的叫法可以不同,例如微创双眼皮、小清新双眼皮和三定位双眼皮等都是表示双眼皮项目对齐数据。另外,在机器学习中,还有一项数据叫联合学习数据,该联合学习数据意思是说多种类别数据联合起来标注,例如将意图识别数据和命名实体识别数据联合起来标注。然而,现有的基于机器学习的数据标注方案,一般只标注所需要的相同类别的数据,例如需要意图识别数据时只标注该意图识别数据,需要命名实体识别数据时只标注该命名实体识别数据,但是这些标注的相同类别的数据在原文对话没有关联在一起,无法实现兼容多种类别的标注数据的联合学习。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种基于机器学习的数据标注方法和装置以及设备,能够实现兼容多种类别的标注数据的联合学习。根据本专利技术的一个方面,提供一种基于机器学习的数据标注方法,包括:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;对所述分别标注的不同类别的数据进行关联;对所述经关联后的不同类别的标注数据进行联合学习。其中,所述对所述分别标注的不同类别的数据进行关联,还包括:采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对所述分别标注的不同类别的数据进行关联。其中,在所述对所述经关联后的不同类别的标注数据进行联合学习之后,还包括:抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。其中,所述抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化,包括:采用将数据量按从大到小顺序的抽取方式,抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。根据本专利技术的另一个方面,提供一种基于机器学习的数据标注装置,包括:标注模块、关联模块和学习模块;所述标注模块,用于通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;所述关联模块,用于对所述分别标注的不同类别的数据进行关联;所述学习模块,用于对所述经关联后的不同类别的标注数据进行联合学习。其中,所述关联模块,具体用于:采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对所述分别标注的不同类别的数据进行关联。其中,所述基于机器学习的数据标注装置,还包括:优化模块;所述优化模块,用于抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。其中,所述优化模块,具体用于:采用将数据量按从大到小顺序的抽取方式,抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。根据本专利技术的又一个方面,提供一种基于机器学习的数据标注设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的基于机器学习的数据标注方法。根据本专利技术的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于机器学习的数据标注方法。可以发现,以上方案,可以通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和可以对该分别标注的不同类别的数据进行关联,以及可以对该经关联后的不同类别的标注数据进行联合学习,能够实现兼容多种类别的标注数据的联合学习。进一步的,以上方案,可以采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。进一步的,以上方案,可以抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现通过对标注数据进行抽取的方式,对经联合学习后的不同类别的标注数据的学习有效性进行校验,提高了该联合学习的有效性。进一步的,以上方案,可以采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现保证数据量小的该标注数据能够被提取到,能够提高对经联合学习后的不同类别的标注数据的学习有效性校验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术基于机器学习的数据标注方法一实施例的流程示意图;图2是本专利技术基于机器学习的数据标注方法另一实施例的流程示意图;图3是本专利技术基于机器学习的数据标注装置一实施例的结构示意图;图4是本专利技术基于机器学习的数据标注装置另一实施例的结构示意图;图5是本专利技术基于机器学习的数据标注设备一实施例的结构示意图。具体实施方式下面结合附图和实施例,对本专利技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本专利技术,但不对本专利技术的范围进行限定。同样的,以下实施例仅为本专利技术的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术提供一种基于机器学习的数据标注方法,能够实现兼容多种类别的标注数据的联合学习。请参见图1,图1是本专利技术基于机器学习的数据标注方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本专利技术的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:S101:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注。在本实施例中,该相同的原谅对话可以是一段话,也可以是一句话,还可以是一篇文章等,本专利技术不加以限定。S102:对该分别标注的不同类别的数据进行关联。其中,该对该分别标注的不同类别的数据进行关联,还可以包括:采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。S103:对该经关联后的不同类别的标注数据进行联合学习。其中,在该对该经关联后的不同类别的本文档来自技高网...

【技术保护点】
1.一种基于机器学习的数据标注方法,其特征在于,包括:/n通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;/n对所述分别标注的不同类别的数据进行关联;/n对所述经关联后的不同类别的标注数据进行联合学习。/n

【技术特征摘要】
1.一种基于机器学习的数据标注方法,其特征在于,包括:
通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;
对所述分别标注的不同类别的数据进行关联;
对所述经关联后的不同类别的标注数据进行联合学习。


2.如权利要求1所述的基于机器学习的数据标注方法,其特征在于,所述对所述分别标注的不同类别的数据进行关联,还包括:
采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对所述分别标注的不同类别的数据进行关联。


3.如权利要求1所述的基于机器学习的数据标注方法,其特征在于,在所述对所述经关联后的不同类别的标注数据进行联合学习之后,还包括:
抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。


4.如权利要求3所述的基于机器学习的数据标注方法,其特征在于,所述抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化,包括:
采用将数据量按从大到小顺序的抽取方式,抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。


5.一种基于机器学习的数据标注装置,其特征在于,包括:
标注模块、关联模块和学习模块;
所述标注模块,用于通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;
所述关联模块,用于对所述分别标注的不同类别的数据...

【专利技术属性】
技术研发人员:陈鑫肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1