一种数据标注方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:33287480 阅读:12 留言:0更新日期:2022-04-30 23:57
本申请实施例提供了一种数据标注方法、装置、电子设备及可读存储介质,数据标注方法包括:获取待标注数据,并通过预设模型获取目标数据的语义向量,其中所述目标数据包括已标注数据;基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据;基于所述相似数据,对所述待标注数据进行标注。本申请实施例解决了相关技术中在进行数据标注时标注准确性低的问题。行数据标注时标注准确性低的问题。行数据标注时标注准确性低的问题。

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备及可读存储介质


[0001]本申请属于人工智能
,尤其涉及一种数据标注方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着深度学习技术的不断发展,标注数据也越来越得到重视。在标注数据的过程中,由于要面对的数据量很多,而且标注的规则会不断更改,导致标注错误的情况时有发生,从而导致标注数据准确性较低,最终影响依托数据进行计算的效果。

技术实现思路

[0003]本申请实施例的目的是提供一种数据标注方法、装置、电子设备及可读存储介质,以解决相关技术中在进行数据标注时标注准确性较低的问题。
[0004]第一方面,本申请实施例提供了一种数据标注方法,包括:
[0005]获取待标注数据;
[0006]通过预设模型获取目标数据的语义向量,其中所述目标数据包括已标注数据;
[0007]基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据;
[0008]基于所述相似数据,对所述待标注数据进行标注。
[0009]第二方面,本申请实施例提供了一种数据标注装置,包括:
[0010]第一获取模块,用于获取待标注数据;
[0011]第二获取模块,用于通过预设模型获取目标数据的语义向量,其中所述目标数据包括已标注数据;
[0012]第三获取模块,用于基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据;
[0013]数据标注模块,用于基于所述相似数据,对所述待标注数据进行标注。
[0014]第三方面,本申请实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0015]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0016]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0017]在本申请实施中,通过获取待标注数据,并通过预设模型获取目标数据的语义向量,其中目标数据包括已标注数据,基于目标数据的语义向量,从目标数据中筛选得到与待标注数据对应的相似数据,基于相似数据,对待标注数据进行标注,实现了通过相似数据辅
助标注待标注数据,有效提高了数据标注的准确性,解决了相关技术中数据标注准确性较低的问题。
附图说明
[0018]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例中数据标注方法的流程示意图;
[0020]图2为本申请实施例中又一数据标注方法的流程示意图;
[0021]图3为本申请实施例中数据标注装置的模块组成示意图;
[0022]图4为本申请实施例中电子设备的结构示意图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0024]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0025]此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0027]当前,在标注数据的过程中,由于要面对的数据量很多,而且标注的规则会不断更改,导致标注错误的情况时有发生,标注数据质量不高,即标注准确性较低,最终影响依托数据进行计算的效果。例如,数据A1的标注结果为a,但是随着标注规则的变化,与数据A1的语义相似的数据A2的标注结果为b,即虽然数据A1和数据A2的语义相似,但也会出现相似数据标注不同的标注结果,这导致无法做到整个标注数据集的统一,数据标注的质量不高。
[0028]基于上述技术问题,本申请实施例通过电子设备获取待标注数据和与其相似的相似数据,该相似数据为与待标注数据的语义向量相似度较高(例如高于预设值)的数据,并参考相似数据对待标注数据进行标注,由于相似数据的语义向量与待标注数据的语义向量
的相似度较高,而相似度高的文本之间的语义相近,从而使得相似数据的标注结果能够作为待标注数据的标注参考,且相似数据的语义也能作为待标注数据的语义参考,从而避免了对相似的数据进行标注时容易出现的前后标注不一致的问题,提高了数据标注的效率和质量。
[0029]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据标注方法进行详细地说明。该方法可以由电子设备执行,该电子设备可以包括:服务器和/或终端设备,其中终端设备可以例如手机终端、平板电脑等。换言之,该方法可以由安装在电子设备的软件或硬件来执行。
[0030]如图1所示,为本申请实施例所提供的数据标注方法的步骤流程图,该方法包括如下步骤:
[0031]步骤101:获取待标注数据。
[0032]具体的,待标注数据可以是标注易错率大于预设阈值的数据,即可能标注错误的数据,从而使得在通过本申请实施例所述方式对待标注数据进行标注时,能够对不易标注的数据进行标注,提高了数据的标注效率。
[0033]可选的,在获取待标注数据时,可以通过主动学习模型,采用主动学习的方式筛选得出待标注数据。
[0034]例如,主动学习模型可以为基于转换器的双向编码表征(Bidirectional Encoder Representation from本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:获取待标注数据;通过预设模型获取目标数据的语义向量,其中所述目标数据包括已标注数据;基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据;基于所述相似数据,对所述待标注数据进行标注。2.根据权利要求1所述的数据标注方法,其特征在于,所述目标数据还包括未标注数据和/或所述待标注数据。3.根据权利要求1或2所述的数据标注方法,其特征在于,所述基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据,包括:计算所述目标数据的语义向量与所述待标注数据的语义向量之间的相似度;从所述目标数据中筛选得到相似度大于预设值的第一数据,并将所述第一数据确定为所述相似数据。4.根据权利要求1所述的数据标注方法,其特征在于,所述基于所述目标数据的语义向量,从所述目标数据中筛选得到与所述待标注数据对应的相似数据之后,还包括:若所述相似数据中存在标注结果不一致的数据,则按照预设标注标准确定标准标注结果;将所述相似数据中第二数据的标注结果修改为所述标准标注结果,其中所述第二数据为所述相似数据中标注结果不是标准标注结果的数据。5.根据权利要求1所述的数据标注方法,其特征在于,所述基于所述相似数据,对所述待标注数据进行标注,包括:基于所述相似数据的标注结果和/或语义,对所述待标注数据进行标注。6.根据权利要求...

【专利技术属性】
技术研发人员:罗奇帅蒋宁王洪斌吴海英权佳成
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1