文本的数据标注方法和装置、存储介质及电子装置制造方法及图纸

技术编号:26172113 阅读:12 留言:0更新日期:2020-10-31 13:47
本发明专利技术公开了一种文本的数据标注方法和装置、存储介质及电子装置。其中,该方法包括:获取待标注的文本;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。

【技术实现步骤摘要】
文本的数据标注方法和装置、存储介质及电子装置
本专利技术涉及数据处理领域,具体而言,涉及一种文本的数据标注方法和装置、存储介质及电子装置。
技术介绍
自然语言处理中,需要大量的标注数据,一般情况下,数据标注的准确率在90%以上就可以被模型所使用,但是对于某些问题,比如家电行业,需要保证模型的稳定性,对于已有数据必须保证100%的准确率。但是人为标注的数据依然还有将近10%的错误率,对于这些错误的标注,仍需后期投入人力物力资源进行材料的校对与更正工作,再次进行审核标注,显然,在挑选这些错误数据时需要耗费大量的时间,占用很多人力资源。现有技术运用传统的语言处理算法进行自然语言的标注校验分析处理。在逐层处理的串行处理过程中,完整的自然语言按从广泛到精确的逻辑顺序进行解析。这类方案的一个明显缺陷就是错误的积累:由上层产生的错误没有被及时抽离,而是作为输入进入到下一层继续进行识别处理,识别的结果从上层继承到下一层,造成了大量不必要的检测、识别工作,带来一定量的资源浪费。在分层分别处理的并行处理过程中,每一层有各自的识别单位和标准,层次之间的识别互不影响,有效解决了错误传播的问题。但这种脱离了层次间关联的识别方法破坏了自然语言所具有的强逻辑性,可能出现不同领域的分析方法拆解同一句话的情况,分析结果可能不尽如人意。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本的数据标注方法和装置、存储介质及电子装置,以至少解决现有技术中,对文本进行数据标注的准确性较低的技术问题。根据本专利技术实施例的一个方面,提供了一种文本的数据标注方法,包括:获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。根据本专利技术实施例的另一方面,还提供了一种文本的数据标注装置,包括:获取单元,用于获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;第一标注单元,用于通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;第二标注单元,用于根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;确定单元,用于将所述第三标注数据与所述第四标注数据确定为所文本的标注数据,其中,所述第四标注数据是所述第一标注数据和所述第二标注数据相同部分的标注数据。根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本的数据标注方法。根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本的数据标注方法。在本专利技术实施例中,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,达到了将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,从而实现了提高文本标注数据的准确性的技术效果,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的文本的数据标注方法的应用环境的示意图;图2是根据本专利技术实施例的一种可选的文本的数据标注方法的流程图;图3是根据本专利技术实施例的一种可选的文本第一处理方式的流程图;图4是根据本专利技术实施例的一种可选的文本第二处理方式的流程图图5是根据本专利技术实施例的一种可选的文本语义层次示意图;图6是根据本专利技术实施例的一种可选的基于多层次多模型的已标注数据校验方法的流程图;图7是根据本专利技术实施例的一种可选的文本的数据标注装置的结构示意图;图8是根据本专利技术实施例的一种可选的文本的数据标注方法的电子装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例的一个方面,提供了一种文本的数据标注方法,可选地,作为一种可选的实施方式,上述文本的数据标注方法可以但不限于应用于如图1所示的硬件环境中的文本的数据标注系统中,其中,该文本的数据标注系统可以包括但不限于终端设备102、网络110及服务器112。其中,上述终端设备102中可以包括但不限于:人机交互屏幕104,处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令,还用于呈现该待标注的文本;处理器106用于响应上述人机交互指令,对文本标注数据。存储器108用于存储待标注的文本,及文本标注完成的标注数据等信息。这里服务器可以包括但不限于:数据库114及处理引擎116,处理引擎116用于调用数据库114中存储的待标注的文本,通过获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的本文档来自技高网
...

【技术保护点】
1.一种文本的数据标注方法,其特征在于,包括:/n获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;/n通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;/n根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;/n将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。/n

【技术特征摘要】
1.一种文本的数据标注方法,其特征在于,包括:
获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;
通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;
根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;
将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。


2.根据权利要求1所述的方法,其特征在于,通过所述第一处理方式对所述文本标注数据,得到第一标注数据,包括:
确定所述文本对应第一类别,根据所述第一类别将所述文本输入到第一神经网络的第一层,得到所述第一类别对应的标注数据;
将所述第一类别对应的标注数据输入到所述第一神经网络的第二层,得到所述第一标注数据。


3.根据权利要求1所述的方法,其特征在于,通过所述第二处理方式对所述文本标注数据,得到第二标注数据,包括:
根据不同的分类方式确定所述文本对应第二类别和第三类别;
根据所述第二类别输入到第二神经网络,得到所述第二类别对应的标注数据,根据所述第三类别输入到第三神经网络,得到所述第三类别对应的标注数据;
根据预设条件处理所述第二类别对应的标注数据和第三类别对应的标注数据,得到所述第二标注数据。


4.根据权利要求1所述的方法,其特征在于,将所述第三标注数据与第四标注数据确定为所文本的标注数据之后,所述方法还包括:
将所述文本的标注数据输入到目标神经网络模型中,输出对目标对象执行目标操作的概率;
在所述概率大于预定阈值的情况下,响应对所述目标对象的指令执行所述目标操作。


5.根据权利要求4所述的方法,其特征在于,响应对所述目标对象的指令执行所述目标操作,包括:
响应对所述目标对象的指令执行删除目标对象的标注数据操作;或者;
响应对所述目标对象的指令执行...

【专利技术属性】
技术研发人员:韩俊明赵培马志芳
申请(专利权)人:海尔优家智能科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1