文本的数据标注方法和装置、存储介质及电子装置制造方法及图纸

技术编号：26172113 阅读：12 留言：0更新日期：2020-10-31 13:47

本发明专利技术公开了一种文本的数据标注方法和装置、存储介质及电子装置。其中，该方法包括：获取待标注的文本；通过层次化的逐层串行的第一处理方式对文本标注数据，得到第一标注数据，通过不区分层次的并行处理的第二处理方式对文本标注数据，得到第二标注数据；根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注，得到第三标注数据，对第一标注数据和第二标注数据相同的部分进行标注，得到第四标注数据；将第三标注数据与第四标注数据确定为所文本的标注数据，将两种标注数据方式相结合，对比两种方式产生差异的数据再进行二次处理的目的，进而解决了现有技术中，对文本进行数据标注的准确性较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本的数据标注方法和装置、存储介质及电子装置
本专利技术涉及数据处理领域，具体而言，涉及一种文本的数据标注方法和装置、存储介质及电子装置。
技术介绍
自然语言处理中，需要大量的标注数据，一般情况下，数据标注的准确率在90％以上就可以被模型所使用，但是对于某些问题，比如家电行业，需要保证模型的稳定性，对于已有数据必须保证100％的准确率。但是人为标注的数据依然还有将近10％的错误率，对于这些错误的标注，仍需后期投入人力物力资源进行材料的校对与更正工作，再次进行审核标注，显然，在挑选这些错误数据时需要耗费大量的时间，占用很多人力资源。现有技术运用传统的语言处理算法进行自然语言的标注校验分析处理。在逐层处理的串行处理过程中，完整的自然语言按从广泛到精确的逻辑顺序进行解析。这类方案的一个明显缺陷就是错误的积累：由上层产生的错误没有被及时抽离，而是作为输入进入到下一层继续进行识别处理，识别的结果从上层继承到下一层，造成了大量不必要的检测、识别工作，带来一定量的资源浪费。在分层分别处理的并行处理过程中，每一层有各自的识别单位和标准，层次之间的识别互不影响，有效解决了错误传播的问题。但这种脱离了层次间关联的识别方法破坏了自然语言所具有的强逻辑性，可能出现不同领域的分析方法拆解同一句话的情况，分析结果可能不尽如人意。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本的数据标注方法和装置、存储介质及电子装置，以至少解决现有技术中，对文本...

【技术保护点】
1.一种文本的数据标注方法，其特征在于，包括：/n获取待标注的文本，其中，所述文本中至少包括一个待标注的目标对象；/n通过层次化的逐层串行的第一处理方式对所述文本标注数据，得到第一标注数据，通过不区分层次的并行处理的第二处理方式对所述文本标注数据，得到第二标注数据；/n根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注，得到第三标注数据，对所述第一标注数据和所述第二标注数据相同的部分进行标注，得到第四标注数据；/n将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。/n

【技术特征摘要】
1.一种文本的数据标注方法，其特征在于，包括：
获取待标注的文本，其中，所述文本中至少包括一个待标注的目标对象；
通过层次化的逐层串行的第一处理方式对所述文本标注数据，得到第一标注数据，通过不区分层次的并行处理的第二处理方式对所述文本标注数据，得到第二标注数据；
根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注，得到第三标注数据，对所述第一标注数据和所述第二标注数据相同的部分进行标注，得到第四标注数据；
将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。

2.根据权利要求1所述的方法，其特征在于，通过所述第一处理方式对所述文本标注数据，得到第一标注数据，包括：
确定所述文本对应第一类别，根据所述第一类别将所述文本输入到第一神经网络的第一层，得到所述第一类别对应的标注数据；
将所述第一类别对应的标注数据输入到所述第一神经网络的第二层，得到所述第一标注数据。

3.根据权利要求1所述的方法，其特征在于，通过所述第二处理方式对所述文本标注数据，得到第二标注数据，包括：
根据不同的分类方式确定所述文本对应第二类别和第三类别；
根据所述第二类别输入到第二神经网络，得到所述第二类别对应的标注数据，根据所述第三类别输入到第三神经网络，得到所述第三类别对应的标注数据；
根据预设条件处理所述第二类别对应的标注数据和第三类别对应的标注数据，得到所述第二标注数据。

4.根据权利要求1所述的方法，其特征在于，将所述第三标注数据与第四标注数据确定为所文本的标注数据之后，所述方法还包括：
将所述文本的标注数据输入到目标神经网络模型中，输出对目标对象执行目标操作的概率；
在所述概率大于预定阈值的情况下，响应对所述目标对象的指令执行所述目标操作。

5.根据权利要求4所述的方法，其特征在于，响应对所述目标对象的指令执行所述目标操作，包括：
响应对所述目标对象的指令执行删除目标对象的标注数据操作；或者；
响应对所述目标对象的指令执行...

【专利技术属性】
技术研发人员：韩俊明，赵培，马志芳，
申请(专利权)人：海尔优家智能科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人