标注方法、标注装置、设备及可读存储介质制造方法及图纸

技术编号：38346834 阅读：19 留言：0更新日期：2023-08-02 09:26

本发明专利技术公开了一种标注方法、标注装置、设备及可读存储介质，其中，方法包括接收待标注的第一字符串和第二字符串；将第一字符串中的按照目标子串长度切分的子字符串，与第二字符串中的按照目标子串长度切分的子字符串进行第一次随机乱序对识别，得到对应的识别结果；执行循环识别操作，直至目标子串长度大于第一字符串或第二字符串的长度；在最后得到的识别结果表征第一字符串中的子字符串与第二字符串中的子字符串为随机乱序对时，为第一字符串和第二字符串标注相同的语义信息。可以提高标注效率。注效率。注效率。

全部详细技术资料下载

【技术实现步骤摘要】
标注方法、标注装置、设备及可读存储介质

[0001]本专利技术涉及人工智能
，具体涉及一种标注方法、标注装置、设备及可读存储介质。

技术介绍

[0002]在人工智能领域进行模型训练时，为了提高模型的泛化能力，往往会在训练数据中加入一些随机的变化、噪声，以进行数据增强。比如在训练车辆检测的模型时，会通过人为手段的旋转、裁剪、拼接、亮度、颜色调整等方法对同一辆车进行处理，以进行训练数据的增强。这样，可以使训练得到的模型真正学习到“车”本身的特征，具备较好的去伪存真的能力。
[0003]类似的，在自然语言处理（Natural language processing，NLP）中，也需要对用于模型训练的文本、句子进行随机扰乱，以提高NLP模型的泛化能力。这就要求在对用于模型训练的文本、句子进行标注时，执行标注的设备需要能够自动识别出这些被扰乱的文本、句子，并对这些文本、句子进行正确的标注。比如，假设需要训练NLP模型识别文本A，那么可以在训练数据中放入文本A、从文本A随机扰乱得到的文本B、文本A和文本B之外的其它文本C。...

【技术保护点】

【技术特征摘要】
1.一种标注方法，其特征在于，所述方法包括：接收待标注的第一字符串和第二字符串；将所述第一字符串中的按照目标子串长度切分的子字符串，与所述第二字符串中的按照目标子串长度切分的子字符串进行第一次随机乱序对识别，得到对应的识别结果；执行循环识别操作，直至目标子串长度大于所述第一字符串或所述第二字符串的长度，其中，所述循环识别操作为：将当前的目标子串长度增加指定长度，得到新的目标子串长度；以及依据已经得到的识别结果，将所述第一字符串中的按照新的目标子串长度切分的子字符串，与所述第二字符串中的按照新的目标子串长度切分的子字符串继续进行随机乱序对识别，得到对应的识别结果；在最后得到的识别结果表征所述第一字符串中的子字符串与所述第二字符串中的子字符串为随机乱序对时，为所述第一字符串和所述第二字符串标注相同的语义信息。2.如权利要求1所述的方法，其特征在于，所述进行第一次随机乱序对识别，包括：将所述第一字符串中的子字符串与所述第二字符串的子字符串进行比对，并将相同的子字符串对识别为随机乱序对，以及将不相同的子字符串对识别为非随机乱序对。3.如权利要求1所述的方法，其特征在于，在所述循环识别操作中继续进行随机乱序对识别，包括：按照指定的切分位置，将所述第一字符串中的子字符串切分为前后两个第一目标子串，以及将所述第二字符串中的子字符串切分为前后两个第二目标子串；在如下情况下，将第一目标子串所在的子字符串与第二目标子串所在的子字符串识别为随机乱序对：在前一个第一个目标子串与前一个第二目标子串长度相同的情况下，前一个第一个目标子串与前一个第二目标子串为随机乱序对，且后一个第一个目标子串与后一个第二目标子串为随机乱序对；或在前一个第一个目标子串与后一个第二目标子串长度相同的情况下，前一个第一个目标子串与后一个第二目标子串为随机乱序对，且后一个第一个目标子串与前一个第二目标子串为随机乱序对。4.如权利要求3所述的方法，其特征在于，所述切分位置是基于如下方法确定的：在所述第一字符串和所述第二字符串的子字符串中，均从子字符串的初始位置开始，将与所述初始位置相距切分长度的位置，确定为所述切分位置；或在所述第一字符串的子字符串中，从子字符串的初始位置开始，将与所述初始位置相距所述切分长度的位置，确定为所述切分位置，以及在所述第二字符串的子字符串中，从子字符串的...

【专利技术属性】
技术研发人员：范俊杰，李发成，张如高，虞正华，
申请(专利权)人：深圳魔视智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人