System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体涉及一种数据语义标注方法、设备及介质。
技术介绍
1、文本分类是自然语言处理中的一个重要任务,它在实际应用中有着广泛的需求。文本分类主要面临着两个问题:一是数据源的类别不明确,二是已标注数据量不足。为了解决这些问题,一种常见的方法是从数据源中抽取一部分数据,进行人工标注,然后根据标注结果对数据源进行初步划分。重复进行该操作,直到每个类别的数据达到一定数量,就可以用这些数据训练一个较好的文本分类模型。这种方法的优点是操作简单,但缺点是需要消耗大量的人力资源,效率低下,会拖延模型上线进度。
2、为了克服这个困难,目前常采用小样本学习和主动学习方法对数据样本进行标注。小样本学习方法是通过一些特殊的算法,利用少量的数据训练出一个准确率较高的数据标注模型;主动学习方法通过不断地对数据标注模型进行快速更新,使得数据标注模型能够在更短的时间内达到一个较优的水平。
3、然而,主动学习借助度量算法筛选待标注数据,但仍需人工进行多轮循环标注,其中存在效率低;少样本学习会利用少量已标注数据对未标注数据进行自动标注,但是模型精度低,也需要大量的人工审核。
技术实现思路
1、本专利技术为克服现有数据语义标注方法存在的准确性低且效率低的缺陷,提出如下技术方案:
2、第一个方面,本专利技术提出一种数据语义标注方法,包括:
3、根据预设比例将数据集划分为训练集和测试集。
4、利用训练集的数据样本训练一个分类模型,并将测试集
5、计算测试集中每个数据样本的标签的置信度,并判断数据样本的标签的置信度是否大于阈值。
6、当数据样本的标签的置信度大于阈值时,则判断该数据样本是否存在于异常样本缓存列表中,若是,则将该数据样本从异常样本缓存列表中删除,并将该数据样本更新至数据集中,若否,则直接将该数据样本更新至数据集中。
7、当数据样本的标签的置信度不大于阈值时,则将该数据样本加入至异常样本缓存列表中,并判断该数据样本在异常样本缓存列表中连续存在的次数是否小于阈值,若是,则使用预训练好的语义标注器对该数据样本进行语义标注并更新至数据集中,若否,则获取人工标签对该数据样本进行语义标注并更新至数据集中。
8、重复执行上述步骤,直至异常样本缓存列表为空,对所有数据样本完成语义标注。
9、第二个方面,本专利技术还提出一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如第一个方面中任一方案所述的数据语义标注方法所执行的操作。
10、第三个方面,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如第一个方面中任一方案所述的数据语义标注方法所执行的操作。
11、本专利技术的有益效果至少包括:
12、(1)本专利技术使用预训练好的语义标注器对数据样本进行语义标注,可以利用海量的无标注数据进行预训练,并根据不同的任务和领域进行微调,在给定的上下文生成多样化和丰富化的文本,输出语义标签,可以有效地减少人工标注的工作量和成本,提高数据语义标注的效率。
13、(2)本专利技术通过异常样本缓存列表更新机制,让语义标注器在线学习人对异常样本的标注偏好知识,可以根据分类模型对数据样本预测标签的不确定性来判断数据样本是否为异常样本,并将异常样本加入或删除至预设的异常样本缓存列表中,可以有效地筛选出分类模型难以处理或错误处理的数据样本,动态地调整异常样本缓存列表中数据样本的数量和质量,提高异常样本缓存列表的准确性和效率。
本文档来自技高网...【技术保护点】
1.一种数据语义标注方法,其特征在于,包括:
2.根据权利要求1所述的数据语义标注方法,其特征在于,所述语义标注器基于大语言模型构建。
3.根据权利要求2所述的数据语义标注方法,其特征在于,所述大语言模型为ChatGpt或Llama。
4.根据权利要求1所述的数据语义标注方法,其特征在于,使用语义标注器对数据样本进行语义标注,具体包括:
5.根据权利要求4所述的数据语义标注方法,其特征在于,获取与待进行语义标注的数据样本任务相关的示例样本,具体包括:
6.根据权利要求1至5任一项所述的数据语义标注方法,其特征在于,计算测试集中每个数据样本的标签的熵作为置信度,其表达式如下所示:
7.根据权利要求6所述的数据语义标注方法,其特征在于,所述数据集包括初始已标注数据样本和初始未标注数据样本;在训练分类模型时,在首轮训练过程中,以初始已标注数据样本作为训练集,并以初始未标注数据样本作为测试集分别进行训练和预测;在首轮训练过程后,根据预设比例随机选取数据样本,将数据集划分为训练集和测试集分别进行训练和预测。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的数据语义标注方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如权利要求1至8中任一项所述的数据语义标注方法所执行的操作。
...【技术特征摘要】
1.一种数据语义标注方法,其特征在于,包括:
2.根据权利要求1所述的数据语义标注方法,其特征在于,所述语义标注器基于大语言模型构建。
3.根据权利要求2所述的数据语义标注方法,其特征在于,所述大语言模型为chatgpt或llama。
4.根据权利要求1所述的数据语义标注方法,其特征在于,使用语义标注器对数据样本进行语义标注,具体包括:
5.根据权利要求4所述的数据语义标注方法,其特征在于,获取与待进行语义标注的数据样本任务相关的示例样本,具体包括:
6.根据权利要求1至5任一项所述的数据语义标注方法,其特征在于,计算测试集中每个数据样本的标签的熵作为置信度,其表达式如下所示:
7.根据权利要求6所述的数据语义标注方法,其特征在于,所述数据集包括初始已标注数据样本和初...
【专利技术属性】
技术研发人员:张晓杉,
申请(专利权)人:重庆长安汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。