【技术实现步骤摘要】
一种主动学习方法、装置及终端设备
本专利技术涉及主动学习
,尤其涉及一种主动学习方法、装置及终端设备。
技术介绍
目前,机器学习主要研究计算机如何利用经验数据提高自身性能,因此充分和高质量的数据是有效学习的基础和关键。在传统的有监督学习中,一般要求用于训练学习模型的数据均是已标记的。一般认为,已标记的数据越多,标记越精准,基于这些数据训练得到的模型也越高效。大数据时代为机器学习提供了丰富的原材料,使其发挥着越来越重要的作用,成为当前最热门的研究领域之一。然而,大数据提供机遇的同时也带来了严重的挑战,其中最典型的便是数据质量低下。在许多实际情况下,虽可获取大量数据,但这些数据大部分是未标记的。而若直接对这些未标记数据进行标记来得到标记数据,标记人员工作压力大且繁复,而且质量很难控制。为了减轻标记人员的工作压力,提高标记人员的工作价值和标记效率,可应用主动学习(activelearning)技术,借助主动学习算法框架,利用少量高质量标记数据训练模型,大幅降低实体识别(entityrecognition)、短文本分类 ...
【技术保护点】
1.一种主动学习方法,其特征在于,包括:/n在主动学习的每轮迭代过程中,利用训练数据集中的多轮对话标记数据训练上下文序列模型;/n使用训练得到的上下文序列模型,对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测,得到所述每组多轮对话未标记数据的不确定度序列;/n利用预设算法,对所述每组多轮对话未标记数据的不确定度序列进行处理,得到所述每组多轮对话未标记数据的不确定度指数;/n根据所述每组多轮对话未标记数据的不确定度指数,从所述未标记数据集中,选取预设组不确定度指数最大的多轮对话未标记数据;/n对选取的预设组多轮对话未标记数据进行标记,将标记后的预设组多 ...
【技术特征摘要】
1.一种主动学习方法,其特征在于,包括:
在主动学习的每轮迭代过程中,利用训练数据集中的多轮对话标记数据训练上下文序列模型;
使用训练得到的上下文序列模型,对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测,得到所述每组多轮对话未标记数据的不确定度序列;
利用预设算法,对所述每组多轮对话未标记数据的不确定度序列进行处理,得到所述每组多轮对话未标记数据的不确定度指数;
根据所述每组多轮对话未标记数据的不确定度指数,从所述未标记数据集中,选取预设组不确定度指数最大的多轮对话未标记数据;
对选取的预设组多轮对话未标记数据进行标记,将标记后的预设组多轮对话标记数据添加至所述训练数据集,得到更新后的训练数据集,并以所述更新后的训练数据集为基础进入下一轮迭代,直至所述上下文序列模型的精度达到预设要求。
2.根据权利要求1所述的方法,其特征在于,所述预设算法为如下算法中的任意一种:
算数平均法、2阶几何平均法、极大值法、极小值法和权重平均法。
3.根据权利要求2所述的方法,其特征在于,所述预设算法为权重平均法;所述利用预设算法,对所述每组多轮对话未标记数据的不确定度序列进行处理,得到所述每组多轮对话未标记数据的不确定度指数,包括:
利用预设概率分布函数,调整所述每组多轮对话未标记数据中的每轮对话语句的权重值;
根据调整后的每轮对话语句的权重值,计算所述每组多轮对话未标记数据的不确定度序列的加权平均数,得到所述每组多轮对话未标记数据的不确定度指数。
4.根据权利要求3所述的方法,其特征在于,所述预设概率分布函数为如下函数中的任意一种:
泊松概率分布函数、超几何概率分布函数和初等函数。
5.一种主动学习装置,其特征在于,包括:
训练模块,用于在主动学习的每轮迭代过程中,利用训练数据集中的多轮对话标记数据训练上下文序列模型;
预测模块,用于使用训练得到的上下文序列模型,对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测,得到所述每组多轮对话未标记数据的不确定度序列;
主动学习模块,用于利用...
【专利技术属性】
技术研发人员:刘睿,李云彬,罗欢,权圣,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。