【技术实现步骤摘要】
基于弱监督技术主动学习的智能标注方法、装置及平台
本专利技术涉及计算机
,具体涉及一种基于弱监督技术主动学习的智能标注方法、装置及平台。
技术介绍
随着数据量的急剧增多,AI技术发展迅速,而机器学习是AI发展到一定阶段的必然产物。机器学习是通过计算的手段,从大量数据中挖掘有价值的潜在信息。在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。近年来,由于数据爆炸式增长以及计算力的提升,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别、语音识别、自然语言处理等领域展现出了巨大的优势,并且仍在继续发展变化。虽然深度学习使得诸多领域取得突破性进展,但是仍然存在一些局限。目前,依赖大规模标注数据的有监督的深度学习仍然占据主导地位。一方面,大规模标注数据的获取受到人工成本与时间成本的限制:真实世界存在着海量未标注数据,将这些数据逐一添加人工标签,显然是不现实的。另一方面,很多 ...
【技术保护点】
1.一种基于弱监督技术主动学习的智能标注方法,其特征在于,包括:/n获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;/n选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;/n若判断训练结果满足验证条件,则完成所述机器学习模型的训练;/n其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;/n所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;/n所述结构化信息方式包括以下至少一种:关系识别方式、句 ...
【技术特征摘要】
1.一种基于弱监督技术主动学习的智能标注方法,其特征在于,包括:
获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
2.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据,具体包括:
若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
3.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述根据所述结构化信息方式对所述待标注数据进行数据标注,具体包括:
根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,
根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
4.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据之前,还包括:
根据主动学习方法或者弱监督学习方法生成所述待标注数据。
5.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特...
【专利技术属性】
技术研发人员:罗彤,孙静静,陈国旗,王希治,
申请(专利权)人:罗彤,北京融汇金信信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。