一种基于多标签分类的标注方法、装置、设备及存储介质制造方法及图纸

技术编号：28035559 阅读：20 留言：0更新日期：2021-04-09 23:17

本申请公开了一种基于多标签分类的标注方法、装置、设备及存储介质，属于人工智能技术领域。所述方法通过获取训练样本集，将训练样本集导入到模型中，获取输出结果，其中，输出结果至少包括训练语料在多个标签下的输出概率，计算输出概率对应的置信区间，并基于置信区间重新对训练语料进行标注，对模型进行迭代更新，得到训练好的模型，获取待标注语料，通过训练好的模型获取待标注语料的分类结果，基于分类结果对待标注语料进行标注。此外，本申请还涉及区块链技术，待标注语料可存储于区块链中。本申请的技术方案提高了多标签分类模准确性和稳定性，使得训练得到的模型的输出满足大部分应用场景下的多标签分类标注需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多标签分类的标注方法、装置、设备及存储介质
本申请属于人工智能
，具体涉及一种基于多标签分类的标注方法、装置、设备及存储介质。
技术介绍
近年来，随着互联网的高速发展，尤其是移动互联网时代的到来，人类进入大数据时代，每天都会产生海量的数据，因此对海量数据进行分析、获取有价值的信息已成为学术界和工业界共同关心的热点。作为海量数据的主要外在形式，文本相关的处理技术受到了人们的极大关注，文本分类技术也进入了一个新的发展阶段。目前文本标注主要依赖于分类模型来是实现，即先通过分类模型对文本进行分类，再基于分类结果对文本进行标注。传统文本分类技术主要包括单标签分类和多标签分类，单标签分类即一个文本对应一个类别标签，目前单标签分类的应用已经很广泛了，然而现实生活中，一个文本的类别标签往往不止一个，例如一篇介绍某个国家经济的文章，很可能同时会涉及经济领域、政治领域和文化领域，此时该文章应该同时至少对应经济、政治、文化等三个标签；又如一篇体育赛况报道相关的文章，很可能也会有较大篇幅介绍某位体育明星以及该体育明星在某些赛场...

【技术保护点】
1.一种基于多标签分类的标注方法，其特征在于，包括：/n从预设数据库中获取训练语料，对所述训练语料进行标注，得到训练样本集；/n将所述训练样本集导入到预设的初始多标签分类模型，获取所述初始多标签分类模型的输出结果，其中，所述输出结果至少包括所述训练语料在多个标签下的输出概率；/n计算每一个所述输出概率对应的置信区间，并基于所述置信区间重新对所述训练语料进行标注；/n采用重新标注后的所述训练语料对预设的初始多标签分类模型进行迭代更新，得到训练好的多标签分类模型；/n获取待标注语料，通过所述训练好的多标签分类模型对所述待标注语料进行分类，得到所述待标注语料的分类结果，并基于所述分类结果对所述待标注...

【技术特征摘要】
1.一种基于多标签分类的标注方法，其特征在于，包括：
从预设数据库中获取训练语料，对所述训练语料进行标注，得到训练样本集；
将所述训练样本集导入到预设的初始多标签分类模型，获取所述初始多标签分类模型的输出结果，其中，所述输出结果至少包括所述训练语料在多个标签下的输出概率；
计算每一个所述输出概率对应的置信区间，并基于所述置信区间重新对所述训练语料进行标注；
采用重新标注后的所述训练语料对预设的初始多标签分类模型进行迭代更新，得到训练好的多标签分类模型；
获取待标注语料，通过所述训练好的多标签分类模型对所述待标注语料进行分类，得到所述待标注语料的分类结果，并基于所述分类结果对所述待标注语料进行标注。

2.如权利要求1所述的基于多标签分类的标注方法，其特征在于，所述从预设数据库中获取训练语料，对所述训练语料进行标注，得到训练样本集的步骤，具体包括：
从预设数据库中获取训练语料和预设标签集合，其中，所述预设标签集合包含若干个标签；
基于所述预设标签集合中的标签对所述训练语料进行标注，并对标注后的所述训练语料进行随机组合，得到若干个所述训练样本集，以及与每一个所述训练样本集相互对应的验证数据集。

3.如权利要求2所述的基于多标签分类的标注方法，其特征在于，所述基于所述预设标签集合中的标签对所述训练语料进行标注的步骤，具体包括：
对获取到的所述训练语料进行预处理；
对分词后的所述训练语料进行关键词识别，并提取所述训练语料中的关键词；
分别计算所述训练语料中的关键词与所述预设标签集合中的各个标签的相似度；
对计算得到的各个相似度进行排序，并相似度排序结果对所述训练语料进行标注。

4.如权利要求2所述的基于多标签分类的标注方法，其特征在于，所述初始多标签分类模型包括若干个初始多标签分类子模型，所述将所述训练样本集导入到预设的初始多标签分类模型，获取所述初始多标签分类模型的输出结果的步骤，具体包括：
将若干个所述训练样本集导入到预设的初始多标签分类模型，并将若干个所述训练样本集随机分配给若干个所述初始多标签分类子模型，其中，每一个所述初始多标签分类子模型获得一个所述训练样本集；
将配对成功的所述训练样本集导入到相应的初始多标签分类子模型中进行模型训练，得到若干个训练好的初始多标签分类子模型；
从预设数据库中获取验证语料，将所述验证语料分别导入若干个训练好的初始多标签分类子模型，得到若干个初始多标签分类子模型的输出结果；
对所有初始多标签分类子模型的输出结果进行整合，得到所述初始多标签分类模型的输出结果。

5.如权利要求1至4任意一项所述的基于多标签分类的标注方法，其特征在于，所述计算每一个所述输出概率对应的置信区间，并基于所述置信区间重新对所...

【专利技术属性】
技术研发人员：陈迎运，
申请(专利权)人：平安普惠企业管理有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人