信息处理设备、信息处理方法以及计算机可读存储介质技术

技术编号：31561054 阅读：28 留言：0更新日期：2021-12-25 10:40

提供了信息处理设备、信息处理方法以及计算机可读存储介质。信息处理设备包括处理电路，该处理电路被配置为：针对多个指标中的每个指标，根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元，构建针对该指标的样本单元集；以及针对所构建的多个样本单元集中的至少一部分样本单元集，从每个样本单元集中提取最小标注样本单元，并且基于所提取的最小标注单元生成标注训练样本。根据本公开的实施例的至少一方面，根据人工标注的最小标注样本单元构建样本单元集并基于这样的样本单元集自动生成标注训练样本，从而能够以一定程度的自动化方式生成标注训练样本，减少人工参与。人工参与。人工参与。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理设备、信息处理方法以及计算机可读存储介质

[0001]本申请涉及数据处理和/或数据分析领域，更具体地，涉及一种信息处理设备、信息处理方法及计算机可读存储介质以及一种存储有针对特定领域的文本的识别及分类模型的信息处理设备。

技术介绍

[0002]随着深度学习技术的发展，近些年，越来越多的深度学习模型和方法已被用来解决不同领域的任务。深度学习模型强大的特征学习及表征能力是通过利用大量标注样本进行训练而学习获得的。
[0003]在诸如自然语言处理(Natural Language Processing,NLP)等领域，有时需要利用巨大(诸如几十万至百万级)的训练样本对深度学习模型进行训练，以便实现满足实际应用要求的模型性能。完全基于人工标注获得如此巨大量级的训练样本需要很高的时间成本和经济成本。对很多垂直领域的具体任务来说，投入远大于产出，给实际应用带来很大难度。因此，需要能够提供一种比纯人工标注更高效地获得标注样本的方法。
[0004]另一方面，在自然语言处理中，现有的深度学习模型本身也无法满足很多垂直领域的应用需求。预训练模型作为自然语言处理发展的一个重要方向，目前已在垂直领域的具体应用中获得关注。以分类任务举例，可以首先利用泛化通用文本训练得到预训练的分类模型，再利用具体的垂直领域的文本数据微调训练该模型，以获得针对垂直领域的最终分类模型。然而，由于预训练使用的泛化通用文本与后期的垂直领域的真实文本数据之间的差异，但导致最终分类模型的分类效果仍不理想。因此，对于垂直领域的具体任务，期望能够提供...

【技术保护点】

【技术特征摘要】
1.一种信息处理设备，包括：处理电路，被配置为：针对多个指标中的每个指标，根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元，构建针对该指标的样本单元集；以及针对所构建的多个样本单元集中的至少一部分样本单元集，从每个样本单元集中提取最小标注样本单元，并且基于所提取的最小标注单元生成标注训练样本。2.如权利要求1所述的信息处理设备，其中，针对多个指标中的每个指标，涉及该指标的最小标注单元被标注了关于该指标的分类任务的多个预定标签之一。3.如权利要求1所述的信息处理设备，其中，处理电路还被配置为：通过随机组合所提取的各个最小标注单元来生成标注训练样本。4.如权利要求1所述的信息处理设备，其中，处理电路还被配置为：在所构建的多个样本单元集当中随机确定所述至少一部分样本单元集。5.如权利要求4所述的信息处理设备，其中，处理电路还被配置为：重复执行随机确定至少一部分样本单元集、提取最小标注样本单元、以及生成标注训练样本的步骤，以获得包括多个标注训练样本的训练样本集。6.如权...

【专利技术属性】
技术研发人员：周双飞，曹飞，
申请(专利权)人：索尼中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人