信息处理设备、信息处理方法以及计算机可读存储介质技术

技术编号:31561054 阅读:28 留言:0更新日期:2021-12-25 10:40
提供了信息处理设备、信息处理方法以及计算机可读存储介质。信息处理设备包括处理电路,该处理电路被配置为:针对多个指标中的每个指标,根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元,构建针对该指标的样本单元集;以及针对所构建的多个样本单元集中的至少一部分样本单元集,从每个样本单元集中提取最小标注样本单元,并且基于所提取的最小标注单元生成标注训练样本。根据本公开的实施例的至少一方面,根据人工标注的最小标注样本单元构建样本单元集并基于这样的样本单元集自动生成标注训练样本,从而能够以一定程度的自动化方式生成标注训练样本,减少人工参与。人工参与。人工参与。

【技术实现步骤摘要】
信息处理设备、信息处理方法以及计算机可读存储介质


[0001]本申请涉及数据处理和/或数据分析领域,更具体地,涉及一种信息处理设备、信息处理方法及计算机可读存储介质以及一种存储有针对特定领域的文本的识别及分类模型的信息处理设备。

技术介绍

[0002]随着深度学习技术的发展,近些年,越来越多的深度学习模型和方法已被用来解决不同领域的任务。深度学习模型强大的特征学习及表征能力是通过利用大量标注样本进行训练而学习获得的。
[0003]在诸如自然语言处理(Natural Language Processing,NLP)等领域,有时需要利用巨大(诸如几十万至百万级)的训练样本对深度学习模型进行训练,以便实现满足实际应用要求的模型性能。完全基于人工标注获得如此巨大量级的训练样本需要很高的时间成本和经济成本。对很多垂直领域的具体任务来说,投入远大于产出,给实际应用带来很大难度。因此,需要能够提供一种比纯人工标注更高效地获得标注样本的方法。
[0004]另一方面,在自然语言处理中,现有的深度学习模型本身也无法满足很多垂直领域的应用需求。预训练模型作为自然语言处理发展的一个重要方向,目前已在垂直领域的具体应用中获得关注。以分类任务举例,可以首先利用泛化通用文本训练得到预训练的分类模型,再利用具体的垂直领域的文本数据微调训练该模型,以获得针对垂直领域的最终分类模型。然而,由于预训练使用的泛化通用文本与后期的垂直领域的真实文本数据之间的差异,但导致最终分类模型的分类效果仍不理想。因此,对于垂直领域的具体任务,期望能够提供具有更高准确率的分类模型。

技术实现思路

[0005]在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0006]鉴于上述问题,本公开的至少一方面的目的是提供一种信息处理设备、信息处理方法以及计算机可读存储介质,其根据人工标注的最小标注样本单元构建样本单元集并基于这样的样本单元集自动生成标注训练样本,从而能够以一定程度的自动化方式生成标注训练样本。
[0007]此外,本公开的至少另一方面的目的是提供一种信息处理设备,其存储有针对特定领域的文本的识别及分类模型,该识别及分类模型通过结合利用不专属于特定领域的文本(如泛化通用文本)预训练的词向量提取模型与未经预训练的上下文表征模型而获得了两者的益处,从而改进了识别及分类模型的最终识别及分类效果。
[0008]根据本公开的一方面,提供了一种信息处理设备,其包括处理电路,该处理电路被
配置为:针对多个指标中的每个指标,根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元,构建针对该指标的样本单元集;以及针对所构建的多个样本单元集中的至少一部分样本单元集,从每个样本单元集中提取最小标注样本单元,并且基于所提取的最小标注单元生成标注训练样本。
[0009]根据本公开的另一方面,还提供了一种信息处理设备,其包括存储器,该存储器中存储有针对特定领域的文本的识别及分类模型。所述识别及分类模型用于从特定领域的文本输入中识别涉及至少一个指标的部分,并将所识别的部分关于所涉及的指标进行分类。所述识别及分类模型包括:至少利用不专属于所述特定领域的第一文本样本集预训练得到的词向量提取模型,用于从文本输入中提取词向量;以及利用所述特定领域的第二文本样本集训练得到的上下文表征模型,用于根据词向量提取模型所提取的词向量输出所述分类的结果。
[0010]根据本公开的又一方面,还提供了一种信息处理方法,其包括:针对多个指标中的每个指标,根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元,构建针对该指标的样本单元集;以及针对所构建的多个样本单元集中的至少一部分样本单元集,从每个样本单元集中提取最小标注样本单元,并且基于所提取的最小标注单元生成标注训练样本。
[0011]根据本公开的再一方面,还提供了一种存储有可执行指令的非暂态计算机可读存储介质,该可执行指令当由处理器执行时,使得处理器执行上述信息处理方法或信息处理设备的各个功能。
[0012]根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
[0013]根据本公开的实施例的至少一方面,根据人工标注的最小标注样本单元构建样本单元集并基于这样的样本单元集自动生成标注训练样本,从而能够以一定程度的自动化方式生成标注训练样本,减少人工参与,进而降低了获得标注训练样本的时间成本和经济成本。
[0014]此外,根据本公开的实施例的至少另一方面,在识别及分类模型中,通过结合利用非专属于特定领域的文本预训练的词向量提取模型与未经预训练的上下文表征模型而获得了前者关于词向量的良好特征表征能力以及后者在特定领域中的良好上下文表征能力,从而改进了识别及分类模型的最终识别及分类效果。
[0015]在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
[0016]在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
[0017]图1是示出根据本公开的第一实施例的信息处理设备的一个配置示例的框图;
[0018]图2是示出根据本公开的第一实施例的信息处理设备中的生成单元的第一配置示例的框图;
[0019]图3是示出根据本公开的第一实施例的信息处理设备中的生成单元的第二配置示
例的框图;
[0020]图4是示出根据本公开的第一实施例的信息处理设备中的生成单元的第三配置示例的框图;
[0021]图5是示出图4所示的生成单元的第三配置示例的中的控制子单元的一个配置示例的框图;
[0022]图6是示出根据本公开的第一实施例的信息处理设备中的生成单元的第四配置示例的框图;
[0023]图7是示出本公开的第一实施例的信息处理方法的过程示例的流程图;
[0024]图8是示出根据本公开的第二实施例的信息处理设备的一个配置示例的框图;
[0025]图9是示出了应用第二实施例的信息处理设备的存储器中所存储的分类及识别模型的示例应用场景的说明图;
[0026]图10是示出了根据本公开的示例1和2的分类及识别模型与比较例1的分类及识别算法的性能比较的说明图;
[0027]图11是其中可以实现根据本公开的实施例的方法和/或设备和/或系统的通用个人计算机的示例性结构的框图。
[0028]虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理设备,包括:处理电路,被配置为:针对多个指标中的每个指标,根据从原始样本集获得的多个标注好的、涉及该指标的最小标注样本单元,构建针对该指标的样本单元集;以及针对所构建的多个样本单元集中的至少一部分样本单元集,从每个样本单元集中提取最小标注样本单元,并且基于所提取的最小标注单元生成标注训练样本。2.如权利要求1所述的信息处理设备,其中,针对多个指标中的每个指标,涉及该指标的最小标注单元被标注了关于该指标的分类任务的多个预定标签之一。3.如权利要求1所述的信息处理设备,其中,处理电路还被配置为:通过随机组合所提取的各个最小标注单元来生成标注训练样本。4.如权利要求1所述的信息处理设备,其中,处理电路还被配置为:在所构建的多个样本单元集当中随机确定所述至少一部分样本单元集。5.如权利要求4所述的信息处理设备,其中,处理电路还被配置为:重复执行随机确定至少一部分样本单元集、提取最小标注样本单元、以及生成标注训练样本的步骤,以获得包括多个标注训练样本的训练样本集。6.如权...

【专利技术属性】
技术研发人员:周双飞曹飞
申请(专利权)人:索尼中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1