一种无标签语料的分类方法及装置制造方法及图纸

技术编号:22238251 阅读:21 留言:0更新日期:2019-10-09 18:08
本发明专利技术提供一种无标签语料的分类方法及装置,所述方法包括:获取无标签语料,所述无标签语料包括至少一个问题;将所述无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。所述装置用于执行上述方法。本发明专利技术实施例提供的无标签语料的分类方法及装置,提高了对无标签语料分类的准确性。

A Classification Method and Device for Labelless Corpus

【技术实现步骤摘要】
一种无标签语料的分类方法及装置
本专利技术涉及人工智能
,尤其涉及一种无标签语料的分类方法及装置。
技术介绍
随着人工智能技术的发展,基于人工智能的对话机器人已广泛应用到客服、外呼、销售、智能搜索等众多领域,而意图识别作为对话机器人系统中的核心技术,直接决定了对话的准确率和用户体验。目前,在意图识别技术中,较为有效的技术是深度学习模型,通过训练获得的深度学习模型可以实现对无标签语料的分类,有助于意图的识别。然而,深度学习模型的训练需要采集标注大量的样本,非常耗时耗力,而且大量标注数据(即样本数据)的积累需要非常长的时间,高质量的大量标注数据是非常昂贵的。再有就是深度学习模型的参数太多,在样本数据较少时很容易产生“过拟合”,对噪音数据非常敏感。现有技术为了解决样本数据较少时导致的过拟合问题,在选用模型时采用简单模型,并采用惩罚项等技术,在数据处理方面采用去噪,样本扩大等技术,但是仍难以解决样本数据过少,导致训练得到的深度学习模型不够准确的问题,导致无标签语料分类准确性很低,影响了深度学习模型的应用。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供一种无标签语料的分类方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本专利技术提出一种无标签语料的分类方法,包括:获取无标签语料,所述无标签语料包括至少一个问题;将所述无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。另一方面,本专利技术提供一种无标签语料的分类装置,包括:获取单元,用于获取无标签语料,所述无标签语料包括至少一个问题;分类单元,用于将无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。又一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述基于无标签语料的文本分类模型建立方法的步骤。本专利技术实施例提供的无标签语料的分类方法及装置,能够获取无标签语料,然后将无标签语料包括的每个问题输入至基于无标签语料样本训练后获得的文本分类模型,输出每个问题对应的标签,在高质量的标注样本难以获得或者数量不足的情况下,能够通过无标签语料样本训练后获得的文本分类模型对无标签语料进行分类,提高了对无标签语料分类的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术一实施例提供的无标签语料的分类方法的流程示意图。图2是本专利技术再一实施例提供的无标签语料的分类方法的流程示意图。图3是本专利技术一实施例提供的第一训练模型的结构示意图。图4是本专利技术另一实施例提供的无标签语料的分类方法的流程示意图。图5是本专利技术又一实施例提供的无标签语料的分类方法的流程示意图。图6是本专利技术一实施例提供的Seq2Seq模型的结构示意图。图7是本专利技术一实施例提供的基于无标签语料的文本分类模型建立系统的结构示意图。图8是本专利技术一实施例提供的无标签语料的分类装置的结构示意图。图9是本专利技术另一实施例提供的无标签语料的分类装置的结构示意图。图10是本专利技术再一实施例提供的无标签语料的分类装置的结构示意图。图11是本专利技术又一实施例提供的无标签语料的分类装置的结构示意图。图12为本专利技术一实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。图1是本专利技术一实施例提供的无标签语料的分类方法的流程示意图,如图1所示,本专利技术实施例提供的无标签语料的分类方法,包括:S101、获取无标签语料,所述无标签语料包括至少一个问题;具体地,无论是人工客服还是对话机器人,在为客户服务的过程中都会产生语音对话,通过语音识别技术可以将上述语音对话转写成文本,可以将上述文本中的问题汇集起来作为无标签语料,上述无标签语料是没有经过分类的文本数据,所述无标签语料包括至少一个问题。S102、将所述无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。具体地,在获得所述无标签语料之后,将所述无标签语料中的每个问题作为文本分类模型的输入,经过所述文本分类模型的处理,可以输出每个问题对应的标签,所述标签用于标识所述问题所属的类型。所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答,所述回答是对所述问题的解答,也可以认为所述回答对所述问题进行了标注,所述无标签语料样本包括的语料数据的数量根据实际需要进行设置,本专利技术实施例不做限定。所述文本分类模型的具体训练过程,见下文所述,此处不进行赘述。本专利技术实施例的执行主体包括但不限于计算机。本专利技术实施例提供的无标签语料的分类方法,能够获取无标签语料,然后将无标签语料包括的每个问题输入至基于无标签语料样本训练后获得的文本分类模型,输出每个问题对应的标签,在高质量的标注样本难以获得或者数量不足的情况下,能够通过无标签语料样本训练后获得的文本分类模型对无标签语料进行分类,提高了对无标签语料分类的准确性。图2是本专利技术再一实施例提供的无标签语料的分类方法的流程示意图,如图2所示,基于无标签语料样本训练获得所述文本分类模型的步骤包括:S201、基于所述无标签语料样本对编码-解码框架的模型进行训练,获得预训练模型,所述预训练模型包括编码层;具体地,将无标签语料样本输入到编码-解码框架的模型中,对编码-解码框架的模型进行训练,可以得到预训练模型,所述预训练模型包括编码层。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定长度的向量再转化成输出序列,在编码-解码框架的模型的训练过程中,所述无标签语料样本中的每条语料数据包括的问题对应编码,每条语料数据包括的回答对应解码,由此可以得到表征和泛化能力较好的语义编码。其中,Encoder-Decoder框架是深度学习中的一个模型框架,Encoder-Decoder框架的模型包括但不限于序列到序列(SequencetoSequence,简称Seq2Seq)模型。例如,为了获得所述无标签语料样本,可以对保存的客服录音,利用语音识别技术(AutomaticSpeechRecognition,简称ASR)将客服录音进行离线转写成文本,得到原始语料;然后将上述原始语料中的对话场景,进行人工校对处理,获得所述无标签语音样本,所述校对包括但不限于纠错,对齐语句等处理,获得的所述无标签语料样本中的每条语料数据包括一个问题和一个回答。所述语料数据比如为:问题:您好,请问银行本文档来自技高网...

【技术保护点】
1.一种无标签语料的分类方法,其特征在于,包括:获取无标签语料,所述无标签语料包括至少一个问题;将所述无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。

【技术特征摘要】
1.一种无标签语料的分类方法,其特征在于,包括:获取无标签语料,所述无标签语料包括至少一个问题;将所述无标签语料包括的每个问题输入至文本分类模型,输出每个问题对应的标签;其中,所述文本分类模型是基于无标签语料样本训练后获得的,所述无标签语料样本中的每条语料数据包括一个问题和一个回答。2.根据权利要求1所述的方法,其特征在于,基于无标签语料样本训练获得所述文本分类模型的步骤包括:基于所述无标签语料样本对编码-解码框架的模型进行训练,获得预训练模型,所述预训练模型包括编码层;对所述无标签语料样本进行抽样处理,获得第一训练样本,所述第一训练样本中的每条训练样本数据包括一个问题和对应的标签;基于所述第一训练样本对第一训练模型进行训练,获得初始分类模型;其中,所述第一训练模型包括分类层和所述预训练模的编码层,在对所述第一训练模型的训练过程中所述编码层的参数保持不变;基于剩余的无标签语料样本和所述初始分类模型,获得补充训练样本;其中,所述剩余的无标签语料样本是从所述无标签语料样本中去除与所述第一训练样本对应的无标签语料样本后获得的;基于第二训练样本对所述初始分类模型进行训练,获得所述文本分类模型;其中,所述第二训练样本包括所述第一训练样本和所述补充训练样本,在对所述初始分类模型的训练过程中,所述初始分类模型的编码层的参数保持不变。3.根据权利要求2所述的方法,其特征在于,所述对所述无标签语料样本进行抽样处理,获得第一训练样本包括:对所述无标签语料样本进行聚类,获得预设类别的无标签语料样本;对每个所述预设类别的所述无标签语料样本进行抽样,获得原始样本;根据经过标注的原始样本,获得所述第一训练样本。4.根据权利要求2所述的方法,其特征在于,所述基于剩余的无标签语料样本和所述初始分类模型,获得补充训练样本包括:通过所述初始分类模型对剩余的无标签语料样本进行标注,获得剩余的无标签语料样本中每条语料数据对应的标签;根据剩余的无标签语料样本中每条语料数据对应的标签以及每条语料数据包括的问题,获得所述补充训练样本。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于编码-解码框架的模型采用序列到序列模型。6.一种无标签语料的分类装置,其特征在于,包括:获取单元,用于获取无标签语料,所述无标签语料包括至少一个问题;分类单元,用于将无标签语料包括的每个问题输入至文本分类模型,输出...

【专利技术属性】
技术研发人员:刘华杰李晓萍张宏韬
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1