一种文本分类方法和相关装置制造方法及图纸

技术编号:27030651 阅读:24 留言:0更新日期:2021-01-12 11:13
本申请实施例公开了一种文本分类方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,第一样本集合中的第一文本样本和第二样本集合中的第二文本样本具有基于相同标注规则得到的标注标签,由此将第一样本集合和第二样本集合混合,以生成训练样本集合,并基于训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型学习到与语言本身无关的分类特性。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,提高了产品扩展业务的迭代速度。

【技术实现步骤摘要】
一种文本分类方法和相关装置
本申请涉及数据处理领域,特别是涉及一种文本分类方法和相关装置。
技术介绍
文本分类常被应用在与文本内容相关的产品中,比如新闻分类、文章分类、意图分类等等,一般通过分类模型对新闻、文章、朋友圈、评论中的文本进行内容识别,分类来实现。一般情况下,用于文本分类的分类模型多是针对某一语言的文本,比如中文、英文等等,但当产品需要拓展其他语言业务时,原本实用的网络模型将无法在新语言场景中使用,只能重新训练适用于新语言场景的分类模型。然而,在扩展语言业务的初期,用于训练分类模型所需的标注文本数量很少,只能通过人工标注的方式慢慢积累才能达到实现模型训练的样本体量,由此导致训练分类模型的周期很长,不利于产品的快速迭代。
技术实现思路
为了解决上述技术问题,本申请提供了一种文本分类方法和相关装置,不再需要等待人工标注出足量新语言文本样本的时间,提高了产品扩展业务的迭代速度。本申请实施例公开了如下技术方案:一方面,本申请提供一种文本分类方法,所述方法包括:获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;根据所述第一样本集合和所述第二样本集合生成训练样本集合;基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。另一方面,本申请提供一种文本分类装置,所述装置包括:获取单元、生成单元、训练单元和分类单元;所述获取单元,用于获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;所述生成单元,用于根据所述第一样本集合和所述第二样本集合生成训练样本集合;所述训练单元,用于基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;所述分类单元,用于通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。由上述技术方案可以看出,当业务从第一语言的文本环境向第二语言的文本环境扩展时,第二语言对应的、具有标注标签的第二文本样本数量一般不足以实现分类模型的训练,故可以获取对应第一语言的第一样本集合和对应第二语言的第二样本集合。由于基于第一语言的文本环境可以获取大量的具有标注标签的第一文本样本,故第一样本集合所包括第一文本样本的数量会大于第二文本集合所包括第二文本样本的数量。由于第一文本样本和第二文本样本具有基于相同标注规则得到的标注标签,即具有统一的分类目的,故即使语言不通,所确定出的标注标签的标识含义是通用的,由此可以将第一样本集合和第二样本集合混合,以生成训练样本集合,并基于既包括第一文本样本,也包括第二文本样本的训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本会以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型在训练过程中,不仅可以充分吸纳两种语言的文本特征与标注标签间的关联,从而学习到与语言本身无关的分类特性,而且也不会出现因为训练时持续输入第一文本样本导致模型先拟合了第一语言的关联知识,反而降低对第二语言文本的分类能力的问题。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,不再需要等待人工标注出足量第二文本样本的时间,提高了产品扩展业务的迭代速度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的文本分类方法的应用场景示意图;图2为本申请实施例提供的一种文本分类方法的流程图;图3为不同语言对应文本的示意图;图4为本申请实施例提供的一种通用分类模型训练框架的示意图;图5为本申请实施例提供的一种通用分类模型训练过程的示意图;图6为本申请实施例提供的一种通用分类模型训练过程的示意图;图7为本申请实施例提供的一种文本分类方法的流程图;图8为本申请实施例提供的一种文本分类装置的示意图;图9为本申请实施例提供的服务器的结构示意图;图10为本申请实施例提供的终端设备的结构示意图。具体实施方式下面结合附图,对本申请的实施例进行描述。鉴于相关技术中,在第一语言向第二语言扩展语言业务的初期,用于训练第二语言对应的分类模型所需的具有标注标签的第二文本样本数量很少的问题,本申请提出一种文本分类方法和相关装置,实现了借助大量第一语言对应的、具有标注标签的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型。本申请实施例提供的文本分类方法是基于人工智能实现的,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;/n根据所述第一样本集合和所述第二样本集合生成训练样本集合;/n基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;/n通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
根据所述第一样本集合和所述第二样本集合生成训练样本集合;
基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。


2.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,包括以下任一方式,或多种方式的组合:
方式一:将所述训练样本集合中的所述第一文本样本和所述第二文本样本混合排列,并基于所述训练样本集合训练所述初始通用分类模型,得到通用分类模型;或,
方式二:从所述训练样本集合中随机抽取所述第一文本样本或所述第二文本样本作为所述初始通用分类模型输入,以对所述初始通用分类模型进行训练,得到通用分类模型。


3.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集合和所述第二样本集合生成训练样本集合,包括:
基于所述第一数量,根据所述第二文本样本对所述第二样本集合进行样本数量扩充,得到扩充后的第二样本集合;
根据所述第一样本集合和所述扩充后的第二样本集合生成训练样本集合。


4.根据权利要求1所述的方法,其特征在于,在所述基于所述训练样本集合训练初始通用分类模型的过程中,包括:
针对从所述训练样本集合中提取的第一文本样本,通过第一特征模型提取所述第一文本样本的文本特征;
根据所述第一文本样本的文本特征,通过所述初始通用分类模型得到对应的第一待定标签;
根据所述第一待定标签和所述第一文本样本对应的标注标签调整所述初始通用分类模型的模型参数;
针对从所述训练样本集合中提取的第二文本样本,通过第二特征模型提取所述第二文本样本的文本特征;
根据所述第二文本样本的文本特征,通过所述初始通用分类模型得到对应的第二待定标签;
根据所述第二待定标签和所述第二文本样本对应的标注标签调整所述初始通用分类模型的模型参数。


5.根据权利要求1-4任意一项所述的方法,其特征在于,所述通用分类模型通过所述训练确定所述第一语言和所述第二语言的文本特征分别对应的空间分布信息,以及所述第一语言和所述第二语言中具有相同含义的文本所对应文本特征间的空间映射关系。

...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1