一种文本分类方法、装置、设备及可读存储介质制造方法及图纸

技术编号:35120893 阅读:20 留言:0更新日期:2022-10-05 09:49
本发明专利技术提供一种文本分类方法、装置、设备及可读存储介质,涉及文本处理技术领域,该文本分类方法包括确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,预设文本为经过预处理的正确文本;基于第二特征和特征差异调整第一特征;基于调整后的第一特征确定待分类文本的类别。可以解决现有的文本分类的准确度较差的问题。有的文本分类的准确度较差的问题。有的文本分类的准确度较差的问题。

【技术实现步骤摘要】
一种文本分类方法、装置、设备及可读存储介质


[0001]本专利技术涉及文本处理
,尤其涉及一种文本分类方法、装置、设备及可读存储介质。

技术介绍

[0002]随着科学技术的快速发展,人们已经步入信息化时代,随着信息传输速度之快,个人信息泄露成为影响人们日常生活的一大问题。为此,人们经常受到骚扰电话的困扰,因此,如何屏蔽骚扰电话十分重要。目前,在防骚扰电话时,需要通过语音识别技术将电话语音转换成文本。然而这些文本在语音识别过程中容易产生错别字、错误断句、对话模糊等难以识别等问题。如果将这些带有噪声或错误的文本直接输入到经过正确且通顺的文本所训练的神经网络分类器,会导致分类器难以识别当前输入的文本,很难有效地对输入的文本进行分类。可见,现有的文本分类的准确度较差。

技术实现思路

[0003]本专利技术实施例提供一种文本分类方法、装置、设备及可读存储介质,以解决现有的文本分类的准确度较差的问题。
[0004]为解决上述技术问题,本专利技术是这样实现的:
[0005]第一方面,本专利技术实施例提供了一种文本分类方法,包括:
[0006]确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,所述预设文本为经过预处理的正确文本;
[0007]基于所述第二特征和所述特征差异调整所述第一特征;
[0008]基于调整后的第一特征确定所述待分类文本的类别。
[0009]第二方面,本专利技术实施例提供了一种文本分类装置,包括:
[0010]确定模块,用于确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,所述预设文本为经过预处理的正确文本;
[0011]调整模块,用于基于所述第二特征和所述特征差异调整所述第一特征;
[0012]判别模块,用于基于调整后的第一特征确定所述待分类文本的类别。
[0013]第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的文本分类方法的步骤。
[0014]第四方面,本专利技术实施例提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的文本分类方法的步骤。
[0015]本专利技术实施例中,通过确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,预设文本为经过预处理的正确文本;基于第二特征和特征差异调整第一特征;基于调整后的第一特征确定待分类文本的类别。这样,使待分类文本的第一特征的分布与预设文本的第二特征的分布相似,进一步利用预设文本的预设的判别模型对调
整后的第一特征进行分类,可以提升文本分类的准确度。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术实施例提供的一种文本分类方法的流程图;
[0018]图2是本专利技术实施例提供的训练预设文本的训练过程示意图;
[0019]图3是本专利技术实施例提供的生成对抗网络的流程示意图;
[0020]图4是本专利技术实施例提供的调整第一特征和第二特征的特征对齐的流程图;
[0021]图5是本专利技术实施例提供的对待分类文本进行分类的示意图;
[0022]图6是本专利技术实施例提供的文本分类方法装置的模块图;
[0023]图7是本专利技术实施例提供的一种电子设备的模块结构示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]参见图1,图1是本专利技术实施例提供的文本分类方法的流程图,如图1所示,所述方法包括以下步骤:
[0026]步骤101、确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,预设文本为经过预处理的正确文本。
[0027]在该实施方式中,预设文本可以是指已知文本类别的文本,也即,经过类别处理的正确文本,且,预设文本信息包括文本内容和文本标签,文本标签为文本对应的类别。例如,在防止骚扰电话的应用场景下,文本标签可以包括但不限于金融销售、高频事务、房产营销、教育培训、以及骚扰电话五类。具体而言,在该应用场景下,可以先获取电话中的语音信息,然后将语音信息转换为文本信息,然后提取文本信息中的文本内容以及该文本内容对应的文本标签作为预设文本。
[0028]在该实施方式中,由于预设文本是经过预先处理的,已知类别的正确文本,因此,预设文本对应的第二特征可以根据已知的文本内容和已知的文本标签确定。
[0029]步骤102、基于第二特征和特征差异调整第一特征。
[0030]在该实施方式中,可以通过使第一特征的分布靠近第二特征的分布的方式,调整第一特征。换言之,在该步骤中,基于第二特征和特征差异,不断地调整第一特征,使得第一特征的分布无限接近第二特征的分布。
[0031]步骤103、基于调整后的第一特征确定待分类文本的类别。
[0032]具体地,调整后地第一特征的特征分布与第二特征的特征分布无限接近,因此,可以采用第二特征的判别模型对调整后的第一特征进行分类。
[0033]上述的文本分类方法,通过确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,预设文本为经过预处理的正确文本;基于第二特征和特征差异调整第一特征;基于调整后的第一特征确定待分类文本的类别。这样,使待分类文本的第一特征的分布与预设文本的第二特征的分布相似,进一步利用预设文本的预设的判别模型对调整后的第一特征进行分类,可以提升文本分类的准确度。
[0034]在一些可行的实施方式中,可以通过网络模型的方式确定文本内容的特征,在该应用场景下,确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异之前,上述的文本分类方法还包括:
[0035]基于第一预设模型生成预设文本对应的第二特征,其中,第一预设模型为输入为预设文本,输出为预设文本对应的第二特征的模型;
[0036]基于第二预设模型生成待分类文本对应的第一特征,其中,第二预设模型为输入为待分类文本,输出为待分类文本对应的第一特征的模型;
[0037]其中,第二预设模型是基于第一预设模型、第二特征和待分类文本确定的。
[0038]在具体实施中,首先对预设文本进行训练以确定第一预设模型,在该实施方式中,为了能够快速地训练预设文本对应的第一预设模型和预设的判别模型,可以采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,其中,所述预设文本为经过预处理的正确文本;基于所述第二特征和所述特征差异调整所述第一特征;基于调整后的第一特征确定所述待分类文本的类别。2.根据权利要求1所述的文本分类方法,其特征在于,所述确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异之前,所述方法还包括:基于第一预设模型生成所述预设文本对应的第二特征,其中,所述第一预设模型为输入为所述预设文本,输出为所述预设文本对应的第二特征的模型;基于第二预设模型生成所述待分类文本对应的第一特征,其中,所述第二预设模型为输入为所述待分类文本,输出为所述待分类文本对应的第一特征的模型;其中,所述第二预设模型是基于所述第一预设模型、所述第二特征和所述待分类文本确定的。3.根据权利要求1所述的文本分类方法,其特征在于,所述确定待分类文本对应的第一特征与预设文本对应的第二特征之间的特征差异,包括:生成所述第一特征对应的第一特征向量,以及生成所述第二特征对应的第二特征向量;计算所述第一特征向量和所述第二特征向量之间的距离差值,其中,所述特征差异为所述距离差值。4.根据权利要求3所述的文本分类方法,其特征在于,所述基于所述第二特征和所述特征差异调整所述第一特征,包括:基于所述第二特征向量和所述距离差值调整所述第一特征向量;根据调整后的所述第一特征向量调整所述第一特征。5.根据权利要求4所述的文本分类方法,其特征在于,所述基于调整后的第一特征确定所述待分类文本的类别,包括:根据调整后的所述第一特征和所述待分类文本确定第二预设模型;将所述待分类文本输入所述第二预设模型进行特征提取,获取所述待分类文本对应的第一特征;将所述第一特征输入预设的判别模型进...

【专利技术属性】
技术研发人员:胡威
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1