一种文本分类方法和装置制造方法及图纸

技术编号:20272720 阅读:22 留言:0更新日期:2019-02-02 03:44
本申请公开了一种文本分类方法和装置,该方法包括:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。

【技术实现步骤摘要】
一种文本分类方法和装置
本申请涉及文本处理
,尤其涉及一种文本分类方法和装置。
技术介绍
随着文本信息的快速增长,特别是互联网中在线文本信息的激增,文本分类已经成为处理大量文档数据的关键技术,并广泛应用于各个领域。例如,在风险监控的场景中,可以对用户举报的文本进行分类,确定用户的举报是否为恶意举报或错误举报等。现有技术在进行文本分类时,通常可以采用机器学习算法对不同类型的文本的关键词进行学习训练,基于训练得到的模型进行文本分类。然而,在实际应用中,这种文本分类方法通常无法准确地识别文本想要表达的真实含义,导致文本分类结果的准确度较低。
技术实现思路
本申请实施例提供一种文本分类方法和装置,用于解决在采用机器学习算法基于关键词对文本进行分类时,分类结果的准确度较低的问题。为解决上述技术问题,本申请实施例是这样实现的:第一方面,提出一种文本分类方法,包括:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。第二方面,提出一种文本分类装置,包括:第一获取单元,获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;第二获取单元,获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;分类单元,根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。第三方面,提出一种电子设备,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请实施例提供的技术方案,在进行模型训练时,由于可以将文本的字音和字形中的至少一种作为样本特征,并使用卷积神经网络对样本特征进行模型训练得到分类模型,因此,在进行文本分类时,可以利用蕴藏在文本内部更深层的特征以及文本的上下文关系,准确得到文本的类型。此外,基于卷积神经网络对文本的字音和字形中的至少一种特征进行模型训练,得到的分类模型的适用范围较广,具有很好的鲁棒性,不会由于文本内容的轻微变化(例如错别字)造成识别结果的偏移。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一个实施例文本分类方法的流程示意图;图2是本申请的一个实施例获取字音词向量对应的文本特征的示意图;图3是本申请的一个实施例获取字形词向量对应的文本特征的示意图;图4是本申请的一个实施例获取字义词向量对应的文本特征的示意图;图5是本申请的一个实施例卷积神经网络模型的示意图;图6是本申请的一个实施例卷积神经网络模型的示意图;图7是本申请的一个实施例文本分类方法的流程示意图;图8是本申请的一个实施例电子设备的结构示意图;图9是本申请的一个实施例文本分类装置的结构示意图。具体实施方式现有的文本分类方法中,通常可以采用机器学习算法训练得到分类模型,基于分类模型实现文本分类。具体地,首先,可以获取训练样本,该训练样本可以是已知类型的多个不同文本;其次,提取训练样本中的关键词,该关键词可以理解为用于进行模型训练的样本特征;再次,采用机器学习算法对提取的关键词进行学习训练,并得到分类模型;最后,应用分类模型对待分类文本进行分类,得到待分类样本的类型。然而,在实际应用中,上述文本分类方法在进行模型训练时,由于是对样本的关键词进行学习训练,没有利用文本的上下文关系,因此,在基于训练得到的分类模型进行文本分类时,通常无法识别文本真正想要表达的含义,导致分类结果的准确度较低,特别是在文本包含错别字的情况下,由于无法准确识别错别字,导致分类结果的准确度较低。由此可见,现有的文本分类方法在基于关键词进行文本分类时,分类结果的准确度较低。此外,现有的文本分类方法在进行模型训练之前,需要从训练样本中提取关键词(即样本特征),由于训练样本的数量通常比较多,因此,需要花费大量的时间,不便于快速训练得到分类模型。为了解决上述技术问题,本申请实施例提供一种文本分类方法和装置,该方法包括:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同训练文本的文本特征和所述不同训练文本的类型进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。本申请实施例提供的技术方案,在进行模型训练时,由于可以将文本的字音和字形中的至少一种作为样本特征,并使用卷积神经网络对样本特征进行模型训练得到分类模型,因此,在进行文本分类时,可以利用蕴藏在文本内部更深层的特征以及文本的上下文关系,准确得到文本的类型。此外,基于卷积神经网络对文本的字音和字形中的至少一种特征进行模型训练,得到的分类模型的适用范围较广,具有很好的鲁棒性,不会由于文本内容的轻微变化(例如错别字)造成识别结果的偏移。本申请实施例相较于现有的文本分类方法而言,由于无需花费大量的时间进行关键字的提取,因此,可以节省整个模型训练过程所需的时间;由于可以基于文本的字音和字形中的至少一种进行模型训练,因此,当待分类文本中包含错别字时,可以结合待分类文本的字音和字形中的至少一种准确识别错别字,进而得到较为准确的分类结果。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请实施例提供的技术方案,可以应用于风险监控的应用场景中。具体地,在风险本文档来自技高网
...

【技术保护点】
1.一种文本分类方法,包括:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。

【技术特征摘要】
1.一种文本分类方法,包括:获取待分类文本的文本特征,所述文本特征包括所述待分类文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;获取预先训练得到的分类模型,所述分类模型基于卷积神经网络对不同类型的训练文本的文本特征进行训练得到;根据所述待分类文本的文本特征以及所述分类模型,确定所述待分类文本的类型。2.如权利要求1所述的方法,当所述待分类文本的文本特征中包括字音词向量对应的文本特征时,获取待分类文本的文本特征,包括:将所述待分类文本转化为拼音;对所述拼音中的多个字母进行分组,得到多组拼音;根据所述多组拼音以及预先训练得到的字音词向量模型,得到与所述多组拼音对应的多个字音词向量,所述字音词向量模型基于word2vector算法对不同文本的拼音进行训练得到;对所述多个字音词向量进行截断或填充处理,得到所述待分类文本的字音词向量对应的文本特征。3.如权利要求2所述的方法,对所述拼音中的多个字母进行分组,得到多组拼音,包括:采用汉语语言模型N-Gram方法对所述拼音中的多个字母进行分组,得到多组拼音,其中,所述N为大于等于3的整数。4.如权利要求1所述的方法,当所述待分类文本的文本特征中包括字形词向量对应的文本特征时,获取所述待分类文本的文本特征,包括:确定所述待分类文本对应的多个笔画;对所述多个笔画进行分组,得到多组笔画;根据所述多组笔画以及预先训练得到的字形词向量模型,得到与所述多组笔画对应的多个字形词向量,所述字形词向量模型基于word2vector算法对不同文本的笔画进行训练得到;对所述多个字形词向量进行截断或填充处理,得到所述待分类文本的字形词向量对应的文本特征。5.如权利要求4所述的方法,对所述多个笔画进行分组,得到多组笔画,包括:采用N-Gram方法对所述多个笔画进行分组,得到多组笔画,其中,所述N为大于等于3的整数。6.如权利要求1所述的方法,所述分类模型通过以下方式训练得到:获取不同类型的训练文本;确定所述训练文本的文本特征,所述训练文本的文本特征包括所述训练文本的字音词向量对应的文本特征和字形词向量对应的文本特征中的至少一种;构建卷积神经网络模型;将所述训练文本的文本特征输入所述卷积神经网络模型中,训练得到所述分类模型。7.如权利要求6所述的方法,所述卷积神经网络模型中包括输入层、卷积层、池化层、全连接层以及输出层,其中,所述输入层用于表征文本的文本特征,所述输出层用于表征文本的类型。8.如权利要求7所述的方法,将所述训练文本的文本特征输入所述卷积神经网络模型中,训练得到所述...

【专利技术属性】
技术研发人员:叶芸赵文飙王维强金宏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1