一种文本分类方法及相关装置制造方法及图纸

技术编号:20842296 阅读:19 留言:0更新日期:2019-04-13 08:43
本申请提供了一种文本分类方法及相关装置,所述方法包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本每两个或是三个相邻字符进行分割,因此不需要对目标文本进行基于语义的分词处理,解决了因分词准确性较差导致的文本分类准确性降低的问题。

【技术实现步骤摘要】
一种文本分类方法及相关装置
本申请涉及自然语言处理领域,尤其是涉及一种文本分类方法及相关装置。
技术介绍
文本分类是自然语言处理领域中一种常见的技术,用于根据目标文本的内容将目标文本归类到至少一个类别中。目前,在对目标文本进行文本分类时,常用的一种方式是根据目标文本的语义对目标文本进行分词处理,并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。显然,这种分类方式需要进行对目标文本进行基于语义的分词处理,因此文本分类的准确性依赖于分词准确性。然而,在一些情况下由于训练样本较少等原因,导致分词准确性较低。例如中文文本的分词模型通常采用的是有监督机器学习模型,因此训练样本是有限的;又例如对于特殊行业领域,很难找到适合的训练样本。因此,当训练样本较少时,或者其他一些原因导致分词的准确性较低时,会进一步影响文本分类的准确性。
技术实现思路
本申请解决的技术问题在于提供一种文本分类方法及相关装置,以实现不需要基于语义进行分词处理即可实现文本分类,解决了因分词准确性较差导致的文本分类准确性降低的问题。为此,本申请解决技术问题的技术方案是:本申请实施例提供了一种文本分类方法,包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。可选的,所述根据所述多个分割词的词向量,获得所述目标文本的文本向量,包括:对所述多个分割词的词向量进行加权求和计算,获得加权和;将所述加权和作为所述目标文本的文本向量。可选的,所述对所述目标文本中的相邻字符进行分割,获得多个分割词,包括:对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。可选的,所述目标文本包括中文文本;对目标文本的相邻字符进行分割之前,所述方法还包括:将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。可选的,根据所述目标文本的文本向量,获得所述目标文本的分类信息,包括:获得训练样本和所述训练样本对应的初始分类标记;对所述初始分类标记进行修正,获得修正分类标记;根据所述训练样本和所述修正分类标记,获得训练好的分类模型;将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。可选的,对所述初始分类标记进行修正,包括:根据所述训练样本和所述初始分类标记,训练得到当前分类模型;循环执行修正过程;其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。本申请实施例提供了一种文本分类装置,包括:分割词获得单元,用于对目标文本的相邻字符进行分割,获得多个分割词;词向量获得单元,用于获得所述多个分割词的词向量;文本向量获得单元,用于根据所述多个分割词的词向量,获得所述目标文本的文本向量;分类获得单元,用于根据所述目标文本的文本向量,获得所述目标文本的分类信息。可选的,所述文本向量获得单元,具体用于对所述多个分割词的词向量进行加权求和计算,获得加权和,将所述加权和作为所述目标文本的文本向量。可选的,所述分割词获得单元,具体用于对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。可选的,所述目标文本包括中文文本;所述装置还包括:拆分单元,用于将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;所述分割词获得单元具体用于,对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。可选的,分类获得单元,包括:训练数据获得子单元,用于获得训练样本和所述训练样本对应的初始分类标记;修正子单元,用于对所述初始分类标记进行修正,获得修正分类标记;模型获得子单元,用于根据所述训练样本和所述修正分类标记,获得训练好的分类模型;分类获得子单元,用于将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。可选的,所述修正子单元,具体用于根据所述训练样本和所述初始分类标记,训练得到当前分类模型,以及循环执行修正过程;其中,所述修正过程包括:将所述训练样本输入至当前分类模型中,获得当前分类模型输出的分类信息,若当前分类模型输出的分类信息与最新的分类标记相匹配,则结束循环,将最新的分类标记作为所述修正分类标记;若当前分类模型输出的分类信息与最新的分类标记不匹配,利用当前分类模型输出的分类信息对最新的分类标记进行修正,利用所述训练样本和最新的分类标记更新当前分类模型。本申请实施例提供了一种电子设备,包括有存储器和处理器,所述存储器中存储一个或者一个以上程序,所述处理器用于执行所述一个或者一个以上程序,其中,所述一个或者一个以上程序包含用于进行以下操作的指令:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。本申请实施例提供了一种计算机存储介质,包括计算机程序代码,该计算机程序代码由计算机单元执行,使得该计算机单元:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。通过上述技术方案可知,本申请实施例中,不需要对目标文本进行基于语义的分词处理,而是通过对目标文本中的相邻字符进行分割,获得多个分割词;并根据多个分割词的词向量,获得所述目标文本的文本向量,因此能够根据目标文本的文本向量,对目标文本进行分类。可见,本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本每两个或是三个相邻字符进行分割,因此不需要对目标文本进行基于语义的分词处理,解决了因分词准确性较差导致的文本分类准确性降低的问题。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。图1为本申请实施例提供的文本分类方法的一种实施例的流程示意图;图2为本申请实施例提供的修正分类标记的一种流程示意图;图3为本申请实施例提供的文本分类装置的一种实施例的结构示意图。具体实施方式目前,一种对目标文本进行文本分类的方式中,根据目标文本的语义对目标文本进行分词处理,并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。例如将目标文本:“今天会下雨”的文本特征输入至分词模型,分词模型根据目标文本的语义得到分词结果:“今天”、“会”和“下雨”,将上述分词结果“今天”、本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个分割词的词向量,获得所述目标文本的文本向量,包括:对所述多个分割词的词向量进行加权求和计算,获得加权和;将所述加权和作为所述目标文本的文本向量。3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本中的相邻字符进行分割,获得多个分割词,包括:对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。4.根据权利要求1所述的方法,其特征在于,所述目标文本包括中文文本;对目标文本的相邻字符进行分割之前,所述方法还包括:将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。5.根据权利要求1所述的方法,其特征在于,根据所述目标文本的文本向量,获得所述目标文本的分类信息,包括:获得训练样本和所述训练样本对应的初始分类标记;对所述初始分类标记进行修正,获得修正分类标记;根据所述训练样本和所述修正分类标记,获得训练好的分类模型;将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。6.根据权利要求5所述的方法,其特征在于,对所述初始分类标记进行修正,包括:根据所述训练样本和所述初始分类标记,训练得到当前分类模型;循环执行修正过程;其中,所述修正过程包括:将所述训练样本输入至当...

【专利技术属性】
技术研发人员:赵耕弘崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1