本说明书实施例涉及人工智能数据处理技术领域,具有公开了一种文本分类方法、装置及设备,所述方法包括对目标问题文本信息进行特征提取,获得目标问题文本信息的第一特征表示;对目标问题文本信息所对应的指定答案文本信息中的各词汇进行词向量生成,获得指定答案文本信息中各词汇所对应的答案词向量;对任一个答案词向量,以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,得到相应的答案词向量所对应的加权词向量;对指定答案文本信息所对应的各加权词向量进行编码处理,获得指定答案文本信息所对应的第二特征表示;利用第二特征表示确定所述答案文本信息的分类结果。从而可以进一步提高有效答案筛选的准确性。
【技术实现步骤摘要】
一种文本分类方法、装置及设备
本说明书涉及人工智能数据处理
,特别地,涉及一种文本分类方法、装置及设备。
技术介绍
在软件发布测评或者业务问答等应用场景中,平台可以预先配置系列问题,相应的,用户可以针对问题进行回答。或者,用户也可以在平台发起提问,其他用户或者平台业务人员可以对该问题进行回答。平台可以通过分析不同问题所对应的答案,来获得用户对某项业务或者软件应用的反馈信息。对于某一个问题,可能对应有多个答案,而有些答案可能存在答非所问或者参考意义不大的情况。平台通常需要先对问题所对应的答案进行审核,筛选出较为有效的答案,以更为准确快速的了解用户的反馈。目前,通常采用直接分析答案或者将答案和问题拼接在一起的方式,来确定各答案的有效性。但实际应用中,答案通常是与问题相对应的,仅对答案分析,较难评估各答案的有效性。而将答案和问题拼接在一起进行答案有效性分析,虽然可以将答案和问题进行关联,但鉴于参考答案库的有限性以及用户回答表述形式的复杂多变性,实际处理时较易将实际有效但表述形式与参考答案表述形式差异性较大的答案排除,从而影响有效答案确定的准确性。而考虑上下文语义信息的深度学习算法,因其要求所涉及的上下文信息自身关联性较强,多应用于对话生成领域,较难直接迁移至问答应用场景下使用。因此,本
亟需一种能够更为准确高效的问答类文本分类方法。
技术实现思路
本说明书实施例的目的在于提供一种文本分类方法、装置及设备,可以进一步提高有效答案筛选的准确性。本说明书提供一种文本分类方法、装置及设备是包括如下方式实现的:一种文本分类方法,应用于服务器,所述方法包括:对目标问题文本信息进行特征提取,获得所述目标问题文本信息所对应的第一特征表示;对所述目标问题文本信息所对应的指定答案文本信息中的各词汇进行词向量生成,获得所述指定答案文本信息中各词汇所对应的答案词向量;对任一个答案词向量,以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,得到相应的答案词向量所对应的加权词向量;对所述指定答案文本信息所对应的各加权词向量进行编码处理,获得所述指定答案文本信息所对应的第二特征表示;利用所述第二特征表示确定所述答案文本信息的分类结果。本说明书提供的所述方法的另一些实施例中,所述对目标问题文本信息进行特征提取,包括:对所述目标问题文本信息中各词汇进行词向量生成,获得所述目标问题文本信息中各词汇所对应的问题词向量;对所述目标问题文本信息所对应的各问题词向量进行编码处理,获得所述目标问题文本信息所对应的第一特征表示。本说明书提供的所述方法的另一些实施例中,所述以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,包括:以所述第一特征表示作为注意力模型的约束信息,以所述答案词向量作为注意力模型的值,输入注意力模型,得到所述答案词向量相对所述第一特征表示的相关系数;计算答案词向量与相应的答案词向量所对应的相关系数的乘积,获得相应的答案词向量所对应的加权词向量。本说明书提供的所述方法的另一些实施例中,所述利用所述第二特征表示确定所述指定答案文本信息的分类结果,包括:将所述第二特征表示输入预先构建的分类模型中,获得所述指定答案文本信息的分类结果,所述分类模型采用分类算法构建。本说明书提供的所述方法的另一些实施例中,所述对所述指定答案文本信息所对应的各加权词向量进行编码处理,包括:利用LSTM算法对对所述指定答案文本信息所对应的各加权词向量进行编码处理。本说明书提供的所述方法的另一些实施例中,所述对所述目标问题文本信息中各词汇进行词向量生成之前,还包括:对所述目标问题文本信息以及所述目标问题文本信息所对应的指定答案文本信息进行分词处理,获得所述指定答案文本信息以及指定答案文本信息所对应的一个或者多个词汇。另一方面,本说明书实施例还提供一种文本分类装置,应用于服务器,所述装置包括:特征提取模块,用于对目标问题文本信息进行特征提取,获得所述目标问题文本信息所对应的第一特征表示;词向量生成模块,用于对所述目标问题文本信息所对应的指定答案文本信息中的各词汇进行词向量生成,获得所述指定答案文本信息中各词汇所对应的答案词向量;相关性分析模块,用于对任一个答案词向量,以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,得到相应的答案词向量所对应的加权词向量;编码处理模块,用于对所述指定答案文本信息所对应的各加权词向量进行编码处理,获得所述指定答案文本信息所对应的第二特征表示;分类模块,用于利用所述第二特征表示确定所述指定答案文本信息的分类结果。本说明书提供的所述装置的另一些实施例中,所述特征提取模块包括:词向量生成单元,用于对所述目标问题文本信息中各词汇进行词向量生成,获得所述目标问题文本信息中各词汇所对应的问题词向量;编码处理单元,用于对所述目标问题文本信息所对应的各问题词向量进行编码处理,获得所述目标问题文本信息所对应的第一特征表示。本说明书提供的所述装置的另一些实施例中,所述加权处理模块用于以所述第一特征表示作为注意力模型的约束信息,以所述答案词向量作为注意力模型的值,输入注意力模型,得到所述答案词向量相对所述第一特征表示的相关系数;计算答案词向量与相应的答案词向量所对应的相关系数的乘积,获得相应的答案词向量所对应的加权词向量。另一方面,本说明书实施例还提供一种文本分类设备,应用于服务器,所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个或者多个所述方法的步骤。本说明书一个或多个实施例提供的文本分类方法、装置及设备,可以获取表征问题文本信息的语义信息的第一特征表示,以及该问题文本信息所对应的任一答案文本信息中各词汇所对应的答案词向量。然后,可以利用注意力机制,以所述第一特征表示作为注意力模型的约束信息,分别以各答案词向量作为注意力模型的值,分析各答案词向量相对第一特征表示的相关性,并将该相关性作用于相应的答案词向量,获得各答案词向量所对应的加权词向量。相应的,该加权词向量融合了问题文本信息的语义信息。然后,可以对各加权词向量进行编码处理,获得所述答案文本信息所对应的第二特征表示,以利用该第二特征表示进行答案的分类处理。从而,利用本说明书各个实施例,可以有效考虑问题与答案之间的逻辑关系以及问题对答案的语义影响,得到融合了问题语义信息的答案表示。之后,再利用该融合了问题语义信息的第二特征表示对所述答案文本信息进行分类,可以进一步提高有效答案筛选的准确性。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创本文档来自技高网...
【技术保护点】
1.一种文本分类方法,其特征在于,应用于服务器,所述方法包括:/n对目标问题文本信息进行特征提取,获得所述目标问题文本信息所对应的第一特征表示;/n对所述目标问题文本信息所对应的指定答案文本信息中的各词汇进行词向量生成,获得所述指定答案文本信息中各词汇所对应的答案词向量;/n对任一个答案词向量,以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,得到相应的答案词向量所对应的加权词向量;/n对所述指定答案文本信息所对应的各加权词向量进行编码处理,获得所述指定答案文本信息所对应的第二特征表示;/n利用所述第二特征表示确定所述答案文本信息的分类结果。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,应用于服务器,所述方法包括:
对目标问题文本信息进行特征提取,获得所述目标问题文本信息所对应的第一特征表示;
对所述目标问题文本信息所对应的指定答案文本信息中的各词汇进行词向量生成,获得所述指定答案文本信息中各词汇所对应的答案词向量;
对任一个答案词向量,以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,得到相应的答案词向量所对应的加权词向量;
对所述指定答案文本信息所对应的各加权词向量进行编码处理,获得所述指定答案文本信息所对应的第二特征表示;
利用所述第二特征表示确定所述答案文本信息的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对目标问题文本信息进行特征提取,包括:
对所述目标问题文本信息中各词汇进行词向量生成,获得所述目标问题文本信息中各词汇所对应的问题词向量;
对所述目标问题文本信息所对应的各问题词向量进行编码处理,获得所述目标问题文本信息所对应的第一特征表示。
3.根据权利要求1所述的方法,其特征在于,所述以所述第一特征表示作为约束信息,利用注意力模型对所述答案词向量进行加权处理,包括:
以所述第一特征表示作为注意力模型的约束信息,以所述答案词向量作为注意力模型的值,输入注意力模型,得到所述答案词向量相对所述第一特征表示的相关系数;
计算答案词向量与相应的答案词向量所对应的相关系数的乘积,获得相应的答案词向量所对应的加权词向量。
4.根据权利要求1所述的方法,其特征在于,所述利用所述第二特征表示确定所述指定答案文本信息的分类结果,包括:
将所述第二特征表示输入预先构建的分类模型中,获得所述指定答案文本信息的分类结果,所述分类模型采用分类算法构建。
5.根据权利要求1所述的方法,其特征在于,所述对所述指定答案文本信息所对应的各加权词向量进行编码处理,包括:
利用LSTM算法对对所述指定答案文本信息所对应的各加权词向量进行编码处理。
6.根据权利要求2所...
【专利技术属性】
技术研发人员:孔繁爽,李琦,梁莉娜,王小红,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。