基于人工智能的文本分类方法、装置、终端设备及介质制造方法及图纸

技术编号:34803750 阅读:34 留言:0更新日期:2022-09-03 20:10
本发明专利技术适用于人工智能领域,尤其涉及一种基于人工智能的文本分类方法、装置、终端设备及介质。本发明专利技术将待分类文本拆分成N段子文本,根据训练好的语义模型获得每段子文本的令牌特征向量,并根据令牌特征向量之间的相似度确定每段子文本对应的权值,从而确定待分类文本的目标语义表达,并将目标语义表达和数据库中已分类文本的已知语义表达进行匹配,得到与目标语义表达匹配的已知语义表达,从而确定待分类文本的分类结果。通过使用语义模型确定令牌特征向量,从而对子文本对应权值进行分析,与令牌特征向量共同得到较为准确的语义表达,并与已有的分类结果进行匹配,可以较快地确定分类结果,在降低计算计算耗时的同时提高了文本分类的准确性。分类的准确性。分类的准确性。

【技术实现步骤摘要】
基于人工智能的文本分类方法、装置、终端设备及介质


[0001]本专利技术适用于人工智能领域,尤其涉及一种基于人工智能的文本分类方法、装置、终端设备及介质。

技术介绍

[0002]文本匹配是自然语言处理中一个重要的基础问题,多种自然语言处理任务在很大程度上可以抽象为文本匹配问题,如信息检索、问答系统、复述问题、对话系统、机器翻译等。
[0003]目前的深度文本匹配模型主要有两种类型:表示型模型和交互型模型。
[0004]其中,表示型模型是指在表示层将文本转换成唯一的一个整体表示向量后再进行匹配,该表示型模型能大幅降低在线计算计算耗时,但缺少文本之间的交互信息,容易失去语义焦点,从而降低了文本匹配的准确性;交互型模型通过在输入层进行词语间的先匹配,并将匹配的结果作为灰度图进行后续的建模,更好地把握了语义焦点,能对上下文重要性进行更好的建模,但该交互型模型的计算计算耗时较大,不能对文本细粒度语义信息进行表达,降低了文本匹配的准确性。
[0005]因此,在深度文本匹配的场景中,如何在降低计算耗时的同时提高文本匹配的准确性成为亟待本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本分类方法,其特征在于,所述文本分类方法包括:将待分类文本拆分成N段子文本,根据训练好的语义模型对每段子文本进行编码,获得对应子文本的令牌特征向量,N为正整数;计算任一子文本与其他所有子文本的令牌特征向量的相似度,根据每段子文本与其他所有子文本的令牌特征向量的相似度的和,确定对应子文本的权值;根据每段子文本的令牌特征向量与对应子文本的权值,结合所有子文本的个数,确定所述待分类文本的目标语义表达;将所述目标语义表达和数据库中已分类文本的已知语义表达进行匹配,得到与所述目标语义表达匹配的已知语义表达,确定对应已分类文本所属的分类为所述待分类文本的分类结果。2.根据权利要求1所述的文本分类方法,其特征在于,所述将待分类文本拆分成N段子文本,包括:根据词分割算法将待分类文本与已知机器词典中的词条进行匹配,确定与词条匹配的文本为一段子文本,得到N段子文本。3.根据权利要求1所述的文本分类方法,其特征在于,所述根据每段子文本与其他所有子文本的令牌特征向量的相似度的和,确定对应子文本的权值,包括:针对任一子文本,计算子文本与其他各子文本的令牌特征向量的相似度;对子文本与其他所有子文本的令牌特征向量的相似度进行求和,确定求和结果为对应子文本的权值。4.根据权利要求4所述的文本分类方法,其特征在于,确定求和结果为对应子文本的权值,包括:对所有子文本的求和结果进行归一化处理,确定每个子文本的归一化值为对应子文本的权值。5.根据权利要求1所述的文本分类方法,其特征在于,所述根据每段子文本的令牌特征向量与对应子文本的权值,结合所有子文本的个数,确定所述待分类文本的目标语义表达,包括:针对任一子文本,将子文本的令牌特征向量与对应的权值相乘,得到对应子文本的特征表达结果;将所有子文本的特征表达结果相加,并将相加结果与所有子文本的个数相除,确定相除结果为所述待分类文本的目标语义表达。6.根据权利要求1至5任一项所述的文本分类方法,其特征在于,所述将所述目标语义表达和数据库中已分类文本的已知语...

【专利技术属性】
技术研发人员:蒋宏达陈家豪徐亮
申请(专利权)人:深圳壹账通科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1