【技术实现步骤摘要】
一种文本分类方法、装置、存储介质及设备
[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法、装置、存储介质及设备。
技术介绍
[0002]随着计算机算力的井喷式发展,深度学习在人工智能中的应用也日益增多,越来越多的工程项目由传统的手工特征被更替为神经网络模型,如文本意图分类等。
[0003]目前,现有的文本分类方法通常是采用的是判别式分类模型,对文本对所有类别输出一个置信度,然后取最大置信度所属类别作为文本类别,这种分类方法无法自适应地对域外类别的域外数据进行判断,若要识别域外类别的域外数据,则需要人为设置一个置信度阈值,使得当失败出的最大类别置信度低于该阈值时,可将文本分类为域外类别;但显然这个阈值是不好确定的,且需要随着数据的变化动态而不断调整,其极大程度依赖于人工的经验性,且受到数据的不确定性干扰,故现有文本分类方法对属于域外类别的的域外数据的识别准确率不高,进一步也使得分类模型的在线学习准确率越来越低乃至并不可行,并且,通过人工来调整阈值的过程,主观性强、难以量化,不仅分类效率低,而且还需要 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类的目标文本;将所述目标文本输入至预先构建的文本分类模型,识别得到所述目标文本对应的超平面特征向量;分别计算所述目标文本对应的超平面特征向量与N个预设类别中心点对应的超平面特征向量之间的欧氏距离;所述N为大于0的正整数;将得到的N个欧式距离中的最小欧式距离对应的预设类别作为目标类别,并判断所述最小欧式距离与所述目标类别所在超球面的半径之间的大小关系,得到判断结果;根据所述判断结果,对所述目标文本进行分类,得到所述目标文本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述文本分类模型的构建方式如下:获取样本文本;利用所述样本语音和第一优化函数以及第二优化函数,对初始文本分类模型进行训练,得到所述文本分类模型。3.根据权利要求2所述的方法,其特征在于,所述样本文本属于所述N个预设类别;所述第一优化函数用于保证所述N个预设类别中每个类别超平面上的每个样本文本到其中心点的距离趋于一致;所述第二优化函数用于保证所述N个预设类别中每个类别超平面上的两两样本文本之间的距离尽可能远。4.根据权利要求2或3所述的方法,其特征在于,所述N个预设类别中心点对应的超平面特征向量是利用所述第一优化函数和第二优化函数对所述文本分类模型进行训练后得到的。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取验证文本;将所述验证文本输入所述文本分类模型,获得所述验证文本对应的分类结果;当所述验证文本的分类结果与所述验证文本对应的分类标签结果不一致时,将所述验证文本重新作为所述样本文本,对所述文本分类模型进行更新。6.根据权利要求1所述的方法,其特征在于,所述根据所述判断结果,对所述目标文本进行分类,得到所述目标文本的分类结果,包括:当所述判断结果为所述最小欧式距离不...
【专利技术属性】
技术研发人员:林亿,梅林海,刘权,陈志刚,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。