【技术实现步骤摘要】
基于支持向量机树的事件分类方法与装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于支持向量机树的事件分类方法与装置。
技术介绍
[0002]目前自然语言处理的预训练模型BERT的出现极大的促进了自然语言任务的快速发展,被广泛应用到各个自然语言处理的任务中,例如:智能问答,文本分类,语言翻译等等,但是由于BERT模型是在大规模语料上进行训练的,在下游任务中例如文本分类中存在两个问题:1、针对样本数量较少的情况下,往往对专门领域效果的分类不佳。
[0003]2、目前大多直接利用BERT预训练模型通过一个线性分类器来做文本分类的算法都是在数据集较为干净且类别分布较为均衡上进行的,但是真实的工业数据往往无法满足这种数据分布,因此这种利用BERT预训练模型通过一个线性分类器来做文本分类的算法往往效果不够好。
技术实现思路
[0004]有鉴于此,本专利技术提供一种基于支持向量机树的事件分类方法与装置,提升分类精度。
[0005]第一方面,基于支持向量机树的事件分类方法,所述事件分类包括 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于支持向量机树的事件分类方法,其特征在于,所述事件分类方法包括:利用自然语言预训练模型Bert对事件训练样本进行向量抽取,得到事件训练样本的表示向量,并利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗,得到训练样本集合;根据所述训练样本集合训练得到支持向量机树;利用自然语言预训练模型Bert对待分类事件样本进行向量抽取,得到待分类事件样本的表示向量,并利用所述支持向量机树对所述待分类事件样本的表示向量进行分类得到待分类事件样本的分类结果。2.根据权利要求1所述的事件分类方法,其特征在于,所述利用自然语言预训练模型Bert对事件训练样本进行向量抽取,得到事件训练样本的表示向量的步骤包括:使用下述公式1对事件训练样本进行向量抽取,得到事件训练样本的表示向量:公式1其中BERT代表自然语言预训练模型,X
i 代表文本,V
i
代表抽取后的表示向量。3.根据权利要求2所述的事件分类方法,其特征在于,所述利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗的步骤包括:使用Kmeans算法根据预设的类别标签对事件训练样本的表示向量进行聚类;根据每一聚类类别中每一表示向量的类别标签计算得到各聚类类别中各类别标签的计数值,并将各聚类类别中类别标签数量最多的类别标签作为各聚类类别的最终类别标签;删除各聚类类别中所有类别标签不是对应聚类类别的类别标签的表示向量:根据各聚类类别剩余的表示向量和类别描述的向量,计算各聚类类别的余弦相似度s,并基于各聚类类别的余弦相似度s,计算所有聚类类别的全局相似度阈值H;删除余弦相似度s低于全局相似度阈值H的表示向量,得到训练样本集合。4.根据权利要求2所述的事件分类方法,其特征在于,所述根据各聚类类别中各表示向量的类别标签计算得到对应聚类中各类别标签的计数值,并将对应聚类中类别标签数量最多的类别标签作为对应聚类的类别标签的步骤具体根据如下公式2以及公式3进行操作:公式2公式3其中,label(V
i
)代表每个表示向量本身的类别标签,count(label(V
i
))为计算各聚类类别中每个类别标签的个数Cl
i
,max(Cl
i
)代表求取各聚类类别中个数最多的类别标签作为C
i
,C
技术研发人员:李鹏飞,
申请(专利权)人:中电云数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。