【技术实现步骤摘要】
一种基于多模型融合的分类方法及装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于多模型融合的分类方法及装置。
技术介绍
[0002]随着信息技术和互联网的迅猛发展,文本数据的产生量越来越大,使得文本挖掘技术的研究变得越来越重要。如何从这些大量的文本数据中抽取出有价值的信息并对其进行文本分类等,是文本挖掘的重要目标。文本分类(T e x t Classification),或者称为自动文本分类,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。其作为一种高效的信息检索与挖掘技术,对文本数据的管理有着重要的作用,可以在很大程度上解决信息复杂混乱的问题。文本分类利用自然语言处理、数据发掘和机器学习等技术,可以有效地对不同类型的文本进行自动分类和发现规律。
[0003]文本分类是文本挖掘的重要部分,其主要任务是将给定的文本集合划分到已知的一个或者多个类别集合中。目前,文本分类已经应用到了许多领域,如情感分析、主题分类、垃圾邮件检测(Spam Detection)等。目前,文本分类 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模型融合的分类方法,其特征在于,包括:将待分类文本输入N个不同的领域模型,得到N个评分,所述N为大于1的整数;确定所述N个领域模型的权重;根据所述N个评分和所述N个领域模型的权重,确定分类结果的总评分;根据所述分类结果的总评分、第一阈值和第二阈值的关系,对所述待分类文本进行分类,其中,第一阈值小于第二阈值,所述第一阈值与漏检率相关,所述第二阈值与误报率相关。2.如权利要求1所述的方法,其特征在于,所述将待分类文本输入N个不同的领域模型得到N个评分之前,还包括:将所述待分类文本与关键词的词库进行正则匹配,过滤出部分正常文本或异常文本。3.如权利要求1所述的方法,其特征在于,所述确定所述N个领域模型的权重,包括:通过条件随机场CRF标注序列确定所述待分类文本所属的目标领域;将所述目标领域对应的领域模型的权重设置为大于剩余N
‑
1个领域模型的权重。4.如权利要求1所述的方法,其特征在于,所述N个领域模型包括朴素贝叶斯模型和深度模型;所述将待分类文本输入N个不同的领域模型,得到N个评分,包括:若所述待分类文本的长度不大于第三阈值,将所述待分类文本输入朴素贝叶斯模型;若所述待分类文本的长度大于所述第三阈值,将所述待分类文本输入深度学习模型。5.如权利要求1所述的方法,其特征在于,所述漏检率=领域模型把违规文本误判为正常文本的数量/文本总数;所述误报率=领域模型把正常文本误判为违规文本的数据/文本总数。6.如权利要求5所述的方法,其特征在于,所述根据所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。