文本分类方法及装置制造方法及图纸

技术编号:24091481 阅读:24 留言:0更新日期:2020-05-09 08:16
本发明专利技术公开了一种文本分类方法及装置。其中,该方法包括:通过对文本进行预处理,得到待分类文本;将上述待分类文本输入至目标深度分类模型,其中,上述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;依据上述目标深度分类模型对上述待分类文本进行向量化表示,确定上述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于上述词语表示向量、上述句子表示向量和上述文章表示向量对上述待分类文本进行分类处理,确定上述待分类文本的分类结果,其中,上述分类结果至少包括:观点类别。本发明专利技术解决了传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类别的技术问题。

Text classification method and device

【技术实现步骤摘要】
文本分类方法及装置
本专利技术涉及文本处理领域,具体而言,涉及一种文本分类方法及装置。
技术介绍
文本分类是自然语言处理中的一项基本任务,应用场景非常广泛,包括垃圾邮件分类、情感分析、新闻主题分类、自动问答系统中的问句分类等。传统的文本分类方案中,文本分类的效果主要取决于特征的表达能力,即特征是否包含足够用于分类的信息,主要基于统计分类的方法,选取的特征通常是词频、TF-IDF等。通过传统的文本表示方法(例如,向量空间模型)来构建特征向量,主要缺点是忽略上下文关系,在词汇字面上进行相似度计算,对同义词,近义词等词语无法很好处理;无法有效利用语序信息,对实际观点类型把握不准;文章长度不同,每条句子对分类的影响因素无法得到有效处理;也无法表征语义信息,并且这种文本表示方式得到的特征向量高维度且高稀疏,传统的分类器并不适合处理这样的数据。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本分类方法及装置,以至少解决传统的文本分类方案分类效果较差,导致无法准确确定文本的实际观点类本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n通过对文本进行预处理,得到待分类文本,其中,所述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;/n将所述待分类文本输入至目标深度分类模型,其中,所述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;/n依据所述目标深度分类模型对所述待分类文本进行向量化表示,确定所述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于所述词语表示向量、所述句子表示向量和所述文章表示向量对所述待分类文本进行分类处理,确定所述待分类文本的分类结果,其中,所述分类结果至少包括:观点类别。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
通过对文本进行预处理,得到待分类文本,其中,所述预处理包含如下至少之一:分词处理、词性标注、停用词过滤;
将所述待分类文本输入至目标深度分类模型,其中,所述目标深度分类模型通过训练学习已标识观点类别的训练样本确定;
依据所述目标深度分类模型对所述待分类文本进行向量化表示,确定所述待分类文本的词语表示向量、句子表示向量和文章表示向量,并基于所述词语表示向量、所述句子表示向量和所述文章表示向量对所述待分类文本进行分类处理,确定所述待分类文本的分类结果,其中,所述分类结果至少包括:观点类别。


2.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述句子表示向量:
依据所述目标深度分类模型中的卷积神经网络模型获取所述待分类文本中词语的文法信息,其中,所述卷积神经网络模型采用不同大小的卷积核对应不同的语言模型;
在获取所述文法信息的基础上,依据所述卷积神经网络模型获取所述待分类文本的文本结构信息,其中,所述文本结构信息包括以下至少之一:前后文信息、上下文信息;
依据所述卷积神经网络模型对所述文本结构信息进行整合处理,得到所述句子表示向量。


3.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述文章表示向量:
依据所述目标深度分类模型中的注意力机制标识所述待分类文本中的句子和/或词语对所述待分类文本的影响程度,其中,所述影响程度至少包括:对所述待分类文本的分类结果的影响程度;
基于所述影响程度确定所述文章表示向量。


4.根据权利要求1所述的方法,其特征在于,至少通过如下方式确定所述词语表示向量:
依据所述目标深度分类模型中的词向量模型对所述词语进行向量化表示,得到所述词语表示向量,其中,所述词向量模型依据获取到的语料数据训练得到。


5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述目标深度分类模型基于所述词语表示向量、所述句子表示向量和所述文章表示向量,采用全连接分类器对所述待分类文本进行分类,得到所述分类结果。


6.根据权利要求1至4中任意一项所述的方法,其特征在于,在将所述...

【专利技术属性】
技术研发人员:徐文斌
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1