【技术实现步骤摘要】
用于对文本进行分类的方法和装置、存储介质及处理器
本专利技术涉及计算机
,具体地涉及用于对文本进行分类的方法和装置、存储介质及处理器。
技术介绍
文本分类是自然语言处理中的一项基本任务,包括句子级别和篇章级别的文本分类,即短文本分类和长文本分类。文本分类的应用非常广泛,常见的应用场景包括垃圾邮件分类、情感分析、新闻主题分类等。而对短文本分类来说,最主要的应用就是自动问答系统和搜索引擎中的query分类。传统的文本分类方法首先进行文本预处理、然后进行特征提取、接着进行分类器选取及训练。文本预处理通常是对文本进行分词、去停用词、词性标注等。常规的特征通常使用TF-IDF,也包括其他特征,通常对特征进行强度计算后进行筛选。接着选取合适的分类器进行模型训练,常用的分类器模型包括朴素贝叶斯、逻辑回归、SVM等。这些传统的分类方法在篇章级别的文本分类中取得了很好的效果,但是对于query这种短文本来说效果受到了制约。query是指用户在搜索引擎或问答系统中输入的一些查询短句,这些query常常存在输入不规范、以短句的形式呈现等特性 ...
【技术保护点】
1.一种用于对文本进行分类的方法,其特征在于,该方法包括:/n对待分类的文本进行分词;/n基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量,并将属于一句话的词语对应的词向量组成一个矩阵;/n基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量;以及/n基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量,并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型,以实现对所述待分类的文本进行分类。/n
【技术特征摘要】
1.一种用于对文本进行分类的方法,其特征在于,该方法包括:
对待分类的文本进行分词;
基于词向量模型确定对待分类的文本进行分词得到的每个词语对应的词向量,并将属于一句话的词语对应的词向量组成一个矩阵;
基于句子向量模型对每一矩阵进行处理以获得每一矩阵对应的句子向量;以及
基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量,并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型,以实现对所述待分类的文本进行分类。
2.根据权利要求1所述的方法,其特征在于,在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前,该方法还包括:
基于权重模型确定每一词语在其所属的句子中的权重;以及
将每一句子中的每一词语的权重应用到该每一句子对应的句子向量中,
其中,基于句子分类模型进行处理的句子向量为被应用权重后的句子向量。
3.根据权利要求1所述的方法,其特征在于,在所述基于句子分类模型对每一句子向量进行处理以获得每一句子向量对应的类别分值向量并根据每一类别分值向量确定该类别分值向量对应的句子向量的类型之前,该方法还包括:对每一句子向量进行处理,以使得每一句子向量的维度为预设维度。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述词向量模型为WordEmbeddings模型。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述句子向量模型为双向LSTM模型,所述双向LSTM模型为通过以下内容获得:
按照类别为所述用于训练的文本打上标签;
基于所述词向量模型、预设双向LSTM模型和所述句子分类模型对所述用于训练的文本进行分类;
基于对所述用于训练的文本的分类结果和按照类别为所述用于训练的文本打上的标签之间的误差,采用Adam优化算法调整所述预设双向LSTM模型中的参数,并重复基于所述词向量模型、所述预设双向LSTM模型、所述句子分类模型对所述用于训练的文本进行分类及基于所述误差调整所述预设双向LSTM模型中的参数,直到满足预设条件,其中,使得满足所述预设条件的所述预设双向LSTM模型即为所述双向LSTM模型。
6.根据权利要求2所述的方法,其特征在于,所述句子向量模型为双向LSTM模型,所述权重模型为attentio...
【专利技术属性】
技术研发人员:戚成琳,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。