This application involves the field of computer technology, especially an optimization method and device for a text classification model. In the optimization method of a text classification model, a text set is obtained first, and the text of the text is preprocessed to get the set of words corresponding to each text. The words in the set of words are matched with each category characteristic word in the set of presupposed feature words, and the categories of the words in the set of words are determined according to the matching results. According to the category of words, we extend the set of presupposed feature words. According to the set of characteristic words, the words in the set of words are filtered. The weight value of the words in the set of words after filtering is determined, and the presupposed text classification model is optimized according to the words in the set of words and the corresponding weight values after the filtering. From this, a text categorization model with accurate classification of texts can be obtained.
【技术实现步骤摘要】
文本分类模型的优化方法及装置
本申请涉及计算机
,尤其涉及一种文本分类模型的优化方法及装置。
技术介绍
传统技术中,通常通过如下两种方法来对文本进行分类:第一种方法是,基于规则的方法,即预先收集一些常用的类别关键词,这些类别关键词所对应的类别是已知的,当待分类的文本与某个类别关键词相匹配时,将该文本分类为该类别关键词所对应的类别。然而该方法有很大的局限性,当某个文本与任一类别关键词均不匹配时,无法对该文本进行分类。此外,该方法通常不能对文本进行准确分类。举例来说,假设预先收集的类别关键词为:“天猫”,其对应的类别为互联网行业。由于文本“天猫服务站”包含“天猫”,也即该文本与“天猫”匹配,因此,该文本会被分类为互联网行业,但实际上该文本的分类为便利店。第二种方法是,基于文本分类模型的方法,此处的文本分类模型包括朴素贝叶斯模型,K最近邻(k-NearestNeighbor,KNN)模型以及最大熵模型等。在该方法中,首先会计算待分类的文本中各个词语的词频(termfrequency,TF)和逆文档频率(inversedocumentfrequency,IDF),之后根据各个词语的权重值(如,TF*IDF),来对待分类的文本进行分类。然而该方法通常只适用于对长文本进行分类,因为长文本中,部分词语才会出现多次,也即TF才能起到相应的作用。对于短文本(该文本中通常只包括了较少的词语),大部分的词语在文本中只出现了一次,TF没有任何意义,从而根据上述文本分类模型,不能准确地对短文本进行分类。因此,就有了对该文本分类模型进行优化的需求。
技术实现思路
本申请描述了一种文 ...
【技术保护点】
1.一种文本分类模型的优化方法,其特征在于,包括:获取文本集,所述文本集包括至少一个文本;对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;根据匹配结果,确定所述词语集合中的词语的类别;根据所述词语的类别,对所述预设的特征词集合进行扩充;根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。
【技术特征摘要】
1.一种文本分类模型的优化方法,其特征在于,包括:获取文本集,所述文本集包括至少一个文本;对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;根据匹配结果,确定所述词语集合中的词语的类别;根据所述词语的类别,对所述预设的特征词集合进行扩充;根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。2.根据权利要求1所述的方法,其特征在于,在所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤之前,还包括:根据预设的信息熵计算方法,计算所述扩充后的预设的特征词集合中的各个类别特征词的信息熵;根据所述各个类别特征词的信息熵,对所述扩充后的预设的特征词集合中的类别特征词进行过滤,得到第二特征词集合;所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤,包括:根据所述第二特征词集合,对所述词语集合中的词语进行过滤。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值,包括:根据所述词语的类别,确定所述文本集中各个文本的类别;从所述文本集中筛选至少一个待选文本,其中,所述待选文本的类别与所述词语的类别相一致;并从所述至少一个待选文本中选取包含所述词语的目标文本;根据所述待选文本的数目以及所述目标文本的数目,确定第一数值;从所述文本集中筛选包含所述词语的至少一个临时文本;根据所述临时文本的类别的数目以及所述文本集中各个文本的类别的数目,确定第二数值;确定所述词语在所对应文本中的位置信息;根据所述位置信息以及所对应文本中词语的个数,确定第三数值;根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值。4.根据权利要求3所述的方法,其特征在于,所述根据所述位置信息以及所对应文本中词语的个数,确定第三数值,包括:根据如下公式确定所述第三数值:其中,P_index为所述第三数值,p为所述位置信息,d为所对应文本,length(d)为所对应文本中词语的个数。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值,包括:根据如下公式确定所述词语的权重值:其中,w为所述词语的权重值,df为所述第一数值,cf为所述第二数值,P_index为所述第三数值,w1以及w2为...
【专利技术属性】
技术研发人员:陈帅,徐峰,陈明星,郑霖,陈弢,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。