文本分类模型的优化方法及装置制造方法及图纸

技术编号:18458731 阅读:22 留言:0更新日期:2018-07-18 12:40
本申请涉及计算机技术领域,尤其涉及一种文本分类模型的优化方法及装置,在一种文本分类模型的优化方法中,首先获取文本集,并对文本集中的各个文本进行预处理,得到各个文本对应的词语集合。将词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配,根据匹配结果,确定所述词语集合中的词语的类别。根据词语的类别,对预设的特征词集合进行扩充。根据扩充后的预设的特征词集合,对词语集合中的词语进行过滤。确定过滤后的词语集合中的词语的权重值,根据过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。由此,可以获得对文本进行准确分类的文本分类模型。

Optimization method and device for text classification model

This application involves the field of computer technology, especially an optimization method and device for a text classification model. In the optimization method of a text classification model, a text set is obtained first, and the text of the text is preprocessed to get the set of words corresponding to each text. The words in the set of words are matched with each category characteristic word in the set of presupposed feature words, and the categories of the words in the set of words are determined according to the matching results. According to the category of words, we extend the set of presupposed feature words. According to the set of characteristic words, the words in the set of words are filtered. The weight value of the words in the set of words after filtering is determined, and the presupposed text classification model is optimized according to the words in the set of words and the corresponding weight values after the filtering. From this, a text categorization model with accurate classification of texts can be obtained.

【技术实现步骤摘要】
文本分类模型的优化方法及装置
本申请涉及计算机
,尤其涉及一种文本分类模型的优化方法及装置。
技术介绍
传统技术中,通常通过如下两种方法来对文本进行分类:第一种方法是,基于规则的方法,即预先收集一些常用的类别关键词,这些类别关键词所对应的类别是已知的,当待分类的文本与某个类别关键词相匹配时,将该文本分类为该类别关键词所对应的类别。然而该方法有很大的局限性,当某个文本与任一类别关键词均不匹配时,无法对该文本进行分类。此外,该方法通常不能对文本进行准确分类。举例来说,假设预先收集的类别关键词为:“天猫”,其对应的类别为互联网行业。由于文本“天猫服务站”包含“天猫”,也即该文本与“天猫”匹配,因此,该文本会被分类为互联网行业,但实际上该文本的分类为便利店。第二种方法是,基于文本分类模型的方法,此处的文本分类模型包括朴素贝叶斯模型,K最近邻(k-NearestNeighbor,KNN)模型以及最大熵模型等。在该方法中,首先会计算待分类的文本中各个词语的词频(termfrequency,TF)和逆文档频率(inversedocumentfrequency,IDF),之后根据各个词语的权重值(如,TF*IDF),来对待分类的文本进行分类。然而该方法通常只适用于对长文本进行分类,因为长文本中,部分词语才会出现多次,也即TF才能起到相应的作用。对于短文本(该文本中通常只包括了较少的词语),大部分的词语在文本中只出现了一次,TF没有任何意义,从而根据上述文本分类模型,不能准确地对短文本进行分类。因此,就有了对该文本分类模型进行优化的需求。
技术实现思路
本申请描述了一种文本分类模型的优化方法及装置,可以获得对文本进行准确分类的文本分类模型。第一方面,提供了一种文本分类模型的优化方法,包括:获取文本集,所述文本集包括至少一个文本;对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;根据匹配结果,确定所述词语集合中的词语的类别;根据所述词语的类别,对所述预设的特征词集合进行扩充;根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。第二方面,提供了一种文本分类模型的优化装置,包括:获取单元,用于获取文本集,所述文本集包括至少一个文本;预处理单元,用于对所述获取单元获取的所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;匹配单元,用于将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;确定单元,用于根据所述匹配单元的匹配结果,确定所述词语集合中的词语的类别;扩充单元,用于根据所述确定单元确定的所述词语的类别,对所述预设的特征词集合进行扩充;过滤单元,用于根据所述扩充单元扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;所述确定单元,还用于根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;优化单元,用于根据所述确定单元确定的所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。本申请提供的文本分类模型的优化方法及装置,首先获取文本集,并对文本集中的各个文本进行预处理,得到各个文本对应的词语集合。将词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配,根据匹配结果,确定所述词语集合中的词语的类别。根据词语的类别,对预设的特征词集合进行扩充。根据扩充后的预设的特征词集合,对词语集合中的词语进行过滤。确定过滤后的词语集合中的词语的权重值,根据过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。由此,可以获得对文本进行准确分类的文本分类模型。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请一种实施例提供的文本分类模型的优化方法流程图;图2为本申请提供的文本分类模型的优化过程示意图;图3为本申请提供的文本分类方法流程图;图4为本申请一种实施例提供的文本分类模型的优化装置示意图。具体实施方式下面结合附图,对本申请的实施例进行描述。本申请实施例提供的文本分类模型的优化方法及装置适用于根据预先收集的文本,来对文本分类模型进行自动优化的场景,此处的文本分类模型包括:朴素贝叶斯模型,KNN模型以及最大熵模型等。优化后的文本分类模型适用于对地址文本进行分类。此处的地址文本具有如下特点:a,内容简短,即文本中的一个词语只出现一次;b,重要的词语在文本的尾部。举例来说,上述地址文本可以为用户的收货地址。图1为本申请一种实施例提供的文本分类模型的优化方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图1所示,所述方法具体包括:步骤110,获取文本集。其中,该文本集包括至少一个文本。该文本集中的文本可以是由服务器预先收集的,也可以是由人工预先整理的。在此说明书中,上述文本可以是指地址文本。当上述文本为地址文本时,该文本可以包括用户的收货地址。步骤120,对文本集中的各个文本进行预处理,得到各个文本对应的词语集合。此处的预处理包括:筛选目标文本和/或筛选文本中的重要内容和/或分词处理等。以文本为地址文本为例来说,筛选目标文本可以包括:去掉非用户本人的地址文本以及已经不用的地址文本,而保留用户的最常用的地址文本。筛选文本中的重要内容包括:删除地址文本中的没有意义的内容。如,删除“XX省XX市XX路XX号”等内容。分词包括:将地址文本划分为一个以上的词语。举例来说,文本集中的文本以及文本对应的词语集合可以如表1所示。表1文本词语集合支付宝信息技术有限公司支付宝、信息、技术、有限、公司网易信息网易、信息腾讯科技腾讯、科技......在本申请中,可以将各个文本对应的词语集合表示为D1,且D1={d1,d2,…,dn},其中,n代表词语集合中词语的个数。以表1为例来说,D1={“支付宝”、“信息”、“技术”、“有限”、“公司”、“网易”、“信息”、“腾讯”、“科技”}。步骤130,将词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配。此处的预设的特征词集合中的各个类别特征词可以是由人为预先收集的能代表某个类别的词语。本申请中的类别可以是指用户的行业类型,包括:“互联网”、“律师”、“记者”、“监管机构”、“政府机关”以及“明星”等。以类别为:“互联网”为例来说,类别特征词可以包括:“支付宝”、“淘宝”以及“天猫”等。本申请可以将预设的特征词集合表示为T1,T1={t1,t2,...,tm},其中,m为预设的特征词集合中的类别特征词的个数。可以理解的是,t1,t2,...,tm对应的类别是确定的。上述步骤130即为:将d1,d2,…,dn分别与t1,t2,...,tm进行匹配。步骤140,根据匹配结果,确定词语集合中的词语的类别。以n=5,m=3为例来说,也即D本文档来自技高网...

【技术保护点】
1.一种文本分类模型的优化方法,其特征在于,包括:获取文本集,所述文本集包括至少一个文本;对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;根据匹配结果,确定所述词语集合中的词语的类别;根据所述词语的类别,对所述预设的特征词集合进行扩充;根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。

【技术特征摘要】
1.一种文本分类模型的优化方法,其特征在于,包括:获取文本集,所述文本集包括至少一个文本;对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;根据匹配结果,确定所述词语集合中的词语的类别;根据所述词语的类别,对所述预设的特征词集合进行扩充;根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。2.根据权利要求1所述的方法,其特征在于,在所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤之前,还包括:根据预设的信息熵计算方法,计算所述扩充后的预设的特征词集合中的各个类别特征词的信息熵;根据所述各个类别特征词的信息熵,对所述扩充后的预设的特征词集合中的类别特征词进行过滤,得到第二特征词集合;所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤,包括:根据所述第二特征词集合,对所述词语集合中的词语进行过滤。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值,包括:根据所述词语的类别,确定所述文本集中各个文本的类别;从所述文本集中筛选至少一个待选文本,其中,所述待选文本的类别与所述词语的类别相一致;并从所述至少一个待选文本中选取包含所述词语的目标文本;根据所述待选文本的数目以及所述目标文本的数目,确定第一数值;从所述文本集中筛选包含所述词语的至少一个临时文本;根据所述临时文本的类别的数目以及所述文本集中各个文本的类别的数目,确定第二数值;确定所述词语在所对应文本中的位置信息;根据所述位置信息以及所对应文本中词语的个数,确定第三数值;根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值。4.根据权利要求3所述的方法,其特征在于,所述根据所述位置信息以及所对应文本中词语的个数,确定第三数值,包括:根据如下公式确定所述第三数值:其中,P_index为所述第三数值,p为所述位置信息,d为所对应文本,length(d)为所对应文本中词语的个数。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值,包括:根据如下公式确定所述词语的权重值:其中,w为所述词语的权重值,df为所述第一数值,cf为所述第二数值,P_index为所述第三数值,w1以及w2为...

【专利技术属性】
技术研发人员:陈帅徐峰陈明星郑霖陈弢
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1