【技术实现步骤摘要】
一种文本分类方法和装置
[0001]本专利技术涉及人工智能
,具体涉及一种文本分类方法和装置。
技术介绍
[0002]随着线上支付方式的普及,以及各种电子商务平台的应用,商户文本数据伴随着人们生活而大量增加,碎片化的商户文本信息需要被整理归类才能挖掘并提取其中隐藏的有用信息,基于商户文本数据对商户进行分类便是其中一种,商户分类被广泛应用于商户画像构建、用户消费偏好、权益推荐等领域。
[0003]目前对商户进行分类的方法,一种是将商户文本向量化,基于商户文本的特征向量构建类别标签以训练一个多分类或者多个二分类模型,通过多分类模型对待分类商户文本进行分类;另一种是通过爬虫对线上商户平台进行爬取,并批量查询地图数据获取商户的相关信息,从而获取到商户所属的商户类别。
[0004]在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,采用目前对商户文本进行分类的方法,难以对商户文本进行准确的分类。比如,采用训练多分类模型的做法对于短文本而言,难以构造出一个准确的多分类模型,从而使得对商户文本进行分类的准确度 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对对象文本进行分词处理,得到所述对象文本的分词;将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当所述特征词序列匹配到目标频繁特征词序列时,基于所述特征词序列中匹配特征词所属的候选对象类别,确定所述对象文本中对象所属的目标对象类别,其中,所述匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,所述类别特征词库包括至少一个样本对象类别对应的类别特征词;将样本对象文本集中样本对象文本的样本分词与类别特征词库中的类别特征词进行匹配;当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词;基于所述样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列。3.根据权利要求2所述的方法,其特征在于,所述基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,包括:获取样本对象文本集中样本对象文本对应的样本对象类别;针对每个样本对象类别,计算样本对象文本中样本分词对应的词频、以及逆文本频率,其中,所述词频为所述样本分词在所述样本对象类别对应的样本对象文本中出现的频率,所述逆文本频率为所述样本分词在所有样本对象类别中出现的频率;基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词;根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。4.根据权利要求3所述的方法,其特征在于,所述基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词,包括:将所述样本分词对应的词频、以及逆文档频率进行融合,得到所述样本分词对应的融合后频率;根据所述融合后频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词。
5.根据权利要求2所述的方法,其特征在于,所述构建样本对象文本对应的频繁词,包括:针对每个样本分词,统计所述样本分词在样本对象文本中出现的样本对象文本数;根据所述样本对象文本数,从所述样本分词中确定样本对象文本对应的初始频繁词;基于初始频繁词,以及初始频繁词在样本对象文本中对应的后缀词,构建样本对象文本对应的频繁词。6.根据...
【专利技术属性】
技术研发人员:刘志煌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。