行业分类方法、装置和服务器制造方法及图纸

技术编号:4247899 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种行业分类方法、装置和服务器,该方法包括:确定跨行业用户,将跨行业用户分离为多个单一行业的虚拟用户,根据跨行业用户的拍卖词确定虚拟用户对应的拍卖词;将虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定虚拟用户对应的拍卖词的初始行业;根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,重复执行聚类的步骤,根据达到预定条件时的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。本发明专利技术实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。

【技术实现步骤摘要】

本专利技术实施例涉及网络通信
,特别涉及一种行业分类方法、装置和服务器
技术介绍
随着互联网在全球的普及,以及互联网应用的不断发展,网页上的文本信息近年来呈现爆炸式增长,如何充分有效地利用网页上的文本信息成为关注的焦点。文本分类通过自动为文本标注类别,可以有效地組织和管理文本信息,已经渐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前,文本分类已经被应用到许多领域中,包括抽取符号知识、分发电子邮件、生成用户兴趣模式和邮件内容监控等。文本分类就是将大量文本信息划分为若干组,每组一个类别,每个类别代表不同的概念主题。文本分类是一个有指导的学习过程,文本分类根据一个己经被标注的训练文本集合,找到文本特征和文本类别之间的关系模型,然后利用学习得到的关系模型对新的文本进行类别判断。文本分类的基础技术由文本的预处理、文本的表示、分类方法及效果评估三部分组成。现有的分类方法主要采用自动分类算法,自动分类算法主要有Rocchio算法、决策树算法、K-近邻(K-NearestNeighbor;以下筒称KNN)算法、贝叶斯(Bayes)算法、神经网络算法、步进(boosting)算法和支持向量机(Support Vector Machines;以下简称SVM)等。Rocchio算法根据待分类文本的向量与每一个类别的中心向量的距离来确定类别属性。KNN算法通过查询已知的类似文档的分类情况,来判断新文档和已知文档是否属于统一类别。贝叶斯算法将训练的文档分解为特征向量和决策类别向量,是一种统计学的分类方法,计算新文档属于各类的概率,最大概率对应的类别即为新文档所属的类别。SVM算法是一种建立在统计学习理论基础上的机器学习的放大,主要针对两类分类的问题,在高维空间上寻找一个超平面对两类的样本进行分割。决策树算法实际上是把搜索空间划分为一些矩阵区域,然后根据文本落入区域对文本进行分类。文本分类包括两个方面 一方面是长文本分类,另一方面是短文本分类。现有的分类方法主要面向较长文本分类,例如文章级别或者段落级别的分类。由于短文本的长度较短, 一般只有几个汉字至十几个汉字,现有的文本分类方法并不适用于短文本分类,在应用现有的文本分类方法对短文本进行分类时,准确度4^f氐。有的分类方法无法在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
技术实现思路
本专利技术提供一种行业分类方法、装置和服务器,以实现根据用户和该用户对应的拍卖词的关联关系对短文本进行分类,将用户和拍卖词分类到对应的^f亍业中。本专利技术提供一种行业分类方法,包括确定跨行业用户,将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词;将所述虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始4亍业;根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,才艮据达到预定条件时的聚类结果确定所述虚拟用户和7所述虚拟用户对应的拍卖词所属的^f亍业。本专利技术还提供一种行业分类装置,包括用户确定模块,用于确定跨行业用户;用户分离模块,用于将所述用户确定模块确定的跨行业用户分离为多个单一行业的虚拟用户;拍卖词确定模块,用于根据所述跨行业用户的拍卖词确定所述用户分离模块分离的虚拟用户对应的拍卖词;初始行业确定模块,用于将所述拍卖词确定模块确定的虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;行业确定模块,用于根据所述初始行业确定模块确定的虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。本专利技术还提供一种服务器,包括上述的行业分类装置。本专利技术通过将跨行业用户分离为多个单一行业的虚拟用户,然后4艮据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,才艮据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,最后,根据最终的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。从而实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,将虚拟用户和拍卖词分类到对应的行业中,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通^t术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术行业分类方法一个实施例的流程图;图2为本专利技术分离跨行业用户一个实施例的流程图;图3为本专利技术行业分类装置一个实施例的结构示意图;图4为本专利技术行业分类装置另一个实施例的结构示意图。具体实施例方式下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术行业分类方法一个实施例的流程图,如图1所示,本实施例包括步骤101,确定跨行业用户。具体可以为将用户的每个拍卖词与预定行业包括的所有行业的种子词进4亍匹配;如果该用户的拍卖词中与种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且该用户的拍卖词在该预定行业包括的各行业的分布熵小于或等于预设的第二阈值,则确定该用户为上述预定行业的跨行业用户。具体地,有li殳预定行业为行业T,确定一个用户U是否为行业T的跨行业用户可以为1011,设定用户U的拍卖词中与行业T包括的所有行业的种子词匹配的拍卖词的个数的数组为trade—matched数组,初始化trade—matched数组的值为0;1012,将用户U的每个拍卖词与行业T包括的所有行业的种子词进4亍匹配,每匹配上一个种子词,将trade一matched数组中与匹配上种子词的拍卖词9所对应的记录位置处的值加1;1013 ,假设行业 T中包括 N 个行业,如果<formula>formula see original document page 10</formula>S thres cross trade ,则可以确定用户U是行业T的3争行业用户,其中,thres—match—words为第一阈值,thres—cross—trades为第二阈值。其中,行业可以划分为多级体系,例如 一级行业可以包括医疗和才几电等行业; 一级行业中的医疗行业可以包括多个二级4亍业,例如医疗药品、医疗器械和医疗机构等。本实施例中的预定行业T可以为一级行业中的任一行业,包括多个二级行业;也可以为一级行业之上的一个虚拟4亍业,该虚拟行业包括多个一级行业。本实施例中,种子词指描述行业特征的短语,种子词的属性包括字面、否定和肯定标识,以及权重。其中字面可以为医院或才几械等;肯定标识为行业的特性,否本文档来自技高网
...

【技术保护点】
一种行业分类方法,其特征在于,包括:  确定跨行业用户,将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词;  将所述虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;  根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。

【技术特征摘要】
1、一种行业分类方法,其特征在于,包括确定跨行业用户,将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词;将所述虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。2、 根据权利要求1所述的方法,其特征在于,所述确定跨行业用户包括将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;预设的第一阈值,并且所述用户的拍卖词在所述预定行业所包括的各行业的分布熵小于或等于预设的第二阈值,则确定所述用户为所述预定行业的跨行业用户。3、 根据权利要求1或2所述的方法,其特征在于,所述将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词包括对所述跨行业用户的所有拍卖词进行切词,并对切词结果进行停用词过滤,并在过滤后的切词结果中按照预定的规则确定所述跨行业用户的高频切词;对所述高频切词进行聚类,并才艮据所述高频切词的聚类确定所述高频切词所属拍卖词的聚类;确定所述拍卖词的一个聚类为一个单一行业的虚拟用户,所述聚类对应的拍卖词为所述虚拟用户的拍卖词。4、 根据权利要求3所述的方法,其特征在于,所述对所述高频切词进行 聚类包括将所述高频切词与所述预定行业包括的所有行业的种子词进行模糊匹 配,在匹配成功之后,将所述高频切词标上行业标注,将具有相同行业标注 的高频切词划分到同 一聚类中;根据没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的 相似度,将所述没有行业标注的高频切词聚到所述具有行业标注的聚类中。5、 根据权利要求1所述的方法,其特征在于,所述根据所述虚拟用户对 应的拍卖词的初始^f亍业对所述虚拟用户进4亍聚类包括计算所述虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大 的初始行业为所述虚拟用户的聚类。6、 根据权利要求1所述的方法,其特征在于,所述根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类包括计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为所述拍卖词的聚类。7、 一种行业分类装置,其特征在于,包括 用户确定模块,用于确定跨行业用户;...

【专利技术属性】
技术研发人员:王健民龙柏炜徐茂兴王平
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1