The invention provides a data classification method and apparatus, wherein, the method comprises the following steps: acquiring comment upon flight data classification; the comment data processed by word segmentation; classify comment data label core word matching word segmentation based on the determined by the comment data categories. The above solution solves the technical problem that the existing data method can not classify the flight comment data accurately, and achieves a simple and efficient technical effect to achieve accurate classification of flight review data.
【技术实现步骤摘要】
数据分类方法和装置
本专利技术涉及航空分析
,特别涉及一种数据分类方法和装置。
技术介绍
随着互联网技术的不断发展,越来越多的人通过互联网发表产品的使用心得。对于商家而言,互联网上大量的产品信息反映了用户体验、意见等等。如果可以聚合这些信息提供给商家,那么可以促进商家进行市场调研和产品规划,以及进行服务改进。然而,考虑到产品评论的多样化,评论信息涉及的层面很多,如何对海量的评论信息进行分类,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据分类方法和装置,以达到对航班点评数据进行精准分类的技术效果,该方法包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。在一个实施方式中,对所述点评数据进行分词处理包括:去除所述点评数据中的脏数据;基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。在一个实施方式中,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。在一个实施方式中,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。在一个实施方式中,基于标签核心词匹配对分词处理后的点评数据进行分类,包括:获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。在一个实施方式中,在基于标签核心词匹配 ...
【技术保护点】
一种数据分类方法,其特征在于,包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。
【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。2.根据权利要求1所述的方法,其特征在于,对所述点评数据进行分词处理包括:去除所述点评数据中的脏数据;基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。3.根据权利要求2所述的方法,其特征在于,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。4.根据权利要求1所述的方法,其特征在于,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。5.根据权利要求1所述的方法,其特征在于,基于标签核心词匹配对分词处理后的点评数据进行分类,包括:获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。6.根据权利要求1所述的方法,其特征在于,在基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所述的类别之后,所述方法还包括:在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类。7.根据权利要求6所述的方法,其特征在于,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类,包括:通过分词处理后的点评数据中各个词段的概率,按照以下方式对所述点评数据进行分类:设定所述点评数据中包含有k个词语,其中第k个词语表示为wi,其中,i取值为1到k,则所述点评数据属于类别Cn的概率P为:其中,p(wi|Cn)为词wi在类别Cn中的概率;选取概率最大的类别作为各词段所属的类别。8.根据权利要求1所述的方法,其特征在于,基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别,包括:对分词处理后的点评数据匹配情感分析语法规则集合;根据匹配情感分析语法规则集合之后的结果,定位行业属性词;在定位的行业属性词属于核心关键词或标签相关词的情况下,根据核心关键词或标签相关词,确定所述点评数据所属的类别。...
【专利技术属性】
技术研发人员:王殿胜,唐红武,谢世局,籍焱,薄满辉,赵楠,
申请(专利权)人:中航信移动科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。