数据分类方法和装置制造方法及图纸

技术编号:17516517 阅读:20 留言:0更新日期:2018-03-21 01:07
本发明专利技术提供了一种数据分类方法和装置,其中,该方法包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。通过上述方案解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题,达到了简单高效实现对航班点评数据的精准分类的技术效果。

Data classification method and device

The invention provides a data classification method and apparatus, wherein, the method comprises the following steps: acquiring comment upon flight data classification; the comment data processed by word segmentation; classify comment data label core word matching word segmentation based on the determined by the comment data categories. The above solution solves the technical problem that the existing data method can not classify the flight comment data accurately, and achieves a simple and efficient technical effect to achieve accurate classification of flight review data.

【技术实现步骤摘要】
数据分类方法和装置
本专利技术涉及航空分析
,特别涉及一种数据分类方法和装置。
技术介绍
随着互联网技术的不断发展,越来越多的人通过互联网发表产品的使用心得。对于商家而言,互联网上大量的产品信息反映了用户体验、意见等等。如果可以聚合这些信息提供给商家,那么可以促进商家进行市场调研和产品规划,以及进行服务改进。然而,考虑到产品评论的多样化,评论信息涉及的层面很多,如何对海量的评论信息进行分类,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据分类方法和装置,以达到对航班点评数据进行精准分类的技术效果,该方法包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。在一个实施方式中,对所述点评数据进行分词处理包括:去除所述点评数据中的脏数据;基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。在一个实施方式中,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。在一个实施方式中,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。在一个实施方式中,基于标签核心词匹配对分词处理后的点评数据进行分类,包括:获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。在一个实施方式中,在基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所述的类别之后,所述方法还包括:在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类。在一个实施方式中,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类,包括:通过分词处理后的点评数据中各个词段的概率,按照以下方式对所述点评数据进行分类:设定所述点评数据中包含有k个词语,其中第k个词语表示为wi,其中,i取值为1到k,则所述点评数据属于类别Cn的概率P为:其中,p(wi|Cn)为词wi在类别Cn中的概率;选取概率最大的类别作为各词段所属的类别。在一个实施方式中,基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别,包括:对分词处理后的点评数据匹配情感分析语法规则集合;根据匹配情感分析语法规则集合之后的结果,定位行业属性词;在定位的行业属性词属于核心关键词或标签相关词的情况下,根据核心关键词或标签相关词,确定所述点评数据所属的类别。本专利技术实施例还提供了一种数据分类装置,以达到对航班点评数据进行精准分类的技术效果,该装置包括:获取模块,用于获取待分类的航班点评数据;分词模块,用于对所述点评数据进行分词处理;分类模块,用于基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。在一个实施方式中,所述分词模块包括:去除单元,用于去除所述点评数据中的脏数据;分词单元,用于基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。在一个实施方式中,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。在一个实施方式中,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。在一个实施方式中,所述分类模块包括:获取单元,用于获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;分类单元,用于将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。在一个实施方式中,上述装置还包括:词频划分模块,用于在基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所述的类别之后,在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类。在一个实施方式中,所述词频划分模块具体用于通过分词处理后的点评数据中各个词段的概率,按照以下方式对所述点评数据进行分类:设定所述点评数据中包含有k个词语,其中第k个词语表示为wi,其中,i取值为1到k,则所述点评数据属于类别Cn的概率P为:其中,p(wi|Cn)为词wi在类别Cn中的概率;选取概率最大的类别作为各词段所属的类别。在一个实施方式中,所述分类模块包括:匹配单元,用于对分词处理后的点评数据匹配情感分析语法规则集合;定位单元,用于根据匹配情感分析语法规则集合之后的结果,定位行业属性词;确定单元,用于在定位的行业属性词属于核心关键词或标签相关词的情况下,根据核心关键词或标签相关词,确定所述点评数据所属的类别。在本专利技术实施例中,基于标签核心词匹配对航班点评数据进行分类,确定出航班点评数据所属的类别。通过上述方案解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题,达到了简单高效实现对航班点评数据的精准分类的技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:图1是根据本专利技术实施例的数据分类方法的方法流程图;图2是根据本专利技术实施例的数据分类系统的架构图;图3是根据本专利技术实施例的基于情感分析的分类算法的模型示意图;图4是根据本专利技术实施例的数据分类装置的结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。在本专利技术实施例的中,提供了一种数据分类方法,如图1所示,可以包括如下步骤:步骤101:获取待分类的航班点评数据;为了实现对数据的有效处理,在获取到待分类的航班点评数据之后,可以去除所述点评数据中的脏数据。具体的,可以是去除其中的无用信息,或者是一些标点等,以减少存储空间。步骤102:对所述点评数据进行分词处理;在进行分词的时候,可以是依据专门为航空服务领域设置的分词词典为分词基础的,即将待分类的航班点评数据切割成一个一个的词语,以便于后续处理。为了实现使得分词结果更为准确,可以建立行业分词词典。即可以识别出行业领域中的重要词汇,将这些词汇增加到分词词典汇总。例如“头等舱”等,这个行业还有的词汇。其中,航空服务领域的分词词典可以是通过统计航班点评文本中的高频词生成的。还可以构建行业属性词和情感词,可以是通过搜集中文情感词以及人工审查方式,构成情感词词典。步骤103:基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。其中,可以将航班点评数据划分为以下类别至少之一:餐食、空乘、娱乐设施、本文档来自技高网...
数据分类方法和装置

【技术保护点】
一种数据分类方法,其特征在于,包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。2.根据权利要求1所述的方法,其特征在于,对所述点评数据进行分词处理包括:去除所述点评数据中的脏数据;基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。3.根据权利要求2所述的方法,其特征在于,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。4.根据权利要求1所述的方法,其特征在于,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。5.根据权利要求1所述的方法,其特征在于,基于标签核心词匹配对分词处理后的点评数据进行分类,包括:获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。6.根据权利要求1所述的方法,其特征在于,在基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所述的类别之后,所述方法还包括:在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类。7.根据权利要求6所述的方法,其特征在于,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类,包括:通过分词处理后的点评数据中各个词段的概率,按照以下方式对所述点评数据进行分类:设定所述点评数据中包含有k个词语,其中第k个词语表示为wi,其中,i取值为1到k,则所述点评数据属于类别Cn的概率P为:其中,p(wi|Cn)为词wi在类别Cn中的概率;选取概率最大的类别作为各词段所属的类别。8.根据权利要求1所述的方法,其特征在于,基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别,包括:对分词处理后的点评数据匹配情感分析语法规则集合;根据匹配情感分析语法规则集合之后的结果,定位行业属性词;在定位的行业属性词属于核心关键词或标签相关词的情况下,根据核心关键词或标签相关词,确定所述点评数据所属的类别。...

【专利技术属性】
技术研发人员:王殿胜唐红武谢世局籍焱薄满辉赵楠
申请(专利权)人:中航信移动科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1