网页文本分类的方法和装置,网页文本识别的方法和装置制造方法及图纸

技术编号:16456025 阅读:26 留言:0更新日期:2017-10-25 20:34
本申请实施例提供了一种网页文本分类的方法和装置,网页文本识别的方法和装置,该网页文本分类的方法包括:采集网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为相应特征分词的特征向量,采用所述特征向量训练出分类模型。本申请实施例不仅有效保证了特征提取的客观性与准确性,还兼顾了特征对分类影响,从而提高了网页文本分类的准确性,更方便于用户在海量的文本中及时准确地获得有效的信息。

Method and device for webpage text classification, method and device for webpage text recognition

The embodiment of the invention provides a method and apparatus for Web text classification, text recognition method and device for web pages, including the page text classification method: text data collection page; word segmentation of the text data based segmentation; segmentation based calculation of the first attribute value and second attribute value; on the basis of the first second attribute value and attribute value calculation of the value of the basic characteristics of word segmentation; according to the characteristic value of selected features from the word based segmentation; calculate the weight of each feature word corresponding; the weights as the feature vector of corresponding feature segmentation, using the feature vector to train classification model. The embodiment of the application not only ensures the objectivity and accuracy of feature extraction, but also take into account the impact of the characteristics of classification, so as to improve the accuracy of Web text classification, more convenient to the user in the massive text in a timely and accurate access to effective information.

【技术实现步骤摘要】
网页文本分类的方法和装置,网页文本识别的方法和装置
本申请涉及文本分类的
,特别是涉及一种网页文本分类的方法,一种网页文本分类的装置,一种网页文本识别的方法,以及,一种网页文本识别的装置。
技术介绍
在当今的信息社会,各种形式的信息都极大的丰富了人们的生活,尤其随着Internet的大规模普及,网络上的信息量在飞速增长当中,如各种电子文档、电子邮件和网页充满网络上,从而造成信息杂乱。为了快速、准确、全面地找到我们所需要的信息,文本分类成为了有效组织和管理文本数据的重要方式,越来越受到广泛的关注。网页文本分类是指按照预先定义的主题类别,根据海量网页文档的内容,确定相应网页的类别。网页文本分类采用的技术基础是基于内容的纯文本分类。基本方法是,在抓取到的网页集合中,对每篇网页文本进行纯文本的内容抽取,得到相应的纯文本。再将抽取出的纯文本组成新的文档集合,在新的文档集合上应用纯文本分类算法进行分类。再根据纯文本与网页文本的对应关系,对网页文本进行分类,即应用网页的纯文本内容信息,对网页进行分类。由于海量文本所具有的多意性、模糊性、各异性等特点,已有技术中,在分类特征的选取上难以令人满意,例如,往往会夸大某些无效词的作用,或者,忽略某些特征分词的重要属性,从而导致网页文本分类的准确度极低。
技术实现思路
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种网页文本分类的方法,一种网页文本识别的方法,和相应的一种网页文本分类的装置,一种网页文本识别的装置。为了解决上述问题,本申请实施例公开了一种网页文本分类的方法,包括:采集网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为相应特征分词的特征向量,采用所述特征向量训练出分类模型。优选地,所述第一属性值为所述基础分词的信息增益值,所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差,所述特征值为所述基础分词的区分度。优选地,通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值:其中,score为基础分词的区分度,igScore为基础分词的信息增益值,chiScore为基础分词对相对于预定义的各个分类的卡方统计量值,所述n为预定义的分类的数量。优选地,所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括:将所述基础分词按照其对应的特征值由高至低排列;提取预设数量的,所述特征值高于预设阈值的基础分词作为特征分词。优选地,所述计算各特征分词相应的权重的步骤包括:获取各特征分词在相应网页的文本数据中出现的次数;统计所述网页的文本数据中特征分词的总数;依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重。优选地,通过如下公式依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重:其中,weight为特征分词的权重,tf为特征分词在相应网页的文本数据中出现的次数,n为网页的文本数据中特征分词的总数,score为特征分词的区分度。优选地,所述计算各特征分词相应的权重的步骤还包括:对所述特征分词的权重进行归一化处理。优选地,通过以下公式对所述特征分词的权重进行归一化处理:其中,norm(weight)为归一化之后的权重,weight为所述特征分词的权重,min(weight)为所述网页中文本数据中最小weight值,max(weight)为所述网页中文本数据中最大weight值。本申请实施例还公开了一种网页文本识别的方法,包括:提取待识别网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为特征向量输入预先训练出的分类模型中,获得分类信息;针对所述待识别网页标记分类信息。优选地,所述第一属性值为所述基础分词的信息增益值,所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差,所述特征值为所述基础分词的区分度。优选地,所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括:将所述基础分词按照其对应的特征值由高至低排列;提取预设数量的,所述特征值高于预设阈值的基础分词作为特征分词。优选地,所述计算各特征分词相应的权重的步骤包括:获取各特征分词在相应网页的文本数据中出现的次数;统计所述网页的文本数据中特征分词的总数;依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重。优选地,所述计算各特征分词相应的权重的步骤还包括:对所述特征分词的权重进行归一化处理。本申请实施例还公开了一种网页文本分类的装置,包括:采集模块,用于采集网页中的文本数据;分词模块,用于对所述文本数据进行分词,获得基础分词;分词属性计算模块,用于计算各基础分词的第一属性值和第二属性值;特征值计算模块,用于依据所述第一属性值和第二属性值计算各基础分词的特征值;特征提取模块,用于依据所述特征值从所述基础分词中筛选出特征分词;特征权重分配模块,用于计算各特征分词相应的权重;模型训练模块,用于将所述权重作为相应特征分词的特征向量,采用所述特征向量训练出分类模型。优选地,所述第一属性值为所述基础分词的信息增益值,所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差,所述特征值为所述基础分词的区分度。优选地,所述特征值计算模块通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值:其中,score为基础分词的区分度,igScore为基础分词的信息增益值,chiScore为基础分词对相对于预定义的各个分类的卡方统计量值,所述n为预定义的分类的数量。优选地,所述特征提取模块包括:排序子模块,用于将所述基础分词按照其对应的特征值由高至低排列;提取子模块,用于提取预设数量的,所述特征值高于预设阈值的基础分词作为特征分词。优选地,所述特征权重分配模块包括:次数统计子模块,用于获取各特征分词在相应网页的文本数据中出现的次数;分词总数统计子模块,用于统计所述网页的文本数据中特征分词的总数;计算子模块,用于依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重。优选地,所述计算子模块通过如下公式依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重:其中,weight为特征分词的权重,tf为特征分词在相应网页的文本数据中出现的次数,n为网页的文本数据中特征分词的总数,score为特征分词的区分度。优选地,所述本文档来自技高网...
网页文本分类的方法和装置,网页文本识别的方法和装置

【技术保护点】
一种网页文本分类的方法,其特征在于,包括:采集网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为相应特征分词的特征向量,采用所述特征向量训练出分类模型。

【技术特征摘要】
1.一种网页文本分类的方法,其特征在于,包括:采集网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为相应特征分词的特征向量,采用所述特征向量训练出分类模型。2.根据权利要求1所述的方法,其特征在于,所述第一属性值为所述基础分词的信息增益值,所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差,所述特征值为所述基础分词的区分度。3.根据权利要求2所述的方法,其特征在于,通过如下公式依据所述第一属性值和第二属性值计算各基础分词的特征值:其中,score为基础分词的区分度,igScore为基础分词的信息增益值,chiScore为基础分词对相对于预定义的各个分类的卡方统计量值,所述n为预定义的分类的数量。4.根据权利要求1或2或3所述的方法,其特征在于,所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括:将所述基础分词按照其对应的特征值由高至低排列;提取预设数量的,所述特征值高于预设阈值的基础分词作为特征分词。5.根据权利要求1或2或3所述的方法,其特征在于,所述计算各特征分词相应的权重的步骤包括:获取各特征分词在相应网页的文本数据中出现的次数;统计所述网页的文本数据中特征分词的总数;依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重。6.根据权利要求5所述的方法,其特征在于,通过如下公式依据所述特征分词的特征值,各特征分词在相应网页的文本数据中出现的次数,以及,所述网页的文本数据中特征分词的总数,计算得到各特征分词相应的权重:其中,weight为特征分词的权重,tf为特征分词在相应网页的文本数据中出现的次数,n为网页的文本数据中特征分词的总数,score为特征分词的区分度。7.根据权利要求1或2或3或6所述的方法,其特征在于,所述计算各特征分词相应的权重的步骤还包括:对所述特征分词的权重进行归一化处理。8.根据权利要求7所述的方法,其特征在于,通过以下公式对所述特征分词的权重进行归一化处理:其中,norm(weight)为归一化之后的权重,weight为所述特征分词的权重,min(weight)为所述网页中文本数据中最小weight值,max(weight)为所述网页中文本数据中最大weight值。9.一种网页文本识别的方法,其特征在于,包括:提取待识别网页中的文本数据;对所述文本数据进行分词,获得基础分词;计算各基础分词的第一属性值和第二属性值;依据所述第一属性值和第二属性值计算各基础分词的特征值;依据所述特征值从所述基础分词中筛选出特征分词;计算各特征分词相应的权重;将所述权重作为特征向量输入预先训练出的分类模型中,获得分类信息;针对所述待识别网页标记分类信息。10.根据权利要求9所述的方法,其特征在于,所述第一属性值为所述基础分词的信息增益值,所述第二属性值为所述基础分词相对于预定义的各个分类的卡方统计量值的标准差,所述特征值为所述基础分词的区分度。11.根据权利要求9或10所述的方法,其特征在于,所述依据所述特征值从所述基础分词中筛选出特征分词的步骤包括:将所述基础分词按照其对应的特征值由高至低排列;提取预设数量的,所述特征值高于预设阈值的基础分词作为特征分词。12.根据权利要求9或10所述的方法,其特征在于,所述计算各特征分词相应的权重的步骤包括:获取各特征分词在相应网页的文本数据中出现的次数;统计所述网页的文本数据中特征分词的总数;依据所述特征分词的特征值,各特征分词在相应...

【专利技术属性】
技术研发人员:段秉南
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1