基于卡方检验的句向量计算方法、文本分类方法及系统技术方案

技术编号：20681235 阅读：33 留言：0更新日期：2019-03-27 18:59

本发明专利技术公开了一种基于卡方检验的句向量计算方法、文本分类方法及系统，其通过对当前文本进行分词处理，并去除停用词，得到分词结果；计算所述分词结果中每个词的词向量；计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量，从而提高了句向量在特征维度的权值，降低了文本信息中词向量间的相互干扰，极大的提高文本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于卡方检验的句向量计算方法、文本分类方法及系统
本专利技术涉及自然语言计算机自动处理
，特别是一种基于卡方检验的句向量计算方法及其应用该方法的文本分类方法及系统。
技术介绍
文本分类(Textcategorization)是自然语言处理的一个重要步骤。文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程.20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类.人工分类非常费时，效率非常低.90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.早期常用的文本分类技术是通过利用独热编码(One-HotEncoding)的方法制定一个足够长的向量，向量的每个维度代表一个词或短语。当句子中出现特定维度的所指向词汇后，向量在该维度的值为1，否则为0。通过该独热编码的方法能将句子转...

【技术保护点】
1.一种基于卡方检验的句向量计算方法，其特征在于，包括以下步骤：a.对当前文本进行分词处理，并去除停用词，得到分词结果；b.计算所述分词结果中每个词的词向量；c.计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；d.计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；e.根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量。

【技术特征摘要】
1.一种基于卡方检验的句向量计算方法，其特征在于，包括以下步骤：a.对当前文本进行分词处理，并去除停用词，得到分词结果；b.计算所述分词结果中每个词的词向量；c.计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；d.计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；e.根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量。2.根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤a中，还包括对所述当前文本进行上下文扩展得到扩展文本，再对所述扩展文本进行分词处理。3.根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤b中，是指利用训练好的词向量模型对所述分词结果进行计算词向量；所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果，再将所述分词结果输入到所述词向量模型中进行训练，得到所述训练语料的每个词的词向量。4.根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤c中，计算每个词向量与预设类别之间的卡方值，所述预设类别是指利用预设分类算法对每个词向量进行类别识别，或者通过对每个词向量进行类别标注，得到每个词向量对应的所属类别。5.根据权利要求1或4所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤c中，根据所述卡方值将所述词向量划分为特征词和非特征词，是指将卡方值小于或等于预设值的词向量作为特征词，并将卡方值大于预设值的词向量作为非特征词；或者，按照卡方值从小到大的顺序对所述词向量进行排序，并将排序在前的预设数量的词向量作为特征词，排序在后的其他词向量作为非特征词。6.根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤d中，计算所述特征词在所述预设类别中的使用频率，是指将语料库按照预设类别进行分类，得到不同类别的文本集；然后计算所述特征词在每个类别的文本集中所占的比例。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员：黄友福，肖龙源，蔡振华，李稀敏，刘晓葳，谭玉坤，
申请(专利权)人：厦门快商通信息技术有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人