基于卡方检验的句向量计算方法、文本分类方法及系统技术方案

技术编号:20681235 阅读:23 留言:0更新日期:2019-03-27 18:59
本发明专利技术公开了一种基于卡方检验的句向量计算方法、文本分类方法及系统,其通过对当前文本进行分词处理,并去除停用词,得到分词结果;计算所述分词结果中每个词的词向量;计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;且所述第一权值大于所述第二权值;根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量,从而提高了句向量在特征维度的权值,降低了文本信息中词向量间的相互干扰,极大的提高文本分类的准确性。

【技术实现步骤摘要】
基于卡方检验的句向量计算方法、文本分类方法及系统
本专利技术涉及自然语言计算机自动处理
,特别是一种基于卡方检验的句向量计算方法及其应用该方法的文本分类方法及系统。
技术介绍
文本分类(Textcategorization)是自然语言处理的一个重要步骤。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程.20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类.人工分类非常费时,效率非常低.90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.早期常用的文本分类技术是通过利用独热编码(One-HotEncoding)的方法制定一个足够长的向量,向量的每个维度代表一个词或短语。当句子中出现特定维度的所指向词汇后,向量在该维度的值为1,否则为0。通过该独热编码的方法能将句子转化为固定长度的向量,但这这种方法存在向量空间不确定、向量维度爆炸等问题,导致模型训练效率低下。目前常用的方法是先利用中文文本分词技术将长文本分割成词语,再利用word2vec(词向量技术)将词语转化为一定维度的向量,利用句子中词向量的算术平均值作为句向量。但是,采用该句向量的算法,当句子中包含的相关词汇比较多时,可能导致句向量的特征不够明显,从而导致文本分类的准确性较低。
技术实现思路
本专利技术为解决上述问题,提供了一种基于卡方检验的句向量计算方法、文本分类方法及系统,其通过对文本中的关键特征的加强,降低文本信息中词向量间的相互干扰,提高句向量在特征维度的权值,从而提高文本分类的准确性。为实现上述目的,本专利技术采用的技术方案为:一种基于卡方检验的句向量计算方法,其包括以下步骤:a.对当前文本进行分词处理,并去除停用词,得到分词结果;b.计算所述分词结果中每个词的词向量;c.计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;d.计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;且所述第一权值大于所述第二权值;e.根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量。优选的,所述的步骤a中,还包括对所述当前文本进行上下文扩展得到扩展文本,再对所述扩展文本进行分词处理。优选的,所述的步骤b中,是指利用训练好的词向量模型对所述分词结果进行计算词向量;所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果,再将所述分词结果输入到所述词向量模型中进行训练,得到所述训练语料的每个词的词向量。优选的,所述的步骤c中,计算每个词向量与预设类别之间的卡方值,所述预设类别是指利用预设分类算法对每个词向量进行类别识别,或者通过对每个词向量进行类别标注,得到每个词向量对应的所属类别。优选的,所述的步骤c中,根据所述卡方值将所述词向量划分为特征词和非特征词,是指将卡方值小于或等于预设值的词向量作为特征词,并将卡方值大于预设值的词向量作为非特征词;或者,按照卡方值从小到大的顺序对所述词向量进行排序,并将排序在前的预设数量的词向量作为特征词,排序在后的其他词向量作为非特征词。优选的,所述的步骤d中,计算所述特征词在所述预设类别中的使用频率,是指将语料库按照预设类别进行分类,得到不同类别的文本集;然后计算所述特征词在每个类别的文本集中所占的比例。优选的,所述的步骤d中,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值,是指将所述比例的最大值作为所述特征词的权值,即得到所述第一权值;并将预设常数作为所述非特征词的权值,即得到所述第二权值。优选的,所述的步骤e中,所述句向量的计算方法为:对于对于所述当前文本中的每个词向量,若为特征词,则将特征词的词向量乘以对应的第一权值并累加;若为非特征词,则将非特征词的词向量乘以对应的第二权值并累加;最后将得到的词向量之和除以所有词向量的权值之和,得到所述句向量;即:句向量=(特征词1的词向量*第一权值1+特征词2的词向量*第一权值2+……+特征词m的词向量*第一权值m+非特征词1的词向量*第二权值1+非特征词2的词向量*第二权值2+……+非特征词n的词向量*第二权值n)/(第一权值1+第一权值2+……+第一权值m+第二权值1+第二权值2+……+第二权值n))。进一步的,本专利技术还提供一种文本分类方法,其采用上述任一项所述的基于卡方检验的句向量计算方法,并根据所述句向量对当前文本进行文本分类;即,将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测,并输出当前文本的所属类型。对应的,本专利技术还提供一种文本分类系统,其包括:文本预处理模块,用于对当前文本进行分词处理,并去除停用词,得到分词结果;词向量计算模块,用于计算所述分词结果中每个词的词向量;卡方检验模块,用于计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;权值设置模块,其通过计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;句向量计算模块,其根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量;文本分类模块,其根据所述句向量对当前文本进行文本分类;即,将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测,并输出当前文本的所属类型。本专利技术的有益效果是:(1)本专利技术通过对文本中的关键特征的加强,降低文本信息中词向量间的相互干扰,提高句向量在特征维度的权值,从而提高文本分类的准确性;(2)本专利技术根据特征词与非特征词,并结合特征词的使用频率,对每个词向量的权值进行设置,从而提高句向量在特征维度的权值,减少无关词语扰动,从而提升句向量对句子语义的表达效果;(3)本专利技术还进一步对所述当前文本进行上下文扩展得到扩展文本,再对所述扩展文本进行分词处理,通过增加上下文词语的权重来得到当前句子的向量,使得句向量对句子语义的表达效果更准确;(4)本专利技术的文本分类方法是将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测,并输出当前文本的所属类型,使得模型预测结果评价有明显提升。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术一种基于卡方检验的句向量计算方法的流程简图;图2为本专利技术一种文本分类方法的流程简图;图3为本专利技术一种文本分类系统的结构示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术的一种基于卡方检验的句向量计算方法,其包括以下步骤:a.本文档来自技高网...

【技术保护点】
1.一种基于卡方检验的句向量计算方法,其特征在于,包括以下步骤:a.对当前文本进行分词处理,并去除停用词,得到分词结果;b.计算所述分词结果中每个词的词向量;c.计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;d.计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;且所述第一权值大于所述第二权值;e.根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量。

【技术特征摘要】
1.一种基于卡方检验的句向量计算方法,其特征在于,包括以下步骤:a.对当前文本进行分词处理,并去除停用词,得到分词结果;b.计算所述分词结果中每个词的词向量;c.计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;d.计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;且所述第一权值大于所述第二权值;e.根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量。2.根据权利要求1所述的一种基于卡方检验的句向量计算方法,其特征在于:所述的步骤a中,还包括对所述当前文本进行上下文扩展得到扩展文本,再对所述扩展文本进行分词处理。3.根据权利要求1所述的一种基于卡方检验的句向量计算方法,其特征在于:所述的步骤b中,是指利用训练好的词向量模型对所述分词结果进行计算词向量;所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果,再将所述分词结果输入到所述词向量模型中进行训练,得到所述训练语料的每个词的词向量。4.根据权利要求1所述的一种基于卡方检验的句向量计算方法,其特征在于:所述的步骤c中,计算每个词向量与预设类别之间的卡方值,所述预设类别是指利用预设分类算法对每个词向量进行类别识别,或者通过对每个词向量进行类别标注,得到每个词向量对应的所属类别。5.根据权利要求1或4所述的一种基于卡方检验的句向量计算方法,其特征在于:所述的步骤c中,根据所述卡方值将所述词向量划分为特征词和非特征词,是指将卡方值小于或等于预设值的词向量作为特征词,并将卡方值大于预设值的词向量作为非特征词;或者,按照卡方值从小到大的顺序对所述词向量进行排序,并将排序在前的预设数量的词向量作为特征词,排序在后的其他词向量作为非特征词。6.根据权利要求1所述的一种基于卡方检验的句向量计算方法,其特征在于:所述的步骤d中,计算所述特征词在所述预设类别中的使用频率,是指将语料库按照预设类别进行分类,得到不同类别的文本集;然后计算所述特征词在每个类别的文本集中所占的比例。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员:黄友福肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1