基于五笔码的字符级文本分类方法技术

技术编号:21714531 阅读:23 留言:0更新日期:2019-07-27 19:15
本发明专利技术涉及一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型,采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本发明专利技术提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。

A Character-level Text Classification Method Based on Five-stroke Code

【技术实现步骤摘要】
基于五笔码的字符级文本分类方法
本专利技术属于文本处理
,具体涉及一种基于五笔码的字符级文本分类方法。
技术介绍
文本分类是自然语言处理中最普遍的一种应用,是对文本数据信息进行筛选、整理和组织的关键技术,得到了研究者的广泛关注。过去一段时间里,自然语言处理中文本分类领域的主流研究方向是以词为基本单位的,中文文本的预处理一般以分词为主。因此,在中文自然语言处理领域,分词成为了一个基础性的研究。然而,不同的分词算法在歧义识别、分词准确性、算法复杂度、实施难度等不同方面有一定的局限性。随着近年来深度学习在各个领域广泛应用,越来越多的研究者开始研究以字符为单位的模型。使用字符级模型可以替代传统的中文分词方法,无需分词的字符级模型解决了分词算法中效率不高和通用性不强的问题。同样,字符级模型在处理中文时也有其自身的问题,中文字符总量远大于英文字符总量,在使用同样的字符级模型时,直接输入中文字符进行分类的效果甚至不如传统模型。不同于英文文本有天然的空格将单词分开,中文文本没有词的界限。因此,在中文文本分类中,首先要对文本数据进行分词。目前用于分词的算法主要分为以下几类:词典分词算法、理解分词算法、统计分词算法、组合分词算法。其中,词典分词算法在歧义识别和新词发现方面表现较差,准确率也一般;理解分词算法则需要构建规则库,算法较为复杂,技术不成熟,因此实施困难而且分词速度慢;而统计分词算法也有算法复杂度较高且分词速度一般的缺点。鉴于单独的分词算法有各自的缺点,研究者们采用了组合方法。然而,分词阶段造成的误差会在之后的语义理解过程中被放大并最终影响分类结果,所以目前的分词方法在面对大规模语料时表现并不理想。另外,分词算法的通用性也是一个亟待解决的问题。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于五笔码的字符级文本分类方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种基于五笔码的字符级文本分类方法,采用五笔字型码对中文进行转换的字符级表示模型。进一步地,所述字符级表示模型包括:假设有一个离散的输入函数g(x)∈[1,l]→R和一个离散的核函数f(x)∈[1,k]→R;在f(x)和g(x)之间的卷积的步幅d被定义为其中,c=k-d+1是一个偏移常数;该模型的参数化是通过一组被称为权重的内核函数fij(x)(i=1,2,...,m;j=1,2,...,n),还有一组输入gi(x)和输出hj(y);把每个gi或hj称作输入或输出特征,m或n称为输入或输出的特征大小;给定一个离散的输入函数g(x)∈[1,l]→R,g(x)的最大池化函数被定义为:其中,c=k-d+1是一个偏移常数。进一步地,该模型中使用的非线性函数为阈值函数h(x)=max{0,x},该模型采用随机梯度下降算法,使用的动量大小为0.9和初始步长大小为0.01,每一层都有一个固定数量的随机抽样样本。进一步地,所述字符级表示模型使用一系列编码字符作为输入。进一步地,所述方法包括:构建字符表,使用one-hot编码,将字符序列转换为一组固定长度为l0,大小为m的向量;忽略所有长度超过l0的字符,任何不在表中的字符都量化为零向量,对字符编码进行反向处理。进一步地,所述方法包括:采用五笔码将中文字符转化成唯一的英文字符串,再将英文字符串输入字符级模型中进行分类。本专利技术提供的基于五笔码的字符级文本分类方法,采用字符级表示模型,无需分词且能进行很好的字符转化,在中文文本分类中有着特殊的优势,分类效果明显优于传统模型和其他深度学习模型,可以有效地应用于中文文本分类,可以很好地满足实际应用的需要。附图说明图1为CBOW模型图;图2为Skip_gram模型图;图3为字符级模型架构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于五笔码的字符级文本分类方法,使用五笔码的字符级表示模型应用于中文文本分类任务。基于公开的新闻语料库,构建了大规模数据集,比较使用五笔码作为输入的字符级模型与传统模型和其他深度学习模型的分类结果。实验结果表明,本专利技术提出的使用五笔码作为输入的字符级模型相比于传统模型和其他深度学习模型有更好表现,是一种有效的中文文本分类方法。分词表示模型:字符级模型具有无需分词和通用性较强的特性,这些特性使得字符级表示模型在自然语言处理中相比于分词有更优的效果。在分词后,通常要对单词进行向量化。Word2vec使用向量间的距离来表示单词语义上的远近,弥补了分词在近义词表示方面的不足,因其有着提取低维特征和很好地表达词的句法和语义信息的能力而被广泛地应用于文本分类领域。Word2vec是WordEmbedding词向量生成技术的一个表示工具,它通过将单词映射为实数值向量来表示单词。Word2vec是根据上下文信息来生成词向量,而单词间的相似度由所生成的词向量的相似度表示。Word2vec的训练模型分为两类,分别是CBOW(ContinuousBag-of-wordsModel)模型和Skip_gram模型。其中,CBOW模型是利用上下文去计算当前词的概率,而Skip_gram模型是利用当前词去计算上下文的概率。两种模型如图1和图2所示。CBOW模型通过上下文预测当前词,其模型表达式如下:P(wt|SUM(wt-k,wt-k+1,K,wt-1+k,wt+k))(1)其中,wt为当前词,该模型利用wt上下文窗口大小为K的词来计算wt属于词典某个词的概率。SUM表示将周围相邻的2K个单词的词向量作相加运算。而Skip_gram模型则是利用当前词预测上下文,即通过当前词wt计算其周围2K个单词wt-k,wt-k+1,...,wt-1+k,wt+k属于词典某个词的概率。P(wt-k,wt-k+1,K,wt-1+k,wt+k|wt)(2)由于窗口尺寸的限制,CBOW模型无法计算当前词与窗口外词语的关系,造成了语义信息的丢失,影响语义准确率。相比于CBOW模型,Skip_gram模型的语义准确率更高。Skip_gram模型可以通过跳跃词汇构建词组来避免CBOW模型丢失窗口外语义信息的问题,但缺点是模型的计算代价大,模型训练耗时过长,对大规模的训练语料是不切实际的。由于上述两种模型的不足,研究人员开始尝试从字符的角度对文本进行处理。字符级表示模型:与词语级语言模型相比,字符级语言模型保留了更多的原始信息。因此,在众多用于文本分类的神经网络模型中,字符级语言模型有着相对突出的优良效果。GB2312-80汉字集一级3755个,二级3008个,两级共6763个(不包括繁体字),涵盖99.99%的常用汉字,字符级模型需要处理两级国标汉字,并且在某些具体应用情境下还需扩展汉字集。由于汉字数量庞大,将每一个中文汉字当做一个字符直接输入字符级语言模型工作量会相当庞大,并且实验效果相对英文语料来说并不理想。拼音表示模型:现有技术中有采用拼音处理中文数据的方法。使用pypinyin包将中文数据转本文档来自技高网
...

【技术保护点】
1.一种基于五笔码的字符级文本分类方法,其特征在于,采用五笔字型码对中文进行转换的字符级表示模型。

【技术特征摘要】
1.一种基于五笔码的字符级文本分类方法,其特征在于,采用五笔字型码对中文进行转换的字符级表示模型。2.根据权利要求1所述的基于五笔的字符文本分类方法,其特征在于,所述字符级表示模型包括:假设有一个离散的输入函数g(x)∈[1,l]→R和一个离散的核函数f(x)∈[1,k]→R;在f(x)和g(x)之间的卷积的步幅d被定义为其中,c=k-d+1是一个偏移常数;该模型的参数化是通过一组被称为权重的内核函数fij(x)(i=1,2,...,m;j=1,2,...,n),还有一组输入gi(x)和输出hj(y);把每个gi或hj称作输入或输出特征,m或n称为输入或输出的特征大小;给定一个离散的输入函数g(x)∈[1,l]→R,g(x)的最大池化函数被定义为:其中,c=k-d+1是一个偏移常数。3.根据权利要求1-2所述的基于五笔的字符文...

【专利技术属性】
技术研发人员:吕学强游新冬董志安张乐
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1