一种基于语义计算的分类器构建方法、分类器技术

技术编号:18658728 阅读:36 留言:0更新日期:2018-08-11 14:44
本发明专利技术属于信息检索及其数据库结构技术领域,公开了一种基于语义计算的分类器构建方法、分类器,利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。本发明专利技术的非监督学习阶段无需标注数据,仅仅需要用户定义少量特征词即可完成分类器的创建,上线速度快,无需等待漫长的标注数据积累;非监督学习阶段可以充分利用现有的有限标注数据,通过提取有效特征词来指导和提高非监督分类能力。

A classifier construction method and classifier based on semantic computation

The invention belongs to the technical field of information retrieval and database structure, and discloses a classifier construction method and classifier based on semantic computing, which trains word vectors on Wikipedia data using neural network model to obtain distributed representation of words, obtains vector representation of classification through classification tags, and utilizes weighting. The vector representation of the text is obtained by averaging method, and the most possible classification of the text is obtained by calculating the semantic relationship between the classification vector and the text vector. The unsupervised learning stage of the invention can complete the creation of the classifier without labeling data, only a small number of feature words need to be defined by the user. The on-line speed is fast, and the labeling data need not wait for a long time to accumulate. Highly unsupervised classification.

【技术实现步骤摘要】
一种基于语义计算的分类器构建方法、分类器
本专利技术属于信息检索及其数据库结构
,尤其涉及一种基于语义计算的分类器构建方法、分类器。
技术介绍
目前,业内常用的现有技术是这样的:伴随着全球化进程的不断深化和互联网的迅速发展,文本数据正呈现出爆炸式的增长,但数据来源各异、形式多样,为文档的管理和使用带来了极大的挑战。文本分类技术是利用机器学习方法对文本集按照一定的分类体系或标准自动进行分类标记,从而实现对海量数据的归类存档和快速查询检索。目前,文本分类技术已经相对成熟,也在很多领域得到了广泛的应用。文本分类最原始的方法是对各个分类定义一些关键词规则,然后利用文本和分类的关键词匹配程度来进行分类。随着机器学习的发展,诞生了许多基于机器学习的文本分类器,如朴素贝叶斯(Bayes)和支持向量机(SVM)等。目前,深度学习的流行使文本分类的性能得到了极大的提高,例如基于长短时记忆网络(LSTM)或卷积神经网络(CNN)等神经网络模型在很多文本分类任务中都能达到90%以上。综上所述,现有技术存在的问题是:现有基于机器学习的文本分类方法通常是监督学习的,其往往需要繁重的人工标注去产生优良的训练分类器,这就导致如下两个问题的产生:(1)人工标注数据往往需要繁重的人工劳动,标注准确率要求高,这往往要求三个人去标注同一个文本,从而标注工作周期长,人工成本高,上线投产速度慢;(2)在缺乏语料的情况下,分类器训练的模型较差,往往不能满足系统应用的实效性要求。解决上述技术问题的难度和意义:非监督的文本分类只需要用户为每个分类定义一些启发式的关键词,来自动完成分类任务,极大较少人工参与的工作量,加快分类器的构建速度。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于语义计算的分类器构建方法、分类器。本专利技术是这样实现的,一种基于非监督学习的文本所属分类方法,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。进一步,非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。进一步,文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用textrank算法对文本中字符进行重要性排序,一个字符的权重计算公式为:其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重。本专利技术的另一目的在于提供一种应用所述基于非监督学习的文本所属分类方法的分类器。本专利技术的另一目的在于提供一种利用所述的基于非监督学习的文本所属分类方法的基于语义计算的分类器构建方法,所述基于语义计算的分类器构建方法包括:(1)半监督阶段,从训练数据中自动提取出类别特征加入到非监督学习模型;(2)监督学习阶段,引入了监督学习方法,,训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。进一步,所述半监督阶段利用textrank算法从类别下标注数据中提取特征词,将特征词加入到非监督分类中的类特征词池中,类向量计算方法更新为:其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重。本专利技术的另一目的在于提供一种应用所述基于语义计算的分类器构建方法的分类器。本专利技术的另一目的在于提供一种所述基于语义计算的分类器构建方法的基于语义计算的分类器构建系统,所述基于语义计算的分类器构建系统包括:非监督学习模块,用于获得文本所属的最可能的分类;半监督模块,用于从训练数据中自动提取出类别特征加入到非监督学习模型;监督学习模块,用于训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。综上所述,本专利技术的优点及积极效果为:在不需要训练分类器的情况下,能够对分类和文本进行语义表征,并通过计算分类和文本之间的语义关系来实现分类的功能。包含了非监督阶段、半监督阶段和监督学习阶段,各个分类阶段能够满足各个阶段要求,可以灵活切换,各个阶段实时在线学习,可以做到无缝切换,提高了现场运行性能。本专利技术的非监督学习阶段无需标注数据,仅仅需要用户定义少量特征词即可完成分类器的创建,因此上线速度快,无需等待漫长的标注数据积累;非监督学习阶段可以充分利用现有的有限标注数据,通过提取有效特征词来指导和提高非监督分类能力;监督学习阶段利用丰富的标注数据,训练优良的分类模型,在线上达到预期效果后可以灵活进行上线。为了验证非监督学习方法的有效性,本专利技术采用公开的清华数据集作为测试集进行实验对比,我们从清华数据集中14个分类中的每一个分类中随机抽取100个文档,然后运行监督的SVM方法和本专利技术阐述的非监督分类方法,最后将获得的准确率、召回率和F1等参数统计如下:方法/参数准确率(%)召回率(%)F1(%)监督SVM方法86.182.384.2本非监督方法82.579.380.9从上表可以看出,本专利技术中的非监督学习方法,在F1值上达到了80.9%,比监督的SVM方法仅仅低了3%左右,这充分说明了非监督学习方法在容错允许的范围内能够达到监督学习方法的相当效果。附图说明图1是本专利技术实施例提供的基于语义计算的分类器构建方法流程图。图2是本专利技术实施例提供的基于语义计算的分类器构建方法实现流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为了快速构建分类器,并在使用过程中逐步提升分类效果,本专利技术提出了一种渐进式的分类器构建技术;只需要用户为每个分类定义一些启发式的关键词,自动完成分类任务,极大较少人工参与的工作量,加快分类器的构建速度。如图1所示,本专利技术实施例提供的基于语义计算的分类器构建方法包括以下步骤:S101:非监督学习阶段(无训练数据阶段),利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;然后通过分类标签(包括分类名和用户自定义的一些关键词)来获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;最后通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类;S102:半监督阶段(训练数据积累阶段),随着分类器的使用,用户不断积累数据,并不断的对数据进行人工纠正,形成少量的训练数据,从训练数据中自动提取出类别特征加入到非监督学习模型中,指导非监督学习,提高分类的准确率;S103:监督学习阶本文档来自技高网
...

【技术保护点】
1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。

【技术特征摘要】
1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。2.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。3.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用textrank算法对文本中字符进行重要性排序,一个字符的权重计算公式为:其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中...

【专利技术属性】
技术研发人员:宋俊平程国艮
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1