The invention belongs to the technical field of information retrieval and database structure, and discloses a classifier construction method and classifier based on semantic computing, which trains word vectors on Wikipedia data using neural network model to obtain distributed representation of words, obtains vector representation of classification through classification tags, and utilizes weighting. The vector representation of the text is obtained by averaging method, and the most possible classification of the text is obtained by calculating the semantic relationship between the classification vector and the text vector. The unsupervised learning stage of the invention can complete the creation of the classifier without labeling data, only a small number of feature words need to be defined by the user. The on-line speed is fast, and the labeling data need not wait for a long time to accumulate. Highly unsupervised classification.
【技术实现步骤摘要】
一种基于语义计算的分类器构建方法、分类器
本专利技术属于信息检索及其数据库结构
,尤其涉及一种基于语义计算的分类器构建方法、分类器。
技术介绍
目前,业内常用的现有技术是这样的:伴随着全球化进程的不断深化和互联网的迅速发展,文本数据正呈现出爆炸式的增长,但数据来源各异、形式多样,为文档的管理和使用带来了极大的挑战。文本分类技术是利用机器学习方法对文本集按照一定的分类体系或标准自动进行分类标记,从而实现对海量数据的归类存档和快速查询检索。目前,文本分类技术已经相对成熟,也在很多领域得到了广泛的应用。文本分类最原始的方法是对各个分类定义一些关键词规则,然后利用文本和分类的关键词匹配程度来进行分类。随着机器学习的发展,诞生了许多基于机器学习的文本分类器,如朴素贝叶斯(Bayes)和支持向量机(SVM)等。目前,深度学习的流行使文本分类的性能得到了极大的提高,例如基于长短时记忆网络(LSTM)或卷积神经网络(CNN)等神经网络模型在很多文本分类任务中都能达到90%以上。综上所述,现有技术存在的问题是:现有基于机器学习的文本分类方法通常是监督学习的,其往往需要繁重的人工标注去产生优良的训练分类器,这就导致如下两个问题的产生:(1)人工标注数据往往需要繁重的人工劳动,标注准确率要求高,这往往要求三个人去标注同一个文本,从而标注工作周期长,人工成本高,上线投产速度慢;(2)在缺乏语料的情况下,分类器训练的模型较差,往往不能满足系统应用的实效性要求。解决上述技术问题的难度和意义:非监督的文本分类只需要用户为每个分类定义一些启发式的关键词,来自动完成分类任务,极大较少 ...
【技术保护点】
1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。
【技术特征摘要】
1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。2.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。3.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用textrank算法对文本中字符进行重要性排序,一个字符的权重计算公式为:其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中...
【专利技术属性】
技术研发人员:宋俊平,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。