当前位置: 首页 > 专利查询>尹忠博专利>正文

一种基于语义增强的短文本分类方法技术

技术编号:18445130 阅读:4 留言:0更新日期:2018-07-14 10:28
本发明专利技术公开了一种基于语义增强的短文本分类方法,所述方法包括:步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。本发明专利技术提供了一整套短文本语义增强并对其进行文本分类的方法,针对短文本信息量少、语义稀疏的特点,利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示,同时,本发明专利技术使用高效的文本分类算法,最大限度的捕捉文本有限特征,并有效缩短了分类器的训练时间。

A short text classification method based on semantic enhancement

The present invention discloses a short text classification method based on semantic enhancement. The method includes: Step 1) Gou Jianduan text classifier, obtaining a training set of short text related to the domain from the Internet resources, expanding the language and training words Vector for each short text, training the short text classifier; step 2) treating the classification. The short text classifier is used to classify the short text after expanding the corpus and training vector, and enter the step 1. This invention provides a complete set of short text semantic enhancement and text classification method. In view of short text information and semantic sparsity, the short text is semantically enhanced by high quality extended corpus and high precision word vector. At the same time, the invention uses an efficient text classification algorithm. The limitation of capturing the limited features of the text effectively shortens the training time of the classifier.

【技术实现步骤摘要】
一种基于语义增强的短文本分类方法
本专利技术涉及计算语言学领域,尤其涉及计算机自然语言处理领域,特别涉及一种基于语义增强的短文本分类方法。
技术介绍
目前,随着电子科技产业的迅速发展,我们生活中每天都有众多的微博、评论、微信等短文本通过网络传递到我们的移动终端,这些短文本信息呈现出爆炸式的快速增长。为了更好的应对如此快速增长的信息量,文本分类技术应运而生。短文本具有文本信息量少和特征稀疏等特点,因此相对长文本,短文本自动分类的实现更具挑战。面对这一挑战,研究者们针对短文本的内容较短和特征稀疏特点,对短文本进行语料扩充,然后再对扩展后的文本使用已有分类方法分类。短文本扩充的方法大体可以分成两类:利用网络资源、领域词汇表等外部相关资源对短文本进行扩充;构建或使用已有的知识库、概率主题模型(LatentDirichletAllocation,LDA)抽取短文本中特征相关的实体、主题内容,从而达到扩充语料目的。同时,为了更精确的表示短文本仅有的特征间的语义联系,近来众多研究者使用已有信息训练词向量,从而降其添加到分类器中提高分类性能。分类方法上,诸多学者将目前热门的机器学习、深度学习方法应用在短文本分类上从而取得了不错的分类效果。然而,目前的短文本语料扩充方法过于复杂,扩充语料的质量无法保证;同时,目前诸多方法使用深度学习算法构建的词向量表示语义关系,除使用不同算法训练词向量外,词向量对语义的表示效果主要依赖于训练词向量的训练集,而已有方法都使用未加工的现成语料作为训练集。由于已有语料包含范围广、冗余信息多,因此无法准确表达语义关系。
技术实现思路
本专利技术的目的在于克服现有短文本语料扩充方法过于复杂、扩充语料质量较低、词向量训练集不精准的缺陷,提出一种较为简单的高质量语料扩充方法,从而在对短文本进行高质量语料扩充和使用精准语料训练词向量两方面增强了语义表示性能。为了实现以上目的,本专利技术提出了一种基于语义增强的短文本分类方法,所述方法包括:步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。作为上述方法的一种改进,所述步骤1)包括:步骤101)使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;步骤102)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为原短文本信息的附加语料;步骤103)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到精准语义词向量;步骤104)将语料扩充阶段得到的高质量领域相关语料作为训练段文本分类器的训练集,与步骤103)得到的精准语义关系词向量作为辅助信息联合起来,训练短文本分类器。作为上述方法的一种改进,所述短文本分类器采用的分类算法为朴素贝叶斯算法、支持向量机算法、K近邻算法、长短记忆网络算法、卷积神经网络算法或fasttext算法。作为上述方法的一种改进,所述步骤2)包括:步骤201)将待分类的短文本作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;步骤202)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为待分类的短文本的附加语料;步骤203)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到待分类的短文本的精准语义词向量;步骤204)将扩充语料和精准语义词向量联合起来输入短文本分类器,得到待分类的短文本的分类结果。本专利技术的优势在于:1、本专利技术提供了一整套短文本语义增强并对其进行文本分类的方法,针对短文本信息量少、语义稀疏的特点,利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示,同时,本专利技术使用高效的文本分类算法,最大限度的捕捉文本有限特征,并有效缩短了分类器的训练时间;2、本专利技术的方法解决了短文本分类效果不佳的问题;实验证明将本专利技术的方法应用到短文本分类中使分类性能明显提升,本专利技术方法在NLPCC2017新闻标题分类评测任务上达到了82.9%的精确度。附图说明图1是本专利技术的基于语义增强的短文本分类方法的示意图。图2是本专利技术的基于语义增强的短文本分类方法的详细流程图。具体实施方式现结合附图对本专利技术作进一步的描述。参考图1,本专利技术的基于语义增强的短文本分类方法包括语料扩充法、训练词向量法两种方法,利用语料扩充方法得到的高质量领域相关语料作为新训练集,与利用训练词向量法训练出的精准语义关系词向量作为辅助信息联合训练文本分类器,从而得到最优分类效果。具体过程参考图2,首先,使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,搜索引擎一般会列出多条检索结果,由于搜索引擎内置排序算法,本专利技术认为搜索引擎的第一条检索结果与输入的短文信息相似性最高,因此本专利技术只选取相似性最高的第一条检索结果作为扩充语料。由于文本信息的语义具有领域相关性,例如,“光盘”一词在计算机领域指“CD”、“DVD”等存储设备,而在日常生活领域指“盘子”、“碟子”等餐具。因此,把文本限定到指定的领域有助于更准确的描述文本信息的语义。介于以上考虑,本专利技术在语料扩充时只采取第一条搜索引擎结果基本限定了该短文本信息所处领域,因此更有利于准确描述其语义信息。同时,由于第一条检索结果中仍有很多冗余信息,容易对语义划分产生干扰,因此本专利技术在设计过程中仅抽取出第一条检索结果的标题信息、摘要信息、以及关键词信息等最具代表性的语料,并将其作为原短文本信息的附加语料,从而增加了语义特征词汇数量,从而进一步增强语义表示。如图2所示,另外一种增强语义表示的方法是训练词向量法,目前已有方法一般用初始未扩充语料或纽约时报等现有语料直接作为训练集训练词向量,而本专利技术设计了一种更加精准的词向量训练语料作为训练集,从而使得到的词向量能够更精准的表示语义信息。本专利技术在设计过程中,首先将扩充语料部分得到的高质量领域相关语料进行再加工,其方法为将高质量语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,然后将再次提取的关键词附加在清洁语料后作为语义增强信息得到。最后将附加关键词的清洁语料作为新训练集训练词向量。从而得到精准语义词向量。所述词向量工具指word2vec、fasttext,所述预处理后的扩充语料指对扩充语料进行切分词汇、去除停用词处理,所述合适分类算法指朴素贝叶斯算法(Bayes,NB)、支持向量机算法(supportvectormachine,SVM)、K近邻算法(k-nearestneighbors,KNN)、长短记忆网络算法(LongShortTermMemorynetworks,LSTM)、卷积神经网络算本文档来自技高网...

【技术保护点】
1.一种基于语义增强的短文本分类方法,所述方法包括:步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。

【技术特征摘要】
1.一种基于语义增强的短文本分类方法,所述方法包括:步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。2.根据权利要求1所述的基于语义增强的短文本分类方法,其特征在于,所述步骤1)包括:步骤101)使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;步骤102)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为原短文本信息的附加语料;步骤103)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到精准语义词向量;步骤104)将语料扩充阶段得到的高质量领域相关语料作为训练段文本分类器的训练集,与步骤...

【专利技术属性】
技术研发人员:尹忠博罗威罗准辰谭玉珊武帅牛海波毛彬田昌海叶宇铭
申请(专利权)人:尹忠博中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1