一种用于短文本的分类方法及装置制造方法及图纸

技术编号:23149268 阅读:34 留言:0更新日期:2020-01-18 13:32
本发明专利技术实施例提供了一种用于短文本的分类方法及装置,该方法在对待分类短文本进行分类时,根据从待分类短文本中获取的实体和所述主题分别与待分类短文本的所属关系,构建文本异质图,并将构建的文本异质图输入至预设的文本分类模型中,得到所述待分类短文本的分类结果,应用本发明专利技术实施例构建的文本异质图能够捕捉待分类短文本中的语义关系,且对异质图卷积神经网络训练时无需太多的标注数据,使得训练后的文本分类模型对短文本分类时的准确率更高,可见,应用本实施例提供的方法能够提高对短文本分类的准确率。

A classification method and device for short text

【技术实现步骤摘要】
一种用于短文本的分类方法及装置
本专利技术涉及自然语言处理
,特别是涉及一种用于短文本的分类方法及装置。
技术介绍
随着在线社交媒体和电子商务的快速发展,在线新闻、搜索、评论、推特等短文本在互联网上出现得越来越普遍。通过对短文本分类可以帮助用户高效地管理文本,鉴于此,短文本分类被广泛应用在诸多许多领域,例如情感分析、新闻分类、查询意图分类等。然而在许多实际应用中的标注数据很少,而人工标注又及其耗时,甚至需要专业知识。因此,亟需研究在仅具有相对少量的标注数据时的半监督短文本分类。目前,提出了一种基于深度神经网络的短文本分类方法,该方法将待分类的短文本输入至已训练好的分类模型,输出待分类短文本的分类结果,其中,分类模型是利用知识库中的知识信息作为训练样本,基于对知识信息的分类标注,对深度卷积神经网络进行训练,得到用于对短文本进行分类的模型,结合了知识库中的实体和概念,丰富短文本的语义。然而,该方法虽然能够实现对短文本的分类,但是该方法并不能捕获到短文本中语义关系,例如,实体之间的关系,而且还严重依赖于训练数据的规模。显然,缺乏短文本的分类标注的标注数据仍然是训练分类模型的关键瓶颈。综上所述,捕获不到短文本中语义关系以及训练样本的缺乏,均会导致应用现有的短文本分类方法对短文本进行分类时的准确率低。
技术实现思路
本专利技术实施例的目的在于提供一种用于短文本的分类方法及装置,以提高对短文本分类的准确率。具体技术方案如下:一种用于短文本的分类方法,所述方法包括:获取待分类短文本;从所述待分类短文本中获取实体和主题;根据所述实体和所述主题分别与所述待分类短文本的所属关系,构建文本异质图;将构建的文本异质图输入至预设的文本分类模型中,得到所述待分类短文本的分类结果;其中,所述文本分类模型为:预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型,所述样本文本异质图为:利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。进一步地,所述从获取的短文本中获取实体和主题,包括:利用TAGME从所述待分类短文本中获取实体;利用LDA从所述待分类短文本中获取主题。进一步地,所述利用LDA从所述待分类短文本中获取主题,包括:利用LDA从所述待分类短文本中,分别获取所述待分类短文本在所述主题上的概率分布和主题;所述根据实体和主题分别与所述待分类短文本的所属关系,构建文本异质图,包括:针对文本节点中的每一文本节点,从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中,选取概率大的主题表示的主题节点,并对所选取的主题节点与该文本节点进行连边,根据该文本节点与实体节点的所属关系,对该文本节点与所述实体节点进行连边;其中,所述文本节点为所述待分类短文本表示的节点,所述主题节点为所述主题表示的节点,所述实体节点为所述实体表示的节点;将所述实体输入至预设的实体向量表示模型中,得到所述实体的向量表示,其中,所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型;所述资源实体包括所述实体;根据所述向量表示,计算所述实体间的相似性;对所述相似性高于预设阈值的实体对应的实体节点间进行连边。进一步地,按照以下方式获得文本分类模型,包括:获取样本短文本;从所述样本短文本中获取样本实体和样本主题;根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系,构建样本文本异质图;获得部分样本短文本的类别标注;采用所构建的样本文本异质图以及每一样本短文本的类别标注,对所述异质图卷积神经网络进行训练,获得用于对短文本分类的神经网络模型,作为所述文本分类模型。进一步地,所述从所述样本短文本中获取样本实体和样本主题,包括:利用LDA从所获取的样本短文本中,获取所述样本短文本在所述主题样本上的概率分布和样本主题;所述根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系,构建样本文本异质图,包括:针对样本文本节点中的每一样本文本节点,从表示该样本文本节点的样本短文本在表示样本主题节点的样本主题上的概率分布中,选取概率大的样本主题表示的样本主题节点,并对所选取的样本主题节点与该样本文本节点进行连边,根据该样本文本节点与样本实体节点的所属关系,对该样本文本节点与所述样本实体节点进行连边;其中,所述样本文本节点为所述样本短文本表示的节点,所述样本主题节点为所述样本主题表示的节点,所述样本实体节点为所述样本实体表示的节点;将所述样本实体输入至预设的实体向量表示模型中,得到所述样本实体的样本向量表示,其中,所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型;所述资源实体包括所述样本实体;根据所述样本向量表示,计算所述样本实体间的相似性;对所述相似性高于预设阈值的样本实体对应的样本实体节点间进行连边。进一步地,按照以下方式构建异质图卷积神经网络:按照第一表达式获得所述文本异质图中节点级别的注意力权重;其中,所述节点包括:文本节点、实体节点和主题节点;所述第一表达式为:其中,(B)vv′为由行数为节点序号v、列数为邻居节点序号v'构成的节点级别的注意力权重,i为节点序号v的所有邻居Nv中的任一节点序号,bvi为节点序号v和节点序号v的邻居节点序号i之间的注意力值,bvv′为节点序号v和节点序号v的邻居节点序号v'之间的注意力值;bvv'=σ(νT·ατ'[hv||hv']),ν是节点级别的注意力机制中待训练的参数向量;hv为节点序号v的节点特征的向量表示,hv′为邻居节点序号v'的节点特征的向量表示;ατ′为类型级别τ’的注意力值;利用所获得的注意力权重,按照第二表达式获得异质图卷积神经网络;所述第二表达式为:其中,Bτ为类型τ的(B)vv′的特征表示,H(l+1)为第l+1层中所有节点的特征表示,为第l层中类型τ的所有节点的特征表,为第l层中类型τ对应的待训练的参数变换矩阵,σ(·)为非线性激活函数。一种用于短文本的分类装置,所述装置包括:短文本获取模块,用于获取待分类短文本;实体和主题获取模块,用于从所述待分类短文本中获取实体和主题;文本异质图构建模块,用于根据所述实体和所述主题分别与所述待分类短文本的所属关系,构建文本异质图;分类模块,用于将构建的文本异质图输入至预设的文本分类模型中,得到所述待分类短文本的分类结果;其中,所述文本分类模型为:预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型,所述样本文本异质图为:利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图本文档来自技高网...

【技术保护点】
1.一种用于短文本的分类方法,其特征在于,所述方法包括:/n获取待分类短文本;/n从所述待分类短文本中获取实体和主题;/n根据所述实体和所述主题分别与所述待分类短文本的所属关系,构建文本异质图;/n将构建的文本异质图输入至预设的文本分类模型中,得到所述待分类短文本的分类结果;其中,所述文本分类模型为:预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型,所述样本文本异质图为:利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。/n

【技术特征摘要】
1.一种用于短文本的分类方法,其特征在于,所述方法包括:
获取待分类短文本;
从所述待分类短文本中获取实体和主题;
根据所述实体和所述主题分别与所述待分类短文本的所属关系,构建文本异质图;
将构建的文本异质图输入至预设的文本分类模型中,得到所述待分类短文本的分类结果;其中,所述文本分类模型为:预先采用样本文本异质图对预设的异质图卷积神经网络进行训练得到的、用于获得短文本的分类结果的模型,所述样本文本异质图为:利用从样本短文本中获取的样本实体和样本主题分别与所述样本短文本的所属关系构建的异质图。


2.如权利要求1所述的方法,其特征在于,所述从获取的短文本中获取实体和主题,包括:
利用TAGME从所述待分类短文本中获取实体;
利用LDA从所述待分类短文本中获取主题。


3.如权利要求2所述的方法,其特征在于,所述利用LDA从所述待分类短文本中获取主题,包括:
利用LDA从所述待分类短文本中,分别获取所述待分类短文本在所述主题上的概率分布和主题;
所述根据实体和主题分别与所述待分类短文本的所属关系,构建文本异质图,包括:
针对文本节点中的每一文本节点,从表示该文本节点的待分类短文本在表示主题节点的主题上的概率分布中,选取概率大的主题表示的主题节点,并对所选取的主题节点与该文本节点进行连边,根据该文本节点与实体节点的所属关系,对该文本节点与所述实体节点进行连边;其中,所述文本节点为所述待分类短文本表示的节点,所述主题节点为所述主题表示的节点,所述实体节点为所述实体表示的节点;
将所述实体输入至预设的实体向量表示模型中,得到所述实体的向量表示,其中,所述实体向量表示模型为预选采用预设的语料库的数据对word2vec进行训练得到的、用于获得所述语料库中资源实体的向量表示的模型;所述资源实体包括所述实体;
根据所述向量表示,计算所述实体间的相似性;
对所述相似性高于预设阈值的实体对应的实体节点间进行连边。


4.如权利要求1所述的方法,其特征在于,按照以下方式获得文本分类模型,包括:
获取样本短文本;
从所述样本短文本中获取样本实体和样本主题;
根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系,构建样本文本异质图;
获得部分样本短文本的类别标注;
采用所构建的样本文本异质图以及每一样本短文本的类别标注,对所述异质图卷积神经网络进行训练,获得用于对短文本分类的神经网络模型,作为所述文本分类模型。


5.如权利要求4所述的方法,其特征在于,所述从所述样本短文本中获取样本实体和样本主题,包括:
利用LDA从所获取的样本短文本中,获取所述样本短文本在所述主题样本上的概率分布和样本主题;
所述根据所述样本实体和所述样本主题分别与所述样本短文本的所属关系,构建样本文本异质图,包括:
针对样本文本节点中的每一样本文本节点,从表示该样本文本节点的样本短文本在表示样本主题节点的样本主题上的概率分布中,选取概率大的样本主题表示的样本主题节点,并对所选取的样本主题节点与该样本文本节点进行连边,根据该样本文本节点与样本实体节点的所属关系,对该样本文本节点与所述样本实体节点进行连边;其中,所述样本文本节点...

【专利技术属性】
技术研发人员:石川胡琳梅杨天持
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1