【技术实现步骤摘要】
文本分类方法、文本分类装置及计算机可读存储介质
本申请属于文本分类
,具体涉及一种文本分类方法、文本分类装置及计算机可读存储介质。
技术介绍
随着信息时代的飞速发展,互联网中累积了大量的文本信息,为了能有效管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容对相应的文本进行分类。文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘、生成及动态优化能力,在分类效果和灵活性上都比基于知识工程和专家系统的文本分类方法有所突破,因此,基于机器学习的文本分类方法成为了相关领域研究和应用的经典范例。文本分类的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中,采用词语作为最小的独立语义载体,原始的特征空间由可能出现在文章中的全部词语构成。而中文的词语总数有二十多万条,这样高维的特征空间对于几乎所有的分类算法来 ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:对待分类文本进行文本表示,以获得所述待分类文本的句子集合,其中,所述句子集合由所述待分类文本中各句子的词语集合构成,所述词语集合由相应句子所包含的词语的词向量构成;基于神经网络、注意力机制和所述词语集合,获取所述句子集合的特征向量;将所述句子集合的特征向量输入文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型基于文本样本和文本分类算法训练得到。
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对待分类文本进行文本表示,以获得所述待分类文本的句子集合,其中,所述句子集合由所述待分类文本中各句子的词语集合构成,所述词语集合由相应句子所包含的词语的词向量构成;基于神经网络、注意力机制和所述词语集合,获取所述句子集合的特征向量;将所述句子集合的特征向量输入文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型基于文本样本和文本分类算法训练得到。2.根据权利要求1所述的文本分类方法,其特征在于,所述基于神经网络、注意力机制和所述词语集合,获取所述句子集合的特征向量包括:基于神经网络分别获取各个词语集合中各词语的特征向量;基于注意力机制和所述各词语的特征向量,分别获取各个词语集合的特征向量;基于神经网络和所述各个词语集合的特征向量,分别获取所述句子集合中各句子的特征向量;基于注意力机制和所述各句子的特征向量,获取所述句子集合的特征向量。3.根据权利要求2所述的文本分类方法,其特征在于,所述基于神经网络分别获取各个词语集合中各词语的特征向量为:基于双向长短期记忆网络分别获取各个词语集合中各词语的特征向量。4.根据权利要求3所述的文本分类方法,其特征在于,所述基于神经网络和所述各个词语集合的特征向量,分别获取所述句子集合中各句子的特征向量为:基于双向长短期记忆网络和所述各个词语集合的特征向量,分别获取所述句子集合中各句子的特征向量。5.根据权利要求2至4任一项所述的文本分类方法,其特征在于,所述基于注意力机制和所述各词语的特征向量,分别获取各个词语集合的特征向量包括:针对所述待分类文本的每个词语集合,将所述词语集合中各词语的特征向量分别输入多层感知器,得到所述词语集合中各词语的第一向量;分别计算所述词语集合中各词语的第一向量与第二向量的相似度,并将计算得到的相似度归一化后作为相应词语的权重;基于所述词语集合中各词语的特征向量和权重,对所述词语集合中各词语的特征向量进行加权求和,得到所述词语集合的特征向量;其中,所述第二向量随...
【专利技术属性】
技术研发人员:王煦祥,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。