一种文本分类方法、装置、介质及设备制造方法及图纸

技术编号：19692103 阅读：40 留言：0更新日期：2018-12-08 11:15

本发明专利技术提供一种文本分类方法、装置、介质及设备，该方法包括：针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类别。本发明专利技术可以提高确定出的待分类文本所属类别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置、介质及设备
本专利技术涉及文本处理
，尤其涉及一种文本分类方法、装置、介质及设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着互联网技术的高速发展，新闻网页的种类和数量也越来越多，如何对新闻网页进行准确分类，对于网站自身规划以及个性化为偏好各不相同的网民推荐相应新闻网页等均具有重要意义。目前常用的对新闻网页对应的文本进行分类的方式为：预先根据样本文本的内容训练多分类模型；对待分类文本进行分词预处理，去除待分类文本中的停顿词、标点符号等词语，得到待分类文本中的特证词；将待分类文本中的特征词输入训练得到的多分类模型，得到待分类文本所属的类别，其中，待分类文本中的字数越少，对待分类文本的分类结果的准确性越差，类别可以包括财经、体育、娱乐等。专利技术人发现，目前一些新闻网页对应的文本为短文本，短文本中的字数较少，而利用上述分类方式对短文进行分类时，会由于短文本中的字数较少，导致针对短文本的分类结果准确性差的问题。
技术实现思路
本专利技术提供一种文本分类方法、装置、介质及设备，用于提高针对待分类文本的分类结果的准确性。第一方面，本专利技术实施例提供一种文本分类方法，包括：针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类别。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类别。2.根据权利要求1所述的方法，其特征在于，提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量，具体包括：提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量；或者提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。3.根据权利要求1所述的方法，其特征在于，确定待分类文本，具体包括：确定所述用户在设定时间段内查看的非样本文本中的非热点文本，并将所述非热点文本作为待分类文本；或者将所述用户在设定时间段内查看的非样本文本中的第一类文本，作为待分类文本，其中，所述第一类文本为查看时长超过预设时长阈值，和/或，获得所述用户正面评论的文本；或者将所述第一类文本中的所述非热点文本，作为待分类文本。4.根据权利要求3所述的方法，其特征在于，确定所述用户在设定时间段内查看的非样本文本中的非热点文本，具体包括：针对所述用户在设定时间段内查看的每个非样本文本，统计查看过该非样本文本的用户数，作为该非样本文本的查看次数；若该非样本文本的查看次数小于预设次数阈值，将该非样本文本作为非热点文本。5.根据权利要求4所述的方法，其特征在于，进一步包括：针对所述用户在设定时间段内查看的非样本文本中，查看次数不小于预设次数阈值的非样本文本，确定查看次数不小于预设次数阈值的各个非样本文本中的关键词；根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词，对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类；根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果，确定对应非样本文本是否为非热点文本。6.根据权利要求1-5任一所述的方法，其特征在于，所述待分类文本的字数不大于设定字数阈值，所述样本文本的字数大于所述设定字数阈值。7.一种文本分类装置，其特征在于，包括：计算模块，用于针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取模块，...

【专利技术属性】
技术研发人员：花少勇，范欣，温旭，常卓，李探，王枷淇，王树伟，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人