一种文本分类方法、装置、介质及设备制造方法及图纸

技术编号:19692103 阅读:40 留言:0更新日期:2018-12-08 11:15
本发明专利技术提供一种文本分类方法、装置、介质及设备,该方法包括:针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。本发明专利技术可以提高确定出的待分类文本所属类别的准确性。

【技术实现步骤摘要】
一种文本分类方法、装置、介质及设备
本专利技术涉及文本处理
,尤其涉及一种文本分类方法、装置、介质及设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着互联网技术的高速发展,新闻网页的种类和数量也越来越多,如何对新闻网页进行准确分类,对于网站自身规划以及个性化为偏好各不相同的网民推荐相应新闻网页等均具有重要意义。目前常用的对新闻网页对应的文本进行分类的方式为:预先根据样本文本的内容训练多分类模型;对待分类文本进行分词预处理,去除待分类文本中的停顿词、标点符号等词语,得到待分类文本中的特证词;将待分类文本中的特征词输入训练得到的多分类模型,得到待分类文本所属的类别,其中,待分类文本中的字数越少,对待分类文本的分类结果的准确性越差,类别可以包括财经、体育、娱乐等。专利技术人发现,目前一些新闻网页对应的文本为短文本,短文本中的字数较少,而利用上述分类方式对短文进行分类时,会由于短文本中的字数较少,导致针对短文本的分类结果准确性差的问题。
技术实现思路
本专利技术提供一种文本分类方法、装置、介质及设备,用于提高针对待分类文本的分类结果的准确性。第一方面,本专利技术实施例提供一种文本分类方法,包括:针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。可选地,所述方法中,提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量,具体包括:提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。可选地,所述方法中,确定待分类文本,具体包括:确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者将所述第一类文本中的所述非热点文本,作为待分类文本。可选地,所述方法中,确定所述用户在设定时间段内查看的非样本文本中的非热点文本,具体包括:针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。可选地,本专利技术实施例提供的文本分类方法,进一步包括:针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。可选地,所述方法中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。第二方面,本专利技术实施例提供一种文本分类装置,包括:计算模块,用于针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取模块,用于提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;类别确定模块,用于根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。可选地,所述装置中,所述提取模块,具体用于:提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。可选地,本专利技术实施例提供的文本分类装置,还包括:文本确定模块,用于确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者,将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者,将所述第一类文本中的所述非热点文本,作为待分类文本。可选地,所述装置中,所述文本确定模块在确定所述用户在设定时间段内查看的非样本文本中的非热点文本时,具体用于:针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。可选地,所述装置中,所述文本确定模块,进一步用于:针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。可选地,所述装置中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。第三方面,本专利技术实施例提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现上述任一实施例的文本分类方法的步骤。第四方面,本专利技术实施例提供一种文本分类设备,包括存储器、处理器及存储在存储器上的计算机程序,该可执行程序被处理器执行实现上述任一实施例的文本分类方法的步骤。利用本专利技术实施例提供的文本分类方法、装置、介质及设备,具有以下有益效果:使用待分类文本的标识词向量表征整个待分类文本,以及使用样本文本的标识词向量表征整个样本文本,并使用待分类文本的标识词向量与样本文本的标识词向量的距离表征待分类文本与样本文本之间的相似度,并根据待分类文本与样本文本的相似度以及样本文本对应的类别,确定待分类文本所属的类别,可基于多维度综合考虑确定待分类文本所属的类别,无需基于待分类文本的内容确定待分类文本所属的类别,从而能够避免由于待分类文本中的字数较少,而导致的针对待分类文本的分类结果准确性差问题,可在一定程度上提高分类结果的准确性。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1为本专利技术实施例一提供的文本分类方法的流程示意图;图2为本专利技术实施例一提供的第一种确定待分类文本的方法流程示意图;图3为本专利技术实施例一提供的第二种确定待分类文本的方法流程示意图;图4为本专利技术实施例一提供的第三种确定待分类文本的方法流程示意图;图5为本专利技术实施例一提供的第一种确定非热点文本的方法流程示意图;图6为本专利技术实施例一提供的第二种确定非热点文本的方法流程示意图;图7为本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。2.根据权利要求1所述的方法,其特征在于,提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量,具体包括:提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。3.根据权利要求1所述的方法,其特征在于,确定待分类文本,具体包括:确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者将所述第一类文本中的所述非热点文本,作为待分类文本。4.根据权利要求3所述的方法,其特征在于,确定所述用户在设定时间段内查看的非样本文本中的非热点文本,具体包括:针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。5.根据权利要求4所述的方法,其特征在于,进一步包括:针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。6.根据权利要求1-5任一所述的方法,其特征在于,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。7.一种文本分类装置,其特征在于,包括:计算模块,用于针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取模块,...

【专利技术属性】
技术研发人员:花少勇范欣温旭常卓李探王枷淇王树伟
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1