一种文本分类方法和装置制造方法及图纸

技术编号:17939771 阅读:30 留言:0更新日期:2018-05-15 20:09
本申请提供一种文本分类方法和装置。方法包括:提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。本申请实现了新闻的自动分类,相比于现有技术中的人工分类方法,本申请大大提高了新闻分类的效率。

A text classification method and device

The application provides a text categorization method and device. The method includes: extracting the keyword in the target text; based on the extracted keyword, using the pretrained word vector model, the word vector features of the target text are obtained, and the word vector features of the target text are calculated, and the similarity values between the words Vector Features of each class category of the pre set class N class tree are respectively calculated. N is a positive integer; the category corresponding to the maximum similarity value is determined as the category of the target text. This application achieves the automatic classification of news. Compared with the manual classification method in the existing technology, this application greatly improves the efficiency of news classification.

【技术实现步骤摘要】
一种文本分类方法和装置
本申请涉及文本处理
,尤其涉及一种文本分类方法和装置。
技术介绍
面对海量的新闻信息,目前主要是通过用户输入关键词搜索所关注的新闻,或通过页面推荐由用户选择所关注的新闻。为了提高搜索或者推荐用户所关注的新闻的效率和准确率,目前采用预先对新闻进行分类,以实现用户在其所关注的类目领域下进行搜索或在用户所关注的类目领域下进行推荐。然而,目前的新闻分类方法往往依赖于人工操作,费时费力,效率很低。
技术实现思路
有鉴于此,本申请提供一种文本分类方法和装置,以提高新闻分类的效率。技术方案如下:本申请的一方面提供一种文本分类方法,所述方法包括:提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。可选地,设置N级类目树包括:根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;其中,同一级类目中的各个类目所代表的领域不同。可选地,所述方法还包括:对所述N级类目树中的各级类目分别进行关键词标记;利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。可选地,所述提取目标文本中的关键词之前,所述方法还包括:预处理所述目标文本;其中所述预处理所述目标文本至少包括:去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。可选地,所述计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值包括:利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。本申请的另一方面提供一种文本分类装置,所述装置包括:关键词提取单元,用于提取目标文本中的关键词;第一词向量特征获取单元,用于基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;相似度值计算单元,用于计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;分类单元,用于将最大相似度值对应的类目确定为所述目标文本所属的类目。可选地,所述装置还包括:N级类目树设置单元,用于设置N级类目树;其中所述N级类目树设置单元具体用于,根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;其中,同一级类目中的各个类目所代表的领域不同。可选地,所述装置还包括:关键词标记单元,用于对所述N级类目树中的各级类目分别进行关键词标记;第二词向量特征获取单元,用于利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;类目词向量特征确定单元,用于基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。可选地,所述装置还包括:预处理单元,用于预处理所述目标文本;其中所述预处理单元具体用于,去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。可选地,所述相似度值计算单元具体用于,利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。本申请提供的文本分类方法和装置中,提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。本申请实现了新闻的自动分类,相比于现有技术中的人工分类方法,本申请大大提高了新闻分类的效率。同时,本申请利用预先训练好的词向量模型得到目标文本的词向量特征以及预先设置的N级类目树中各级类目的词向量特征,并通过计算目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,将最大相似度值对应的类目确定为目标文本所属的类目,本申请利用词向量特征,使得对目标文本内容的分析更准确,保证了文本分类的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请中N级类目树的结构示意图;图2为本申请提供的一种文本分类方法的流程图;图3为本申请提供的一种文本分类装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。首先申请人需要说明的是,在具体实现本申请提供的文本分类方法前,本申请先预先设置了一N级类目树,该N级类目树包括有N级类目,且同一级类目中的各个类目所代表的领域不同。如图1所示,该N级类目树的一级类目包括文学类目、政治类目、体育类目、娱乐类目等。文学类目(即一级类目)下又包括多个不同的二级类目,如历史文学类目、宗教文学类目、现代文学类目等;政治类目下也包括多个不同的二级类目,如政治理论类目、政治体制类目等。本申请优选地将各级类目所代表的领域尽可能互斥,使不同类目以及同一级类目中的各个类目所代表的领域不同。具体地,本申请设置N级类目树的方法包括:根据新闻内容的特点,先制定一级类目,再在一级类目下制定二级类目;再在二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目。本申请中,N优选等于2,即制定二级类目树,为了便于说明,本申请后文以二级类目树为例继续说明。在设置好二级类目树后,本申请进一步对二级类目树中的各级类目分别进行关键词标记,进而利用预先训练好的词向量模型,分别获取各级类目中各关键词的词向量特征;最后基于获取的各级类目中各关键词的词向量特征,得到各级类目的词向量特征。本申请中,每一级类目对应的关键词包括至少一个,当某一级类目对应的关键词为多个时,该多个关键词间包括与关系、或关系等。以道路运输类目对应的关键词包括“公路”和“运输”,医疗卫生体制类目对应的关键词包括“医改”或“医保”,其中关键词“公路”、“运输”为与关系,关键词“医改”、“医保”为或关系为例。本申请利用预先训练好的词向量模型,分别获取道路运输类目中“公路”的词向量特征和“运输”的词向量特征,以及医疗卫生体制类目中“医改”的词向量特征和“医保”的词向量特征。基于该“公路”的词向量特征和“运输”的词向量特征得到道路运输类目的词向量特征,基于该“医改”的词向量特征和“医保”的词向量特征得到医疗卫生体制类目的词向量特征。由此,本申请不仅预本文档来自技高网...
一种文本分类方法和装置

【技术保护点】
一种文本分类方法,其特征在于,所述方法包括:提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:提取目标文本中的关键词;基于提取的关键词,利用预先训练好的词向量模型,得到所述目标文本的词向量特征;计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值,N为正整数;将最大相似度值对应的类目确定为所述目标文本所属的类目。2.根据权利要求1所述的方法,其特征在于,设置N级类目树包括:根据新闻内容的特点,先制定一级类目,再在所述一级类目下制定二级类目;再在所述二级类目下制定三级类目,以此类推,直至完成在N-1级类目下制定N级类目;其中,同一级类目中的各个类目所代表的领域不同。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述N级类目树中的各级类目分别进行关键词标记;利用预先训练好的词向量模型,分别获取所述各级类目中各关键词的词向量特征;基于获取的所述各级类目中各关键词的词向量特征,得到所述各级类目的词向量特征。4.根据权利要求1所述的方法,其特征在于,所述提取目标文本中的关键词之前,所述方法还包括:预处理所述目标文本;其中所述预处理所述目标文本至少包括:去除所述目标文本中对所述目标文本分类有影响的词语、去除所述目标文本中的url链接。5.根据权利要求1-4任一项所述的方法,其特征在于,所述计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值包括:利用余弦相似度算法,计算所述目标文本的词向量特征,分别与预先设置的N级类目树中各级类目的词向量特征间的相似度值。6.一种文本分类装置,其特征在于,所述装置包括:关键词提取单元,用于提...

【专利技术属性】
技术研发人员:李想
申请(专利权)人:新华网股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1