文章分类方法和装置制造方法及图纸

技术编号:15704825 阅读:65 留言:0更新日期:2017-06-26 09:53
本发明专利技术涉及一种文章分类方法和装置,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。本发明专利技术提供的文章分类方法和装置,计算复杂度低,消耗计算资源小,分类效率高,而且最终的分类结果更加准确。

【技术实现步骤摘要】
文章分类方法和装置
本专利技术涉及文字处理
,特别是涉及一种文章分类方法和装置。
技术介绍
文章是一种重要的信息载体,是人类思想的传播工具。文章包括各种文体的著作或者作品,如诗歌、戏剧、小说、科学论文,记叙文、议论文、说明文或者应用文。很多文章具有地域属性,比如文章内容涉及地域,或者文章作者来自于特定地域,或者文章标题涉及特定地域等等。将文章按照地域分类,可以方便用户按照地域划分来查找文章,从而高效地查找到与特定地域相关的文章。目前对文章进行分类,一般采用三种分类方式:人工分类方式、按文章来源分类方式以及基于机器学习的文章自动分类方式。其中人工分类方式是最传统的一种文章分类方式,就是通过编辑人员阅读文章进行分类。这种分类方式分类精确,但是效率太低,在信息爆炸的当下,每天都会有大量文章涌现,人工分类方式无法满足文章分类需求。按文章来源分类方式,就是按照文章的来源将文章归类到相应来源所在的地域类别,比如来源于某区域的报刊的所有文章均归类到该区域的分类。这种分类方式实现容易,但误判率太高;而且某些来源难以按照地域分类,比如来源于网络的文章,因此适用范围有限。基于机器学习的文章自动分类方式,通过大量的人工标记的文章训练出分类特征模型,然后计算待分类的文章的特征向量,利用训练好的分类特征模型对文章进行分类。这种分类方式要达到较高的分类准确性,需要海量的训练样本进行训练,每个训练样本需要经过人工标记,一般难以获取到。而且这种分类方式所需的计算资源较大,通常需要依托分布式计算来实现。因此,目前的文章分类方式或分类准确性低,或分类效率低,或消耗计算资源大,均难以满足文章分类需求。
技术实现思路
基于此,有必要针对目前的分类方式所存在的上述问题,提供一种准确性高、分类效率高并且消耗计算资源小的文章分类方法和装置。一种文章分类方法,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。一种文章分类装置,所述装置包括:地域关键词序列获取模块,用于获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;分词模块,用于将待分类的文章进行分词处理,获得词集合;词频度获取模块,用于获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;分类可信度获取模块,用于根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;分类模块,用于根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。上述文章分类方法和装置,利用待分类的文章与预设的地域关键词序列的分类可信度来进行分类,在获取分类可信度时采取分词以及地域关键词匹配的手段,计算复杂度低,消耗计算资源小,分类效率高。而且地域关键词序列中包括了地域相关的多个地域关键词,在获得分类可信度时综合考虑了这些具有地域相关性的多个地域关键词的词频度,使得最终的分类结果更加准确和可靠。附图说明图1为一个实施例中文章推荐系统的应用环境图;图2为一个实施例中用于实现文件分类方法的服务器的结构示意图;图3为一个实施例中文章分类方法的流程示意图;图4为一个实施例中根据各个地域关键词的词频度获得文章与地域关键词序列的分类可信度的步骤的流程示意图;图5为一个实施例中文章分类装置的结构框图;图6为另一个实施例中文章分类装置的结构框图;图7为一个实施例中分类可信度获取模块的结构框图;图8为再一个实施例中文章分类装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,在一个实施例中,提供了一种文章推荐系统,包括通过网络连接的服务器101和终端102。其中服务器101可以是独立的物理服务器,也可以是物理服务器的集群。终端102包括台式计算机和移动终端,移动终端包括智能手机、平板电脑、个人数字助理(PDA)以及膝上型便携计算机中的至少一种。如图2所示,在一个实施例中,服务器101包括通过系统总线连接的处理器、非易失性存储介质、内存储器以及网络接口。其中处理器具有计算功能和控制服务器101工作的功能,该处理器被配置为执行一种文章分类方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种,非易失性存储介质存储有操作系统和文章分类装置,该文章分类装置用于实现一种文章分类方法。网络接口用于使服务器101连接到网络与终端102通信。如图3所示,在一个实施例中,提供了一种文章分类方法,本实施例以该方法应用于上述图1和图2中的服务器101来举例说明,在其它实施例中该方法也可以应用于一个独立的电子设备中。本实施例中该方法具体包括如下步骤:步骤302,获取预设的地域关键词序列;地域关键词序列包括地域相关的多个地域关键词。其中地域关键词序列是包括两个或多于两个的地域关键词的集合,地域关键词序列中的各个地域关键词可通过第一预设分隔符分隔开,预设分隔符比如空格、逗号或者分号等与地域关键词不相关的字符。关键词(keywords)是指可用来检索数据的词汇,地域关键词则是与地域相关的关键词,可用来检索与关键词所表示的地域相关的数据。进一步地,多个地域关键词之间地域相关,是指多个地域关键词各自所表示的地域在地理上具有相关性,地域相关包括地域从属以及地域邻近中的至少一种,也可以包括其它种类的地理相关。地域关键词之间的地域从属关系,是指相应的地域关键词所表示的地域具有地理上的从属关系,比如地域关键词“广东”和“深圳”中,“深圳”从属于“广东”;地域从属也可以称为地域包含,比如“广东”包含“深圳”。地域关键词之间的地域邻近关系,是指相应的地域关键词所表示的地域具有地理上的邻近关系,比如属于同一省或者属于同一行政地区。举例说明,对于预设的地域关键词序列“中国-广东-深圳-南山区”,包括4个地域关键词,分别为:“中国”、“广东”、“深圳”和“南山区”。其中“南山区”从属于“深圳”,“深圳”从属于“广东”,而“广东”从属于“中国”,因此这4个地域关键词是依次地域从属的关系,而且这4个地域关键词按照地域从属层级从高到低依次为:“中国”、“广东”、“深圳”以及“南山区”。再比如,对于预设的地域关键词序列“中国-广东-潮汕-汕头-揭阳-潮州”,包括6个地域关键词,分别为:“中国”、“广东”、“潮汕”、“汕头”、“揭阳”以及“潮州”。其中“潮汕”、“汕头”和“揭阳”均从属于“广东”,而“潮汕”、“汕头”和“揭阳”之间则是地域邻近关系。在一个实施例中,步骤302包括:从预设的地域关键词序列列表中获取地域关键词序列。具体地,每个预设的地域关键词序列作为地域关键词序列列表的一个条目存储在地域关键词序列列表中,各个条目之间可以用区别于第一预设分隔符的第二预设分隔符分隔开,第二预设分隔符比如回车符。服务器可以遍历地域关键词本文档来自技高网
...
文章分类方法和装置

【技术保护点】
一种文章分类方法,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。

【技术特征摘要】
1.一种文章分类方法,所述方法包括:获取预设的地域关键词序列;所述地域关键词序列包括地域相关的多个地域关键词;将待分类的文章进行分词处理,获得词集合;获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度;根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度;根据所述分类可信度获得所述文章是否属于所述地域关键词序列对应的地域类别的分类结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述地域关键词序列中的各地域关键词相对于所述词集合的词频度,包括:根据所述地域关键词序列中的各地域关键词在所述词集合中出现的次数与相应地域关键词的字数占所述文章总字数比例的乘积获得相应地域关键词的词频度;或者,根据所述地域关键词序列中的各地域关键词在所述词集合中出现的次数占所述词集合中总词数的比例获得相应地域关键词的词频度。3.根据权利要求1所述的方法,其特征在于,所述词集合包括文章标题词集合和文章正文词集合;所述根据所述各个地域关键词的词频度获得所述文章与所述地域关键词序列的分类可信度,包括:根据所述各个地域关键词相对于所述文章标题词集合的词频度以及相对于所述文章正文词集合的词频度,计算所述文章与所述地域关键词序列的分类可信度;所述各个地域关键词相对于所述文章标题词集合的词频度和相对于所述文章正文词集合的词频度均与所述分类可信度正相关。4.根据权利要求3所述的方法,其特征在于,所述根据所述各个地域关键词相对于所述文章标题词集合的词频度以及相对于所述文章正文词集合的词频度,计算所述文章与所述地域关键词序列的分类可信度,包括:计算各个地域关键词相对于所述文章标题词集合的词频度的第一加权和;计算各个地域关键词相对于所述文章正文词集合的词频度的第二加权和;根据所述第一加权和及所述第二加权和计算所述文章与所述地域关键词序列的分类可信度;所述第一加权和及所述第二加权和均与所述分类可信度正相关。5.根据权利要求4所述的方法,其特征在于,所述地域关键词序列中的各个地域关键词的用于计算所述第二加权和的权重,在相应的地域关键词相对于所述文章标题词集合的词频度等于0时的值,小于该权重在相应的地域关键词相对于所述文章标题词集合的词频度大...

【专利技术属性】
技术研发人员:邱国钦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1