一种新闻文本分类方法、装置及服务器制造方法及图纸

技术编号:18553768 阅读:32 留言:0更新日期:2018-07-28 10:51
本申请实施例提供了一种新闻文本分类方法、装置及服务器,首先,根据已知新闻语料创建分类词表;然后,根据分类词表对新闻文本进行分类,获得新闻文本的命中类别;然后,对新闻文本进行分词,并获取每个新闻文本的分词与命中类别的相关度;最后,根据相关度,从新闻文本的分词中选拔特征词,并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行,本申请实现了在新闻文本的分类过程中持续地更新分类词表,使分类词表在使用过程中能够不断积累和完善特征词,及时跟随新闻文本的内容变化趋势,保持并不断提高分类词表对新出现的新闻文本的分类能力,从而,提高了新闻文本分类的准确性。

【技术实现步骤摘要】
一种新闻文本分类方法、装置及服务器
本申请涉及自然语言处理
,尤其涉及一种新闻文本分类方法、装置及服务器。
技术介绍
在自然语言处理
,文本数据的处理包括文本分类、文本组织和文本管理等类型,其中,文本分类是指在给定的分类体系下,根据文本内容自动确定文本类别的过程。随着移动互联网技术的发展,互联网中的信息来源越来越广泛,互联网信息的数量迅速增加。在新闻传媒领域,随着流量媒体和互联网自媒体的迅速繁荣,新闻的来源变得更加多元,生成速度大大加快,如何有效地从互联网中收集新闻,并对收集到的新闻进行分类已经成为新闻媒体所面临的重要挑战。因此,对新闻文本进行分类就成为了文本分类的一个重要应用方向。现有技术中对新闻文本进行分类多采用基于统计学算法的文本分类方法。图1为现有技术的一种新闻文本分类方法的示意图,使用基于统计学算法的文本分类方法进行文本分类时,首先,要对大量的已知类别的新闻文本进行标注;然后,以标注后的新闻文本作为训练语料,训练文本分类器,使文本分类器具备对未知文本的分类能力。在现有技术的基于统计学算法的文本分类方法,文本分类的准确度取决于训练语料的数量和质量,因此,为了提高文本分类的准确率,必须使用大量的训练语料对文本分类器进行训练,而语料标注的过程是通过人工实现的,难以满足获得大量训练需要的要求,导致准确利率不理想。此外,由于新闻具有热点性强、时效性强、更迭速度块、过期速度快的特点,新闻文本往往在积累语料的过程中就已经过期,无法反映当前的新闻热点;因此,基于统计学算法的文本分类方法由于训练语料在积累过程中存在时效上的滞后,而缺乏对新出现的新闻文本的分类能力,从而在实际应用中存在着对新闻文本分类的准确率偏低的问题。因此,如何提高对新闻文本分类的准确性,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种新闻文本分类方法、装置及服务器,以解决现有技术中存在的问题。第一方面,本申请实施例提供了一种新闻文本分类方法,所述方法包括:S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;S120,根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;S130,对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;S140,根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中;S150,重复执行步骤S120-S140,直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。第二方面,本申请实施例还提供了一种新闻文本分类装置,所述装置包括:创建单元,用于根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;分类单元,用于根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;计算单元,用于对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;选词单元,用于根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中。第三方面,本申请实施例还提供了一种服务器,所述服务器包括:处理器和存储器;所述存储器用于存储分类词表和所述处理器可执行的程序;所述处理器被配置为执行以下步骤程序:S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;S120,根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;S130,对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;S140,根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中;S150,重复执行步骤S120-S140,直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。由以上技术方案可知,本申请实施例提供了一种新闻文本分类方法、装置及服务器,首先,根据已知新闻语料创建分类词表;然后,根据分类词表对新闻文本进行分类,获得新闻文本的命中类别;然后,对新闻文本进行分词,并获取每个新闻文本的分词与命中类别的相关度;最后,根据相关度,从新闻文本的分词中选拔特征词,并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行,本申请实现了在新闻文本的分类过程中持续地更新分类词表,使分类词表在使用过程中能够不断积累和完善特征词,及时跟随新闻文本的内容变化趋势,保持并不断提高分类词表对新出现的新闻文本的分类能力,从而,提高了新闻文本分类的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为现有技术的一种新闻文本分类方法的示意图;图2为本申请实施例提供的一种新闻文本分类方法的流程图;图3为本申请实施例提供的一种新闻文本分类方法步骤S110的流程图;图4为本申请实施例提供的一种分类词表的分类体系示意图;图5为本申请实施例提供的另一种新闻文本分类方法步骤S110的流程图;图6为本申请实施例提供的一种新闻文本分类方法步骤S120的流程图;图7为本申请实施例提供的一种新闻文本分类方法步骤S122的流程图;图8为本申请实施例提供的一种新闻文本分类方法步骤S130的流程图;图9为本申请实施例提供的一种新闻文本分类方法步骤S140的流程图;图10为本申请实施例提供的一种新闻文本分类装置的结构框图;图11为本申请实施例提供的一种服务器的结构框图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。实施例一本申请实施例提供了一种新闻文本分类方法,图2为本申请实施例提供的一种新闻文本分类方法的流程图,如图2所示,本申请实施例提供的一种新闻文本分类方法包括以下步骤:步骤S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词。分类词表用于对未知类别的新闻文本进行分类。分类词表中每个新闻类别包含的特征词源于对应新闻类别的已知新闻语料。特征词在新闻文本分类中的作用为:当未知类别的新闻本中出现了特征词时,表示该未知类别的新闻文本具有属于该特征词所在新闻类别的倾向,特征词出现的数量越多、次数越多,这个倾向就越强。图3为本申请实施例提供的一种新闻文本分类方法步骤S110的流程图,在一种可选择的实施方式中,步骤S110可以包括以下步骤:步骤S111,设置所述分类词表的新闻类别。基于少量的已知新闻语料,创建分类词表,根据已知新闻语料的新闻类别,设置分类词表包含的新闻类别,形成分类词表的分类体系。本申请的已知新闻语料可以有多个来源,以覆盖不同的领域和不同的新闻侧重点,从而提高本申请创建的分类词表中新闻类别的全面性,例如,本申请从多个新闻网站中获取新闻语料。在创建分类词表时,可参考多个新闻网站对新闻的分本文档来自技高网
...

【技术保护点】
1.一种新闻文本分类方法,其特征在于,包括:S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;S120,根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;S130,对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;S140,根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中;S150,重复执行步骤S120‑S140,直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。

【技术特征摘要】
1.一种新闻文本分类方法,其特征在于,包括:S110,根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词;S120,根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别;S130,对新闻文本进行分词,并获取每个新闻文本的分词与所述命中类别的相关度;S140,根据所述相关度,从新闻文本的分词中选拔所述特征词,并将选拔出的所述特征词添加到所述分类词表中;S150,重复执行步骤S120-S140,直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。2.根据权利要求1所述的方法,其特征在于,所述根据已知新闻语料创建分类词表;所述分类词表设置有多个新闻类别,每个新闻类别中包含至少一个特征词的步骤包括:设置所述分类词表的新闻类别;从已知新闻语料中获取所述特征词;根据所述特征词所属已知新闻语料的新闻类别,将所述特征词添加到所述分类词表中。3.根据权利要求2所述的方法,其特征在于,所述分类词表中还包含正则表达式,所述设置所述分类词表的新闻类别的步骤之后,还包括:从已知新闻语料中获取特征句;将所述特征句转化为正则表达式;根据所述特征句来源的已知新闻语料的新闻类别,将正则表达式添加到所述分类词表中。4.根据权利要求1所述的方法,其特征在于,所述根据所述分类词表对新闻文本进行分类,获得新闻文本的命中类别的步骤包括:根据所述分类词表,获取新闻文本中包含的所有所述特征词;根据新闻文本中每个新闻类别的特征词出现的频次,分别获取新闻文本与每个新闻类别的匹配度;将所述匹配度的最高值对应的新闻类别作为命中类别。5.根据权利要求4所述的方法,其特征在于,所述根据新闻文本中每个新闻类别的特征词出现的频次,分别获取新闻文本与每个新闻类别的匹配度的步骤包括:解析新闻文本的新闻结构;所述新闻结构包括标题、导语、主体、结语和背景五个部分;获取新闻文本各个部分的特征词权重;根据每个新闻类别的所述特征词在新闻文本各个部分出现的频次和特征词权重,计算所述匹配度;其中,计算所述匹配度使用以下公式:P=p1×C1+p2×C2+…+pn×Cn其中,P为新闻文本与某个新闻类别的所述匹配度,p1~pn为新闻文本各个部分的特...

【专利技术属性】
技术研发人员:任宁晋耀红
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1