一种新闻主题分类方法技术

技术编号:9668078 阅读:140 留言:0更新日期:2014-02-14 06:40
本发明专利技术公开了一种新闻主题分类方法,其特征在于,包括如下步骤:步骤一:根据新闻的主题类别建立种子词典;步骤二:对新闻的标题进行分词处理,提取标题关键词;步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;步骤四:在元搜索的结果中对所述种子关键词进行频次统计;步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。本发明专利技术的一种新闻主题分类方法可以大大缩短分类时间,有效降低人工成本,且对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠,可以对新闻进行多类分类,在实际情形中更具通用性。

【技术实现步骤摘要】

本专利技术涉及,具体涉及一种利用计算机技术对互联网上的新闻进行主题分类的方法,本专利技术属于计算机

技术介绍
随着现代科学技术的进步以及互联网技术的高速发展,互联网上的信息资源在不断地呈爆炸性增长。如何从这些海量的资源中快速精准地获取所需要的信息已成为互联网用户所关心的一个亟待解决的问题。同时,该问题也成为信息处理领域的一大挑战性课题。为了能够有效地组织和管理海量电子信息,使用户能够快速方便地获取所需要的资源,研究者提出了文本检索、文本分类、主题概念识别等多种信息组织和处理技术。在上述技术中,人工智能领域中的文本自动分类技术已经在多个领域得到了广泛应用,并取得了显著的成果。文本自动分类是人工智能和自然语言处理领域中的一个重要研究方向,其主要思想是在指定的分类体系下,计算机根据文本的内容来自动判定所属类别。该技术可以弥补传统搜索引擎技术的不足,过滤用户不需要的信息,方便用户快速精确地查找所需要的内容。本专利技术涉及一种新的文本自动分类方法,主要目标是对互联网上发表的新闻进行快速精确地主题分类。新闻主题分类是根据所设定的主题类别对新闻进行文本自动分类的过程。新闻的本文档来自技高网...

【技术保护点】
一种新闻主题分类方法,其特征在于,包括如下步骤:步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;步骤二:对新闻的标题进行分词处理,提取标题关键词;步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;步骤四:在元搜索的结果中对所述种子关键词进行频次统计;步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。

【技术特征摘要】
1.一种新闻主题分类方法,其特征在于,包括如下步骤: 步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词; 步骤二:对新闻的标题进行分词处理,提取标题关键词; 步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索; 步骤四:在元搜索的结果中对所述种子关键词进行频次统计; 步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。2.根据权利要求1所述的一种新闻主题分类方法,其特征在于,所述步骤二包括:提取新闻标题中字符个数大于I的词元作为标题关键词。3.根据权利要求2所述的一种新闻主题分类方法,其特征在于,所述步骤三包括: 步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理; 步骤3b:拼接向搜索引擎服务器提交的请求URL ; 步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果; 步骤3d:合并多个搜...

【专利技术属性】
技术研发人员:欧吉顺周楚新张伟
申请(专利权)人:南京绿色科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1