一种基于数字报纸的资讯数据分类方法技术

技术编号:11538719 阅读:130 留言:0更新日期:2015-06-03 13:04
本发明专利技术涉及基于数字报纸的资讯数据分类方法。目的是提供一种基于数字报纸的资讯数据分类方法,使得采集到的数据能够自动进行分类。方案:分析并提取数字报纸各版面的出版日期、版面名称、版次信息、每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;将提取的信息入至数据库中,并在数据库内部建立关联关系;汇聚每种报纸一段时间内的数据,针对同一种报纸中版面名称相同的版面进行重名合并;根据报纸内容的不同设定不同的类别,在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;按对应关系,将数据库中、版面名称包含某一关键词的版面内的所有文章归类至对应的类别下。本发明专利技术用于新闻资讯数据的自动分类处理。

【技术实现步骤摘要】
一种基于数字报纸的资讯数据分类方法
本专利技术涉及一种基于数字报纸的资讯数据分类方法,主要用于新闻资讯数据的自动分类处理。
技术介绍
数字与跨媒体出版系统的出现,并不仅仅是一场重大的技术革命,对传统的媒体思维和经营模式的推动也是直接的。但是,传统媒体的数字化进程存在的缺陷、局限与不足也是明显的,必须在进一步发展的过程中加以完善。大多数媒体并没有把网络技术作为转型升级的重要抓手,依然停留在当年对手机报纸和电子版的认识层面。新闻媒体同样处在网络信息爆炸的时代,平均每天新增数十万条新闻报道及数字页面,编辑记者要快速的定位自己所需的信息已经很难,浏览网页、复制、粘贴等重复工作需要占用每天60%以上的时间。信息量的浩瀚,让人们越来越离不开搜索引擎的同时,人们对搜索引擎的智能化、个性化的要求也变的越来越高,现有的搜索引擎已经不能满足人们日常的信息获取需求,他们需要的是更加精准,更加个性化的信息和资讯。
技术实现思路
本专利技术的目的在于提供一种基于数字报纸的资讯数据分类方法,使得采集到的数据能够自动进行处理,最终实现数据的精准分类,同时也为后期的数据精准化和个性化推送打好基础。本专利技术所采用的技术方案是:一种基于数字报纸的资讯数据分类方法,包括:A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;E、按照步骤D的对应关系,将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。所述的基于数字报纸的资讯数据分类方法,还包括:F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别;在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。一种基于数字报纸的资讯数据分类方法,包括:A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,再针对每个关键词建立一个对应的专用分词库,建立起类别、关键词和专用分词库之间的对应关系;所述分词库由若干版面名称组成,且位于同一专用分词库内的版面名称包含有与该分词库对应的关键词;E、将所提取的版面名称与专用分词库内存储的版面名称进行比对,对于版面名称能够在专用分词库内找到匹配项的版面,按照步骤D的对应关系,将该版面内的所有文章归类至与该分词库对应的类别下;对于版面名称无法在专用分词库内找到匹配项的版面,按照版面名称包含有关键词的对应关系,将其版面名称与至少一个关键词对应,然后按照步骤D的对应关系,将该版面内的所有文章归类至与该关键词对应的类别下,同时在该关键词对应的专用分词库内加入该版面名称以增加专用分词库内的分词量。所述的基于数字报纸的资讯数据分类方法,还包括:F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别;在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。本专利技术有益效果在于:1、从数据的源头开始,对需要采集的数字报纸先进行预处理分析,过滤干扰信息,纠正数据源,再进入矩阵式数据模型中自动筛检、过滤、分类、标签等工艺流程,打通不同数据源之间的信息孤岛,建立数据关系,最后套用规则库中不同规则配置信息(即过滤条件,包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法)和专用分词库,自动组织形成不同的数据集合,最终实现数据的精准分类。2、传统互联网上面的分词库是由用户输入,系统自动抓取记录,通过记录的数据生成新的分词。但此类分词库和分词的方式是不能满足数据分类中的应用,很难区分数据内容中的地域、属性中的子类别等信息,比如:“本地城事”中的社会新闻、民生、时政、要闻等信息;本专利技术采用独创的固态并发算法累积专用分词库,做一个简单的例子,我们将分词库中放入主分词A,主分词进入分词库源进行扫描并且自动生成并发子分词库A+a,A+b,A+c等,以这个形式的金字塔三角模型递增方式增加。所以在这个基础上,分词并发数的生成如同细胞分裂一样,每日通过对数据源的扫描,日积月累,目前核心分词库的分词量在增加干扰分词的控制并发的情况下已经超过30万个,使得本专利技术方法的分类效能更高。3、通过第二代数据服务模式,基于特有的专业分词库,套用专用规则库数据,实现高度自定义、高精准化、按需推送数据的模式,特别是在快速形成突发事件专题等方面得到良好的应用。4、利用专用分词库和规则库的数据,基于矩阵模型,通过数据的纵向和横向数据流,可以实现快速个性化数据合集的制作,并以多种组合提供数据集合。同时还提供多种工具来满足用户的个性化的需求,比如:一键转发、调整栏目数据源、字数控制、时间范围设定、多种关键词组合等。附图说明图1是本专利技术南方都市报为例的类别、关键词、专用分词库的对应关系树状图。具体实施方式为了对本专利技术的技术特征和实际效果进行更加清楚的说明,下面参照具体实施例对本专利技术的技术方案进行详细说明,但不能理解为对本专利技术的可实施范围的限定。本专利技术主要基于海量新闻资讯数据的基础上,构建一套矩阵式的数据模型,让数据按照某种设定好的规则,实现自动分类处理。实施例1:本实施例是以纵横两条线为轴心,实现数据的精准分类:1、纵向:1.1从互联网上,分析数字报纸页面结构,去除网页中的干扰信息,比如:广告等;1.2然后分析出数字报纸版面列表结构,得到每个版面的对应网页地址,提取数字报纸各版面的出版日期、版面名称、版次等信息;数字报纸是以一个版面对应一个网页,每个版面又有多个热区组成,每个热区对应一篇文章;1.3再进一步分析每个版面的热区,每个热区对应一篇文章,分析并提取每篇文章的标题、肩标题、副标题、作者、正文等信息;1.4将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;比如:根据出版日期和数本文档来自技高网...
一种基于数字报纸的资讯数据分类方法

【技术保护点】
一种基于数字报纸的资讯数据分类方法,其特征在于包括:A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;E、按照步骤D的对应关系,将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。

【技术特征摘要】
1.一种基于数字报纸的资讯数据分类方法,其特征在于包括:A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;E、按照步骤D的对应关系,将数据库中,版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。2.根据权利要求1所述的基于数字报纸的资讯数据分类方法,其特征在于还包括:F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。3.根据权利要求2所述的基于数字报纸的资讯数据分类方法,其特征在于:所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。4.根据权利要求1或2或3所述的基于数字报纸的资讯数据分类方法,其特征在于,所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别;在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。5.一种基于数字报纸的资讯数据分类方法,其特征在于包括:A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据...

【专利技术属性】
技术研发人员:姚洲鹏陈法涌陈嘉松吴云峰
申请(专利权)人:杭州凡闻科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1