一种基于数字报纸的资讯数据分类方法技术

技术编号：11538719 阅读：130 留言：0更新日期：2015-06-03 13:04

本发明专利技术涉及基于数字报纸的资讯数据分类方法。目的是提供一种基于数字报纸的资讯数据分类方法，使得采集到的数据能够自动进行分类。方案：分析并提取数字报纸各版面的出版日期、版面名称、版次信息、每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；将提取的信息入至数据库中，并在数据库内部建立关联关系；汇聚每种报纸一段时间内的数据，针对同一种报纸中版面名称相同的版面进行重名合并；根据报纸内容的不同设定不同的类别，在各类别下设定若干关键词，建立起类别与关键词之间的对应关系；按对应关系，将数据库中、版面名称包含某一关键词的版面内的所有文章归类至对应的类别下。本发明专利技术用于新闻资讯数据的自动分类处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数字报纸的资讯数据分类方法
本专利技术涉及一种基于数字报纸的资讯数据分类方法，主要用于新闻资讯数据的自动分类处理。
技术介绍
数字与跨媒体出版系统的出现，并不仅仅是一场重大的技术革命，对传统的媒体思维和经营模式的推动也是直接的。但是，传统媒体的数字化进程存在的缺陷、局限与不足也是明显的，必须在进一步发展的过程中加以完善。大多数媒体并没有把网络技术作为转型升级的重要抓手，依然停留在当年对手机报纸和电子版的认识层面。新闻媒体同样处在网络信息爆炸的时代，平均每天新增数十万条新闻报道及数字页面，编辑记者要快速的定位自己所需的信息已经很难，浏览网页、复制、粘贴等重复工作需要占用每天60％以上的时间。信息量的浩瀚，让人们越来越离不开搜索引擎的同时，人们对搜索引擎的智能化、个性化的要求也变的越来越高，现有的搜索引擎已经不能满足人们日常的信息获取需求，他们需要的是更加精准，更加个性化的信息和资讯。
技术实现思路
本专利技术的目的在于提供一种基于数字报纸的资讯数据分类方法，使得采集到的数据能够自动进行处理，最终实现数据的精准分类，同时也为后期的数据精准化和个性化推送打好基础。本专利技术所采用的技术方案是：一种基于数字报纸的资讯数据分类方法，包括：A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息，以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；B、将提取的信息入至数据库中，并根据出版日期和版次信息在数据库内部建立关联关系；C、按照上述方法，利用数据库中的时间维度汇聚每种报纸一段时间内的数据，基于全文检索引擎技术，针对同一种报纸中版面名称相同的...
一种基于数字报纸的资讯数据分类方法

【技术保护点】
一种基于数字报纸的资讯数据分类方法，其特征在于包括：A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息，以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；B、将提取的信息入至数据库中，并根据出版日期和版次信息在数据库内部建立关联关系；C、按照上述方法，利用数据库中的时间维度汇聚每种报纸一段时间内的数据，基于全文检索引擎技术，针对同一种报纸中版面名称相同的版面进行重名合并处理；D、根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系；E、按照步骤D的对应关系，将数据库中、版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。

【技术特征摘要】
1.一种基于数字报纸的资讯数据分类方法，其特征在于包括：A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息，以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；B、将提取的信息入至数据库中，并根据出版日期和版次信息在数据库内部建立关联关系；C、按照上述方法，利用数据库中的时间维度汇聚每种报纸一段时间内的数据，基于全文检索引擎技术，针对同一种报纸中版面名称相同的版面进行重名合并处理；D、根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系；E、按照步骤D的对应关系，将数据库中，版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。2.根据权利要求1所述的基于数字报纸的资讯数据分类方法，其特征在于还包括：F、根据用户需求设置过滤条件，并基于全文检索引擎技术过滤干扰信息，生成最终的数据集合。3.根据权利要求2所述的基于数字报纸的资讯数据分类方法，其特征在于：所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。4.根据权利要求1或2或3所述的基于数字报纸的资讯数据分类方法，其特征在于，所述根据报纸内容的不同设定不同的类别，然后在各类别下设定若干关键词，建立起类别与关键词之间的对应关系包括：针对每种报纸的不同属性，设定若干大类别，然后针对每个大类别设定若干细分类别；在各细分类别下设定若干关键词，建立起细分类别与关键词之间的对应关系。5.一种基于数字报纸的资讯数据分类方法，其特征在于包括：A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息，以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图；B、将提取的信息入至数据库中，并根据出版日期和版次信息在数据...

【专利技术属性】
技术研发人员：姚洲鹏，陈法涌，陈嘉松，吴云峰，
申请(专利权)人：杭州凡闻科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人