当前位置: 首页 > 专利查询>科技日报社专利>正文

电子报版面解析方法技术

技术编号:39490050 阅读:5 留言:0更新日期:2023-11-24 11:12
本申请涉及智能媒体技术领域,提供了一种电子报版面解析方法

【技术实现步骤摘要】
电子报版面解析方法、装置、电子设备及存储介质


[0001]本申请涉及智能媒体
,尤其涉及一种电子报版面解析方法

装置

电子设备及存储介质


技术介绍

[0002]电子报纸是通过电脑

通信终端来阅读的报纸,它是多媒体

网络

通信技术再结合报刊出版

发行而出现的产物,优点是及时迅速

实效性强

容易传播

快捷方便等等

[0003]现有技术中电子报通常以一期作为一个整体保存,这种保存方式不利于信息检索

一些解决方案中,可以通过人工解析的方式,将电子报中的各版面中的文章

作者

所在版面等信息分别存储

然而,这种解析方式效率低下,且容易出错


技术实现思路

[0004]有鉴于此,本申请实施例提供了一种电子报版面解析方法

装置

电子设备及存储介质,以解决现有技术中无法方便

快捷地对电子报进行解析的问题

[0005]本申请实施例的第一方面,提供了一种电子报版面解析方法,包括:获取电子报,将电子报转换为纯文本
html
格式数据;获取电子报的业务规则配置文件;基于电子报的
html
格式数据中的区域标签确定电子报的全部版面热区坐标和热区链接;基于业务规则配置文件确定电子报各版面的第一定位参照点;基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点;计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型;基于各版面头条的热区坐标点确定各版面的第二定位参照点;基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点;计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和
/
或布局类型确定电子报的头版底条

二条和竖条;在
html
格式数据中获取头条

头版底条

二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条

头版底条

二条或竖条确定为对应文章的版面标识;将每篇文章的版面标识

文章标识以及正文内容分别保存,得到解析后的电子报

[0006]本申请实施例的第二方面,提供了一种电子报版面解析装置,包括:获取模块,被配置为获取电子报,将电子报转换为纯文本
html
格式数据;获取模块还被配置为获取电子报的业务规则配置文件;确定模块,被配置为基于电子报的
html
格式数据中的区域标签确定电子报的全部
版面热区坐标和热区链接;解析模块,被配置为基于业务规则配置文件确定电子报各版面的第一定位参照点;解析模块还被配置为基于第一定位参照点确定电子报中各版面中,各热区的第一计算坐标点;解析模块还被配置为计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;解析模块还被配置为基于电子报的头版中各热区的最大横坐标值,确定电子报头版的布局类型;解析模块还被配置为基于各版面头条的热区坐标点确定各版面的第二定位参照点;解析模块还被配置为基于第二定位参照点确定电子报中各版面中,各热区的第二计算坐标点;解析模块还被配置为计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于第二距离和
/
或布局类型确定电子报的头版底条

二条和竖条;解析模块还被配置为在
html
格式数据中获取头条

头版底条

二条和竖条的热区链接,基于热区链接确定各热区的文章标识和正文内容,并将头条

头版底条

二条或竖条确定为对应文章的版面标识;存储模块,被配置为将每篇文章的版面标识

文章标识以及正文内容分别保存,得到解析后的电子报

[0007]本申请实施例的第三方面,提供了一种电子设备,包括存储器

处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤

[0008]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤

[0009]本申请实施例与现有技术相比存在的有益效果是:本申请实施例通过将电子报转换为
html
格式数据,基于获取的电子报的业务规则配置文件确定第一定位参照点,基于第一定位参照点确定各热区的第一计算坐标点,基于第一计算坐标点与第一定位参照点之间的第一距离确定各版头条,并基于头条的坐标确定第二定位参照点,基于第二定位参照点确定各热区的第二计算坐标点,进而确定电子报的头版底条

二条和竖条,然后在
html
格式数据中获取头条

头版底条

二条和竖条的热区链接,确定各文章的版面标识,最后将每篇文章的版面标识

文章标识以及正文内容分别保存,得到解析后的电子报,能够实现对电子报的全自动解析,方便快捷,且准确率高

附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图获得其它的附图

[0011]图1是本申请实施例提供的一种电子报版面解析方法的流程示意图

[0012]图2是本申请实施例提供的基于业务规则配置文件确定电子报各版面的第一定位参照点的方法的流程示意图

[0013]图3是本申请实施例提供的各热区的第一计算坐标点的方法的流程示意图

[0014]图4是本申请实施例提供的各热区的第二计算坐标点的方法的流程示意图

[0015]图5是本申请实施例提供的确定电子报头版的布局类型的方法的流程示意图

[0016]图6是本申请实施例提供的确定各版面的第二定位参照点的方法的流程示意图

[0017]图7是本申请实施例提供的确定电子报的头版底条

二条和竖条的方法的流程示意图
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种电子报版面解析方法,其特征在于,包括:获取电子报,将所述电子报转换为纯文本
html
格式数据;获取所述电子报的业务规则配置文件;基于所述电子报的
html
格式数据中的区域标签确定所述电子报的全部版面热区坐标和热区链接;基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点;基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点;计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型;基于各版面头条的热区坐标点确定各版面的第二定位参照点;基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点;计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于所述第二距离和
/
或所述布局类型确定所述电子报的头版底条

二条和竖条;在所述
html
格式数据中获取所述头条

头版底条

二条和竖条的热区链接,基于所述热区链接确定各热区的文章标识和正文内容,并将所述头条

头版底条

二条或竖条确定为对应文章的版面标识;将每篇文章的版面标识

文章标识以及正文内容分别保存,得到解析后的电子报
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点,包括:确定所述电子报中,左上坐标点为各版面的原点(
0,0
);自所述业务规则配置文件中确定所述电子报的标识
logo
区域;确定所述
logo
区域的左下坐标点为所述电子报的头版的第一定位参照点;确定所述电子报除头版外其他版面中,将原点的横坐标增加第一常数
e、
纵坐标减少第一常数
e
得到的坐标点,为所述其他版面的第一定位参照点,其中
e
大于0且小于或者等于
1。3.
根据权利要求1所述的方法,其特征在于,所述基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点,包括:确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;将所述辅助计算坐标点的横坐标值减去所述第一定位参照点的横坐标值,纵坐标值减去所述第一定位参照点的纵坐标值,组成的坐标点确定为所述第一计算坐标点;所述基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点,包括:确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;将所述辅助计算坐标点的横坐标值减去所述第二定位参照点的横坐标值,纵坐标值减去所述第二定位参照点的纵坐标值,组成的坐标点确定为所述第二计算坐标点
。4.
根据权利要求1所述的方法,其特征在于,所述电子报头版的布局类型包括第一布局类型

第二布局类型和第三布局类型;所述基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型,包括:
响应于所述最大横坐标值大于或者等于三分之二倍所述电子报的最大宽度,且小于或者等于1,确定所述电子报头版的布局类型为第一布局类型;响应于所述最大横坐标值大于或者等于二分之一倍所述电子报的最大宽度,且小于三分之二倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第二布局类型;响应于所述最大横坐标值大于0,且小于二分之一倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第三布局类型
。5.
根据权利要求1所述的方法,其特征在于,所述基于各版面头条的热区坐标点确定各版面的第二定位参照点,包括:确定所述电子报中,左上坐标点为各版面的原点(
0,0
);响应于确定所述电子报头版的头版底条,在确定所述布局类型为第一布局类型或者第二布局类型时,确定所述电子报的左下坐标点为所述头版的第二定位参照点,在确定所述布局类型为第三布局类型时,将0为横坐标

纵坐标减少第二常数
l
得到的坐标点,确定为所述头版的第二定位参照点;响应于确定所述电子报头版的竖条,将电子报最大宽度对应的值作为横坐标

原点减去电子报
logo

【专利技术属性】
技术研发人员:邵德奇李腾飞袁升伟王理瑞赵光伟朱晓风张晶晶刘阳
申请(专利权)人:科技日报社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1