【技术实现步骤摘要】
电子报版面解析方法、装置、电子设备及存储介质
[0001]本申请涉及智能媒体
,尤其涉及一种电子报版面解析方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]电子报纸是通过电脑
、
通信终端来阅读的报纸,它是多媒体
、
网络
、
通信技术再结合报刊出版
、
发行而出现的产物,优点是及时迅速
、
实效性强
、
容易传播
、
快捷方便等等
。
[0003]现有技术中电子报通常以一期作为一个整体保存,这种保存方式不利于信息检索
。
一些解决方案中,可以通过人工解析的方式,将电子报中的各版面中的文章
、
作者
、
所在版面等信息分别存储
。
然而,这种解析方式效率低下,且容易出错
。
技术实现思路
[0004]有鉴于此,本申请实施例提供了一种电子报版面解析方法
、
装置
、
电子设备及存储介质,以解决现有技术中无法方便
、
快捷地对电子报进行解析的问题
。
[0005]本申请实施例的第一方面,提供了一种电子报版面解析方法,包括:获取电子报,将电子报转换为纯文本
html
格式数据;获取电子报的业务规则配置文件;基于电子报的
html
格式数据中的区域标签确定电 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种电子报版面解析方法,其特征在于,包括:获取电子报,将所述电子报转换为纯文本
html
格式数据;获取所述电子报的业务规则配置文件;基于所述电子报的
html
格式数据中的区域标签确定所述电子报的全部版面热区坐标和热区链接;基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点;基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点;计算各版面中,各热区的第一计算坐标点与对应的第一定位参照点之间的第一距离,确定第一距离最小的热区为该版面的头条;基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型;基于各版面头条的热区坐标点确定各版面的第二定位参照点;基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点;计算各版面中,各热区的第二计算坐标点与对应的第二定位参照点之间的第二距离,基于所述第二距离和
/
或所述布局类型确定所述电子报的头版底条
、
二条和竖条;在所述
html
格式数据中获取所述头条
、
头版底条
、
二条和竖条的热区链接,基于所述热区链接确定各热区的文章标识和正文内容,并将所述头条
、
头版底条
、
二条或竖条确定为对应文章的版面标识;将每篇文章的版面标识
、
文章标识以及正文内容分别保存,得到解析后的电子报
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述业务规则配置文件确定所述电子报各版面的第一定位参照点,包括:确定所述电子报中,左上坐标点为各版面的原点(
0,0
);自所述业务规则配置文件中确定所述电子报的标识
logo
区域;确定所述
logo
区域的左下坐标点为所述电子报的头版的第一定位参照点;确定所述电子报除头版外其他版面中,将原点的横坐标增加第一常数
e、
纵坐标减少第一常数
e
得到的坐标点,为所述其他版面的第一定位参照点,其中
e
大于0且小于或者等于
1。3.
根据权利要求1所述的方法,其特征在于,所述基于所述第一定位参照点确定所述电子报中各版面中,各热区的第一计算坐标点,包括:确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;将所述辅助计算坐标点的横坐标值减去所述第一定位参照点的横坐标值,纵坐标值减去所述第一定位参照点的纵坐标值,组成的坐标点确定为所述第一计算坐标点;所述基于所述第二定位参照点确定所述电子报中各版面中,各热区的第二计算坐标点,包括:确定各热区的右上坐标点或者右下坐标点为辅助计算坐标点;将所述辅助计算坐标点的横坐标值减去所述第二定位参照点的横坐标值,纵坐标值减去所述第二定位参照点的纵坐标值,组成的坐标点确定为所述第二计算坐标点
。4.
根据权利要求1所述的方法,其特征在于,所述电子报头版的布局类型包括第一布局类型
、
第二布局类型和第三布局类型;所述基于所述电子报的头版中各热区的最大横坐标值,确定所述电子报头版的布局类型,包括:
响应于所述最大横坐标值大于或者等于三分之二倍所述电子报的最大宽度,且小于或者等于1,确定所述电子报头版的布局类型为第一布局类型;响应于所述最大横坐标值大于或者等于二分之一倍所述电子报的最大宽度,且小于三分之二倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第二布局类型;响应于所述最大横坐标值大于0,且小于二分之一倍所述电子报的最大宽度,确定所述电子报头版的布局类型为第三布局类型
。5.
根据权利要求1所述的方法,其特征在于,所述基于各版面头条的热区坐标点确定各版面的第二定位参照点,包括:确定所述电子报中,左上坐标点为各版面的原点(
0,0
);响应于确定所述电子报头版的头版底条,在确定所述布局类型为第一布局类型或者第二布局类型时,确定所述电子报的左下坐标点为所述头版的第二定位参照点,在确定所述布局类型为第三布局类型时,将0为横坐标
、
纵坐标减少第二常数
l
得到的坐标点,确定为所述头版的第二定位参照点;响应于确定所述电子报头版的竖条,将电子报最大宽度对应的值作为横坐标
、
原点减去电子报
logo
技术研发人员:邵德奇,李腾飞,袁升伟,王理瑞,赵光伟,朱晓风,张晶晶,刘阳,
申请(专利权)人:科技日报社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。