一种基于页面主题的页面背景匹配方法及装置制造方法及图纸

技术编号:29526774 阅读:22 留言:0更新日期:2021-08-03 15:13
本发明专利技术公开了一种基于页面主题的页面背景匹配方法及装置,所述方法包括:获取含有页面内容的待匹配页面,从所述待匹配页面的页面内容中筛选得到页面文本集合;对所述页面文本集合进行文本提取,得到若干个关键文本;基于所述若干个关键文本确定页面主题类型;根据所述页面主题类型从预置的网页背景库匹配对应的页面背景。本发明专利技术不但可以提高匹配的准确率,也可以缩短匹配时间,提高匹配效率,同时整个过程可以自动、高效且智能地完成,无需人工干预,减少人为的误差,进一步提高匹配的准确率,达到精准、简单而又高效的网页背景设置的效果,实现了网页内容传播和情绪表达的最佳结合。

【技术实现步骤摘要】
一种基于页面主题的页面背景匹配方法及装置
本专利技术涉及计算机
,尤其涉及一种基于页面主题的页面背景匹配方法及装置。
技术介绍
移动互联网的兴起以及Web的应用领域和普及进一步扩大。各大组织、单位或个人都可以通过Web发布资讯信息,资讯内容的文本作为主体嵌入在网络页面中,再配上各种背景与装饰从而形成一个完整的网页页面呈现给用户。而网页背景是整个网页的重要陪衬,直接决定了网页的风格和色调,如果背景运用不当,不仅影响网页的整体美观,还会妨碍页面主体内容的表现。目前,常用的背景添加方式是由网页编辑人员对网页的资讯内容进行人工识别,在基于个人的判断选取相应的页面背景以及相适配的主题情绪,从而编辑生成一个新的网页。但目前常用的添加和编辑方法有如下问题:首先每次判断前需要编辑人员花费大量时间阅读待展示的资讯内容,不但延长了匹配的时间,还降低匹配效率,而且每次匹配均基于编辑人员对资讯内容的主观判断,容易导致添加匹配的主题背景或主题情绪与资讯内容不符,导致编辑出错。
技术实现思路
本专利技术提出一种基于页面主题的页面背景匹配方法及装置,所述方法可以将网页的文字与预设的背景主题匹配得到适应的主题背景,减少人为误差、提高网页主题的匹配效率和准确率。本专利技术实施例的第一方面提供了一种基于页面主题的页面背景匹配方法,所述方法包括:获取含有页面内容的待匹配页面,从所述待匹配页面的页面内容中筛选得到页面文本集合;对所述页面文本集合进行文本提取,得到若干个关键文本;基于所述若干个关键文本确定页面主题类型;根据所述页面主题类型从预置的网页背景库匹配对应的页面背景。在第一方面的一种可能的实现方式中,所述基于所述若干个关键文本确定页面主题类型,包括:通过预设的网页情绪词典将所述若干个关键文本划分成多个情绪文本集合,其中,每个情绪文本集合包含N个关键文本信息,N为大于或等于0的正整数;从所述多个情绪文本集合中确定包含关键文本个数最多的情绪文本集合为目标情绪文本,以所述目标情绪文本对应的情绪为页面主题类型。在第一方面的一种可能的实现方式中,所述对所述页面文本集合进行文本提取,得到若干个关键文本,包括:通过预设的分词器对所述页面文本集合进行分词,得到若干个分词文本;从所述若干个分词文本中筛选若干个非虚词的分词文本,得到若干个关键文本。在第一方面的一种可能的实现方式中,所述从所述待匹配页面的页面内容中筛选得到页面文本集合,包括:获取所述待匹配页面中包含HTML标记的标记页面内容;对所述标记页面内容进行标记样式筛选,筛选得到显示页面内容;从所述显示页面内容中提取页面文本集合。在第一方面的一种可能的实现方式中,所述显示页面内容包括:M个标题句内容,M为大于或等于1的正整数;所述从所述显示页面内容中提取页面文本集合,包括:当M等于1时,将所述标题句内容添加至预设的文本集合中,得到页面文本集合;当M大于1时,遍历每个标题句内容对应的内容属性值,得到M个内容属性值;比较第i个内容属性值是否大于第i+1个内容属性值的数值大小;当所述第i个内容属性值的数值大于所述第i+1个内容属性值的数值时,以所述第i个内容属性值为参考属性值,其中,所述参考属性值的初始值为零;当所述第i个内容属性值的数值小于所述第i+1个内容属性值的数值时,以所述第i+1个内容属性值为参考属性值,其中,所述参考属性值的初始值为零;判断i+1是否等于M;若i+1不等于M,则将i+1赋值给i,并重复执行所述比较第i个内容属性值是否大于第i+1个内容属性值的数值大小的步骤;若i+1等于M,则以所述参考属性值对应的标题句内容添加至预设的文本集合中,得到页面文本集合。在第一方面的一种可能的实现方式中,所述内容属性值包括:字号属性值和标题属性值;其中,所述字号属性值包括数值字号属性值和百分比字号属性值。在第一方面的一种可能的实现方式中,所述显示页面内容包括:描述内容;所述从所述显示页面内容中提取页面文本集合,包括:从所述描述内容中提取content属性值,其中,所述content属性值包括关键词属性值和概括属性值;将所述content属性值添加至预设的文本集合,得到页面文本集合。本专利技术实施例的第二方面提供了一种基于页面主题的页面背景匹配装置,所述装置包括:筛选模块,用于获取含有页面内容的待匹配页面,从所述待匹配页面的页面内容中筛选得到页面文本集合;提取模块,用于对所述页面文本集合进行文本提取,得到若干个关键文本;确定模块,用于基于所述若干个关键文本确定页面主题类型;匹配模块,用于根据所述页面主题类型从预置的网页背景库匹配对应的页面背景。相比于现有技术,本专利技术实施例提供的基于页面主题的页面背景匹配方法及装置,其有益效果在于:本专利技术可以通过快速、简单提取目标网页的关键文本、进行分析得到网页关键词汇、对网页关键词汇进行网页主题情绪计算识别出网页主题情绪类型,然后根据预置网页背景情绪匹配知识库智能匹配设置目标网页背景。本专利技术不但可以提高匹配的准确率,也可以缩短匹配时间,提高匹配效率,同时整个过程可以自动、高效且智能地完成,无需人工干预,减少人为的误差,进一步提高匹配的准确率,达到精准、简单而又高效的网页背景设置的效果,实现了网页内容传播和情绪表达的最佳结合。附图说明图1是本专利技术一实施例提供的一种基于页面主题的页面背景匹配方法的流程示意图;图2是本专利技术一实施例提供的标题属性值的提取流程示意图;图3是本专利技术一实施例提供的字号属性值的提取流程示意图;图4是本专利技术一实施例提供的一种基于页面主题的页面背景匹配方法的操作流程图;图5是本专利技术一实施例提供的一种基于页面主题的页面背景匹配装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。但目前常用的添加和编辑方法有如下问题:每次进行背景匹配或判断前需要编辑人员花费大量时间阅读待展示的资讯内容,不但延长了匹配的时间,还降低匹配效率,而且每次匹配均基于编辑人员对资讯内容的主观判断,容易使添加匹配的主题背景与资讯内容所表达的主题情绪不符,导致编辑出错。为了解决上述问题,下面将通过以下具体的实施例对本申请实施例提供的一种基于页面主题的页面背景匹配方法进行详细介绍和说明。需要说明的是,在本实施例中,所述基于页面主题的页面背景匹配方法可以适用于服务器或服务器群组。参照图1,示出了本专利技术一实施例提供的一种基于页面主题的页面背景匹配方法的流程示意图。其中,作为示例本文档来自技高网...

【技术保护点】
1.一种基于页面主题的页面背景匹配方法,其特征在于,所述方法包括:/n获取含有页面内容的待匹配页面,从所述待匹配页面的页面内容中筛选得到页面文本集合;/n对所述页面文本集合进行文本提取,得到若干个关键文本;/n基于所述若干个关键文本确定页面主题类型;/n根据所述页面主题类型从预置的网页背景库匹配对应的页面背景。/n

【技术特征摘要】
1.一种基于页面主题的页面背景匹配方法,其特征在于,所述方法包括:
获取含有页面内容的待匹配页面,从所述待匹配页面的页面内容中筛选得到页面文本集合;
对所述页面文本集合进行文本提取,得到若干个关键文本;
基于所述若干个关键文本确定页面主题类型;
根据所述页面主题类型从预置的网页背景库匹配对应的页面背景。


2.根据权利要求1所述的基于页面主题的页面背景匹配方法,其特征在于,所述基于所述若干个关键文本确定页面主题类型,包括:
通过预设的网页情绪词典将所述若干个关键文本划分成多个情绪文本集合,其中,每个情绪文本集合包含N个关键文本信息,N为大于或等于0的正整数;
从所述多个情绪文本集合中确定包含关键文本个数最多的情绪文本集合为目标情绪文本,以所述目标情绪文本对应的情绪为页面主题类型。


3.根据权利要求1所述的基于页面主题的页面背景匹配方法,其特征在于,所述对所述页面文本集合进行文本提取,得到若干个关键文本,包括:
通过预设的分词器对所述页面文本集合进行分词,得到若干个分词文本;
从所述若干个分词文本中筛选若干个非虚词的分词文本,得到若干个关键文本。


4.根据权利要求1-3任意一项所述的基于页面主题的页面背景匹配方法,其特征在于,所述从所述待匹配页面的页面内容中筛选得到页面文本集合,包括:
获取所述待匹配页面中包含HTML标记的标记页面内容;
对所述标记页面内容进行标记样式筛选,筛选得到显示页面内容;
从所述显示页面内容中提取页面文本集合。


5.根据权利要求4所述的基于页面主题的页面背景匹配方法,其特征在于,所述显示页面内容包括:M个标题句内容,M为大于或等于1的正整数;
所述从所述显示页面内容中提取页面文本集合,包括:
当M等于1时,将所述标题句内容添加至预设的文本集合中,得到页面文本集合;
当M大于1时,遍历每个标题句内容对应的内容属性值,得到M个内容属性值;
比较第i个内容属性值是否大于第i+1个内容属性值的数值大小;
当所述第i个内容属性值的数值大于所述第i+1个...

【专利技术属性】
技术研发人员:郭世仁廖琳吴东庆黄灏然连剑波
申请(专利权)人:仲恺农业工程学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1