一种页面元素分类方法、解析器、介质及设备技术

技术编号:29134628 阅读:25 留言:0更新日期:2021-07-02 22:30
本发明专利技术涉及页面元素分类技术领域,特别涉及一种页面元素分类方法、解析器、介质及设备,其中,一种页面元素分类方法,包括提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;建立逻辑回归模型,对所述逻辑回归模型进行分类训练;根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类;先通过已知页面元素的分类及元素特征的提取,以便对逻辑回归模型进行分类训练,再利用训练完成的逻辑回归模型对页面文件上的页面元素进行分类,提升了页面元素分类的准确率,使分类更贴近于页面元素的本质特征,从而使得开发人员在升级改造中可以无需阅读源码即可得到更加合理的分类结果,降低了人工成本。

【技术实现步骤摘要】
一种页面元素分类方法、解析器、介质及设备
本专利技术涉及页面元素分类
,特别涉及一种页面元素分类方法、解析器、介质及设备。
技术介绍
随着计算机技术的普及,当今人们的生活已经逐渐走入智能时代。不仅仅是电脑,手机,PAD,人们的衣食住行的方方面面都开始应用出现不久的智能技术,智能电视,智能导航,智能家居等等,智能技术将在人们生活的各个方面提供方便快捷的服务。例如,智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。而互联网产品复杂多样,页面上的设计更是千差万别。其中,文字与图片是构成一个网页的两个最基本的元素。文字为网页的内容,图片为网页的美观。除此之外,网页页面的元素还包括动画、音乐、程序等等。通过页面元素的提取和分类,可以分析用户的交互行为,从而帮助产品和运营进行后续优化,如中国专利申请(公开号为CN111310044A)公开了一种页面元素信息的提取方法、装置、设备和存储介质,但是该专利申请并未提及页面元素如何进行分类。现有技术中常用的页面元素分类主要是基于html标签分类、通过标签名称进行分类或页面解析器进行页面渲染。其中,基于html标签分类包括块级元素和行内元素等元素类别,但此种分类方案通常仅适用于进行布局和结构的搭建,无法进行准确的操作方案设计;而仅通过标签名称无法真实全面地反映元素所包含的操作逻辑,且容易形成歧义;页面解析器也仅适用实现展示的固定场景,无法作出有效的分类。而若想进行统一规范地对页面元素进行操作,则需要人工对页面文件上的元素进行逐一标注,这样无疑需要大量的人力成本不利于应用升级改造的实施。
技术实现思路
为解决上述现有技术中人工对页面文件上的元素逐一标注效率低的不足,本专利技术提供的一种页面元素分类方法,能够提升了页面元素分类的准确率,降低了人工成本。本专利技术提供的一种页面元素分类方法,包括以下步骤:S100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;S200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;S300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。进一步地,根据所述已知页面元素的功能特点进行分类,所述已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;通过判断所述元素特征包含的影响因子,对比所述影响因子的内容、顺序或比重确定元素类型,再根据所述元素类型提取所述元素特征,所述元素特征包括但不限于标签、结构、命名习惯或属性事件。进一步地,基于Logistic分布函数建立所述逻辑回归模型,所述Logistic分布函数为其中,μ为位置参数,γ>0为形状参数。进一步地,使用独热编码进行特征编码提取所述元素特征,所述元素特征对应的所述影响因子为已知影响因子时,所述元素特征形成分类样本;通过所述分类样本对所述逻辑回归模型进行分类训练,再拟合决策边界建立决策边界与分类训练概率之间的联系,使所述逻辑回归模型得到页面元素的分类概率。进一步地,所述元素特征对应的所述影响因子为未知影响因子时,利用稳定性选择方法中的随机逻辑回归进行特征筛选,再利用筛选后的补充元素特征添加到所述逻辑回归模型中,反向传播和修正所述逻辑回归模型中的元素特征及对应的影响因子。进一步地,对页面文件上的文件页面元素进行分类包括以下步骤:S301:提取页面文件上的页面元素;S302:将提取的所述页面元素输入至已训练完成的所述逻辑回归模型;S303:所述逻辑回归模型输出分类完成的页面元素组。进一步地,步骤301中,在页面文件上使用XPath的模糊查找,基于document逐层解析Dom节点,进行页面元素的提取。本专利技术还提供一种页面元素分类解析器,包括:元素提取模块,用于提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;建模训练模块,用于建立逻辑回归模型,对所述逻辑回归模型进行分类训练;元素分类模块,用于根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上任一项所述的一种页面元素分类方法。本专利技术还提供一种计算机设备,包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如上任一项所述的一种页面元素分类方法。与现有技术相比,本专利技术提供的一种页面元素分类方法,通过对已知页面元素进行分类及元素特征的提取,以便形成分类样本对逻辑回归模型进行分类训练,再利用训练完成的逻辑回归模型对页面文件上的页面元素进行分类;提升了页面元素分类的准确率,使分类更贴近于页面元素的本质特征,从而使得开发人员在升级改造中可以无需阅读源码即可得到更加合理的分类结果,降低了人工成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的页面元素分类方法的流程图;图2为本专利技术提供的逻辑回归模型的函数示意图;图3为本专利技术提供的对文件页面元素分类的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,下面所描述的本专利技术不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合。如图1所示,本专利技术提供的一种页面元素分类方法,包括以下步骤:步骤1,提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;步骤2,建立逻辑回归模型,对所述逻辑回归模型进行分类训练;步骤3,根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。步骤1,提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取。具体实施时,如图1所示,先提取已知页面元素并进行分类,本实施例中,使用XPath的模糊查找,基于document逐层解析Dom节点提取已知页面元素,提取已知页面元素后,可以根据已知页面元素的功能特点进行分类,分类的已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;其中,展示元素可以是页面上不可操作的部分元素,如图片,文档文字,图标等仅作展示使用的元素;可操作元素可以是用户通过点击,勾选,滑动等对应操作可以对元素指向对逻辑方法进行触发的元素;列表元素本文档来自技高网
...

【技术保护点】
1.一种页面元素分类方法,其特征在于,包括以下步骤:/nS100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;/nS200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;/nS300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。/n

【技术特征摘要】
1.一种页面元素分类方法,其特征在于,包括以下步骤:
S100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;
S200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;
S300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。


2.根据权利要求1所述的一种页面元素分类方法,其特征在于:根据所述已知页面元素的功能特点进行分类,所述已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;
通过判断所述元素特征包含的影响因子,对比所述影响因子的内容、顺序或比重确定元素类型,再根据所述元素类型提取所述元素特征,所述元素特征包括但不限于标签、结构、命名习惯或属性事件。


3.根据权利要求2所述的一种页面元素分类方法,其特征在于:基于Logistic分布函数建立所述逻辑回归模型,所述Logistic分布函数为



其中,μ为位置参数,γ>0为形状参数。


4.根据权利要求3所述的一种页面元素分类方法,其特征在于:使用独热编码进行特征编码提取所述元素特征,所述元素特征对应的所述影响因子为已知影响因子时,所述元素特征形成分类样本;
通过所述分类样本对所述逻辑回归模型进行分类训练,再拟合决策边界建立决策边界与分类训练概率之间的联系,使所述逻辑回归模型得到页面元素的分类概率。


5.根据权利要求4所述的一种页面元素分类方法,其特征在于:所述元素特征对应的所述影响因子为未知影响因子时,利用稳定性选择方法中的随...

【专利技术属性】
技术研发人员:游海涛梁兴通王琳杨丰佳
申请(专利权)人:易联众信息技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1