【技术实现步骤摘要】
一种页面元素分类方法、解析器、介质及设备
本专利技术涉及页面元素分类
,特别涉及一种页面元素分类方法、解析器、介质及设备。
技术介绍
随着计算机技术的普及,当今人们的生活已经逐渐走入智能时代。不仅仅是电脑,手机,PAD,人们的衣食住行的方方面面都开始应用出现不久的智能技术,智能电视,智能导航,智能家居等等,智能技术将在人们生活的各个方面提供方便快捷的服务。例如,智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。而互联网产品复杂多样,页面上的设计更是千差万别。其中,文字与图片是构成一个网页的两个最基本的元素。文字为网页的内容,图片为网页的美观。除此之外,网页页面的元素还包括动画、音乐、程序等等。通过页面元素的提取和分类,可以分析用户的交互行为,从而帮助产品和运营进行后续优化,如中国专利申请(公开号为CN111310044A)公开了一种页面元素信息的提取方法、装置、设备和存储介质,但是该专利申请并未提及页面元素如何进行分类。现有技术中常用的页面元素分类主要是基于html标签分类、通过标签名称进 ...
【技术保护点】
1.一种页面元素分类方法,其特征在于,包括以下步骤:/nS100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;/nS200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;/nS300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。/n
【技术特征摘要】
1.一种页面元素分类方法,其特征在于,包括以下步骤:
S100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;
S200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;
S300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。
2.根据权利要求1所述的一种页面元素分类方法,其特征在于:根据所述已知页面元素的功能特点进行分类,所述已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;
通过判断所述元素特征包含的影响因子,对比所述影响因子的内容、顺序或比重确定元素类型,再根据所述元素类型提取所述元素特征,所述元素特征包括但不限于标签、结构、命名习惯或属性事件。
3.根据权利要求2所述的一种页面元素分类方法,其特征在于:基于Logistic分布函数建立所述逻辑回归模型,所述Logistic分布函数为
其中,μ为位置参数,γ>0为形状参数。
4.根据权利要求3所述的一种页面元素分类方法,其特征在于:使用独热编码进行特征编码提取所述元素特征,所述元素特征对应的所述影响因子为已知影响因子时,所述元素特征形成分类样本;
通过所述分类样本对所述逻辑回归模型进行分类训练,再拟合决策边界建立决策边界与分类训练概率之间的联系,使所述逻辑回归模型得到页面元素的分类概率。
5.根据权利要求4所述的一种页面元素分类方法,其特征在于:所述元素特征对应的所述影响因子为未知影响因子时,利用稳定性选择方法中的随...
【专利技术属性】
技术研发人员:游海涛,梁兴通,王琳,杨丰佳,
申请(专利权)人:易联众信息技术股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。