网页的处理方法及装置、存储介质、电子装置制造方法及图纸

技术编号:19745399 阅读:23 留言:0更新日期:2018-12-12 04:46
本发明专利技术提供了一种网页的处理方法及装置、存储介质、电子装置,其中,该方法包括:获取训练样本中存在第一语言的网页的文本属性值;将第一参数值作为感知器神经网络的输入变量以确定用于指示网页是否为以第一语言为主体文本的第三参数值;根据第二参数值和第三参数值确定感知器神经网络中种群个体的适应值;对种群中适应值最优的个体进行解码得到感知器神经网络的连接权值和偏置值;基于连接权值和偏置值确定待处理网页是否以第一语言为主体文本。通过本发明专利技术,解决了相关技术中用于提取网页的参数是是根据经验与网页结构的特点事先设置的,因此会由于参数设置的不当导致网页文本的提取的不准确的问题,达到了提高用户体验的效果。

【技术实现步骤摘要】
网页的处理方法及装置、存储介质、电子装置
本专利技术涉及通信领域,具体而言,涉及一种网页的处理方法及装置、存储介质、电子装置。
技术介绍
现有技术提供的提取网页文本内容的方案中,网页在浏览器中加载完毕后,将网页中的内容进行拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需的字段内容并显示出来,从而用户可以看到文本筛选后的网页,使用户能够方便和专注的阅读。但是,现有提取网页文本内容的方案中至少存在如下缺陷:常常需要根据相关科研人员的经验与网页结构的特点,设定参数;这些方法对参数的设置要求很高,若参数设置不当,则网页文本提取不准确。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页的处理方法及装置、存储介质、电子装置,以至少解决相关技术中用于提取网页的参数是是根据经验与网页结构的特点事先设置的,因此会由于参数设置的不当导致网页文本的提取的不准确的问题。根据本专利技术的一个实施例,提供了一种网页的处理方法,包括:获取训练样本中存在第一语言的网页的文本属性值,其中,所述文本属性值包括:用于指示在所述网页中与所述第一语言对应的第一参数本文档来自技高网...

【技术保护点】
1.一种网页的处理方法,其特征在于,包括:获取训练样本中存在第一语言的网页的文本属性值,其中,所述文本属性值包括:用于指示在所述网页中与所述第一语言对应的第一参数值、用于指示所述网页是否以第一语言为主体文本的第二参数值;将所述第一参数值作为感知器神经网络的输入变量以确定用于指示所述网页是否为以第一语言为主体文本的第三参数值;根据所述第二参数值和所述第三参数值确定所述感知器神经网络中种群个体的适应值;对所述种群中适应值最优的个体进行解码得到所述感知器神经网络的连接权值和偏置值;基于所述连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

【技术特征摘要】
1.一种网页的处理方法,其特征在于,包括:获取训练样本中存在第一语言的网页的文本属性值,其中,所述文本属性值包括:用于指示在所述网页中与所述第一语言对应的第一参数值、用于指示所述网页是否以第一语言为主体文本的第二参数值;将所述第一参数值作为感知器神经网络的输入变量以确定用于指示所述网页是否为以第一语言为主体文本的第三参数值;根据所述第二参数值和所述第三参数值确定所述感知器神经网络中种群个体的适应值;对所述种群中适应值最优的个体进行解码得到所述感知器神经网络的连接权值和偏置值;基于所述连接权值和偏置值确定待处理网页是否以第一语言为主体文本。2.根据权利要求1所述的方法,其特征在于,获取训练样本中存在第一语言的网页的文本属性值包括:获取存在第一语言的网页中所述第一语言的占比、所述第一语言的字符量、以及所述存在第一语言的网页的总的字符量;根据所述占比和所述字符量确定所述占比的均值、所述占比的方差、所述字符量的均值、所述字符量的方差;将所述第一语言的占比、所述第一语言的字符量、所述存在第一语言的网页的总的字符量、所述占比的均值、所述占比的方差、所述字符量的均值、所述字符量的方差作为所述第一参数值;基于所述第一参数值确定所述第二参数值。3.根据权利要求1所述的方法,其特征在于,通过以下方法步骤产生用于确定感知器神经网络的连接权值和偏置值的种群:步骤10,随机产生一个个体数量为Popsize的第一种群Pt,其中,所述第一种群中的每一个个体都存储有待优化设计的DIM个的参数;其中,下标i=1,2,...,Popsize,并且为种群Pt中的第i个个体;步骤11,设置第一计数器ki的值为N;步骤12,随机生成一个选择因子ches,如果ches大于预设的反向学习因子OBL,则执行步骤13,否则执行步骤17;步骤13,如果第一计数器ki的值N大于所述第一种群个体数量Popsize,则所述第一种群为用于确定感知器神经网络的连接权值和偏置值的种群,即触发执行确定所述第一种群中个体的适应值,并设置当前评价次数为上一次评价次数与Popsize的和,否则执行步骤14;步骤14,基于所述第一种群,以及预设的杂交率Cr和预设缩放因子F得到与所述第一种群中的个体对应的实验个体步骤15,计算所述实验个体的适应值并根据预设规则从所述第一种群的个体与所述实验个体中选择进入第二种群;步骤16,第一计数器ki的值为N加1的和,并执行步骤12;步骤17,确定所述第一种群在指定维度j上的最小值最大值以及均值步骤18,基于所述最小值所述最大值以及所述均值得到第三种群BPt;步骤19,确定所述第三种群中个体的适应值,根据第一种群中个体的适应值和所述第三种群中个体的适应值,从所述第一种群和所述第三种群中选择Popsize个优秀的个体,以替换所述第一种群中的所有个体;步骤20,重复步骤10到20直到所述评价次数达到预设值,在所述评价次数达到预设值后,步骤19中替换后的第一种群为用于确定感知器神经网络的连接权值和偏置值的种群。4.根据权...

【专利技术属性】
技术研发人员:张峰聂颖郑权
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1