一种基于多模态的网站类型判断方法及装置制造方法及图纸

技术编号:32823743 阅读:92 留言:0更新日期:2022-03-26 20:22
本发明专利技术提出了一种基于多模态的网站类型判断方法及装置,该方法包括:基于所述网站的URL爬取网页html文件和网页截图;使用第一神经网络模型对所述网页截图进行识别确定所述网站的图片分类标签;使用第二神经网络模型和第三神经网络对网页html文件进行识别确定所述网站的内容文本语义标签和标题文本语义标签,并通过监管信息平台基于网址URL获取备案信息标签;基于所述图片分类标签、内容文本语义标签、标题文本语义标签和备案信息标签确定所述网站的最终类型。本发明专利技术中,使用多模态技术将多种分类结果进行融合,并设计具体的融合策略,使得网站类型的识别率大大提高。使得网站类型的识别率大大提高。使得网站类型的识别率大大提高。

【技术实现步骤摘要】
一种基于多模态的网站类型判断方法及装置


[0001]本专利技术涉及机器学习
,具体涉及一种基于多模态的网站类型判断方法及装置。

技术介绍

[0002]网站是指在互联网上,使用HTML(标准通用标记语言)等工具制作的用于展示特定内容相关网页的集合。网站是一种互联网上的沟通工具,通过网页浏览器,人们可以访问网站,获取很多资讯和信息。
[0003]随着互联网的发展,现在的网站数量不可计数,并且每天都在不断地增加。生活中,大家每天都在访问着各式各样的网站。对网站类别的判断将有着重要的意义,如可以通过人们访问网站的类型,去挖掘个人的兴趣爱好特点,从而针对性做个性推荐和精准营销。
[0004]现有技术中,目前对网站类别判断主要存在以下几种方法:1.通过网站的 url,提取url的类别特征,从而判断网站的类型;2.通过提取网页的内容,通过关键词策略或者文本语义特征,用机器学习方式如贝叶斯分类来判断网页类别;3.通过对网页主页进行截图,进行OCR识别,提取主页上的文字信息,利用 2的方式判断网页类别等。上述的方法中,都是利用单一模态(ur本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的网站类型判断方法,其特征在于,该方法包括:爬取步骤,基于所述网站的URL爬取网页html文件和网页截图;网页截图识别步骤,使用第一神经网络模型对所述网页截图进行识别确定所述网站的图片分类标签;网页文件识别步骤,使用第二神经网络模型和第三神经网络对网页html文件进行识别确定所述网站的内容文本语义标签和标题文本语义标签,并通过监管信息平台基于网站的URL获取备案信息标签;融合步骤,基于所述图片分类标签、内容文本语义标签、标题文本语义标签和备案信息标签确定所述网站的最终类型。2.根据权利要求1所述的方法,其特征在于,在基于所述网站的URL爬取网页html文件和网页截图之前,判断网页url是否在网站知识库中,若是,则根据网站知识库中的对应信息,输出网页类别信息;若否,则基于所述网站的URL爬取网页html文件和网页截图。3.根据权利要求2所述的方法,其特征在于,在网页截图识别时,将网页截图图片File
img
输入到已训练的第一神经网络模型,提取图片特征,通过分类器,输出图片分类标签其中表示网页属于类别i的置信度值。4.根据权利要求3所述的方法,其特征在于,在网页文件识别时,解析网页html文件File
html
,得到网页文本内容text、网页标题文本text
标题
;将text输入到已训练的第二神经网络模型,提取文本语义特征,通过文本分类器,输出内容文本语义标签其中表示网页属于类别i的置信度值;将text
标题
输入到已训练的第三神经网络模型,提取文本语义特征,通过文本分类器,输出标题文本语义标签其中表示网页属于类别i的置信度值;通过监管平台查询网页是否存在备案信息标签P
备案
,有备案则P
备案
值为1,没备案则P
备案
为0。5.根据权利要求4所述的方法,其特征在于,按预定多模态融合策略计算公式,将图片分类标签内容文本语义分类标签标题文本语义标签和备案信息标签P
备案
输入多模态融合策略计算公式进行网页类别判断,计算公式如下:
其中y
i
=max(y0,y1...y
n
)表示网页最终类别为i,其中,W
x
表示权重值,B为常数,W
x
中的x=1、2、3、4。6.一种...

【专利技术属性】
技术研发人员:林淑强毕永辉梁煜麓王兵鄢小征朱聚江
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1