本申请提供一种网站标题提取方法,包括:获取目标网站对应的html内容;提取html内容中的title标签;确定标签权重以及html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;确定标签权重、第一权重、第二权重和第三权重中的权重最大值;将权重最大值对应的内容提取到的标题作为网站标题。本申请能够提高网站标题的准确性,解决了直接根据html内容得到的title标签不准确的问题,能够避免网站站点名错误和乱码。本申请还提供一种网站标题提取系统、计算机可读存储介质和电子设备,具有上述有益效果。
A Website Title Extraction method, system and related equipment
【技术实现步骤摘要】
一种网站标题提取方法、系统及相关设备
本申请涉及互联网领域,特别涉及一种网站标题提取方法、系统及相关设备。
技术介绍
网络上不同的网站使用不同的标题显示方式,导致自动监测网站标题不准确的问题。该问题不解决带来的危害是服务中大量的监测网站站点名错误与乱码,用户体验感差。
技术实现思路
本申请的目的是提供一种网站标题提取方法、系统、计算机可读存储介质和电子设备,能够提高提取到的网站标题的准确性。为解决上述技术问题,本申请提供一种网站标题提取方法,具体技术方案如下:获取目标网站对应的html内容;提取所述html内容中的title标签;确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值;将权重最大值对应的内容提取到的标题作为网站标题。其中,提取所述html内容中的title标签包括:根据所述html内容中标签字符确定title标签。其中,确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重包括:确定标签权重,并根据所述html内容中文本文字、图片和视频各自所占的比例确定所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重。其中,若所述文本文字对应第一标题、所述图片对应第二标题、所述视频对应第三标题,则将权重最大值对应的内容提取到的标题作为网站标题包括:若所述标签权重最大,将所述title标签作为网站标题;若所述第一权重最大,提取所述文本文字的第一标题作为网站标题;若所述第二权重最大,提取所述图片的第二标题作为网站标题;若所述第三权重最大,提取所述视频的第三标题作为网站标题。其中,提取所述文本文字的第一标题作为网站标题包括:利用双向最大匹配法提取所述文本文字中的字符串;对所述字符串利用傅里叶转化确定各分词文字的权重;将所述权重前预设百分比的分词文字作为第一标题;将所述第一标题作为网站标题。其中,提取所述图片的第二标题作为网站标题包括:利用SIFT算法识别所述图片中的图片文字;对所述图片文字进行文字提取得到第二标题;将所述第二标题作为网站标题。其中,提取所述视频的第三标题作为网站标题包括:利用MFCC提取所述视频中的视频文字;对所述视频文字进行文字提取得到第三标题;将所述第三标题作为网站标题。本申请还提供一种网站标题提取系统,包括:获取模块,用于获取目标网站对应的html内容;提取模块,用于提取所述html内容中的title标签;权重计算模块,用于确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;权重确定模块,用于将所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值;标题提取模块,用于将权重最大值对应的内容提取到的标题作为网站标题。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。本申请还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。本申请提供一种网站标题提取方法,包括:获取目标网站对应的html内容;提取所述html内容中的title标签;确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值;将权重最大值对应的内容提取到的标题作为网站标题。本申请需要确定文本文字、图片和视频的权重,结合直接提取到的title标签对应的标签权重,对权重最大者对应的内容进行标题提取,能够提高网站标题的准确性,解决了直接根据html内容得到的title标签不准确的问题,能够避免网站站点名错误和乱码。本申请还提供一种网站标题提取系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种网站标题提取方法的流程图;图2为本申请实施例所提供的MFCC语音提取的流程图;图3为本申请实施例所提供的一种网站标题提取系统结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参考图1,图1为本申请实施例所提供的一种网站标题提取方法的流程图,该方法包括:S101:获取目标网站对应的html内容;本步骤旨在获取目标网站的html内容,即确定需要获取标题的网站站点,即可直接打开该站点获得对应的html内容。S102:提取html内容中的title标签;通常,在html内容中,存在一个html的<title>标签,本步骤需要根据html标签字符确定title标签。而该标签字符则是网站站点自身设定的标题。现有技术则是直接抓取该<title>标签以获得网站站点标题,但很多时候,该标题内容与网站站点的实际内容并不相符,因此本申请为解决该问题,还需要执行下文所述的步骤。S103:确定标签权重以及html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;本步骤中,需要进一步确定html内容中文本文字、图片和视频各自的权重。在html内容中,主要包含三部分内容,即文本文字、图片和视频。需要注意的是,这种分类方式将html内容中的音频作为视频来处理。为了使得网站标题与站点内容更加匹配,本步骤需要确定各部分内容占整个html内容的比重。除此之外,还需要确定标签权重。虽然很多时候网站html内容中的标签可能无法直接作为标题,但依旧存在直接作为标题的可能,因此,还需要为标签设置权重。S104:确定标签权重、第一权重、第二权重和第三权重中的权重最大值;S105:将权重最大值对应的内容提取到的标题作为网站标题。具体的,若文本文字对应第一标题、图片对应第二标题、视频对应第三标题,则本步骤具体可以为:若标签权重最大,将title标签作为网站标本文档来自技高网...
【技术保护点】
1.一种网站标题提取方法,其特征在于,包括:/n获取目标网站对应的html内容;/n提取所述html内容中的title标签;/n确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;/n确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值;/n将权重最大值对应的内容提取到的标题作为网站标题;所述内容包括所述文本文字、所述图片和所述视频。/n
【技术特征摘要】
1.一种网站标题提取方法,其特征在于,包括:
获取目标网站对应的html内容;
提取所述html内容中的title标签;
确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重;
确定所述标签权重、所述第一权重、所述第二权重和所述第三权重中的权重最大值;
将权重最大值对应的内容提取到的标题作为网站标题;所述内容包括所述文本文字、所述图片和所述视频。
2.根据权利要求1所述的网站标题提取方法,其特征在于,提取所述html内容中的title标签包括:
根据所述html内容中标签字符确定title标签。
3.根据权利要求1所述的网站标题提取方法,其特征在于,确定标签权重以及所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重包括:
确定标签权重,并根据所述html内容中文本文字、图片和视频各自所占的比例确定所述html内容中文本文字、图片和视频分别对应的第一权重、第二权重和第三权重。
4.根据权利要求1所述的网站标题提取方法,其特征在于,若所述文本文字对应第一标题、所述图片对应第二标题、所述视频对应第三标题,则将权重最大值对应的内容提取到的标题作为网站标题包括:
若所述标签权重最大,将所述title标签作为网站标题;
若所述第一权重最大,提取所述文本文字的第一标题作为网站标题;
若所述第二权重最大,提取所述图片的第二标题作为网站标题;
若所述第三权重最大,提取所述视频的第三标题作为网站标题。
5.根据权利要求4所述的网站标题提取方法,其特征在于,提取所述文本文字的第一标题作为网站标题包括:
利用...
【专利技术属性】
技术研发人员:贾真,范渊,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。