处理网页中的预定类型信息的方法、设备和存储介质技术

技术编号:36575378 阅读:16 留言:0更新日期:2023-02-04 17:33
本公开涉及一种用于处理网页中的预定类型信息的方法、设备和存储介质。方法包括:计算网页中的目标预定类型信息的文本数据的字数;如果目标预定类型信息的文本数据的字数处于第一预定范围,则基于第一相似度算法,计算目标预定类型信息与关于预定类型信息的样本信息之间的相似度;如果目标预定类型信息的文本数据的字数处于第二预定范围,则基于第二相似度算法,计算目标预定类型信息与样本信息之间的相似度,其中第二预定范围与第一预定范围不重叠,并且第二相似度算法与第一相似度算法不同。本公开至少能够针对网页中的不同文本数据长度的预定类型信息均实现快速且准确地去重。长度的预定类型信息均实现快速且准确地去重。长度的预定类型信息均实现快速且准确地去重。

【技术实现步骤摘要】
处理网页中的预定类型信息的方法、设备和存储介质


[0001]本公开总体上涉及信息处理领域,并且更具体地,涉及用于处理网页中的预定类型信息的方法、设备和存储介质。

技术介绍

[0002]针对同一事件,不同的网页所发布的预定类型信息可能相似。在传统的处理网页中的预定类型信息的技术方案中,基于预定的一种相似度算法对网页中的预定类型信息进行去重。例如,基于Jaccard算法对网页中的预定类型信息进行去重,去重准确度高,但对于长文本数据长度的预定类型信息(例如,与财经事件有关的深度分析)进行去重时计算量大、速度慢;又例如,基于Simhash算法对网页中的预定类型信息进行去重,计算量小、速度快,但对于短文本数据长度的预定类型信息(例如,与财经事件有关的快讯简评)进行去重时准确度低。
[0003]综上,传统的处理网页中的预定类型信息的方法的不足之处在于:难以针对不同文本数据长度的预定类型信息进行去重时均兼顾到计算量、速度和准确度等多方面的要求。

技术实现思路

[0004]针对上述问题,本公开提供一种用于处理网页中的预定类型信息的方法、设备和存储介质,至少能够针对网页中的不同文本数据长度的预定类型信息均实现快速且准确地去重。
[0005]根据本公开的第一方面,提供了一种用于处理网页中的预定类型信息的方法,方法包括:计算网页中的目标预定类型信息的文本数据的字数;如果目标预定类型信息的文本数据的字数处于第一预定范围,则基于第一相似度算法,计算目标预定类型信息与关于预定类型信息的样本信息之间的相似度;如果目标预定类型信息的文本数据的字数处于第二预定范围,则基于第二相似度算法,计算目标预定类型信息与样本信息之间的相似度,其中第二预定范围与第一预定范围不重叠,并且第二相似度算法与第一相似度算法不同;基于目标预定类型信息与样本信息之间的相似度,确定目标预定类型信息的重复状态数据;以及基于所确定的重复状态数据,对目标预定类型信息进行处理。
[0006]在一些实施例中,预定类型信息是新闻,基于第一相似度算法,计算目标预定类型信息与样本信息之间的相似度包括:响应于第一相似度算法是Jaccard算法,确定与目标预定类型信息相对应的目标预定类型信息字段集合;获取与样本信息相对应的样本信息字段集合;确定目标预定类型信息字段集合与样本信息字段集合的交集中的字段的总数;确定目标预定类型信息字段集合与样本信息字段集合的并集中的字段的总数;以及计算所确定的交集中的字段的总数与所确定的并集中的字段的总数之间的比值。
[0007]在一些实施例中,确定与目标预定类型信息相对应的目标预定类型信息字段集合包括:经由滑动窗口算法,对目标预定类型信息的文本数据进行切分以得到目标预定类型
信息字段集合;或者经由结巴切词工具,对目标预定类型信息的文本数据进行切分以得到目标预定类型信息字段集合。
[0008]在一些实施例中,基于第二相似度算法,计算目标预定类型信息与样本信息之间的相似度包括:响应于第二相似度算法是Simhash算法,确定与目标预定类型信息相对应的目标预定类型信息哈希值;获取与样本信息相对应的样本信息哈希值;以及计算目标预定类型信息哈希值与样本信息哈希值之间的海明距离。
[0009]在一些实施例中,基于目标预定类型信息与样本信息之间的相似度,确定目标预定类型信息的重复状态数据包括:判断目标预定类型信息与样本信息之间的相似度是否满足预定条件;如果目标预定类型信息与样本信息之间的相似度满足预定条件,则确定目标预定类型信息是重复的预定类型信息;以及如果目标预定类型信息与样本信息之间的相似度不满足预定条件,则确定目标预定类型信息不是重复的预定类型信息。
[0010]在一些实施例中,基于所确定的重复状态数据,对目标预定类型信息进行处理包括:响应于所确定的重复状态数据指示目标预定类型信息是重复的预定类型信息,舍弃目标预定类型信息;以及响应于所确定的重复状态数据指示目标预定类型信息不是重复的预定类型信息,保留目标预定类型信息并基于目标预定类型信息更新样本信息库。
[0011]在一些实施例中,方法还包括:判断目标预定类型信息的标题与样本信息的标题是否相同;如果目标预定类型信息的标题与样本信息的标题相同,则判断目标预定类型信息的文本数据的字数是否大于样本信息的文本数据的字数;以及如果目标预定类型信息的文本数据的字数大于样本信息的文本数据的字数,则保留目标预定类型信息并基于目标预定类型信息更新样本信息库。
[0012]在一些实施例中,方法还包括:基于多分类模型,确定与所保留的目标预定类型信息相关联的多个标签;基于正则匹配算法,确定与所保留的目标预定类型信息相关联的股票;以及基于摘要提取算法,生成与所保留的目标预定类型信息相关联的摘要。
[0013]根据本公开的第二方面,还提供了一种计算设备,计算设备包括:至少一个处理器;以及至少一个存储器,至少一个存储器被耦合到至少一个处理器并且存储用于由至少一个处理器执行的指令,指令当由至少一个处理器执行时,使得计算设备执行本公开的第一方面的方法。
[0014]根据本公开的第三方面,还提供了一种计算机可读存储介质,其上存储有计算机程序代码,计算机程序代码在被运行时执行本公开的第一方面的方法。
[0015]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
[0016]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0017]图1图示了根据本公开实施例的用于实施处理网页中的预定类型信息的方法的系
统的示意图。
[0018]图2图示了根据本公开实施例的用于处理网页中的预定类型信息的方法的流程图。
[0019]图3图示了根据本公开实施例的用于基于第一相似度算法来计算目标预定类型信息与样本信息之间的相似度的方法的流程图。
[0020]图4图示了根据本公开实施例的用于基于第二相似度算法来计算目标预定类型信息与样本信息之间的相似度的方法的流程图。
[0021]图5图示了根据本公开实施例的用于处理网页中的预定类型信息的方法的流程图。
[0022]图6图示了根据本公开实施例的用于对所保留的目标预定类型信息进行进一步的处理的方法的流程图。
[0023]图7图示了用于实现本公开实施例的示例性电子设备的框图。
具体实施方式
[0024]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例,不能将它们理解为对本申请保护范围的限定。基于本公开中的实施例,本领域普通技术人员在没有做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理网页中的预定类型信息的方法,其特征在于,所述方法包括:计算网页中的目标预定类型信息的文本数据的字数;如果目标预定类型信息的文本数据的字数处于第一预定范围,则基于第一相似度算法,计算所述目标预定类型信息与关于预定类型信息的样本信息之间的相似度;如果目标预定类型信息的文本数据的字数处于第二预定范围,则基于第二相似度算法,计算所述目标预定类型信息与所述样本信息之间的相似度,其中所述第二预定范围与所述第一预定范围不重叠,并且所述第二相似度算法与所述第一相似度算法不同;基于所述目标预定类型信息与所述样本信息之间的相似度,确定所述目标预定类型信息的重复状态数据;以及基于所确定的重复状态数据,对所述目标预定类型信息进行处理。2.根据权利要求1所述的方法,其特征在于,预定类型信息是新闻,基于所述第一相似度算法,计算所述目标预定类型信息与所述样本信息之间的相似度包括:响应于所述第一相似度算法是Jaccard算法,确定与所述目标预定类型信息相对应的目标预定类型信息字段集合;获取与所述样本信息相对应的样本信息字段集合;确定所述目标预定类型信息字段集合与所述样本信息字段集合的交集中的字段的总数;确定所述目标预定类型信息字段集合与所述样本信息字段集合的并集中的字段的总数;以及计算所确定的交集中的字段的总数与所确定的并集中的字段的总数之间的比值。3. 根据权利要求2所述的方法,其特征在于,确定与所述目标预定类型信息相对应的所述目标预定类型信息字段集合包括:经由滑动窗口算法,对所述目标预定类型信息的文本数据进行切分以得到所述目标预定类型信息字段集合;或者经由结巴切词工具,对所述目标预定类型信息的文本数据进行切分以得到所述目标预定类型信息字段集合。4.根据权利要求1所述的方法,其特征在于,基于所述第二相似度算法,计算所述目标预定类型信息与所述样本信息之间的相似度包括:响应于所述第二相似度算法是Simhash算法,确定与所述目标预定类型信息相对应的目标预定类型信息哈希值;获取与所述样本信息相对应的样本信息哈希值;以及计算所述目标预定类型信息哈希值与所述样本信息哈希值之间的海明距离。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:黄少森尹扬王晗谦
申请(专利权)人:上海朝阳永续信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1