【技术实现步骤摘要】
数据库的更新方法及装置、计算机可读存储介质、电子设备
本专利技术涉及大数据
,尤其涉及一种数据库的更新方法及装置、计算机可读存储介质、电子设备。
技术介绍
随着互联网技术的快速发展,用户对时效性强的新闻行业的要求也越来越严格。目前很多新闻网站不仅仅发布月报、周报、日报,若发生突发事件还会不定时的更新热点新闻。但对于订阅新闻的用户来说,一般都是设定固定的时间点更新(比如,早上9点更新来阅读早间新闻,晚上7点更新来阅读当日新闻),或者设定固定时间段更新(比如,每天更新一次新闻,每半小时更新一次新闻)。这样的更新方式将会导致更新效率和新闻时效性不可兼得。当用户将更新频率调低,就可能错过突发事件;当用户将更新频率调高,就会出现新闻网站没有新出的新闻,但用户侧不断更新本地数据库。综上所述,现有的更新方法无法兼顾更新效率和时效性。
技术实现思路
本专利技术实施例提供了一种数据的更新方法及装置、计算机可读存储介质、电子设备,可在保证数据时效性的基础上,提升更新效率。本专利技术实施例提供的一 ...
【技术保护点】
1.一种数据库的更新方法,其特征在于,该方法包括:/n从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;/n获取所述下载地址当前的显示数据为第二数据;/n确定所述第一数据和所述第二数据的相似度;/n若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。/n
【技术特征摘要】
1.一种数据库的更新方法,其特征在于,该方法包括:
从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
获取所述下载地址当前的显示数据为第二数据;
确定所述第一数据和所述第二数据的相似度;
若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据和所述第二数据的相似度的步骤,包括:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一标题和所述第二标题的相似度的步骤,包括:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
4.根据权利要求2所述的方法,其特征在于,在所述计算所述第一标题和所述第二标题的相似度的步骤之后,在所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,该方法还包括:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
此时,所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤,包括:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述第一内容和所述第二内容的相似度的步骤之前,该方法还包括:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述文本预处理的方法,包括:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
8.根据权利要求1所述的方法,其特征在于,所述获取所述第一数据的下载地址的步骤,包括:
获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
此时,所述获取所述下载地址当前的显示数据为第二数据的步骤,包括:
加载所述网页地址当前显示的网页,并从所述当前显示的网页中提取所述标签对应的数据,作为第二数据。
9.一种数据库的更新装置,其特征在于,该装置包括:
第一模块,用于从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
第二模块,用于获取所述下载地址当前的显示数据为第二数据;
第三模块,用于确定所述第一数据和所述第二数据的相似度;
第四模...
【专利技术属性】
技术研发人员:刘浩,柳超,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。