一种基于人工智能的智能匹配数据处理方法技术

技术编号:30434559 阅读:21 留言:0更新日期:2021-10-24 17:32
本申请公开了一种基于人工智能的智能匹配数据处理方法,该数据处理方法适用于对海量文章进行归类存储,该数据处理方法包括:步骤1,获取待录入文章中的关注词组,并根据关注词组计算待录入文章录入后的文章评分;步骤2,根据关注词组以及文章评分,确定待录入文章在文章列表中的文献位置,以更新文章列表;步骤3,根据更新后的文章列表,对录入的文章进行智能匹配数据归类存储。通过本申请中的技术方案,优化海量文章数据的归类存储的效果,解决因数据访问冷热程度不同而导致的迁移数据量偏大的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于人工智能的智能匹配数据处理方法


[0001]本申请涉及数据处理的
,具体而言,涉及一种基于人工智能的智能匹配数据处理方法。

技术介绍

[0002]随着互联网技术的不断发展,文章的数字化处理已经成为当下的一种趋势,通过数字化处理,可以对互联网中海量的文章进行存储、推送等处理,特别是对于科技期刊、学术论文、专利文献等学术型文章,文章的数字化处理有助于特定的用户对其关注的文章进行查找、阅读、学习。在文章的数字化处理技术中,如何对海量的文章进行归类存储,是数字化处理的关键一环。
[0003]在对海量的文章进行存储时,通常可以采用Hadoop方式进行存储。但是,随着数据量的不断累积,文章的访问热度将会呈现冷热不均的现象,而为了更快捷的调取访问热度高的文章,又引入了数据冷热程度分层存储的存储策略,以便将预设周期内新录入但访问量较小的数据进行冷数据存储,以保证访问量较大的文章的调取速度。
[0004]而现有技术中,通常是将最新录入的各个文章进行统一的数据存储,之后再根据一定时间段内各个文章的访问情况,来判断其属于“热数据”还是“本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的智能匹配数据处理方法,其特征在于,所述数据处理方法适用于对海量文章进行归类存储,所述数据处理方法包括:步骤1,获取待录入文章中的关注词组,并根据所述关注词组计算所述待录入文章录入后的文章评分;步骤2,根据所述关注词组以及所述文章评分,确定所述待录入文章在文章列表中的文献位置,以更新所述文章列表;步骤3,根据更新后的所述文章列表,对录入的文章进行智能匹配数据归类存储。2.如权利要求1所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述文章列表由多个次级列表组成,所述关注词组至少包括一级词组,所述一级词组由多个关注词组成,所述文章评分至少包括聚类评分,所述步骤1包括:步骤101,根据所述一级词组中的关注词,确定所述待录入文章在所述文章列表中的次级列表及初始位置;步骤102,采用遍历的方式,根据所述一级词组中的关注词,计算录入所述待录入文章后次级列表中各录入文章的关注词对称变化率;步骤103,根据所述关注词对称变化率,计算录入所述待录入文章后次级列表中各录入文章的标准化平均变化率;步骤104,根据所述各录入文章的标准化平均变化率,计算所述待录入文章录入后的各录入文章所述聚类评分。3.如权利要求2所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述对称变化率的计算公式为:C
i
(1)=α式中,C
i
(t)为第i个关注词对称变化率,Y
i
(t)为一级词组中第i个关注词的词得分,i=1,2,

,N,N为一级词组中关注词的总数,t为待录入文章录入次级列表后该次级列表中的文章编号,文章编号由次级列表中文章的排序确定,M为待录入文章加入次级列表后的文章总数,α为预设参数。4.如权利要求3所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述标准化平均变化率的计算公式为:V(t)=R(t)/F,t=2,3,

,M,M,M
式中,V(t)为文章编号为t的文章对应的标准化平均变化率,R(t)为第t篇文章对应的平均变化率,F为标准化因子,S
i
(t)为标准变化率,ω
i
为第i个关注词的权重值。5.如权利要求2所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述关注词组还包括二级词组,所述文章评分还包括价值评分,所述步骤1还包括:步骤111,根据预设数值规则,对所述二级词组中的关注词进行数值化,记作分数修正值;步骤112,计算所述待录入文章的初始评分,并根据所述分数修正值以及所述待录入文章在所述次级列表中的文献位置,对所述初始评分进行修正,将修正结果记作...

【专利技术属性】
技术研发人员:耿德强武伟李杨刘洋
申请(专利权)人:六棱镜杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1