一种基于大数据的数据筛选方法、装置及电子设备制造方法及图纸

技术编号:30785506 阅读:33 留言:0更新日期:2021-11-16 07:47
本发明专利技术涉及一种基于大数据的数据筛选方法、装置、电子设备及计算机可读存储介质,所述方法包括获取筛选条件,根据所述筛选条件对待筛选数据进行筛选,获得与所述筛选条件相对应的数据文档;利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,对所述用户筛选信息进行清洗,得到清洗后的用户筛选信息;根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,得到优先排序结果。本发明专利技术提供的基于大数据的数据筛选方法,可以简化数据筛选操作过程,提高数据筛选效率。提高数据筛选效率。提高数据筛选效率。

【技术实现步骤摘要】
一种基于大数据的数据筛选方法、装置及电子设备


[0001]本专利技术涉及互联网
,尤其涉及一种基于大数据的数据筛选方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着大数据环境的发展,数据得到快速积累,分析海量数据中蕴含的价值,筛选有价值的数据显得十分重要,由此可见数据筛选在整个数据处理流程中处于至关重要的地位。比如在电商领域中对包含条件、日期、年龄和产品规格信息的数据文档进行筛选。数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。
[0003]现有技术中实现数据筛选的方法采用的是通过excel表格导出数据再进行手动筛选的方式,现有技术中公开的一种数据筛选方法,是在web页面中对所需配置信息进行定制化筛选配置并生成对应的数据筛选模板进行数据筛选,无需人工多次导出和筛选。
[0004]但上述的数据筛选方法均没有对获取的数据进行排序处理,存在着获取的数据冗杂、数据难以直观观察的问题,使得数据筛选操作过程复杂,数据筛选效率较低。

技术实现思路

[0005]有鉴于此,有必要提供一种基于大数据的数据筛选方法、装置、电子设备及计算机可读存储介质,用以解决现有技术中电商领域大数据文档存在的数据筛选操作过程复杂、数据筛选效率较低的问题。
[0006]为了解决上述问题,本专利技术提供一种基于大数据的数据筛选方法,包括:
[0007]获取筛选条件,根据所述筛选条件对待筛选数据进行筛选,获得与所述筛选条件相对应的数据文档;
[0008]利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,对所述用户筛选信息进行清洗,得到清洗后的用户筛选信息;
[0009]根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,得到优先排序结果。
[0010]进一步地,获取筛选条件,根据所述筛选条件对待筛选数据进行筛选,具体包括:
[0011]以字符、字符串和超文本链接中的至少一种作为初始筛选条件,以条件、日期、年龄和产品规格信息中的至少一种作为再次筛选条件,根据所述初始筛选条件和再次筛选条件对待筛选数据进行筛选。
[0012]进一步地,所述利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,具体包括:
[0013]对数据文档进行编号,并将每个数据文档内部划分为若干个单词,利用倒排索引使每个单词与该数据文档编号形成对应关系,通过检索抽取数据文档,得到用户筛选信息。
[0014]进一步地,所述利用倒排索引使每个单词与该数据文档编号形成对应关系,通过检索抽取数据文档,得到用户筛选信息,具体包括:
[0015]采用哈希表结构对数据文档进行倒排索引,以获取从单词到所有包含该单词数据文档编号的对应关系;
[0016]将筛选条件拆解成若干个单词,根据对应关系查询到所有包含筛选条件对应单词的数据文档的编号;
[0017]对所有查询到的数据文档编号取交集,得到用户筛选信息。
[0018]进一步地,所述采用哈希表结构对数据文档进行倒排索引,以获取从单词到所有包含该单词数据文档编号的对应关系,具体包括:
[0019]依次访问每一个数据文档,获取所述数据文档中的每一个单词在哈希表中的值,在数据文档编号中插入该值,以此形成从单词到所有包含该单词数据文档编号的对应关系。
[0020]进一步地,所述根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,具体包括:
[0021]获取预先标定用户的查询条件在清洗后的用户筛选信息中的数据文档中出现的相对频率,根据所述相对频率对清洗后的用户筛选信息进行优先排序。
[0022]进一步地,获取预先标定用户的查询条件在清洗后的用户筛选信息中的数据文档中出现的相对频率,根据所述相对频率对清洗后的用户筛选信息进行优先排序,具体包括:
[0023]根据预先标定用户的查询条件及排序特征函数,获取预先标定用户的查询条件在清洗后的用户筛选信息中的数据文档中出现的相对频率,按照所述相对频率大小对清洗后的用户筛选信息进行优先排序;
[0024]所述排序特征函数为
[0025][0026]其中,q为预先标定用户的查询条件,d为清洗后的用户筛选信息中的数据文档,f
i
(d,q)为预先标定用户的查询条件q中的第i个单词在数据文档d中出现的相对频率,f
t
(t
i
,d)为单词t
i
在数据文档d中出现的相对频率,V为根据预先标定用户的查询条件选中的数据文档数,N为选取清洗后的用户筛选信息中的一部分作为训练数据文档数,n
t
为清洗后的用户筛选信息中的数据文档总数。
[0027]本专利技术还提供一种基于大数据的数据筛选装置,包括数据筛选模块、信息抽取模块及优先排序模块;
[0028]所述数据筛选模块,用于获取筛选条件,根据所述筛选条件对所述待筛选数据进行筛选,获得与所述筛选条件相对应的数据文档;
[0029]所述信息抽取模块,用于利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,对所述用户筛选信息进行清洗,得到清洗后的用户筛选信息;
[0030]所述优先排序模块,用于根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,得到优先排序结果。
[0031]本专利技术还提供一种电子设备,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的基于大数据的数据筛选方法。
[0032]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的基于大数据的数据筛选方法。
[0033]采用上述实施例的有益效果是:本专利技术提供的基于大数据的数据筛选方法,是根据用户输入的筛选条件对待筛选数据进行筛选,获得相关数据文档完成筛选,具体实施过程中利用倒排索引对数据文档进行编号,便于对数据文档进行直观观察,利用布尔检索抽取数据文档,得到用户筛选信息,对用户筛选信息进行清洗,达到检验用户筛选信息的目的,对清洗后的用户筛选信息进行优先排序,利用图表库生成图表,可以简化数据筛选操作过程,提高数据筛选效率。
附图说明
[0034]图1为本专利技术提供的基于大数据的数据筛选装置的应用场景示意图;
[0035]图2为本专利技术提供的基于大数据的数据筛选方法一实施例的流程示意图;
[0036]图3为本专利技术实施例中提供的布尔检索的方法示意图;
[0037]图4为本专利技术提供的基于大数据的数据筛选装置一实施例的结构框图;
[0038]图5为本专利技术提供的电子设备一实施例的结构框图。
具体实施方式
[0039]下面结合附图来具体描述本专利技术的优选实施例,其中,附图构成本申请一部分,并与本专利技术的实施例一起用于阐释本专利技术的原理,并非用于限定本专利技术的范围。
[0040]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据筛选方法,其特征在于,包括:获取筛选条件,根据所述筛选条件对待筛选数据进行筛选,获得与所述筛选条件相对应的数据文档;利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,对所述用户筛选信息进行清洗,得到清洗后的用户筛选信息;根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,得到优先排序结果。2.根据权利要求1所述的基于大数据的数据筛选方法,其特征在于,获取筛选条件,根据所述筛选条件对待筛选数据进行筛选,具体包括:以字符、字符串和超文本链接中的至少一种作为初始筛选条件,以条件、日期、年龄和产品规格信息中的至少一种作为再次筛选条件,根据所述初始筛选条件和再次筛选条件对待筛选数据进行筛选。3.根据权利要求1所述的基于大数据的数据筛选方法,其特征在于,所述利用倒排索引对所述数据文档进行抽取,得到用户筛选信息,具体包括:对数据文档进行编号,并将每个数据文档内部划分为若干个单词,利用倒排索引使每个单词与该数据文档编号形成对应关系,通过检索抽取数据文档,得到用户筛选信息。4.根据权利要求3所述的基于大数据的数据筛选方法,其特征在于,所述利用倒排索引使每个单词与该数据文档编号形成对应关系,通过检索抽取数据文档,得到用户筛选信息,具体包括:采用哈希表结构对数据文档进行倒排索引,以获取从单词到所有包含该单词数据文档编号的对应关系;将筛选条件拆解成若干个单词,根据对应关系查询到所有包含筛选条件对应单词的数据文档的编号;对所有查询到的数据文档编号取交集,得到用户筛选信息。5.根据权利要求4所述的基于大数据的数据筛选方法,其特征在于,所述采用哈希表结构对数据文档进行倒排索引,以获取从单词到所有包含该单词数据文档编号的对应关系,具体包括:依次访问每一个数据文档,获取所述数据文档中的每一个单词在哈希表中的值,在数据文档编号中插入该值,以确定从单词到所有包含该单词数据文档编号的对应关系。6.根据权利要求1所述的基于大数据的数据筛选方法,其特征在于,所述根据预先标定用户的查询条件对所述清洗后的用户筛选信息进行优先排序,具体包括:获取预先标定用户的查询条件在清洗后的用户筛选信息中的数据...

【专利技术属性】
技术研发人员:吴博朱昕宇刘宜帆周春辉
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1