大数据环境下的目标推送方法技术

技术编号:13832080 阅读:67 留言:0更新日期:2016-10-14 11:29
本发明专利技术提供了一种大数据环境下的目标推送方法,该方法包括:在分布式检索系统中对输入数据集进行数据转换和采样,执行检索过程,对检索结果进行评价,将检索结果及其评价结果展现至用户,以修改检索算法参数。本发明专利技术提出了一种大数据环境下的目标推送方法,分布式检索系统对数据集进行统一收集管理,并基于用户的反馈和评价对检索结果进一步优化,更高效率地满足了用户个性化的需求。

【技术实现步骤摘要】

本专利技术涉及数据推送,特别涉及一种大数据环境下的目标推送方法
技术介绍
在信息时代的今天,随着互联网技术和社会信息化技术的不断发展,信息量以爆炸式的速度增长,互联网正不断地影响和改变着人们的日常生活方式。然而,随着网络信息变得越来越纷繁复杂,人们如何从如此浩瀚的信息海洋中高效地找到符合需求的信息就成了一个越来越值得关注的课题。虽然有相关分布式检索系统可以帮助人们更精确的找到所需要的信息,但在某些应用领域,如电影、音乐、社交网络搜索,用户一般不能很好的提出很好的检索需求,通过研究用户的历史记录、用户的社会化信息以及对应领域数据的属性信息,将用户的信息建模或者领域数据资源建模,通过可靠方式将用户潜在感兴趣的数据资源推荐给用户。然而现有的分布式检索系统在工作效率和用户的满意度各不相同,并且缺少通用的接口来处理异构数据的输入。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种大数据环境下的目标推送方法,包括:在分布式检索系统中对输入数据集进行数据转换和采样,执行检索过程,对检索结果进行评价,将检索结果及其评价结果展现至用户,以修改检索算法参数。优选地,所述分布式检索系统具有评价单元,该评价单元包括数据管理模块、检索执行模块以及展现模块;数据文件输入系统后经过数据管理模块的数据汇总子模块将数据文件转换成可识别的数据资源,经过数据整理子模块处理,成为系统可计算的数据,所述数据整理包括将来自文本文件,数据库文件,以及日志文件的输入数据进行格式的统一,转换为二维矩阵或多维列表,以使后续的数据操作继续执行;在检索执行模块请求数据的时候,检索执行模块在对应的请求参数中包含请求数据的格式,然后数据管理模块的数据传输子模块根据该参数来处理经过数据采样的数据;数据管理模块中数据采样子模块的采样时间在数据集处理的时候进行采样,或者在算法配置完成的时候对其进行采样,前一种方式是在数据管理模块内部完成,其具体包括是当用户选择数据集采样,然后选择数据集,接着选择对应的采样方式,如果操作成功则将对应的采样后的数据集存储起来,原数据集不变,新的采样过后的数据集有标记字段指示原数据集;后一种方式是算法经过配置之后请求数据,而数据收到具体的数据集名称,采样方式以及其他信息后,检查检索执行模块传来的消息中是否能够完成数据采样的操作,如果是则进行数据采样,采样完毕后将采样后的数据集在本地数据库备份,然后将对应的采样数据集发给请求的执行端,检索算法的运行采用分布式处理,数据管理模块发送给检索执行模块中对应的不同执行端,执行模块在请求数据采样每次数据传输都会检查它要求的采样方式是否已经在数据库中存在,如果是,则取出数据,如果不是,重新发送该请求。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种大数据环境下的目标推送方法,分布式检索系统对数据集进行统一收集管理,并基于用户的反馈和评价对检索结果进一步优化,更高效率地满足了用户个性化的需求。附图说明图1是根据本专利技术实施例的大数据环境下的目标推送方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种大数据环境下的目标推送方法。图1是根据本专利技术实施例的大数据环境下的目标推送方法流程图。本专利技术在分布式检索系统中对于检索输入数据集进行统一的管理与存储,并且对其进行数据转换,根据获得的反馈结果进行结果评价,分布式检索系统评价单元包括数据管理模块、检索执行模块和展现模块。数据管理模块用于接收数据输入、统一格式以及数据集的特征分析和采样。数据文件输入系统后,经过数据管理模块的数据汇总子模块将其转换成系统可识别的数据资源,经过数据整理子模块处理,成为系统可计算的数据,数据整理包括将来自文本文件,数据库文件,以及日志文件的输入数据进行格式的统一,转换为二维矩阵或多维列表,以使后续的数据操作继续执行。在检索执行模块请求数据的时候,检索执行模块在对应的请求参数中包含请求数据的格式,然后数据传输子模块根据该参数来处理经过数据采样的数据。数据集根据各服务器的存储情况存储在不同的服务器上,检索执行模块向数据管理模块请求数据时,数据管理模块先进行缓存查找,采用的是客户端的散列策略,如果缓存命中,直接从缓存中将数据集取出,若不命中,则在数据
库中请求相关数据。在数据管理模块访问缓存服务器时,首先,数据管理模块请求数据集时的key经过预定算法映射到其中一台缓存服务器,然后从该服务器上取出相应的数据值。为使其命中率尽量高,采取了以下策略:使用环形散列队列,将对应查找的对象映射到32位key,从0-232-1的数值空间,将其链接成首尾相连的环。缓存和对象经过同一个散列算法映射到同一个数值空间;在整个环形队列,沿顺时针方向找到对象的key值出发,直到遇到一个缓存,则就将此对象存储在该缓存中。当移除缓存时,逆时针遍历此缓存至下一个缓存中的对象;当增加缓存时,将此缓存映射的位置逆时针找到与下一个缓存区间中的对象,将它们从顺时针的下一个缓存中删去,映射到该缓存中。由于用户输入的数据集形式多样,系统通过创建数据集板,每输入一种数据集时则实例化一个数据集,配置以不同的参数,由于不同的算法所需要的数据集不同,所以不同的算法使用到不同格式的数据集,对数据集格式整理包括:识别冗余的输入的字段或信息,将其过滤;根据用户的配置文件,来对输入数据集的各个字段信息进行保存;设置数据集的稀疏性阈值,如果输入数据集低于阈值,可以根据用户的输入参数将低于该阈值的用户过滤。通过数据汇总将数据文件输入分布式检索系统,保存至数据库之后,这些数据可以直接进入数据整理子模块,数据整理子模块先根据用户的需求将某些字段过滤。接下来将处理后的数据构造成评分矩阵,构造完毕后将其保存至数据库,如果该数据整理前的数据集非其他用户所私有,通过此整理后的数据集保存的向前引用,找到原始的数据集。数据管理模块中,数据采样子模块的采样时间可以选择在数据集处理的时候进行采样,或者在算法配置完成的时候对其进行采样。前一种方式是在数据
管理模块内部完成,其具体的逻辑是当用户选择数据集采样,然后选择数据集,接着选择对应的采样方式,如果操作能成功完成则将对应的采样后的数据集存储起来,原数据集不变,新的采样过后的数据集有标记字段指示原数据集,而且有对应的采样方式以及其他信息。后一种方式是算法经过配置之后请求数据,而数据收到具体的采样需求,如数据集名称,采样方式以及其他信息后,检查检索执行模块传来的消息中是否能够完成数据采样的操作,如果是,则进行数据采样,采样完毕后将采样后的数据集在本地数据库备份,然后将对应的采样数据集发给请求的执行端,一次算法执行过程中可能会有多次数据传输,鉴于算法运行时间比较久,所以算法的运行采用分布式处理,为了算法执行的高效性,数据管理模块发送给检索执行模块中对应的不同执行端,执行模块在请求数据采样每次数本文档来自技高网
...

【技术保护点】
一种大数据环境下的目标推送方法,其特征在于,包括:在分布式检索系统中对输入数据集进行数据转换和采样,执行检索过程,对检索结果进行评价,将检索结果及其评价结果展现至用户,以修改检索算法参数。

【技术特征摘要】
1.一种大数据环境下的目标推送方法,其特征在于,包括:在分布式检索系统中对输入数据集进行数据转换和采样,执行检索过程,对检索结果进行评价,将检索结果及其评价结果展现至用户,以修改检索算法参数。2.根据权利要求1所述的方法,其特征在于,所述分布式检索系统具有评价单元,该评价单元包括数据管理模块、检索执行模块以及展现模块;数据文件输入系统后经过数据管理模块的数据汇总子模块将数据文件转换成可识别的数据资源,经过数据整理子模块处理,成为系统可计算的数据,所述数据整理包括将来自文本文件,数据库文件,以及日志文件的输入数据进行格式的统一,转换为二维矩阵或多维列表,以使后续的数据操作继续执行;在检索执行模块请求数据的时候,检索执行模块在对应的请求参数中包含请求数据的格式,然后数据管理模块的数据传输子模块根据该参数来处理经过数据采样的数据;数据管理模块中数据采样子模块...

【专利技术属性】
技术研发人员:董政吴文杰陈露李学生
申请(专利权)人:成都陌云科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1