数据匹配方法及装置制造方法及图纸

技术编号:11269532 阅读:109 留言:0更新日期:2015-04-08 15:56
本发明专利技术公开了一种数据匹配方法及装置。其中,该方法包括:获取第一数据集合及第二数据集合,其中,第一数据集合中至少包括预先设置的第一多媒体文件名称,第二数据集合中至少包括客户端播放的第二多媒体文件名称;按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合,并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合,其中,清洗用于过滤第一数据集合及第二数据集合中的特征数据;匹配第一目标数据集合及第二目标数据集合。本发明专利技术解决了由于采用现有技术提供的数据匹配方式所导致的数据匹配准确性较低的技术问题。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种数据匹配方法及装置。其中,该方法包括:获取第一数据集合及第二数据集合,其中,第一数据集合中至少包括预先设置的第一多媒体文件名称,第二数据集合中至少包括客户端播放的第二多媒体文件名称;按照预定条件对第一数据集合进行数据清洗以得到第一目标数据集合,并按照预定条件对第二数据集合进行数据清洗以得到第二目标数据集合,其中,清洗用于过滤第一数据集合及第二数据集合中的特征数据;匹配第一目标数据集合及第二目标数据集合。本专利技术解决了由于采用现有技术提供的数据匹配方式所导致的数据匹配准确性较低的技术问题。【专利说明】数据匹配方法及装置
本专利技术设及计算机领域,具体而言,设及一种数据匹配方法及装置。
技术介绍
如今,随着网络平台的不断扩大发展,网络提供的资源也越来越丰富,因而,越来 越多的人选择通过网络收看在线多媒体文件。进一步,一些网络平台的栏目组为了向用户 提供更符合用户喜好的网络资源,就需要对用户的播放行为做进一步统计分析。 目前,为了解决上述问题,现有技术中常用的方式是上述栏目组会利用预先制定 的多媒体文件列表与用户已经选择收看的多媒体文件直接进行数据匹配,W获取选择该 栏目组提供的各个多媒体文件的用户数量,进而达到对用户的播放行为进行统计分析的目 的。具体而言,利用预先制定的多媒体文件列表中各个多媒体文件的名称与用户选择播放 的多媒体文件的名称直接进行匹配,若经匹配判断出二者名称一致,则认为用户选择观看 了该多媒体文件列表中对应的多媒体文件,否则,认为用户并未选择观看该多媒体文件列 表中对应的多媒体文件。然而,由于多媒体文件提供方与多媒体文件收看方的需求不同,因 而,通常用户选择播放的多媒体文件的名称与多媒体文件列表中的多媒体文件的名称设置 的并不一致。 因而,采用现有的数据匹配方式就会导致一部分播放数据流失,进而造成数据匹 配遗漏,匹配结果不准确的问题,从而进一步影响对用户的播放行为分析的准确性。 针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据匹配方法及装置,W解决由于采用现有技术 提供的数据匹配方式所导致的数据匹配准确性较低的技术问题。 根据本专利技术的一个方面,提供了一种数据匹配方法,该方法包括:获取第一数据集 合及第二数据集合,其中,上述第一数据集合中至少包括预先设置的第一多媒体文件名称, 上述第二数据集合中至少包括客户端播放的第二多媒体文件名称;按照预定条件对上述 第一数据集合进行数据清洗W得到第一目标数据集合,并按照上述预定条件对上述第二数 据集合进行数据清洗W得到第二目标数据集合,其中,上述清洗用于过滤上述第一数据集 合及上述第二数据集合中的特征数据;匹配上述第一目标数据集合及上述第二目标数据集 合。 [000引可选地,在上述按照预定条件对上述第一数据集合进行数据清洗W得到第一目标 数据集合,并按照上述预定条件对上述第二数据集合进行数据清洗W得到第二目标数据集 合之前,还包括:建立包括用于上述数据清洗的上述特征数据的特征数据库,其中,上述特 征数据至少包括特征字符串、特征关键词。 可选地,上述建立特征数据库包括W下至少之一;检测上述第一数据集合及上述 第二数据集合中是否包括上述特征字符串及上述特征关键词,并将检测到的上述特征字符 串及上述特征关键词添加到上述特征数据库中;获取数据库中已保存的特征字符串集合和 /或特征关键词集合,并将上述特征字符串集合和/或特征关键词集合添加到上述特征数 据库中。 可选地,上述按照预定条件对上述第一数据集合进行数据清洗W得到第一目标数 据集合,并按照上述预定条件对上述第二数据集合进行数据清洗W得到第二目标数据集合 包括;根据上述特征数据库在上述第一数据集合中的上述第一多媒体文件名称中及上述第 二数据集合中的上述第二多媒体文件名称中查找是否包括上述特征字符串和/或上述特 征关键词;若查找到上述特征字符串和/或上述特征关键词,则删除上述特征字符串和/或 上述特征关键词。 可选地,上述特征数据中还包括特征短语,其中,上述按照预定条件对上述第一数 据集合进行数据清洗W得到第一目标数据集合,并按照上述预定条件对上述第二数据集合 进行数据清洗W得到第二目标数据集合还包括;利用上述特征短语与上述第一数据集合中 的上述第一多媒体文件名称进行正则匹配,将上述第一数据集合中的上述第一多媒体文件 名称中的上述特征短语过滤删除W得到上述多媒体文件的目标名称,并将上述第一数据集 合中的上述第一多媒体文件名称更新为上述多媒体文件的上述目标名称,W得到上述第一 目标数据集合;利用上述特征短语与上述第二数据集合中的上述第二多媒体文件名称进行 正则匹配,将上述第二数据集合中的上述第二多媒体文件名称中的上述特征短语过滤删除 W得到上述多媒体文件的上述目标名称,并将上述第二数据集合中的上述第二多媒体文件 名称更新为上述多媒体文件的上述目标名称,W得到上述第二目标数据集合。 可选地,上述匹配上述第一目标数据集合及上述第二目标数据集合包括;通过上 述第一目标数据集合中的上述多媒体文件的上述目标名称查找上述第二目标数据集合中 的上述多媒体文件的上述目标名称;将上述第一目标数据集合中与上述多媒体文件的上述 目标名称绑定的栏目标识与上述第二数据集合中与上述多媒体文件的上述目标名称绑定 的客户端标识进行匹配。 根据本专利技术的另一方面,提供了一种数据匹配装置,该装置包括:获取单元,用于 获取第一数据集合及第二数据集合,其中,上述第一数据集合中至少包括预先设置的第一 多媒体文件名称,上述第二数据集合中至少包括客户端播放的第二多媒体文件名称;清洗 单元,用于按照预定条件对上述第一数据集合进行数据清洗W得到第一目标数据集合,并 按照上述预定条件对上述第二数据集合进行数据清洗W得到第二目标数据集合,其中,上 述清洗用于过滤上述第一数据集合及上述第二数据集合中的特征数据;第一匹配单元,用 于匹配上述第一目标数据集合及上述第二目标数据集合。 可选地,上述装置还包括;建立单元,用于在上述按照预定条件对上述第一数据集 合进行数据清洗W得到第一目标数据集合,并按照上述预定条件对上述第二数据集合进行 数据清洗W得到第二目标数据集合之前,建立包括用于上述数据清洗的上述特征数据的特 征数据库,其中,上述特征数据至少包括特征字符串、特征关键词。 可选地,上述建立单元包括W下至少之一;第一建立模块,用于检测上述第一数据 集合及上述第二数据集合中是否包括上述特征字符串及上述特征关键词,并将检测到的上 述特征字符串及上述特征关键词添加到上述特征数据库中;第二建立模块,用于获取数据 库中已保存的特征字符串集合和/或特征关键词集合,并将上述特征字符串集合和/或特 征关键词集合添加到上述特征数据库中。 可选地,上述清洗单元包括;第一查找模块,用于根据上述特征数据库在上述第一 数据集合中的上述第一多媒体文件名称中及上述第二数据集合中的上述第二多媒体文件 名称中查找是否包括上述特征字符串和/或上述特征关键词;删除模块,用于在查找到上 述特征字符串和/或上述特征关键词时,删除上述特征字符串和本文档来自技高网
...

【技术保护点】
一种数据匹配方法,其特征在于,包括:获取第一数据集合及第二数据集合,其中,所述第一数据集合中至少包括预先设置的第一多媒体文件名称,所述第二数据集合中至少包括客户端播放的第二多媒体文件名称;按照预定条件对所述第一数据集合进行数据清洗以得到第一目标数据集合,并按照所述预定条件对所述第二数据集合进行数据清洗以得到第二目标数据集合,其中,所述清洗用于过滤所述第一数据集合及所述第二数据集合中的特征数据;匹配所述第一目标数据集合及所述第二目标数据集合。

【技术特征摘要】

【专利技术属性】
技术研发人员:焦张波
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1