数据融合方法、相关设备及可读存储介质技术

技术编号:31749984 阅读:24 留言:0更新日期:2022-01-05 16:31
本申请公开了一种数据融合方法、相关设备及可读存储介质,由于知识库中与待处理数据的相似度最高且大于预设阈值的数据与待处理数据的重复度最高,本方案中,在获取待处理数据之后,先从与该待处理数据对应的知识库中确定与该待处理数据的相似度最高且大于预设阈值的数据作为目标数据,在确定出该目标数据之后,说明知识库中已经存在与待处理数据重复的数据,本方案中,并未将待处理数据直接构建至知识库中,因此,能够降低知识库中数据的重复率,本方案中,也未将待处理数据摒弃,而是将该待处理数据和该目标数据进行融合,可以对目标数据中的错误信息进行修正,可以对目标数据中的缺失信息进行补充,因此,能够提升知识库中数据的准确率。数据的准确率。数据的准确率。

【技术实现步骤摘要】
数据融合方法、相关设备及可读存储介质


[0001]本申请涉及数据处理
,更具体的说,是涉及一种数据融合方法、相关设备及可读存储介质。

技术介绍

[0002]当下大数据时代,各个领域的数据都是有价值的。针对每个领域,往往需要将该领域的数据构建成为知识库,以实现对该领域的数据的应用。比如,在影视领域,需要将影视领域的数据构建成为知识库。影视领域的知识库可以给媒体资源展示方提供更详细的信息,也可以供影视推荐提供基础数据,还可以提取影片实体增强语义识别的准确性。
[0003]目前,针对每个领域,该领域往往存在多个数据源,如果将每条数据都作为新增数据构建至知识库中,往往会由于多个数据源的数据重复、数据准确性参差不齐等原因,导致构建的知识库质量较差。以影视领域为例,针对一个影片,可能不同的视频网站都存储了该影片的信息,不同的视频网站存储的该影片的信息却不完全相同,有的视频网站存储的该影片的信息可能是不准确的,如果将各视频网站存储的该影片的信息都作为新增数据构建至知识库中,知识库中将有多条该影片的信息,且保留有该影片的错误信息。
[0004]因此,如何降低知识库中数据的重复率和提升知识库中数据的准确率,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]鉴于上述问题,本申请提出了一种数据融合方法、相关设备及可读存储介质。具体方案如下:
[0006]一种数据融合方法,所述方法包括:
[0007]获取待处理数据,以及与所述待处理数据对应的知识库;
[0008]从所述知识库中确定目标数据,所述目标数据为与所述待处理数据的相似度最高且大于预设阈值的数据;
[0009]将所述待处理数据与所述目标数据进行融合。
[0010]可选地,所述从所述知识库中确定目标数据,包括:
[0011]确定第一字段,所述第一字段为预设的所述待处理数据所属领域的核心字段中的至少一个字段;
[0012]基于所述第一字段,从所述知识库中确定候选数据集;
[0013]从所述候选数据集中确定所述目标数据。
[0014]可选地,所述基于所述第一字段,从所述知识库中确定候选数据集,包括:
[0015]针对所述知识库中的每个数据,计算所述数据的第一字段与所述待处理数据的第一字段的第一相似度;
[0016]将排名靠前的预设数量个第一相似度对应的所述知识库中的数据的集合确定为所述候选数据集。
[0017]可选地,所述从所述候选数据集中确定所述目标数据,包括:
[0018]针对所述候选数据集中的每个候选数据,计算所述候选数据与所述待处理数据的第二相似度;
[0019]确定最高第二相似度是否大于所述预设阈值;
[0020]如果最高第二相似度大于所述预设阈值,则将最高第二相似度对应的候选数据确定为所述目标数据;
[0021]如果最高第二相似度未大于所述预设阈值,则确定未确定到所述目标数据。
[0022]可选地,所述计算所述候选数据与所述待处理数据的第二相似度,包括:
[0023]计算所述候选数据的第二字段与所述待处理数据的第二字段的相似度,作为所述候选数据与所述待处理数据的第二相似度;
[0024]所述第二字段为预设的所述待处理数据所属领域的核心字段中除所述第一字段之外的至少一个字段。
[0025]可选地,所述计算所述候选数据与所述待处理数据的第二相似度,包括:
[0026]将所述候选数据与所述待处理数据输入预先训练的相似度计算模型,所述相似度计算模型输出所述候选数据与所述待处理数据的第二相似度;
[0027]其中,所述相似度计算模型是以训练数据对为训练样本,以标注的训练数据对的相似度为样本标签训练得到的。
[0028]可选地,所述计算所述候选数据与所述待处理数据的第二相似度,包括:
[0029]将所述候选数据的多个字段与所述待处理数据的多个字段输入预先训练的最大熵模型,所述最大熵模型输出所述候选数据与所述待处理数据的第二相似度;
[0030]其中,所述最大熵模型是以训练数据对的多个字段作为特征,以标注的训练数据对的相似度为目标训练得到的。
[0031]可选地,所述将所述待处理数据与所述目标数据进行融合,包括:
[0032]基于预设的融合规则,将所述待处理数据与所述目标数据进行融合。
[0033]可选地,当所述待处理数据为影视领域的数据时,所述第一字段为影片名称和/或影片别名,所述第二字段为影片简介。
[0034]可选地,所述方法还包括:
[0035]如果所述知识库中不存在所述目标数据,则将所述待处理数据作为新增数据构建至所述知识库中。
[0036]一种数据融合装置,所述装置包括:
[0037]获取单元,用于获取待处理数据,以及与所述待处理数据对应的知识库;
[0038]确定单元,用于从所述知识库中确定目标数据,所述目标数据为与所述待处理数据的相似度最高且大于预设阈值的数据;
[0039]融合单元,用于将所述待处理数据与所述目标数据进行融合。
[0040]可选地,所述确定单元,包括:
[0041]第一字段确定单元,用于确定第一字段,所述第一字段为预设的所述待处理数据所属领域的核心字段中的至少一个字段;
[0042]候选数据集确定单元,用于基于所述第一字段,从所述知识库中确定候选数据集;
[0043]目标数据确定单元,用于从所述候选数据集中确定所述目标数据。
[0044]可选地,所述候选数据集确定单元,包括:
[0045]第一相似度计算单元,用于针对所述知识库中的每个数据,计算所述数据的第一字段与所述待处理数据的第一字段的第一相似度;
[0046]候选数据集确定子单元,用于将排名靠前的预设数量个第一相似度对应的所述知识库中的数据的集合确定为所述候选数据集。
[0047]可选地,所述目标数据确定单元,包括:
[0048]第二相似度计算单元,用于针对所述候选数据集中的每个候选数据,计算所述候选数据与所述待处理数据的第二相似度;
[0049]判断单元,用于确定最高第二相似度是否大于所述预设阈值;
[0050]处理单元,用于如果最高第二相似度大于所述预设阈值,则将最高第二相似度对应的候选数据确定为所述目标数据;如果最高第二相似度未大于所述预设阈值,则确定未确定到所述目标数据。
[0051]可选地,所述第二相似度计算单元,包括:
[0052]第一计算子单元,用于计算所述候选数据的第二字段与所述待处理数据的第二字段的相似度,作为所述候选数据与所述待处理数据的第二相似度;
[0053]所述第二字段为预设的所述待处理数据所属领域的核心字段中除所述第一字段之外的至少一个字段。
[0054]可选地,所述第二相似度计算单元,包括:
[0055]第二计算子单元,用于将所述候选数据与所述待处理数据输入预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据融合方法,其特征在于,所述方法包括:获取待处理数据,以及与所述待处理数据对应的知识库;从所述知识库中确定目标数据,所述目标数据为与所述待处理数据的相似度最高且大于预设阈值的数据;将所述待处理数据与所述目标数据进行融合。2.根据权利要求1所述的方法,其特征在于,所述从所述知识库中确定目标数据,包括:确定第一字段,所述第一字段为预设的所述待处理数据所属领域的核心字段中的至少一个字段;基于所述第一字段,从所述知识库中确定候选数据集;从所述候选数据集中确定所述目标数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一字段,从所述知识库中确定候选数据集,包括:针对所述知识库中的每个数据,计算所述数据的第一字段与所述待处理数据的第一字段的第一相似度;将排名靠前的预设数量个第一相似度对应的所述知识库中的数据的集合确定为所述候选数据集。4.根据权利要求3所述的方法,其特征在于,所述从所述候选数据集中确定所述目标数据,包括:针对所述候选数据集中的每个候选数据,计算所述候选数据与所述待处理数据的第二相似度;确定最高第二相似度是否大于所述预设阈值;如果最高第二相似度大于所述预设阈值,则将最高第二相似度对应的候选数据确定为所述目标数据;如果最高第二相似度未大于所述预设阈值,则确定未确定到所述目标数据。5.根据权利要求4所述的方法,其特征在于,所述计算所述候选数据与所述待处理数据的第二相似度,包括:计算所述候选数据的第二字段与所述待处理数据的第二字段的相似度,作为所述候选数据与所述待处理数据的第二相似度;所述第二字段为预设的所述待处理数据所属领域的核心字段中除所述第一字段之外的至少一个字段。6.根据权利要求4所述的方法,其特征在于,所述计算所述候选数据与所述待处理数据的第二相似度,包括:将所述候选数据与所述待处理数据输入预先训练的相似度计算模型,...

【专利技术属性】
技术研发人员:秦昊陶亚洲程磊舒翔张壮陈旭
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1